الترجمة الآلية العصبية

الترجمة الآلية العصبية Neural machine translation (NMT) هي طريقة الترجمة الآلية التي تستخدم الشبكة العصبية الاصطناعية للتنبؤ باحتمالية سلسلة من الكلمات، وعادةً نمذجة جمل كاملة في نموذج واحد متكامل.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الخصائص

هذه الترجمة لا تتطلب سوى جزء صغير من الذاكرة التي تحتاجها نماذج الترجمة الآلية الإحصائية (SMT) التقليدية. علاوة على ذلك، على عكس أنظمة الترجمة التقليدية، يتم تدريب جميع أجزاء نموذج الترجمة العصبية بشكل مشترك (من طرف إلى طرف) لجعل أداء الترجمة أكبر.[1][2][3]


تاريخ

ظهرت تطبيقات التعلم العميق لأول مرة في التعرف على الكلام في التسعينيات. فقد ظهرت الورقة العلمية الأولى حول استخدام الشبكات العصبية في الترجمة الآلية في عام 2014، تلاها الكثير من التطورات في السنوات القليلة التالية. (NMT ذو المفردات الواسعة، التطبيق على تسمية توضيحية للصور، Subword-NMT، NMT-متعدد اللغات ، NMT متعدد المصادر، Character-dec NMT، Zero-Resource NMT، Google، Fully Character-NMT، Zero-Shot NMT في عام 2017) وفي عام 2015 كان أول ظهور لنظام NMT في مسابقة عامة للترجمة الآلية (OpenMT'15). WMT'15 أيضاً كان لأول مرة منافساً لNMT؛ ففي العام التالي، فقد تضمنت بالفعل 90 ٪ من أنظمة NMT من بين الفائزين بها.[4]

الأعمال

تنحرف NMT عن الأساليب القائمة على العبارات الإحصائية التي تستخدم مكونات فرعية مصممة بشكل منفصل.[5] الترجمة الآلية العصبية (NMT) ليست خطوة جذرية تتجاوز ما تم القيام به تقليدياً في الترجمة الآلية الإحصائية (SMT). فاتجاهها الرئيسي هو استخدام التمثيلات الموجهة ("التضمينات"، "تمثيلات الفضاء المستمر") للكلمات والحالات الداخلية. ويكون هيكل النماذج أبسط من النماذج القائمة على العبارات. لا يوجد نموذج لغة منفصل، ونموذج ترجمة، ونموذج إعادة ترتيب، ولكن فقط نموذج تسلسل واحد يتنبأ بكلمة واحدة في كل مرة. ومع ذلك، فإن توقع التسلسل هذا مشروط على الجملة المصدر بأكملها والتسلسل المستهدف بالكامل الذي تم إنتاجه بالفعل. تستخدم نماذج NMT التعلم العميق و التعلم التمثيلي.

تم نمذجة تسلسل الكلمات في البداية عادةً باستخدام الشبكة العصبية المتكررة (RNN). تُستخدم الشبكة العصبية المتكررة ثنائية الاتجاه، والمعروفة باسم المشفر، من قبل الشبكة العصبية لتشفير الجملة المصدر لـ RNN ثانية، والمعروفة باسم وحدة فك التشفير، والتي تُستخدم للتنبؤ بالكلمات في لغة الهدف.[6] تواجه الشبكات العصبية المتكررة صعوبات في ترميز المدخلات الطويلة في ناقل واحد. يمكن تعويض ذلك من خلال آلية الانتباه[7] مما يسمح لوحدة فك التشفير بالتركيز على أجزاء مختلفة من الإدخال أثناء توليد كل كلمة من المخرجات. هناك نماذج تغطية أخرى تتناول القضايا في آليات الانتباه هذه، مثل تجاهل معلومات المحاذاة السابقة التي تؤدي إلى الترجمة الزائدة والترجمة الناقصة.[8]

تعتبر الشبكات العصبية التلافيفية (Convnets) أفضل من حيث المبدأ إلى حد ما للتسلسلات المستمرة الطويلة، ولكنها لم تستخدم في البداية بسبب العديد من نقاط الضعف. تم تعويضها بنجاح في عام 2017 باستخدام "آليات الانتباه".[9]

يبقى النموذج قائم على الانتباه، بنية المحولات[10] البنية المهيمنة للعديد من أزواج اللغات.[11]

المراجع

  1. ^ Kalchbrenner, Nal; Blunsom, Philip (2013). "Recurrent Continuous Translation Models". Proceedings of the Association for Computational Linguistics: 1700–1709.
  2. ^ قالب:Cite arxiv
  3. ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL].
  4. ^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Findings of the 2016 Conference on Machine Translation" (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131–198. Archived from the original (PDF) on 2018-01-27. Retrieved 2018-01-27.
  5. ^ Wołk, Krzysztof; Marasek, Krzysztof (2015). "Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts". Procedia Computer Science. 64 (64): 2–9. arXiv:1509.08644. Bibcode:2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456. S2CID 15218663.
  6. ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  7. ^ قالب:Cite arxiv
  8. ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL].
  9. ^ Coldewey, Devin (2017-08-29). "DeepL schools other online translators with clever machine learning". TechCrunch. Retrieved 2018-01-27.
  10. ^ قالب:Cite arxiv
  11. ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof (August 2019). "Findings of the 2019 Conference on Machine Translation (WMT19)". Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1–61. doi:10.18653/v1/W19-5301.