قائمة مجامع النصوص

(تم التحويل من List of text corpora)

المقالة التالي هي قائمة مجامع النصوص بمختلف اللغات. مجمع النصوص هو مجموعة ضخمة ومنظمة (عادة ما تُخزن وتعالج إلكترونياً في الوقت الحالي). تستخدم مجامع النصوص للتحليل الإحصائي والفحص الافتراضي، التحقق من الأحداث أو التحقق من صحة القواعد اللغوية داخل منطقة لغوية معينة.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

اللغة الإنگليزية


اللغات الأوروپية

السلاڤية

السلاڤية الشرقية

السلاڤية الجنوبية

السلاڤية الغربية

الألمانية

لغات الشرق الأوسط

لغات شرق آسيا

لغات جنوب آسيا

مجامع متوازية من لغات شتى

  • مجمع يوروپال - إجراءات البرلمان الأوروپي من 1996–2011
  • مجمع EUR-Lex- مجموعة اللغات الرسمية للبرلمان الأوروپي، تأسس من قاعدة بيانات EUR-Lex[14]
  • OPUS: مجمع متوازي مفتوح المصدر بالعديد من اللغات[15]
  • تاتويبا مجمع متوازي يحتوي على حوالي 2288000 جملة في 122 لغة.[16]
  • مجمع NTU متعدد اللغات بسبع لغات (ara, eng, ind, jpn, kor, mcn, vie)[17] (legacy repo)
  • مجمع SeedLing - بذرة مجمع لمشروع اللغات الإنسانية بأكثر من 1000 لغة من مصادر مختلفة.[18]
  • مجمع GRALIS لمختلف اللغات السلاڤية، جمعها معهد اللغات السلاڤية في جامعة گراتس (برانكو توشوڤيتش وآخرون.)

Parallel text

المجامع المتقابلة

L2 مجمع

  • مجمع معلم كمبردج [26]
  • مجمع الإنگليزية الأكاديمية المقروءة والمكتوبة (CAWSE)،[27] مجموعة عينات اللغة الإنگليزية لطلبة صينيين بضبط أكاديمي. المجمع متاح مجاناً أونلاين.  
  • الإنگليزية كلغة تواتصل بضبط أكاديمي (ELFA)،[28] مجمع ELF الأكاديمي.[29][30]
  • مجمع معلم الإنگليزية الدولي (ICLE)،[31] a corpus of learner written English.
  • Louvain International Database of Spoken English Interlanguage (LINDSEI),[32] مجمع معلم الإنگليزية المنطوقة.
  • مجمع ترينتي لانكستر، من أكبر مجامع L2 للإنگليزية المنطوقة.[33][34]
  • مجمع ڤيينا-أكسفورد الدولي للغة الإنگليزية (VOICE)،[35] مجمع ELF.[29]


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

المراجع

  1. ^ Professor Mark Davies at BYU created an online tool to search Google's English language corpus, drawn from Google Books, at http://googlebooks.byu.edu/x.asp.
  2. ^ "PhraseFinder". محرك بحثي لمجمع نگرام على كتب گوگل يدعم wildcard queries and offers an API.
  3. ^ "Corpus Resource Database (CoRD)". Department of English, University of Helsinki.
  4. ^ (in إسپانية) "Molinolabs - corpus". molinolabs.com. Retrieved 12 January 2014.
  5. ^ "CorALit – CorALit - Lietuvių mokslo kalbos tekstynas". coralit.lt. Retrieved 12 January 2014.
  6. ^ "Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage". tnc.org.tr. Retrieved 12 January 2014.
  7. ^ "Under Update". search.dcl.bas.bg. Retrieved 12 January 2014.
  8. ^ "Portál | Český národní korpus".
  9. ^ Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). "Available from CLARIN". http://nl.ijs.si/me/v4/. {{cite journal}}: External link in |journal= (help)
  10. ^ أ ب "University of Tehran NLP Lab". ece.ut.ac.ir. Retrieved 12 January 2014.
  11. ^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074
  12. ^ "KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言". kotonoha.gr.jp. Retrieved 12 January 2014.
  13. ^ D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva, and G. Dias . 2015. Implementing a Corpus for Sinhala Language. In Symposium on Language Technology for South Asia.
  14. ^ "EUR-Lex Corpus". sketchengine.co.uk. Retrieved 27 October 2016.
  15. ^ "OPUS - an open source parallel corpus". opus.lingfil.uu.se. Retrieved 12 January 2014.
  16. ^ "Tatoeba - Number of sentences per language". tatoeba.org. Retrieved 13 January 2014.
  17. ^ Liling Tan and Francis Bond (14 May 2012). "Building and Annotating the Linguistically Diverse NTU-MC (NTU — Multilingual Corpus)" (PDF). International Journal of Asian Language Processing. 22 (4): 161–174.
  18. ^ Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer and Michaela Regneri . 2014. SeedLing: Building and using a seed corpus for the Human Language Project. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.
  19. ^ Liling Tan, Marcos Zampieri, Nikola Ljubešic, and Jörg Tiedemann. Merging comparable data sources for the discrimination of similar languages: The DSL corpus collection. In Proceedings of the 7th Workshop on Building and Using Comparable Corpora (BUCC). 2014.
  20. ^ Kilgarriff, Adam (2012). "Getting to Know Your Corpus". Text, Speech and Dialogue. Lecture Notes in Computer Science. Vol. 7499. pp. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.
  21. ^ Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: a new, vast corpus for Arabic. Proceedings of WACL.
  22. ^ Kilgarriff, A., & Renau, I. (2013). esTenTen, a vast web corpus of Peninsular and American Spanish. Procedia-Social and Behavioral Sciences, 95, 12-19.
  23. ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. In Материалы научной конференции" Интернет и современное общество" (pp. 74-77).
  24. ^ Khokhlova, M. (2016). Comparison of High-Frequency Nouns from the Perspective of Large Corpora. RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, 9.
  25. ^ Trampuš, M., & Novak, B. (2012, October). Internals of an aggregated web news feed. In Proceedings of the Fifteenth International Information Science Conference IS SiKDD 2012 (pp. 431-434)
  26. ^ (in en)Cambridge English Corpus, 2019-09-27, https://en.wikipedia.org/w/index.php?title=Cambridge_English_Corpus&oldid=918173927, retrieved on 2020-01-07 
  27. ^ "CAWSE Corpus - The University of Nottingham Ningbo China - 宁波诺丁汉大学". www.nottingham.edu.cn. Retrieved 2020-01-07.
  28. ^ "English as a Lingua Franca in Academic Settings". University of Helsinki (in الإنجليزية). 2018-03-23. Retrieved 2020-01-07.
  29. ^ أ ب (in en)English as a lingua franca, 2019-12-14, https://en.wikipedia.org/w/index.php?title=English_as_a_lingua_franca&oldid=930727312, retrieved on 2020-01-07 
  30. ^ Mauranen, A. "English as an academic lingua franca: The ELFA project". English for Specific Purposes. 29: 183–190.
  31. ^ "ICLE". UCLouvain (in الإنجليزية). Retrieved 2020-01-07.
  32. ^ "LINDSEI". UCLouvain (in الفرنسية). Retrieved 2020-01-07.
  33. ^ "Trinity Lancaster Corpus | ESRC Centre for Corpus Approaches to Social Science (CASS)" (in الإنجليزية الأمريكية). Retrieved 2020-01-07.
  34. ^ Gablasova, D (2019). "The Trinity Lancaster Corpus: Development, Description and Application". International Journal of Learner Corpus Research. 5(2): 126–158.
  35. ^ "Project". www.univie.ac.at. Retrieved 2020-01-07.