قائمة مجامع النصوص

المقالة التالي هي قائمة مجامع النصوص بمختلف اللغات. مجمع النصوص هو مجموعة ضخمة ومنظمة (عادة ما تُخزن وتعالج إلكترونياً في الوقت الحالي). تستخدم مجامع النصوص للتحليل الإحصائي والفحص الافتراضي، التحقق من الأحداث أو التحقق من صحة القواعد اللغوية داخل منطقة لغوية معينة.

اللغة الإنگليزية

مجمع نگرام على كتب گوگل^[1]^[2]
المجمع الوطني الأمريكي
بنك الإنگليزية
المجمع الوطني البريطاني
مجمع الإنگليزية الأمريكية المعاصرة (COCA) 425 مليون كلمة 1990–2011. البحث المجاني أونلاين.
مجمع براون، يشكل جزءاً من "عائلة مجامع براون"، مع LOB، فراون وF-LOB.
مجمع GUM، مجمع مفتوح المصدر متعدد الطبقات من جامعة جورجتاون، مع عدد ضخم من طبقات الضبط
المجمع الدولي للإنگليزية
مجمع أكسفورد الإنگليزي
المجمع الإسكتلندي للنصوص والكلام
قاعدة بيانات المجمع (CoRD)، أكثر من 80 مجمع للغة الإنگليزية.^[3]
RE3D (Relationship and Entity Extraction Evaluation Dataset)

اللغات الأوروپية

CETENFolha
مجمع النصوص الإلكترونية
مجمع نگرام على كتب گوگل
مجمع اللغة الجورجية
Thesaurus Linguae Graecae (اليونانية القديمة)
المجمع الوطني للأرمنية الشرقية (EANC) 110 مليون كلمة. البحث المجاني أونلاين
مجمع النصوص الإسپانية لمولينو دى إيدياس، والذي يحتوي على 660 مليون كلمة.^[4]
CorALit: مجمع النصوص الأكاديمية للتوانية الأكاديمية نُشر عام 1999–2009 (حوالي 9 مليون كلمة). تم تجميعه في جامعة ڤيلنيوس، لتوانيا ^[5]
المجمع المرجعي للپرتغالية المعاصرة (CRPC)
المجمع الوطني التركي^[6]
CoRoLa - المجمع المرجعي للغة الرومانية المعاصرة (مجمع reprezentativ al limbii române contemporane)

السلاڤية

السلاڤية الشرقية

السلاڤية الجنوبية

السلاڤية الغربية

الألمانية

المجمع المرجعي الألماني (DeReKo) أكثر من 4 مليون كلمة ألمانية مكتوبة حديثة.
مجمع مجاني للأخطاء الألمانية لمن يعانون عُسر القراءة

لغات الشرق الأوسط

مجمع همشهري (الفارسية)
الفارسية في مجمع MULTEXT-EAST (الفارسية)^[9]
رسائل تل العمارنة، (للغة الأكادية، المصرية والمقاطع السومرية، ..الخ.)
TEP: مجمع طهران للفارسية-الإنگليزية الموازية^[10]
TMC: مجمع طهران أحادي اللغة، مرجع قياسي لنمذجة اللغة الفارسية^[10]
مرجع الفارسية اليوم: أكثر كلمات الفارسية تكراراً، استناداً إلى مجمع من مليون كلمة (بالفارسية: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz)، حامد حساني، طهران، معهد اللغات الإيراني (ILI)، 2005، 322 ص. ISBN 964-8699-32-1
Kurdish-corpus.uok.ac.ir (المجمع الكردي للهجة السورانية) جامعة كردستان، قسم اللغة الإنگليزية واللسانيات
مجمع بيجانخان، مجمع فارسي حديث لباحثي NLP ، جامعة طهران، 2012
مشروع مجمع النصوص الآشورية الجديدة
مجمع القرآن العربي (العربية الفصحى)
مجمع النصوص الإلكترونية للأدب السومري
مجمع أوپن ريتشلي للكتابة المسمارية المفصلة
مجمع نصوص أسوسوفت^[11]

لغات شرق آسيا

مجمع كوتونوها للغة اليابانية^[12]
LIVAC Synchronous Corpus (Chinese)

لغات جنوب آسيا

SinMin dataset^[13] (السنهالية)

مجامع متوازية من لغات شتى

مجمع يوروپال - إجراءات البرلمان الأوروپي من 1996–2011
مجمع EUR-Lex- مجموعة اللغات الرسمية للبرلمان الأوروپي، تأسس من قاعدة بيانات EUR-Lex^[14]
OPUS: مجمع متوازي مفتوح المصدر بالعديد من اللغات^[15]
تاتويبا مجمع متوازي يحتوي على حوالي 2288000 جملة في 122 لغة.^[16]
مجمع NTU متعدد اللغات بسبع لغات (ara, eng, ind, jpn, kor, mcn, vie)^[17] (legacy repo)
مجمع SeedLing - بذرة مجمع لمشروع اللغات الإنسانية بأكثر من 1000 لغة من مصادر مختلفة.^[18]
مجمع GRALIS لمختلف اللغات السلاڤية، جمعها معهد اللغات السلاڤية في جامعة گراتس (برانكو توشوڤيتش وآخرون.)

Parallel text

المجامع المتقابلة

WaCky - The Web-As-Corpus Kool Yinitiative Web as Corpus (eng, fre, deu, ita)
Disambiguating Similar Language Corpora Collection (DSLCC)^[19] (Bosnian, Croatian, Serbian, Indonesian, Malay, Czech, Slovak, Brazilian Portuguese, European Portuguese, Peninsular Spanish, Argentine Spanish)
مجمع ويكيپديا المقارن (41 مليون مقالة في ويكيپديا متوافقة مع 253 لغة)
The TenTen Corpus Family – مجمع وب مقارن بحتوي على 10 بليون كلمة. هذا المجمع متاح بنظام ادارة المجامع محرك إسكتش، ويوجد حالياً مجمع تن تن بأكثر من 30 لغة (مثل مجمع تن تن الإنگليزي،^[20] مجمع تن تن العربي،^[21] مجمع تن تن الإسپاني،^[22] مجمع تن تن الروسي،^[23]^[24]). لمطالعة مجمع تن تن على الرابط التالي https://www.sketchengine.co.uk/documentation/tenten-corpora/
Timestamped JSI web corpora – مجمع وب للمقالات الجميعة المجمعة من قائمة RSS. يتم إعداد مجمع نيوزفيد في إطار مشروع ينفذه معهد يوسف ستفان في المعهد السلوڤيني للبحث العلمي.^[25] ونُشر في محرك إسكتش. لمزيد من المعلومات عن المشروع طالع الموقع الإلكرتوني.

L2 مجمع

مجمع معلم كمبردج ^[26]
مجمع الإنگليزية الأكاديمية المقروءة والمكتوبة (CAWSE)،^[27] مجموعة عينات اللغة الإنگليزية لطلبة صينيين بضبط أكاديمي. المجمع متاح مجاناً أونلاين.
الإنگليزية كلغة تواتصل بضبط أكاديمي (ELFA)،^[28] مجمع ELF الأكاديمي.^[29]^[30]
مجمع معلم الإنگليزية الدولي (ICLE)،^[31] a corpus of learner written English.
Louvain International Database of Spoken English Interlanguage (LINDSEI),^[32] مجمع معلم الإنگليزية المنطوقة.
مجمع ترينتي لانكستر، من أكبر مجامع L2 للإنگليزية المنطوقة.^[33]^[34]
مجمع ڤيينا-أكسفورد الدولي للغة الإنگليزية (VOICE)،^[35] مجمع ELF.^[29]

المراجع

^ Professor Mark Davies at BYU created an online tool to search Google's English language corpus, drawn from Google Books, at http://googlebooks.byu.edu/x.asp.
^ "PhraseFinder". محرك بحثي لمجمع نگرام على كتب گوگل يدعم wildcard queries and offers an API.
^ "Corpus Resource Database (CoRD)". Department of English, University of Helsinki.
^ (in إسپانية) "Molinolabs - corpus". molinolabs.com. Retrieved 12 January 2014.
^ "CorALit – CorALit - Lietuvių mokslo kalbos tekstynas". coralit.lt. Retrieved 12 January 2014.
^ "Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage". tnc.org.tr. Retrieved 12 January 2014.
^ "Under Update". search.dcl.bas.bg. Retrieved 12 January 2014.
^ "Portál | Český národní korpus".
^ Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). "Available from CLARIN". http://nl.ijs.si/me/v4/. {{cite journal}}: External link in |journal= (help)
^ ^أ ^ب "University of Tehran NLP Lab". ece.ut.ac.ir. Retrieved 12 January 2014.
^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074
^ "KOTONOHA「現代日本語書き言葉均衡コーパス」　少納言". kotonoha.gr.jp. Retrieved 12 January 2014.
^ D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva, and G. Dias . 2015. Implementing a Corpus for Sinhala Language. In Symposium on Language Technology for South Asia.
^ "EUR-Lex Corpus". sketchengine.co.uk. Retrieved 27 October 2016.
^ "OPUS - an open source parallel corpus". opus.lingfil.uu.se. Retrieved 12 January 2014.
^ "Tatoeba - Number of sentences per language". tatoeba.org. Retrieved 13 January 2014.
^ Liling Tan and Francis Bond (14 May 2012). "Building and Annotating the Linguistically Diverse NTU-MC (NTU — Multilingual Corpus)" (PDF). International Journal of Asian Language Processing. 22 (4): 161–174.
^ Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer and Michaela Regneri . 2014. SeedLing: Building and using a seed corpus for the Human Language Project. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.
^ Liling Tan, Marcos Zampieri, Nikola Ljubešic, and Jörg Tiedemann. Merging comparable data sources for the discrimination of similar languages: The DSL corpus collection. In Proceedings of the 7th Workshop on Building and Using Comparable Corpora (BUCC). 2014.
^ Kilgarriff, Adam (2012). "Getting to Know Your Corpus". Text, Speech and Dialogue. Lecture Notes in Computer Science. Vol. 7499. pp. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.
^ Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: a new, vast corpus for Arabic. Proceedings of WACL.
^ Kilgarriff, A., & Renau, I. (2013). esTenTen, a vast web corpus of Peninsular and American Spanish. Procedia-Social and Behavioral Sciences, 95, 12-19.
^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. In Материалы научной конференции" Интернет и современное общество" (pp. 74-77).
^ Khokhlova, M. (2016). Comparison of High-Frequency Nouns from the Perspective of Large Corpora. RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, 9.
^ Trampuš, M., & Novak, B. (2012, October). Internals of an aggregated web news feed. In Proceedings of the Fifteenth International Information Science Conference IS SiKDD 2012 (pp. 431-434)
^ (in en)Cambridge English Corpus, 2019-09-27, https://en.wikipedia.org/w/index.php?title=Cambridge_English_Corpus&oldid=918173927, retrieved on 2020-01-07
^ "CAWSE Corpus - The University of Nottingham Ningbo China - 宁波诺丁汉大学". www.nottingham.edu.cn. Retrieved 2020-01-07.
^ "English as a Lingua Franca in Academic Settings". University of Helsinki (in الإنجليزية). 2018-03-23. Retrieved 2020-01-07.
^ ^أ ^ب (in en)English as a lingua franca, 2019-12-14, https://en.wikipedia.org/w/index.php?title=English_as_a_lingua_franca&oldid=930727312, retrieved on 2020-01-07
^ Mauranen, A. "English as an academic lingua franca: The ELFA project". English for Specific Purposes. 29: 183–190.
^ "ICLE". UCLouvain (in الإنجليزية). Retrieved 2020-01-07.
^ "LINDSEI". UCLouvain (in الفرنسية). Retrieved 2020-01-07.
^ "Trinity Lancaster Corpus | ESRC Centre for Corpus Approaches to Social Science (CASS)" (in الإنجليزية الأمريكية). Retrieved 2020-01-07.
^ Gablasova, D (2019). "The Trinity Lancaster Corpus: Development, Description and Application". International Journal of Learner Corpus Research. 5(2): 126–158.
^ "Project". www.univie.ac.at. Retrieved 2020-01-07.

[1] Professor Mark Davies at BYU created an online tool to search Google's English language corpus, drawn from Google Books, at http://googlebooks.byu.edu/x.asp.

[2] "PhraseFinder". محرك بحثي لمجمع نگرام على كتب گوگل يدعم wildcard queries and offers an API.

[3] "Corpus Resource Database (CoRD)". Department of English, University of Helsinki.

[molinolabs-4] (in إسپانية) "Molinolabs - corpus". molinolabs.com. Retrieved 12 January 2014.

[coralit-5] "CorALit – CorALit - Lietuvių mokslo kalbos tekstynas". coralit.lt. Retrieved 12 January 2014.

[tnc.o-6] "Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage". tnc.org.tr. Retrieved 12 January 2014.

[search-7] "Under Update". search.dcl.bas.bg. Retrieved 12 January 2014.

[8] "Portál | Český národní korpus".

[9] Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). "Available from CLARIN". http://nl.ijs.si/me/v4/. {{cite journal}}: External link in |journal= (help)

[ut-10] أ ^ب "University of Tehran NLP Lab". ece.ut.ac.ir. Retrieved 12 January 2014.

[11] Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074

[kotonoha-12] "KOTONOHA「現代日本語書き言葉均衡コーパス」　少納言". kotonoha.gr.jp. Retrieved 12 January 2014.

[13] D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva, and G. Dias . 2015. Implementing a Corpus for Sinhala Language. In Symposium on Language Technology for South Asia.

[sketchengine-14] "EUR-Lex Corpus". sketchengine.co.uk. Retrieved 27 October 2016.

[lingfil-15] "OPUS - an open source parallel corpus". opus.lingfil.uu.se. Retrieved 12 January 2014.

[TatoebaSentences-16] "Tatoeba - Number of sentences per language". tatoeba.org. Retrieved 13 January 2014.

[17] Liling Tan and Francis Bond (14 May 2012). "Building and Annotating the Linguistically Diverse NTU-MC (NTU — Multilingual Corpus)" (PDF). International Journal of Asian Language Processing. 22 (4): 161–174.

[18] Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer and Michaela Regneri . 2014. SeedLing: Building and using a seed corpus for the Human Language Project. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.

[19] Liling Tan, Marcos Zampieri, Nikola Ljubešic, and Jörg Tiedemann. Merging comparable data sources for the discrimination of similar languages: The DSL corpus collection. In Proceedings of the 7th Workshop on Building and Using Comparable Corpora (BUCC). 2014.

[20] Kilgarriff, Adam (2012). "Getting to Know Your Corpus". Text, Speech and Dialogue. Lecture Notes in Computer Science. Vol. 7499. pp. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.

[21] Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: a new, vast corpus for Arabic. Proceedings of WACL.

[22] Kilgarriff, A., & Renau, I. (2013). esTenTen, a vast web corpus of Peninsular and American Spanish. Procedia-Social and Behavioral Sciences, 95, 12-19.

[23] Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. In Материалы научной конференции" Интернет и современное общество" (pp. 74-77).

[24] Khokhlova, M. (2016). Comparison of High-Frequency Nouns from the Perspective of Large Corpora. RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, 9.

[25] Trampuš, M., & Novak, B. (2012, October). Internals of an aggregated web news feed. In Proceedings of the Fifteenth International Information Science Conference IS SiKDD 2012 (pp. 431-434)

[26] (in en)Cambridge English Corpus, 2019-09-27, https://en.wikipedia.org/w/index.php?title=Cambridge_English_Corpus&oldid=918173927, retrieved on 2020-01-07

[27] "CAWSE Corpus - The University of Nottingham Ningbo China - 宁波诺丁汉大学". www.nottingham.edu.cn. Retrieved 2020-01-07.

[28] "English as a Lingua Franca in Academic Settings". University of Helsinki (in الإنجليزية). 2018-03-23. Retrieved 2020-01-07.

[English_as_a_lingua_franca-29] أ ^ب (in en)English as a lingua franca, 2019-12-14, https://en.wikipedia.org/w/index.php?title=English_as_a_lingua_franca&oldid=930727312, retrieved on 2020-01-07

[30] Mauranen, A. "English as an academic lingua franca: The ELFA project". English for Specific Purposes. 29: 183–190.

[31] "ICLE". UCLouvain (in الإنجليزية). Retrieved 2020-01-07.

[32] "LINDSEI". UCLouvain (in الفرنسية). Retrieved 2020-01-07.

[33] "Trinity Lancaster Corpus | ESRC Centre for Corpus Approaches to Social Science (CASS)" (in الإنجليزية الأمريكية). Retrieved 2020-01-07.

[34] Gablasova, D (2019). "The Trinity Lancaster Corpus: Development, Description and Application". International Journal of Learner Corpus Research. 5(2): 126–158.

[35] "Project". www.univie.ac.at. Retrieved 2020-01-07.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]