المعرفة:مشروع حجر رشيد

مشروع حجر رشيد، هو أحد المشروعات الفرعية ضمن مشروع المعرفة للذكاء الاصطناعي.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

مقدمة

في حوالي عام 2008، أعلنت نت‌فليكس عن جائزة نت‌فليكس. وهي عبارة عن مسابقة مفتوحة لأفضل خوارزمية تصفية تعاونية للتنبؤ بتقييمات المستخدمين للأفلام، بناءً على التقييمات السابقة دون أي معلومات أخرى حول المستخدمين أو الأفلام، أي بدون تحديد المستخدمين أو الأفلام باستثناء الأرقام المخصصة للمسابقة. أُجريت المسابقة على خدمة تأجير الدي ڤي دي وبث الڤيديو عبر الإنترنت، وكانت مفتوحة لأي شخص غير متصل بنت‌فليكس. في 21 سبتمبر 2009، مُنحت الجائزة الكبرى، البالغة 1.000.000 دولار أمريكي لفريق بلكور Pragmatic Chaos الذي قدم خوارزمية تفوقت على خوارزمية بنت‌فليكس لتوقع التقييمات بنسبة 10.06%.

وكانت أول جائزة من نوعها يتم منحها على منافسة خاصة بالتعلم الآلي. منذ ذلك الحين، استمر هذا التوجه بقوة. أصبحت كيگل خدمة شائعة جداً، تم تصميمها خصيصاً للتعامل مع الخدمات اللوجستية لمثل هذه المسابقات. منذ ذلك الحين، أجريت آلاف المسابقات. تم إنشاء درجات تنافسية لعلماء وممارسي ومهندسي التعلم الآلي. كان لهذا التوجه أثراً كبيراً على مجتمع التعلم الآلي. فقد ساعد في تنشيط الاهتمام بحل المشكلات الصعبة التي طال أمدها في هذا المجال.

وهناك مثال آخر على مجموعات البيانات التي أثرت بشكل كبير على التعلم الآلي وهو إمدج‌نت. نُشرت مجموعة البيانات عام 2009 كملصق بحثي عُلق في زاوية إحدى مراكز مؤتمرات ميامي بيتش، وسرعان ما تطورت مجموعة البيانات إلى مسابقة سنوية لمعرفة الخوارزميات التي يمكنها تحديد الكائنات في صور مجموعة بيانات بأقل معدل خطأ. يرى الكثيرون أنها كانت عاملاً مساعداً لازدهار الذكاء الاصطناعي الذي يشهده العالم اليوم


معوقات تقدم المعالجة الطبيعية للغة العربية

لاحظ العديد من الباحثين والممارسين أن المعالجة الطبيعية للغة العربية كانت متخلفة عن اللغات الأخرى المستخدمة على نطاق واسع مثل مثل الفرنسية والإسپانية.

في فرضيتنا أن هناك عدة أسباب لذلك:

1- تتضمن اللغة العربية عدد من المتغيرات التي تختلف اختلافاً كبيراً. تُكتب اللغة العربية فقط (حتى وقت قريب) بالفصحى. تطورت الفصحى نفسها على مر السنين. ومع ذلك، فقد تم الحفاظ على الفصحى القديمة، التي كانت مستخدمة قبل 1500 سنة. والسبب في ذلك أنها كانت اللغة المستخدمة في القرآن، وهو محل تبجيل لدى الكثير من الناطقين بالعربية. وتتضمن العربية الفصحى في جوهرها شكلان: القرآن والأحاديث. تختلف اللغة العربية المستخدمة في القرآن والأحدايث النبوية عن اللغات المستخدمة في الأعمال الأدبية والفصحى الحديثة.

2- تختلف اللغة العربية المستخدمة من دولة عربية لأخرى اختلافاً كبيراً عن الفصحى. وتعتبر هذه الاختلافات بمثابة لهجات محلية وليسا لغات رسمية. ولم تُكتب سوى من وقت قريب. أما الفصحى فهي لغة مكتوبة لا يتم التحدث بها إلا في الأماكن الرسمية، مثل الخطب، الأخبار وما إلى ذلك.

3- نقص البيانات اللازمة لتقييم وتدريب نماذج التعلم الآلي، والتي تكاد تكون غير موجودة.


الهدف

لتعزيز وتيسير البحث والتطوير في مجال المعالجة الطبيعية لللغة العربية، نسعى إلى إنشاء مجموعة بيانات كبيرة وعالية الجودة برعاية بشرية. هدفنا هو حشد مجتمع التعلم الآلي حول مجموعة البيانات هذه لاستخدامها في التدريب وتقييم أفكارهم وتقنياتهم ونماذجهم.

يهدف هذا المشروع إلى معالجة العقبة رقم 3، من خلال نشر مجموعات البيانات المنسقة بناءً على قاعدة موسوعة المعرفة المعرفية. تم تحرير المحتوى المعرفي بالموسعة إلى حد كبير باللغة العربية الفصحى الحديثة، والتي نعتقد أنها الأرضية الوسطى بين المتغيرات المختلفة للغة العربية.


مشروع روزيتا Project Rosetta هو مشروع فرعي ضمن مشروع المعرفة للذكاء الاصطناعي.

وصلات خارجية