شبكة بايزية

تعد الشبكة البايزية Bayesian network (تُعرف أيضًا باسم شبكة بايز Bayes network أو شبكة الاعتقاد belief network أو شبكة اتخاذ القرار decision network) فهي نموذج رسومي احتمالي الذي يمثل مجموعة من المتغيرات و التبعيات الشرطية عبر رسم بياني لا دوري موجه (DAG). تعتبر الشبكات البايزية مثالية لأخذ حدث واقع والتنبؤ باحتمالية أن يكون أحد الأسباب المحتملة العديدة هو العامل المساهم. على سبيل المثال، يمكن للشبكة البايزية أن تمثل العلاقات الاحتمالية بين الإضطراب والأعراض. بالنظر إلى الأعراض، يمكن استخدام الشبكة لحساب احتمالات وجود اضطرابات مختلفة.

يمكن أن تؤدي وتنفذ الخوارزميات الفعالة الاستدلال و التعلم في الشبكات البايزية. فالشبكات البايزية التي تضع نموذجاً لتسلسل المتغيرات (على سبيل المثال إشارات الكلام أو تسلسل الپروتين) والتي تسمى الشبكة البايزية الديناميكية. تسمى تعميمات الشبكات البايزية التي يمكن أن تمثل وتحل مشاكل القرار في ظل عدم اليقين مخططات التأثير.

النموذج الرسومي

بشكل رسمي، الشبكات البايزية هي الرسوم البيانية غير الدورية الموجهة (DAGs) التي تمثل عقدها المتغيرات في المعنى البايزي: قد تكون كميات ملحوظة، متغير كامن، غير معروف الپارامترات أو الفرضيات. تمثل الحواف التبعيات الشرطية؛ العقد غير المتصلة (لا يوجد مسار يربط عقدة بأخرى) تمثل المتغيرات التي تكون مستقلة شرطياً عن بعضها البعض. ترتبط كل عقدة بـ دالة احتمالية تأخذ، كمدخلات، مجموعة معينة من القيم لمتغيرات الأصل، وتعطي (كناتج) الاحتمال (أو توزيع الاحتمالات، إن أمكن) للمتغير الذي تمثله العقدة. فمثلا، إذا كانت $m$ تمثل العقد الرئيسية $m$ المتغيرات البوليانية، ثم يمكن تمثيل دالة الاحتمال بجدول من إدخالات $2^{m}$ ، إدخال واحد لكل من $2^{m}$ مجموعات الأصل المحتملة. يمكن تطبيق أفكار مماثلة على الرسوم البيانية غير الموجهة، وربما الدورية، مثل شبكة ماركوڤ.

مثال

شبكة بايزية بسيطة ذات جداول احتمالية مشروطة

يمكن أن يتسبب حدثان في تبلل العشب: رشاش نشط أو مطر. المطر له تأثير مباشر على استخدام الرش (أي أنه عندما تمطر، فإن الرش عادة ما يكون غير نشط). يمكن تصميم هذا الموقف باستخدام شبكة بايزية (تظهر على اليمين). كل متغير له قيمتان محتملتان، T (للصحيح) و F (للخطأ).

تكون دالة الاحتمال المشترك:

\Pr(G,S,R)=\Pr(G\mid S,R)\Pr(S\mid R)\Pr(R)

حيث G = "العشب رطب (صح/خطأ)"، S = "تم تشغيل الرشاش (صح/خطأ)"، و R = "مطر (صح/خطأ)".

يمكن للنموذج أن يجيب على أسئلة حول وجود سبب بالنظر إلى وجود تأثير (ما يسمى بالاحتمال العكسي) مثل "ما هو احتمال أن تمطر، بالنظر إلى أن العشب رطب؟" باستخدام صيغة الاحتمال الشرطي وجمع كل المتغيرات العشوائية:

\Pr(R=T\mid G=T)={\frac {\Pr(G=T,R=T)}{\Pr(G=T)}}={\frac {\sum _{S\in \{T,F\}}\Pr(G=T,S,R=T)}{\sum _{S,R\in \{T,F\}}\Pr(G=T,S,R)}}

باستخدام النشر لدالة الاحتمال المشترك $\Pr(G,S,R)$ والاحتمالات الشرطية من جداول الاحتمال الشرطي (CPTs) المذكورة في الرسم التخطيطي، يمكن للمرء تقييم كل حد في المجاميع في البسط والمقام. فمثلا،

{\begin{aligned}\Pr(G=T,S=T,R=T)&=\Pr(G=T\mid S=T,R=T)\Pr(S=T\mid R=T)\Pr(R=T)\\&=0.99\times 0.01\times 0.2\\&=0.00198.\end{aligned}}

فتكون النتائج العددية (مكتوبة بقيم المتغيرات المرتبطة) هي

\Pr(R=T\mid G=T)={\frac {0.00198_{TTT}+0.1584_{TFT}}{0.00198_{TTT}+0.288_{TTF}+0.1584_{TFT}+0.0_{TFF}}}={\frac {891}{2491}}\approx 35.77\%.

للإجابة على سؤال تداخلي، مثل "ما هو احتمال هطول المطر، إذا كنا نبلل العشب؟" تخضع الإجابة لوظيفة التوزيع المشترك بعد التدخل

\Pr(S,R\mid {\text{do}}(G=T))=\Pr(S\mid R)\Pr(R)

تم الحصول عليها عن طريق إزالة العامل $\Pr(G\mid S,R)$ من توزيع ما قبل التدخل. يفرض عامل do أن تكون قيمة G صحيحة. لا يتأثر احتمال هطول الأمطار بالإجراء:

\Pr(R\mid {\text{do}}(G=T))=\Pr(R).

للتنبؤ بتأثير تشغيل الرشاش:

\Pr(R,G\mid {\text{do}}(S=T))=\Pr(R)\Pr(G\mid R,S=T)

بإزالة المصطلح $\Pr(S=T\mid R)$ ، تبين أن الإجراء يؤثر على العشب وليس المطر.

قد لا تكون هذه التنبؤات ممكنة في ضوء المتغيرات المخفية، كما هو الحال في معظم مشاكل تقييم الخطط. ${\text{do}}(x)$ ومع ذلك، لا يزال من الممكن التنبؤ بتأثير الإجراء كلما تم استيفاء معيار الباب الخلفي.^[1]^[2] تنص على أنه إذا كان من الممكن ملاحظة مجموعة Z من العقد أنه d-يفصل^[3] (أو يمنع) كل مسارات المدخل الراجع من X إلى Y إذن

\Pr(Y,Z\mid {\text{do}}(x))={\frac {\Pr(Y,Z,X=x)}{\Pr(X=x\mid Z)}}.

مسار المدخل الراجع هو الذي ينتهي بسهم في X. المجموعات التي تفي بمعيار المدخل الراجع تسمى "كافية" أو "مقبولة". فمثلا، المجموعة Z = R مقبول للتنبؤ بتأثير S = T على G، لأن R d- يفصل مسار المدخل الراجع (فقط) S ← R → G.ومع ذلك، إذا لم يتم ملاحظة S، فلا توجد مجموعة أخرى d - تفصل هذا المسار وتأثير تشغيل الرشاش (S = T) على العشب (G) لا يمكن التنبؤ بها من الملاحظات السلبية. في تلك الحالة P(G | do(S = T)) غير "محدد". هذا يعكس حقيقة أنه، في ظل نقص البيانات التداخلية، فإن الاعتماد المرصود بين S و G يرجع إلى علاقة سببية أو زائفة (الاعتماد الواضح الناشئ عن سبب مشترك، R). (انظر مفارقة سيمپسون) لتحديد ما إذا كانت العلاقة السببية قد تم تحديدها من شبكة بايزية عشوائية ذات متغيرات غير ملحوظة، يمكن للمرء استخدام القواعد الثلاثة لـ "do-حساب التفاضل و التكامل"^[1]^[4]واختبار ما إذا كان يمكن إزالة جميع مصطلحات do من التعبير عن تلك العلاقة، وبالتالي التأكد من أن الكمية المرغوبة يمكن تقديرها من بيانات التردد.^[5]

يمكن أن يؤدي استخدام الشبكة البايزية إلى توفير قدر كبير من الذاكرة على جداول الاحتمالات الشاملة، إذا كانت التبعيات في التوزيع المشترك قليلة. على سبيل المثال، تتطلب طريقة بسيطة لتخزين الاحتمالات الشرطية لـ 10 متغيرات ثنائية القيمة كجدول مساحة تخزين لقيم $2^{10}=1024$ .إذا لم يعتمد التوزيع المحلي للمتغير على أكثر من ثلاثة متغيرات رئيسية ، فإن تمثيل الشبكة البايزية يخزن على الأكثر قيم $10\cdot 2^{3}=80$ .

تتمثل إحدى ميزات الشبكات البايزية في أنه من الأسهل بشكل حدسي على الإنسان فهم (مجموعة متفرقة من) التبعيات المباشرة والتوزيعات المحلية أكثر من التوزيعات المشتركة الكاملة.

الاستدلال والتعلم

تؤدي الشبكات البايزية ثلاث مهام استدلال رئيسية:

استنتاج المتغيرات المخفية

نظرًا لأن الشبكة البايزية هي نموذج كامل لمتغيراتها وعلاقاتها، فيمكن استخدامها للإجابة على الاستفسارات الاحتمالية المتعلقة بها. على سبيل المثال، يمكن استخدام الشبكة لتحديث المعرفة بحالة مجموعة فرعية من المتغيرات عند ملاحظة المتغيرات الأخرى (متغيرات الدليل). تسمى عملية حساب التوزيع اللاحق للمتغيرات المعطاة بالدليل الاستدلال الاحتمالي. تعطي الإحصائية الكافية اللاحقة بشكل شامل لتطبيقات الكشف، عند اختيار القيم للمجموعة الفرعية المتغيرة التي تقلل من بعض وظائف الفقد المتوقعة، على سبيل المثال احتمال خطأ القرار. وبالتالي يمكن اعتبار الشبكة البايزية آلية لتطبيق نظرية بايز تلقائياً على المشكلات المعقدة.

أكثر طرق الاستدلال الدقيق شيوعاً هي: الحذف المتغير، والذي يزيل (بالتكامل أو التجميع) المتغيرات غير الملحوظة التي لم تتم ملاحظتها واحداً تلو الآخر عن طريق توزيع المجموع على المنتج؛ انتشار شجرة الزمرة، والتي تخزن الحساب مؤقتاً بحيث يمكن الاستعلام عن العديد من المتغيرات في وقت واحد ويمكن نشر أدلة جديدة بسرعة؛ والتكييف التكراري وبحث AND / OR، مما يسمح تعويض الزمكان ويتناسب مع كفاءة الاستبعاد المتغير عند استخدام مساحة كافية. كل هذه الأساليب لها تعقيد أسي في عرض ثلاثي للشبكة. فخوارزميات الاستدلال التقريبي الأكثر شيوعًا هي أخذ العينات المهمة، MCMC العشوائية، حذف المقدار الصغير ، انتشار الاعتقاد كثير الحلقات ، انتشار الاعتقاد المعمم و طرق التنويع.

تعلم الپارامتر

من أجل تحديد الشبكة البايزية بشكل كامل وبالتالي تمثيل التوزيع الاحتمالي المشترك بشكل كامل، من الضروري تحديد التوزيع الاحتمالي لكل عقدة X مشروطاً بأصول X. قد يكون لتوزيع X المشروط بأصوله أي شكل. من الشائع العمل مع توزيعات گاوس المتقطعة لأن ذلك يبسط الحسابات. في بعض الأحيان ، لا يُعرف سوى القيود المفروضة على التوزيع؛ يمكن للمرء بعد ذلك استخدام مبدأ الإنتروپيا القصوى لتحديد توزيع واحد، وهو التوزيع الذي يحتوي على أكبر الإنتروپيا نظرًا للقيود. (بشكل مشابه، في السياق المحدد لـ الشبكة البايزية الديناميكية، يتم تحديد التوزيع الشرطي للتطور الزمني للحالة المخفية بشكل شائع لتعظيم معدل الإنتروپيا للعملية العشوائية الضمنية.)

غالباً ما تتضمن هذه التوزيعات الشرطية پارامترات غير معروفة ويجب تقديرها من البيانات، على سبيل المثال، من خلال نهج الاحتمالية القصوى. غالباً ما يكون التعظيم المباشر للاحتمالية (أو الاحتمالية القصوى) المعقدة نظراً للمتغيرات غير المراقبة. النهج الكلاسيكي لهذه المشكلة هو خوارزمية تعظيم التوقع، والتي تقوم بحساب القيم المتوقعة للمتغيرات غير المراقبة المشروطة بالبيانات التي تم رصدها، مع تعظيم الاحتمالية الكاملة (أو اللاحقة) بافتراض أن القيم المتوقعة المحسوبة مسبقاً صحيحة. في ظل ظروف انتظام معتدلة، تتقارب هذه العملية مع قيم الاحتمالية القصوى (أو الحد الأقصى لاحقًا) للپارامترات .

يتمثل النهج البايزي الكامل للپارامترات في معاملتها كمتغيرات إضافية غير ملحوظة وحساب التوزيع اللاحق الكامل على جميع العقد المشروطة بالبيانات المرصودة، ثم دمج الپارامترات. قد يكون هذا النهج مكلفاً ويؤدي إلى نماذج ذات أبعاد كبيرة، مما يجعل مناهج تحديد الپارامترات الكلاسيكية أكثر قابلية للتتبع.

تعلم البنية

في أبسط الحالات، يتم تحديد الشبكة البايزية بواسطة خبير ثم يتم استخدامها لإجراء الاستدلال. في التطبيقات الأخرى، تكون مهمة تعريف الشبكة معقدة للغاية بالنسبة للبشر. في هذه الحالة، يجب تعلم بنية الشبكة وپارمترات التوزيعات المحلية من البيانات.

يعد التعلم التلقائي لبنية الرسم البياني للشبكة البايزية (BN) تحدياً يتم متابعته في التعلم الآلي. تعود الفكرة الأساسية إلى خوارزمية الاسترداد التي طورها ريباين و پيرل^[6] ويستند إلى التمييز بين الأنماط الثلاثة الممكنة المسموح بها في DAG ثلاثية العقد:

أنماط التوصيل
الأنماط	النموذج
سلسلة	$X\rightarrow Y\rightarrow Z$
تفرع	$X\leftarrow Y\rightarrow Z$
تعارض	$X\rightarrow Y\leftarrow Z$

أول 2 يمثلان نفس التبعيات ( $X$ و $Z$ مستقلان نظراً ل $Y$ ) وبالتالي، لا يمكن تمييزها. ومع ذلك، يمكن تحديد المعارض بشكل فريد عندما تكون $X$ و $Z$ مستقلة بشكل هامشي وجميع الأزواج الأخرى تابعة. وهكذا، في حين أن الهياكل (الرسوم البيانية المجردة من الأسهم) لهذه الثلاثة توائم متطابقة، يمكن تحديد اتجاه الأسهم جزئيًا. ينطبق نفس التمييز عندما يكون ل $X$ و $Z$ أصول مشتركة، باستثناء أنه يجب أولاً أن يشترط هذه الأصول تم تطوير خوارزميات لتحديد الهيكل للرسم البياني الأساسي بشكل منهجي، ثم توجيه جميع الأسهم التي تم تحديد اتجاهها بواسطة الاستقلالية الشرطية التي تمت ملاحظتها.^[1]^[7]^[8]^[9]

تستخدم طريقة بديلة للتعلم الهيكلي البحث القائم على التحسين. والتي تتطلب دالة التسجيل وإستراتيجية البحث. يكون تابع التسجيل الشائع هو الاحتمالية اللاحقة للهيكل المعطى لبيانات التدريب، مثل BIC أو BDeu. المتطلب الزمني لإرجاع بحث شامل لبنية تزيد النتيجة إلى الحد الأقصى هو أسي فائق في عدد المتغيرات. تُجري استراتيجية البحث المحلية تغييرات تدريجية تهدف إلى تحسين درجة الهيكل. يمكن لخوارزمية بحث عالمية مثل سلسلة ماركوڤ مونت كارلو تجنب الوقوع في شرك الحدود الدنيا المحلية. فريدمان وآخرون.^[10]^[11] تمت مناقشة استخدام المعلومات المتبادلة بين المتغيرات وإيجاد بنية تعظم ذلك. تم تنفيذ ذلك عن طريق تقييد تعيين المرشح الرئيسي على عقد "k" والبحث الشامل فيها.

إحدى الطرق السريعة بشكل خاص لتعلم BN الدقيق هي طرح المشكلة على أنها مشكلة تحسين، وحلها باستخدام البرمجة التامة. تتم إضافة قيود الحدية إلى البرنامج التام (IP) أثناء الحل في شكل مستويات القطع.^[12] يمكن أن تتعامل هذه الطريقة مع مشاكل تصل إلى 100 متغير.

من أجل التعامل مع مشاكل آلاف المتغيرات، من الضروري اتباع نهج مختلف. الأول هو أخذ عينة من طلب واحد، ثم إيجاد بنية BN الأمثل فيما يتعلق بهذا الترتيب. وهذا يعني العمل على مساحة البحث الخاصة بالطلبات المحتملة، وهو أمر مناسب لأنه أصغر من مساحة هياكل الشبكة. ثم يتم أخذ عينات من الطلبات المتعددة وتقييمها. لقد ثبت أن هذه الطريقة هي الأفضل في الأعمال عندما يكون عدد المتغيرات ضخمًا.^[13]

هناك طريقة أخرى تتمثل في التركيز على الفئة الفرعية للنماذج القابلة للتقسيم، والتي لها شكل مغلق MLE. من الممكن بعد ذلك اكتشاف بنية متسقة لمئات المتغيرات.^[14]

يعد تعلم الشبكات البايزية ذات النطاق الثلاثي المحدود أمراً ضرورياً للسماح بالاستدلال الدقيق القابل للتتبع، نظراً لأن تعقيد الاستدلال الأسوأ يكون أسياً في عرض الثلاثي k (وفقًا لفرضية الزمن الأسي). ومع ذلك، باعتباره خاصية شاملة للرسم البياني، فإنه يزيد بشكل كبير من صعوبة عملية التعلم. في هذا السياق، من الممكن استخدام K-tree للتعلم الفعال.^[15]

مقدمة إحصائية

البيانات المعطاة $x\,\!$ والپارامتر $\theta$ ، يبدأ التحليل البايزي بـ احتمال سابق $p(\theta )$ (مسبق) و الاحتمالية $p(x\mid \theta )$ لحساب الاحتمالية اللاحقة $p(\theta \mid x)\propto p(x\mid \theta )p(\theta )$ .

غالباً ما تعتمد $\theta$ السابقة بدورها على الپارامترات $\varphi$ التي لم يرد ذكرها في الاحتمال. لذلك، يجب استبدال $p(\theta )$ الأولية باحتمالية $p(\theta \mid \varphi )$ ، و $p(\varphi )$ والمطلوب $\varphi$ التي تم إدخالها حديثاً

p(\theta ,\varphi \mid x)\propto p(x\mid \theta )p(\theta \mid \varphi )p(\varphi ).

هذا هو أبسط مثال على النموذج البايزي الهرمي.^{[مطلوب توضيح]}

يمكن تكرار العملية؛ على سبيل المثال، قد تعتمد الپارامترات $\varphi$ بدورها على پارامترات إضافية $\psi \,\!$ ، والتي تتطلب سابق خاص بها. في النهاية يجب أن تنتهي العملية، مع مقدمات لا تعتمد على پارامترات غير مذكورة.

أمثلة تمهيدية

بالنظر إلى الكميات المقاسة $x_{1},\dots ,x_{n}\,\!$ لكل منها أخطاء توزيع طبيعي لانحراف معياري معروف $\sigma \,\!$ ،

x_{i}\sim N(\theta _{i},\sigma ^{2})

لنفترض أننا مهتمون بتقدير $\theta _{i}$ . فاامثل إحدى الطرق في تقدير $\theta _{i}$ باستخدام نهج الاحتمالية القصوى؛ نظرًا لأن الملاحظات مستقلة، فإن عوامل الاحتمال وتقدير الاحتمالية القصوى هي ببساطة

\theta _{i}=x_{i}.

ومع ذلك، إذا كانت الكميات مرتبطة، بحيث تكون $\theta _{i}$ الفردية على سبيل المثال مستمدةً من التوزيع الأساسي، فإن هذه العلاقة تدمر الاستقلال وتقترح نموذجاً أكثر تعقيداً، على سبيل المثال،

x_{i}\sim N(\theta _{i},\sigma ^{2}),

\theta _{i}\sim N(\varphi ,\tau ^{2}),

فبواسطة السوابق الغير مناسبة $\varphi \sim {\text{flat}}$ , $\tau \sim {\text{flat}}\in (0,\infty )$ . عندما يكون $n\geq 3$ ، فهذا نموذج محدد (أي يوجد حل فريد لپارامترات النموذج)، والتوزيعات اللاحقة ل $\theta _{i}$ الفردية سوف تميل إلى الانتقال، أو يتضاءل بعيداً عن تقديرات الاحتمالية القصوى تجاه متوسطها المشترك. هذا التضاؤل هو سلوك نموذجي في النماذج بايزية الهرمية.

القيود على السابقات

هناك حاجة إلى بعض العناية عند اختيار السابقات في النموذج الهرمي، خاصة على متغيرات المقياس في المستويات الأعلى من التسلسل الهرمي مثل المتغير $\tau \,\!$ في المثال. لا تعمل السابقات المعتادة مثل سابقات جفرز غالباً، لأن التوزيع اللاحق لن يكون قابلاً للتطبيع والتقديرات التي يتم إجراؤها عن طريق تقليل الفقد المتوقع ستكون غير مقبولة.

التعاريف والمفاهيم

تم تقديم عدة تعريفات مكافئة للشبكة البايزية. لما يلي، لنفترض أن G = (V,E) يكون الرسم البياني غير الدوري الموجه (DAG) ولنجعل X = (X_v), v ∈ V تكون مجموعة من المتغيرات العشوائية مفهرسة بواسطة V.

تعريف تحليل العوامل

X عبارة عن شبكة بايزية بالنسبة إلى G إذا كان من الممكن كتابة دالة كثافة الاحتمال (فيما يتعلق قياس الخرج) كمنتج لتواابع الكثافة الفردية، مشروطة بمتغيراتها الأصلية:^[16]

p(x)=\prod _{v\in V}p\left(x_{v}\,{\big |}\,x_{\operatorname {pa} (v)}\right)

حيث pa (v) هي مجموعة أصول v (أي تلك الذرا التي تشير مباشرة إلى v عبر حافة واحدة).

لأي مجموعة من المتغيرات العشوائية، يمكن حساب احتمال أي عنصر في التوزيع المشترك من الاحتمالات الشرطية باستخدام قاعدة السلسلة (مع الأخذ في الاعتبار الترتيب الطوبولوجي X) على النحو التالي:^[16]

\operatorname {P} (X_{1}=x_{1},\ldots ,X_{n}=x_{n})=\prod _{v=1}^{n}\operatorname {P} \left(X_{v}=x_{v}\mid X_{v+1}=x_{v+1},\ldots ,X_{n}=x_{n}\right)

باستخدام التعريف أعلاه، يمكن كتابة هذا على النحو التالي:

\operatorname {P} (X_{1}=x_{1},\ldots ,X_{n}=x_{n})=\prod _{v=1}^{n}\operatorname {P} (X_{v}=x_{v}\mid X_{j}=x_{j}{\text{ for each }}X_{j}\,{\text{ that is a parent of }}X_{v}\,)

الفرق بين التعبيرين هو الاستقلال المشروط للمتغيرات من أي من غير المتحدرين منهم، مع مراعاة قيم المتغيرات الأصلية.

خاصة ماركوڤ المحلية

X هي شبكة بايزية فيما يتعلق بـ G إذا كانت تفي بـ خاصة ماركوڤ المحلية : كل متغير هو مستقل بشروط من غير المنحدرين منه نظرًا لمتغيراته الأصلية:^[17]

X_{v}\perp \!\!\!\perp X_{V\,\smallsetminus \,\operatorname {de} (v)}\mid X_{\operatorname {pa} (v)}\quad {\text{for all }}v\in V

حيث de(v) هي مجموعة السلائل و V \ de(v) هي مجموعة غير المتحدرين من v.

يمكن التعبير عن هذا بعبارات مشابهة للتعريف الأول ، مثل

{\begin{aligned}&\operatorname {P} (X_{v}=x_{v}\mid X_{i}=x_{i}{\text{ for each }}X_{i}{\text{ that is not a descendant of }}X_{v}\,)\\[6pt]={}&P(X_{v}=x_{v}\mid X_{j}=x_{j}{\text{ for each }}X_{j}{\text{ that is a parent of }}X_{v}\,)\end{aligned}}

مجموعة الأصول هي مجموعة فرعية من مجموعة غير المتحدرين لأن الرسم البياني لا دوري.

تطوير الشبكات البايزية

غالباً ما يبدأ تطوير الشبكة البايزية بإنشاء DAG G بحيث تحقق X خاصية ماركوڤ المحلية فيما يتعلق بـ G. في بعض الأحيان يكون هذا هو DAG السببي. يتم تقييم توزيعات الاحتمال الشرطي لكل متغير بالنظر إلى أصله في G. في كثير من الحالات، على وجه الخصوص في الحالة التي تكون فيها المتغيرات منفصلة، إذا كان التوزيع المشترك لـ X هو نتاج هذه التوزيعات الشرطية، فإن X هي شبكة بايزية فيما يتعلق بـG.^[18]

غطاء ماركوڤ

غطاء ماركوڤ لعقدة ما هي مجموعة العقد التي تتكون من أصولها وسلائلها وأي أصول آخرى لسلائلها. يجعل غطاء ماركوڤ العقدة مستقلة عن بقية الشبكة؛ التوزيع المشترك للمتغيرات في غطاء ماركوڤ للعقدة هو معرفة كافية لحساب توزيع العقدة. X هي شبكة بايزية فيما يتعلق بـ G إذا كانت كل عقدة مستقلة بشكل مشروط عن جميع العقد الأخرى في الشبكة، نظراً لـ غطاء ماركوڤ.^[17]

فصل d

يمكن جعل هذا التعريف أكثر عمومية من خلال تحديد فصل d بين عقدتين، حيث تشير d إلى الاتجاه.^[1] نحدد أولاً فصل d للمسار ثم نحدد فصل d بين عقدتين بشروط ذلك.

لندع P يكون مساراً من العقدة u إلى v. المسار عبارة عن مسار خالٍ من الحلقات وغير موجه (أي يتم تجاهل جميع اتجاهات الحافة) بين عقدتين. ثم يُقال أن P هي d - مفصولة بمجموعة من العقد Z إذا كان أي من الشروط التالية صحيحاً:

تحتوي P على (ولكن لا يلزم أن يكون بالكامل) سلسلة موجهة، $u\cdots \leftarrow m\leftarrow \cdots v$ أو $u\cdots \rightarrow m\rightarrow \cdots v$ ، بحيث تكون العقدة الوسطى m في Z،
تحتوي P على تفرع، $u\cdots \leftarrow m\rightarrow \cdots v$ ، بحيث تكون العقدة الوسطى m في Z، أو
تحتوي P على تفرع مقلوب (أو معارض)، $u\cdots \rightarrow m\leftarrow \cdots v$ ، بحيث أن العقدة الوسطى m ليست في Z ولا يوجد سليل لـ m في Z.

العقدتان u و v هما d - مفصولتان بـ Z إذا كانت جميع المسارات بينهما d - مفصولة. إذا لم تكن u و v مفصولة عن d، فهما متصلان بـ d.

X هي شبكة بايزية فيما يتعلق بـ G إذا، لأي عقدتين u ، v:

X_{u}\perp \!\!\!\perp X_{v}\mid X_{Z}

حيث Z هي مجموعة تفصل d - عن u و v. (غطاء ماركوڤ هو الحد الأدنى من مجموعة العقد التي تفصل d - العقدة v عن جميع العقد الأخرى.)

الشبكات السببية

على الرغم من أن الشبكات البايزية غالباً ما تُستخدم لتمثيل علاقات السببية، لا يلزم أن يكون هذا هو الحال: الحافة الموجهة من u إلى v لا تتطلب أن X_v تعتمد سببياً على X_u. يتضح هذا من خلال حقيقة أن الشبكات البايزية على الرسوم البيانية:

a\rightarrow b\rightarrow c\qquad {\text{and}}\qquad a\leftarrow b\leftarrow c

متكافئة: أي أنها تفرض نفس متطلبات الاستقلال المشروط بالضبط.

الشبكة السببية هي شبكة بايزية تتطلب أن تكون العلاقات سببية. تحدد الدلالات الإضافية للشبكات السببية أنه إذا كانت العقدة X ناجمة عن أن تكون في حالة معينة من x (إجراء مكتوب كما ينفذ (X = x))، ثم تتغير دالة كثافة الاحتمال إلى تلك الخاصة بالشبكة التي تم الحصول عليها عن طريق قطع الروابط من X الأصول إلى X، وتعيين X على القيمة الناتجة x.^[1] باستخدام هذه الدلالات، يمكن التنبؤ بتأثير التدخلات الخارجية من البيانات التي تم الحصول عليها قبل التدخل.

تعقيد الاستدلال وخوارزميات التقريب

في عام 1990، أثناء العمل في جامعة ستانفورد على تطبيقات المعلومات الحيوية الضخمة، أثبت كوپر أن الاستدلال الدقيق في الشبكات البايزية هو NP-الصارمة.^[19] دفعت هذه النتيجة إلى إجراء بحث حول خوارزميات التقريب بهدف تطوير تقريب قابل للتتبع للاستدلال الاحتمالي. في عام 1993 ، أثبت داگن و لوبي نتيجتين مدهشتين بشأن تعقيد تقريب الاستدلال الاحتمالي في الشبكات البايزية.^[20] أولاً، أثبتوا أنه لا توجد خوارزمية حتمية قابلة للتتبع يمكن أن تقرب الاستدلال الاحتمالي إلى داخل خطأ مطلق ɛ < 1/2 ثانياً، أثبتوا أنه لا يمكن تتبع الاستدلال الاحتمالي ضمن الخطأ المطلق ɛ < 1/2 مع احتمال ثقة أكبر من 1/2.

في نفس الوقت تقريباً، أثبت روث أن الاستدلال الدقيق في الشبكات البايزية هو في الواقع # P-كامل (وبالتالي يصعب حساب عدد المهام المرضية من نمط الصيغة العادية المرتبطة (CNF) وذلك الاستنتاج التقريبي ضمن عامل 2^{n^1−ɛ} لكل ɛ > 0، حتى بالنسبة للشبكات البايزية ذات البنية المقيدة، هي NP-hard.^[21]^[22]

من الناحية العملية، أشارت نتائج التعقيد هذه إلى أنه في حين أن الشبكات البايزية كانت تمثيلات غنية لتطبيقات الذكاء الاصطناعي والتعلم الآلي، فإن استخدامها في تطبيقات العالم الحقيقي الكبيرة يجب أن يتم تعديله إما عن طريق القيود الهيكلية الطوبولوجية، مثل الشبكات البايزية البسيطة، أو القيود على الاحتمالات الشرطية. فخوارزمية التباين المحدود^[23] كانت أول خوارزمية تقريب سريع يمكن إثباتها لتقريب الاستدلال الاحتمالي التقريبي بكفاءة في الشبكات البايزية مع ضمانات لتقريب الخطأ. تتطلب هذه الخوارزمية القوية تقييداً طفيفاً على الاحتمالات الشرطية لشبكة بايزية لتكون مقيدة بعيداً عن الصفر وواحد بنسبة 1/p(n) حيث p(n) كان أي متعدد الحدود على عدد العقد في الشبكة n

البرمجيات

تشمل البرامج البارزة للشبكات البايزية:

مجرد عينة أخرى من عينات جيبس Just another Gibbs sample (JAGS) - بديل مفتوح المصدر لـ WinBUGS. يستخدم أخذ عينات جيبس.
OpenBUGS - تطوير مفتوح المصدر لـ WinBUGS.
SPSS Modeler - برنامج تجاري يتضمن تطبيقاً للشبكات البايزية.
Stan (برمجيات) - ستان هي حزمة مفتوحة المصدر للحصول على الاستدلال البايزي باستخدام جهاز أخذ العينات No-U-Turn (NUTS ،^[24] أحد أنواع هاملتونيان مونت كارلو.
PyMC3 - مكتبة پايثون التي تنفذ لغة خاصة بمجال مضمّن لتمثيل الشبكات البايزية ومجموعة متنوعة من أجهزة أخذ العينات (بما في ذلك NUTS)
WinBUGS - أحد التطبيقات الحسابية الأولى لأخذ عينات MCMC. لم تعد مدعومة.

تاريخ

تمت صياغة مصطلح الشبكة البايزية من قبل يودا پيرل في عام 1985 لتأكيد:^[25]

الطبيعة الذاتية الغالبة لمعلومات الإدخال
الاعتماد على التكييف البايزي كأساس لتحديث المعلومات
التمييز بين طرق الاستدلال السببية والأدلة^[26]

تم في أواخر الثمانينيات من القرن الماضي التفكير الاحتمالي في الأنظمة الذكية لپيرل^[27] و ناپوليتان التفكير الاحتمالي في الأنظمة الخبيرة^[28] تلخيص خصائصها وجعلها مجالاً للدراسة.

انظر أيضاً

ملاحظات

^ ^أ ^ب ^ت ^ث ^ج Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 978-0-521-77362-1. OCLC 42291253.
^ "The Back-Door Criterion" (PDF). Retrieved 2014-09-18.
^ "d-Separation without Tears" (PDF). Retrieved 2014-09-18.
^ (1994) "A Probabilistic Calculus of Actions". UAI'94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence: 454–462, San Mateo CA: Morgan Kaufmann.
^ Shpitser I, Pearl J (2006). "Identification of Conditional Interventional Distributions". In Dechter R, Richardson TS (eds.). Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence. Corvallis, OR: AUAI Press. pp. 437–444. arXiv:1206.6876.
^ Rebane G, Pearl J (1987). "The Recovery of Causal Poly-trees from Statistical Data". Proceedings, 3rd Workshop on Uncertainty in AI. Seattle, WA. pp. 222–228. arXiv:1304.2736.{{cite book}}: CS1 maint: location missing publisher (link)
^ Spirtes P, Glymour C (1991). "An algorithm for fast recovery of sparse causal graphs" (PDF). Social Science Computer Review. 9 (1): 62–72. doi:10.1177/089443939100900106. S2CID 38398322.
^ Spirtes, Peter; Glymour, Clark N.; Scheines, Richard (1993). Causation, Prediction, and Search (1st ed.). Springer-Verlag. ISBN 978-0-387-97979-3. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
^ (1991) "Equivalence and synthesis of causal models". UAI '90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence: 255–270, Elsevier.
^ Friedman, Nir; Geiger, Dan; Goldszmidt, Moises (November 1997). "Bayesian Network Classifiers". Machine Learning. 29 (2–3): 131–163. doi:10.1023/A:1007465528199. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
^ Friedman N, Linial M, Nachman I, Pe'er D (August 2000). "Using Bayesian networks to analyze expression data". Journal of Computational Biology. 7 (3–4): 601–20. CiteSeerX 10.1.1.191.139. doi:10.1089/106652700750050961. PMID 11108481.
^ Cussens, James (2011). "Bayesian network learning with cutting planes" (PDF). Proceedings of the 27th Conference Annual Conference on Uncertainty in Artificial Intelligence: 153–160. arXiv:1202.3713. Bibcode:2012arXiv1202.3713C. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
^ Scanagatta M, de Campos CP, Corani G, Zaffalon M (2015). "Learning Bayesian Networks with Thousands of Variables". NIPS-15: Advances in Neural Information Processing Systems. Vol. 28. Curran Associates. pp. 1855–1863.
^ (2013) "Scaling log-linear analysis to high-dimensional data" in International Conference on Data Mining., Dallas, TX, USA: IEEE.
^ M. Scanagatta, G. Corani, C. P. de Campos, and M. Zaffalon. Learning Treewidth-Bounded Bayesian Networks with Thousands of Variables. In NIPS-16: Advances in Neural Information Processing Systems 29, 2016.
^ ^أ ^ب Russell & Norvig 2003, p. 496.
^ ^أ ^ب Russell & Norvig 2003, p. 499.
^ Neapolitan, Richard E. (2004). Learning Bayesian networks. Prentice Hall. ISBN 978-0-13-012534-7. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
^ Cooper, Gregory F. (1990). "The Computational Complexity of Probabilistic Inference Using Bayesian Belief Networks" (PDF). Artificial Intelligence. 42 (2–3): 393–405. doi:10.1016/0004-3702(90)90060-d. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
^ Dagum P, Luby M (1993). "Approximating probabilistic inference in Bayesian belief networks is NP-hard". Artificial Intelligence. 60 (1): 141–153. CiteSeerX 10.1.1.333.1586. doi:10.1016/0004-3702(93)90036-b.
^ D. Roth, On the hardness of approximate reasoning, IJCAI (1993)
^ D. Roth, On the hardness of approximate reasoning, Artificial Intelligence (1996)
^ Dagum P, Luby M (1997). "An optimal approximation algorithm for Bayesian inference". Artificial Intelligence. 93 (1–2): 1–27. CiteSeerX 10.1.1.36.7946. doi:10.1016/s0004-3702(97)00013-1. Archived from the original on 2017-07-06. Retrieved 2015-12-19.
^ Hoffman, Matthew D.; Gelman, Andrew (2011). The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo. Bibcode: 2011arXiv1111.4246H.
^ Pearl, J. (1985). "Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning" (UCLA Technical Report CSD-850017) in Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA.: 329–334.
^ Bayes, T.; Price (1763). "An Essay towards solving a Problem in the Doctrine of Chances". Philosophical Transactions of the Royal Society. 53: 370–418. doi:10.1098/rstl.1763.0053. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
^ Pearl J (1988-09-15). Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. p. 1988. ISBN 978-1558604797.
^ Neapolitan, Richard E. (1989). Probabilistic reasoning in expert systems: theory and algorithms. Wiley. ISBN 978-0-471-61840-9. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

المراجع

Ben Gal, Irad (2007). "Bayesian Networks" (PDF). In Ruggeri, Fabrizio; Kennett, Ron S.; Faltin, Frederick W (eds.). Support-Page. Encyclopedia of Statistics in Quality and Reliability. John Wiley & Sons. doi:10.1002/9780470061572.eqr089. ISBN 978-0-470-01861-3. {{cite encyclopedia}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Bertsch McGrayne, Sharon (2011). The Theory That Would not Die. New Haven: Yale University Press. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Borgelt, Christian; Kruse, Rudolf (March 2002). Graphical Models: Methods for Data Analysis and Mining. Chichester, UK: Wiley. ISBN 978-0-470-84337-6. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Borsuk, Mark Edward (2008). "Ecological informatics: Bayesian networks". In Jørgensen, Sven Erik; Fath, Brian (eds.). Encyclopedia of Ecology. Elsevier. ISBN 978-0-444-52033-3. {{cite encyclopedia}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Castillo, Enrique; Gutiérrez, José Manuel; Hadi, Ali S. (1997). "Learning Bayesian Networks". Expert Systems and Probabilistic Network Models. Monographs in computer science. New York: Springer-Verlag. pp. 481–528. ISBN 978-0-387-94858-4. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Comley, Joshua W.; Dowe, David L. (June 2003). "General Bayesian networks and asymmetric languages". Proceedings of the 2nd Hawaii International Conference on Statistics and Related Fields. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Comley, Joshua W.; Dowe, David L. (2005). "Minimum Message Length and Generalized Bayesian Nets with Asymmetric Languages". In Grünwald, Peter D.; Myung, In Jae; Pitt, Mark A. (eds.). Advances in Minimum Description Length: Theory and Applications. Neural information processing series. Cambridge, Massachusetts: Bradford Books (MIT Press) (published April 2005). pp. 265–294. ISBN 978-0-262-07262-5. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help) (This paper puts decision trees in internal nodes of Bayes networks using Minimum Message Length (MML).
Darwiche, Adnan (2009). Modeling and Reasoning with Bayesian Networks. Cambridge University Press. ISBN 978-0521884389. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Dowe, David L. (2011-05-31). "Hybrid Bayesian network graphical models, statistical consistency, invariance and uniqueness" (PDF). Philosophy of Statistics (in الإنجليزية). Elsevier. pp. 901–982. ISBN 9780080930961.
Fenton, Norman; Neil, Martin E. (November 2007). "Managing Risk in the Modern World: Applications of Bayesian Networks" (PDF). A Knowledge Transfer Report from the London Mathematical Society and the Knowledge Transfer Network for Industrial Mathematics. London (England): London Mathematical Society. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Fenton, Norman; Neil, Martin E. (July 23, 2004). "Combining evidence in risk analysis using Bayesian Networks" (PDF). Safety Critical Systems Club Newsletter. Vol. 13, no. 4. Newcastle upon Tyne, England. pp. 8–13. Archived from the original (PDF) on 2007-09-27. {{cite news}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Gelman, Andrew; Carlin, John B; Stern, Hal S; Rubin, Donald B (2003). "Part II: Fundamentals of Bayesian Data Analysis: Ch.5 Hierarchical models". Bayesian Data Analysis. CRC Press. pp. 120–. ISBN 978-1-58488-388-3. {{cite book}}: External link in |chapterurl= (help); Unknown parameter |chapterurl= ignored (|chapter-url= suggested) (help); Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Heckerman, David (March 1, 1995). "Tutorial on Learning with Bayesian Networks". In Jordan, Michael Irwin (ed.). Learning in Graphical Models. Adaptive Computation and Machine Learning. Cambridge, Massachusetts: MIT Press (published 1998). pp. 301–354. ISBN 978-0-262-60032-3.

Also appears as Heckerman, David (March 1997). "Bayesian Networks for Data Mining". Data Mining and Knowledge Discovery. 1 (1): 79–119. doi:10.1023/A:1009730122752. S2CID 6294315.

An earlier version appears as Technical Report MSR-TR-95-06, Microsoft Research, March 1, 1995. The paper is about both parameter and structure learning in Bayesian networks.

Jensen, Finn V; Nielsen, Thomas D. (June 6, 2007). Bayesian Networks and Decision Graphs. Information Science and Statistics series (2nd ed.). New York: Springer-Verlag. ISBN 978-0-387-68281-5. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Karimi, Kamran; Hamilton, Howard J. (2000). "Finding temporal relations: Causal bayesian networks vs. C4. 5" (PDF). Twelfth International Symposium on Methodologies for Intelligent Systems. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Korb, Kevin B.; Nicholson, Ann E. (December 2010). Bayesian Artificial Intelligence. CRC Computer Science & Data Analysis (2nd ed.). Chapman & Hall (CRC Press). doi:10.1007/s10044-004-0214-5. ISBN 978-1-58488-387-6. S2CID 22138783. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Lunn D, Spiegelhalter D, Thomas A, Best N (November 2009). "The BUGS project: Evolution, critique and future directions". Statistics in Medicine. 28 (25): 3049–67. doi:10.1002/sim.3680. PMID 19630097.
Neil M, Fenton N, Tailor M (August 2005). Greenberg, Michael R. (ed.). "Using Bayesian networks to model expected and unexpected operational losses" (PDF). Risk Analysis. 25 (4): 963–72. doi:10.1111/j.1539-6924.2005.00641.x. PMID 16268944. S2CID 3254505.
Pearl, Judea (September 1986). "Fusion, propagation, and structuring in belief networks". Artificial Intelligence. 29 (3): 241–288. doi:10.1016/0004-3702(86)90072-X. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Pearl, Judea (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Representation and Reasoning Series (2nd printing ed.). San Francisco, California: Morgan Kaufmann. ISBN 978-0-934613-73-6. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Pearl, Judea; Russell, Stuart (November 2002). "Bayesian Networks". In Arbib, Michael A. (ed.). Handbook of Brain Theory and Neural Networks. Cambridge, Massachusetts: Bradford Books (MIT Press). pp. 157–160. ISBN 978-0-262-01197-6. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
قالب:Russell Norvig 2003.
Zhang, Nevin Lianwen; Poole, David (May 1994). "A simple approach to Bayesian network computations" (PDF). Proceedings of the Tenth Biennial Canadian Artificial Intelligence Conference (AI-94).: 171–178. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help) This paper presents variable elimination for belief networks.

للاستزادة

Conrady, Stefan; Jouffe, Lionel (2015-07-01). Bayesian Networks and BayesiaLab – A practical introduction for researchers. Franklin, Tennessee: Bayesian USA. ISBN 978-0-9965333-0-0. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Charniak, Eugene (Winter 1991). "Bayesian networks without tears" (PDF). AI Magazine. {{cite web}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Kruse, Rudolf; Borgelt, Christian; Klawonn, Frank; Moewes, Christian; Steinbrecher, Matthias; Held, Pascal (2013). Computational Intelligence A Methodological Introduction. London: Springer-Verlag. ISBN 978-1-4471-5012-1. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
Borgelt, Christian; Steinbrecher, Matthias; Kruse, Rudolf (2009). Graphical Models – Representations for Learning, Reasoning and Data Mining (Second ed.). Chichester: Wiley. ISBN 978-0-470-74956-2. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

وصلات خارجية

An Introduction to Bayesian Networks and their Contemporary Applications
On-line Tutorial on Bayesian nets and probability
Web-App to create Bayesian nets and run it with a Monte Carlo method
Continuous Time Bayesian Networks
Bayesian Networks: Explanation and Analogy
A live tutorial on learning Bayesian networks
A hierarchical Bayes Model for handling sample heterogeneity in classification problems, provides a classification model taking into consideration the uncertainty associated with measuring replicate samples.
Hierarchical Naive Bayes Model for handling sample uncertainty, shows how to perform classification and learning with continuous and discrete variables with replicated measurements.

الكلمات الدالة:

جامعة ستانفورد

[pearl2000-1] أ ^ب ^ت ^ث ^ج Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 978-0-521-77362-1. OCLC 42291253.

[2] "The Back-Door Criterion" (PDF). Retrieved 2014-09-18.

[3] "d-Separation without Tears" (PDF). Retrieved 2014-09-18.

[pearl-r212-4] (1994) "A Probabilistic Calculus of Actions". UAI'94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence: 454–462, San Mateo CA: Morgan Kaufmann.

[5] Shpitser I, Pearl J (2006). "Identification of Conditional Interventional Distributions". In Dechter R, Richardson TS (eds.). Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence. Corvallis, OR: AUAI Press. pp. 437–444. arXiv:1206.6876.

[6] Rebane G, Pearl J (1987). "The Recovery of Causal Poly-trees from Statistical Data". Proceedings, 3rd Workshop on Uncertainty in AI. Seattle, WA. pp. 222–228. arXiv:1304.2736.{{cite book}}: CS1 maint: location missing publisher (link)

[7] Spirtes P, Glymour C (1991). "An algorithm for fast recovery of sparse causal graphs" (PDF). Social Science Computer Review. 9 (1): 62–72. doi:10.1177/089443939100900106. S2CID 38398322.

[8] Spirtes, Peter; Glymour, Clark N.; Scheines, Richard (1993). Causation, Prediction, and Search (1st ed.). Springer-Verlag. ISBN 978-0-387-97979-3. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[9] (1991) "Equivalence and synthesis of causal models". UAI '90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence: 255–270, Elsevier.

[10] Friedman, Nir; Geiger, Dan; Goldszmidt, Moises (November 1997). "Bayesian Network Classifiers". Machine Learning. 29 (2–3): 131–163. doi:10.1023/A:1007465528199. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[11] Friedman N, Linial M, Nachman I, Pe'er D (August 2000). "Using Bayesian networks to analyze expression data". Journal of Computational Biology. 7 (3–4): 601–20. CiteSeerX 10.1.1.191.139. doi:10.1089/106652700750050961. PMID 11108481.

[12] Cussens, James (2011). "Bayesian network learning with cutting planes" (PDF). Proceedings of the 27th Conference Annual Conference on Uncertainty in Artificial Intelligence: 153–160. arXiv:1202.3713. Bibcode:2012arXiv1202.3713C. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[13] Scanagatta M, de Campos CP, Corani G, Zaffalon M (2015). "Learning Bayesian Networks with Thousands of Variables". NIPS-15: Advances in Neural Information Processing Systems. Vol. 28. Curran Associates. pp. 1855–1863.

[Petitjean-14] (2013) "Scaling log-linear analysis to high-dimensional data" in International Conference on Data Mining., Dallas, TX, USA: IEEE.

[15] M. Scanagatta, G. Corani, C. P. de Campos, and M. Zaffalon. Learning Treewidth-Bounded Bayesian Networks with Thousands of Variables. In NIPS-16: Advances in Neural Information Processing Systems 29, 2016.

[FOOTNOTERussellNorvig2003496-16] أ ^ب Russell & Norvig 2003, p. 496.

[FOOTNOTERussellNorvig2003499-17] أ ^ب Russell & Norvig 2003, p. 499.

[18] Neapolitan, Richard E. (2004). Learning Bayesian networks. Prentice Hall. ISBN 978-0-13-012534-7. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[19] Cooper, Gregory F. (1990). "The Computational Complexity of Probabilistic Inference Using Bayesian Belief Networks" (PDF). Artificial Intelligence. 42 (2–3): 393–405. doi:10.1016/0004-3702(90)90060-d. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[20] Dagum P, Luby M (1993). "Approximating probabilistic inference in Bayesian belief networks is NP-hard". Artificial Intelligence. 60 (1): 141–153. CiteSeerX 10.1.1.333.1586. doi:10.1016/0004-3702(93)90036-b.

[21] D. Roth, On the hardness of approximate reasoning, IJCAI (1993)

[22] D. Roth, On the hardness of approximate reasoning, Artificial Intelligence (1996)

[23] Dagum P, Luby M (1997). "An optimal approximation algorithm for Bayesian inference". Artificial Intelligence. 93 (1–2): 1–27. CiteSeerX 10.1.1.36.7946. doi:10.1016/s0004-3702(97)00013-1. Archived from the original on 2017-07-06. Retrieved 2015-12-19.

[24] Hoffman, Matthew D.; Gelman, Andrew (2011). The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo. Bibcode: 2011arXiv1111.4246H.

[25] Pearl, J. (1985). "Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning" (UCLA Technical Report CSD-850017) in Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA.: 329–334.

[26] Bayes, T.; Price (1763). "An Essay towards solving a Problem in the Doctrine of Chances". Philosophical Transactions of the Royal Society. 53: 370–418. doi:10.1098/rstl.1763.0053. {{cite journal}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[27] Pearl J (1988-09-15). Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. p. 1988. ISBN 978-1558604797.

[28] Neapolitan, Richard E. (1989). Probabilistic reasoning in expert systems: theory and algorithms. Wiley. ISBN 978-0-471-61840-9. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]