التعلم بإشراف

التعلم بإشراف Supervised learning هي مهمة التعلم الآلي لتعلم وظيفة تقوم بتعيين المدخلات إلى المخرجات بناءً على مثال أزواج المدخلات والمخرجات.^[1] يتم استنتاج وظيفة من بيانات التدريب المؤشر إليها المكونة من مجموعة من أمثلة التدريب.^[2] في التعلم بإشراف، يكون كل مثال زوجاً يتكون من موضوع إدخال (عادةً متجه) وقيمة إخراج مطلوبة (تسمى أيضًا الإشارة الإشرافية). تحلل خوارزمية التعلم يإشراف بيانات التدريب وتنتج وظيفة مستنتجة يمكن استخدامها لرسم خرائط لأمثلة جديدة. سيسمح السيناريو الأمثل للخوارزمية بتحديد تسميات الفئات بشكل صحيح للحالات غير المرئية. يتطلب هذا من خوارزمية التعلم التعميم من بيانات التدريب على المواقف غير المرئية بطريقة "معقولة" (انظر التحيز الاستقرائي).

غالبًا ما يشار إلى المهمة الموازية في علم نفس الإنسان والحيوان باسم مفهوم التعلم.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الخطوات

من أجل حل مشكلة معينة تتعلق بالتعلم الخاضع للإشراف ، يتعين على المرء تنفيذ الخطوات التالية:

تحديد نوع أمثلة التدريب. قبل القيام بأي شيء آخر، يجب على المستخدم تحديد نوع البيانات التي سيتم استخدامها كمجموعة تدريب. في حالة تحليل خط اليد، على سبيل المثال، قد يكون هذا حرفًا واحدًا مكتوبًا بخط اليد، أو كلمة مكتوبة بخط اليد بالكامل، أو سطر كامل من خط اليد.
اجمع مجموعة التدريب. يجب أن تكون مجموعة التدريب ممثلة للاستخدام الواقعي للوظيفة. وبالتالي، يتم جمع مجموعة من عناصر الإدخال ويتم أيضًا جمع المخرجات المقابلة، إما من الخبراء البشريين أو من القياسات.
تحديد تمثيل ميزة الإدخال للوظيفة المستفادة. تعتمد دقة الوظيفة التي تم تعلمها بشدة على كيفية تمثيل موضوع الإدخال. بشكل نموذجي، يتم تحويل موضوع الإدخال إلى متجه الميزة، والتي تحتوي على عدد من الميزات التي تصف الموضوع. يجب ألا يكون عدد الميزات كبيرًا جدًا، بسبب مشكلة الأبعاد؛ ولكن يجب أن تحتوي على معلومات كافية للتنبؤ بدقة بالمخرجات.
تحديد هيكل الوظيفة المكتسبة وخوارزمية التعلم المقابلة. على سبيل المثال، قد يختار المهندس استخدام مشغلات متجه الدعم أو شجرات القرار.
أكمل التصميم. قم بتشغيل خوارزمية التعلم على مجموعة التدريب المجمعة. تتطلب بعض خوارزميات التعلم الخاضع للإشراف من المستخدم تحديد پارمترات تحكم معينة. يمكن تعديل هذه الپارمترات من خلال تحسين الأداء على مجموعة فرعية (تسمى مجموعة التحقق من الصحة) لمجموعة التدريب، أو عبر التحقق المتبادل.
تقييم دقة الوظيفة المكتسبة. بعد ضبط الپارمتر والتعلم، يجب قياس أداء الوظيفة الناتجة على مجموعة اختبار منفصلة عن مجموعة التدريب.

اختيار الخوارزمية

تتوفر مجموعة واسعة من خوارزميات التعلم بإشراف، ولكل منها نقاط قوتها وضعفها. لا توجد خوارزمية تعليمية واحدة تعمل بشكل أفضل في جميع مسائل التعلم تحت الإشراف (راجع No free lunch theorem).

هناك أربع قضايا رئيسية يجب مراعاتها في التعلم تحت الإشراف:

موازنة التباين-التحيز

المسألة الأولى هي الموازنة بين التحيز و التباين.^[3] تخيل أن لدينا عدة مجموعات بيانات تدريبية مختلفة ولكنها جيدة بنفس القدر. تكون خوارزمية التعلم متحيزة لإدخال معين $x$ إذا كان، عند التدريب على كل مجموعة من مجموعات البيانات هذه، غير صحيح بشكل منهجي عند التنبؤ بالإخراج الصحيح لـ $x$ . تحتوي خوارزمية التعلم على تباين كبير لمدخل معين $x$ إذا توقعت قيم مخرجات مختلفة عند تدريبها على مجموعات تدريب مختلفة. يرتبط خطأ التنبؤ الخاص بالمصنِّف الذي تم تعلمه بمجموع التحيز والتباين في خوارزمية التعلم.^[4] بشكل عام، توجد موازنة بين التحيز والتباين. يجب أن تكون خوارزمية التعلم ذات التحيز المنخفض "مرنة" بحيث يمكن أن تناسب البيانات بشكل جيد. ولكن إذا كانت خوارزمية التعلم مرنة للغاية، فسوف تناسب كل مجموعة بيانات تدريب بشكل مختلف، وبالتالي يكون لها تباين كبير. يتمثل أحد الجوانب الرئيسية للعديد من طرق التعلم الخاضعة للإشراف في قدرتها على ضبط هذه الموازنة بين التحيز والتباين (إما تلقائيًا أو عن طريق توفير پارامتر تحيز / تباين يمكن للمستخدم تعديلها).

تعقيد التابع وكمية بيانات التدريب

المسألة الثانية هي كمية بيانات التدريب المتاحة بالنسبة لمدى تعقيد التابع "الصحيح" (المصنِّف أو تابع الانحدار). إذا كانت التابع الصحيح بسيط، فإن خوارزمية التعلم "غير المرنة" ذات التحيز العالي والتباين المنخفض ستكون قادرة على تعلمها من كمية صغيرة من البيانات. ولكن إذا كان التابع الصحيح معقداً للغاية (على سبيل المثال، لأنها تتضمن تفاعلات معقدة بين العديد من ميزات الإدخال المختلفة وتتصرف بشكل مختلف في أجزاء مختلفة من مساحة الإدخال)، فلن يكون التابع قادراً على التعلم إلا من كمية كبيرة جدًا من بيانات التدريب واستخدام خوارزمية تعلم "مرنة" مع انحياز منخفض وتباين كبير. فهناك فاصل واضح بين المدخلات والمخرجات المرغوبة.

أبعاد فضاء الإدخال

المسألة الثالثة هي أبعاد فضاء الإدخال. إذا كانت متجهات خاصية الإدخال ذات أبعاد عالية جدًا، فقد تكون مسألة التعلم صعبة حتى إذا اعتمد التابع الصحيح فقط على عدد صغير من هذه الميزات. وذلك لأن العديد من الأبعاد "الإضافية" يمكن أن تربك خوارزمية التعلم وتتسبب في تباين كبير. ومن ثم، فإن أبعاد المدخلات العالية تتطلب عادة ضبط المصنِّف ليكون له تباين منخفض وتحيز عالي. من الناحية العملية، إذا تمكن المهندس من إزالة الميزات التي لا صلة لها يدويًا من بيانات الإدخال، فمن المحتمل أن يؤدي ذلك إلى تحسين دقة الوظيفة التي تم تعلمها. بالإضافة إلى ذلك، هناك العديد من الخوارزميات لـ اختيار الميزة التي تسعى إلى تحديد الميزات ذات الصلة وتجاهل الميزات التي لا صلة لها. هذا مثال على الإستراتيجية الأكثر عمومية لـ تقليل الأبعاد، والتي تسعى إلى تعيين بيانات الإدخال في مساحة ذات بُعد أقل قبل تشغيل خوارزمية التعلم الخاضعة للإشراف.

التشويش في قيم الخرج

المسألة الرابعة هي درجة التشويش في قيم المخرجات المطلوبة (متغيرات الهدف الإشرافية). إذا كانت قيم المخرجات المرغوبة غالبًا غير صحيحة (بسبب خطأ بشري أو أخطاء في جهاز الاستشعار)، فيجب ألا تحاول خوارزمية التعلم العثور على وظيفة تطابق تمامًا أمثلة التدريب. تؤدي محاولة ملاءمة البيانات بعناية شديدة إلى الطفحان. يمكنك الإفراط في التجهيز حتى في حالة عدم وجود أخطاء في القياس (تشويش عشوائي) إذا كانت الوظيفة التي تحاول تعلمها معقدة للغاية بالنسبة لنموذج التعلم الخاص بك. في مثل هذه الحالة، فإن جزء الوظيفة المستهدفة الذي لا يمكن نمذجته "يفسد" بيانات التدريب الخاصة بك - هذه الظاهرة تسمى التشويش الحتمي. عند وجود أي نوع من التشويش، فمن الأفضل اتباع تحيز أعلى ومقدر تباين أقل.

في الممارسة العملية، هناك العديد من الأساليب للتخفيف من التشويش في قيم الإخراج مثل الإيقاف المبكر لمنع الطفحان وكذلك الكشف وإزالة أمثلة التدريب المشوشة قبل تدريب خوارزمية التعلم تحت الإشراف. هناك العديد من الخوارزميات التي تحدد أمثلة التدريب المشوشة وتقلل إزالة أمثلة التدريب المشوشة المشتبه بها قبل التدريب خطأ التعميم مع الأهمية الإحصائية.^[5]^[6]

عوامل أخرى للنظر فيها

تشمل العوامل الأخرى التي يجب مراعاتها عند اختيار وتطبيق خوارزمية التعلم ما يلي:

عدم تجانس البيانات. إذا تضمنت متجهات السمات سماتاً من أنواع مختلفة (متقطعة، مرتبة متقطعة، أعداد، قيم مستمرة)، فإن بعض الخوارزميات تكون أسهل في التطبيق من غيرها. العديد من الخوارزميات، بما في ذلك مشغلات متجهات الدعم و الانحدار الخطي و الانحدار اللوجستي و الشبكات العصبية و نظريات المجاور الأقرب، تتطلب أن تكون ميزات الإدخال رقمية ومقاسة لنطاقات مماثلة (على سبيل المثال ، إلى فاصل زمني [-1،1]). تعتبر النظريات التي تستخدم دالة المسافة، مثل نظريات المجاور الأقرب و مشغلات متجهات الدعم بنوى گاوسية الحساسة لهذا الأمر بشكل خاص. من مزايا شجرات القرار أنها تتعامل بسهولة مع البيانات غير المتجانسة.
التكرار في البيانات. إذا كانت ميزات الإدخال تحتوي على معلومات مكررة (على سبيل المثال، ميزات شديدة الارتباط)، فتكون بعض خوارزميات التعلم (على سبيل المثال، الانحدار الخطي، الانحدار اللوجستي، و الطرق القائمة على المسافة) سيئة الأداء بسبب عدم الاستقرار العددي. يمكن حل هذه المشكلات غالبًا بفرض شكل من أشكال التنظيم.
وجود تفاعلات واللا خطية. إذا قدمت كل ميزة من الميزات مساهمةً مستقلة في المخرجات، فإن الخوارزميات المعتمدة على التوابع الخطية (على سبيل المثال، الانحدار الخطي، الانحدار اللوجستي، مشغلات متجهات الدعم، نايڤ بايز) وتوابع المسافة (على سبيل المثال، نظريات المجاور الأقرب، مشغلات متجهات الدعم بنوى گاوسية) ستعمل بشكل جيد بشكل عام. ومع ذلك، إذا كانت هناك تفاعلات معقدة بين الميزات، فإن الخوارزميات مثل شجراتالقرار و الشبكات العصبية ستعمل بشكل أفضل ، لأنها مصممة خصيصًا لاكتشاف هذه التفاعلات. يمكن أيضًا تطبيق الطرق الخطية، ولكن يجب على المهندس تحديد التفاعلات يدويًا عند استخدامها.

عند التفكير في تطبيق جديد، يمكن للمهندس أن يقارن خوارزميات تعلم متعددة ويحدد تجريبيًا أيها يعمل بشكل أفضل على المشكلة المطروحة (انظر التحقق المتبادل). يمكن أن يستغرق ضبط أداء خوارزمية التعلم وقتًا طويلاً للغاية. بالنظر إلى الموارد الثابتة، غالبًا ما يكون من الأفضل قضاء المزيد من الوقت في جمع بيانات تدريب إضافية وميزات تعليمية أكثر من قضاء وقت إضافي في ضبط خوارزميات التعلم.

خوارزميات

أكثر خوارزميات التعلم استخداماً هي:

مشغلات متجهات الدعم Support Vector Machines
الانحدار الخطي linear regression
الانحدار اللوجستي logistic regression
نايڤ بايز naive Bayes
التحليل التمايزي الخطي linear discriminant analysis
شجرات القرار decision trees
خوارزمية مجاور k الأقرب k-nearest neighbor algorithm
الشبكات العصبية الشبكات العصبية (الإدراك متعدد الطبقات) Multilayer perceptron
تعلم التشابه Similarity learning

كيف تعمل خوارزميات التعلم بإشراف

نظراً لمجموعة من $N$ أمثلة تدريبية من النموذج $\{(x_{1},y_{1}),...,(x_{N},\;y_{N})\}$ حيث أن $x_{i}$ هو متجه السمة للمثال الأول و $y_{i}$ هي إشارتها (أي الصنف)، تسعى خوارزمية التعلم إلى تابع $g:X\to Y$ ، حيث $X$ هو فضاء الدخل و $Y$ فضاء الخرج. يكون التابع $g$ هو عنصر من فضاء بعض التوابع الممكنة $G$ ، عادة ما تسمى "فضاء الفرضية". من الملائم في بعض الأحيان تمثيل $g$ باستخدام تابع النقاط $f:X\times Y\to \mathbb {R}$ حيث أن $g$ يتم تعريفه على أنه إرجاع قيمة $y$ التي تعطي أعلى النقاط: $g(x)={\underset {y}{\arg \max }}\;f(x,y)$ . لندع $F$ تشير إلى فضاء توابع النقاط.

على الرغم من أنه يمكن أن يكون $G$ و $F$ أي فضاء للتوابع، فإن العديد من خوارزميات التعلم هي نماذج احتمالية حيث يأخذ $g$ شكل نموذج الاحتمال الشرطي $g(x)=P(y|x)$ ، أو يأخذ $f$ شكل نموذج الاحتمال المشترك $f(x,y)=P(x,y)$ . على سبيل المثال، نايڤ بايز و تحليل التمايز الخطي هما نموذجان احتماليان مشتركان، بينما الانحدار اللوجستي هو نموذج احتمالي مشروط. هناك طريقتان أساسيتان للاختيار $f$ أو $g$ :تقليل المخاطر التجريبية و تقليل المخاطر الهيكلية.^[7] يسعى تقليل المخاطر التجريبية إلى التابع الذي يناسب بيانات التدريب بشكل أفضل. يتضمن تقليل المخاطر الهيكلية تابع جزائي يتحكم في موازنة التحيز / التباين.

في كلتا الحالتين، يُفترض أن مجموعة التدريب تتكون من عينة من أزواج مستقلة وموزعة بشكل متماثل، $(x_{i},\;y_{i})$ . لقياس مدى ملاءمة التابع لبيانات التدريب، يُعرف تابع الضياعات $L:Y\times Y\to \mathbb {R} ^{\geq 0}$ . على سبيل المثال التدريبي $(x_{i},\;y_{i})$ ، يكون ضياع توقع القيمة ${\hat {y}}$ $L(y_{i},{\hat {y}})$ .

الخطر $R(g)$ لتابع $g$ يتم تعريفه على أنه الضياع المتوقع لـ $g$ . يمكن تقدير ذلك من بيانات التدريب كـ

R_{emp}(g)={\frac {1}{N}}\sum _{i}L(y_{i},g(x_{i}))

.

تقليل المخاطر التجريبية

في تقليل المخاطر التجريبية ، تسعى خوارزمية التعلم الخاضع للإشراف إلى التابع $g$ الذي يقلل $R(g)$ . ومن ثم، يمكن إنشاء خوارزمية تعلم خاضعة للإشراف من خلال تطبيق خوارزمية تحسين لإيجاد $g$ .

عندما تكون $g$ توزيع احتمالي مشروط $P(y|x)$ وتابع الضياعات هو احتمال السجل السلبي: $L(y,{\hat {y}})=-\log P(y|x)$ , عندئذٍ يكون تقليل المخاطر التجريبي مكافئًا لـ تقدير الاحتمالية القصوى.

عندما تتضمن $G$ العديد من التوابع المرشحة أو مجموعة التدريب ليست كبيرة بما فيه الكفاية، يؤدي تقليل المخاطر التجريبية إلى تباين كبير وضعف التعميم. فخوارزمية التعلم قادرة على حفظ أمثلة التدريب دون التعميم بشكل جيد. وهذا ما يسمى الطفحان.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تقليل المخاطر الهيكلية

Structural risk minimization seeks to prevent overfitting by incorporating a regularization penalty into the optimization. The regularization penalty can be viewed as implementing a form of Occam's razor that prefers simpler functions over more complex ones.

A wide variety of penalties have been employed that correspond to different definitions of complexity. For example, consider the case where the function $g$ is a linear function of the form

g(x)=\sum _{j=1}^{d}\beta _{j}x_{j}

.

A popular regularization penalty is $\sum _{j}\beta _{j}^{2}$ , which is the squared Euclidean norm of the weights, also known as the $L_{2}$ norm. Other norms include the $L_{1}$ norm, $\sum _{j}|\beta _{j}|$ , and the $L_{0}$ norm, which is the number of non-zero $\beta _{j}$ s. The penalty will be denoted by $C(g)$ .

The supervised learning optimization problem is to find the function $g$ that minimizes

J(g)=R_{emp}(g)+\lambda C(g).

The parameter $\lambda$ controls the bias-variance tradeoff. When $\lambda =0$ , this gives empirical risk minimization with low bias and high variance. When $\lambda$ is large, the learning algorithm will have high bias and low variance. The value of $\lambda$ can be chosen empirically via cross validation.

The complexity penalty has a Bayesian interpretation as the negative log prior probability of $g$ , $-\log P(g)$ , in which case $J(g)$ is the posterior probabability of $g$ .

Generative training

The training methods described above are discriminative training methods, because they seek to find a function $g$ that discriminates well between the different output values (see discriminative model). For the special case where $f(x,y)=P(x,y)$ is a joint probability distribution and the loss function is the negative log likelihood $-\sum _{i}\log P(x_{i},y_{i}),$ a risk minimization algorithm is said to perform generative training, because $f$ can be regarded as a generative model that explains how the data were generated. Generative training algorithms are often simpler and more computationally efficient than discriminative training algorithms. In some cases, the solution can be computed in closed form as in naive Bayes and linear discriminant analysis.

Generalizations

There are several ways in which the standard supervised learning problem can be generalized:

Semi-supervised learning: In this setting, the desired output values are provided only for a subset of the training data. The remaining data is unlabeled.
Weak supervision: In this setting, noisy, limited, or imprecise sources are used to provide supervision signal for labeling training data.
Active learning: Instead of assuming that all of the training examples are given at the start, active learning algorithms interactively collect new examples, typically by making queries to a human user. Often, the queries are based on unlabeled data, which is a scenario that combines semi-supervised learning with active learning.
Structured prediction: When the desired output value is a complex object, such as a parse tree or a labeled graph, then standard methods must be extended.
Learning to rank: When the input is a set of objects and the desired output is a ranking of those objects, then again the standard methods must be extended.

Approaches and algorithms

Analytical learning
Artificial neural network
Backpropagation
Boosting (meta-algorithm)
Bayesian statistics
Case-based reasoning
Decision tree learning
Inductive logic programming
Gaussian process regression
Genetic Programming
Group method of data handling
Kernel estimators
Learning Automata
Learning Classifier Systems
Minimum message length (decision trees, decision graphs, etc.)
Multilinear subspace learning
Naive Bayes classifier
Maximum entropy classifier
Conditional random field
Nearest Neighbor Algorithm
Probably approximately correct learning (PAC) learning
Ripple down rules, a knowledge acquisition methodology
Symbolic machine learning algorithms
Subsymbolic machine learning algorithms
Support vector machines
Minimum Complexity Machines (MCM)
Random Forests
Ensembles of Classifiers
Ordinal classification
Data Pre-processing
Handling imbalanced datasets
Statistical relational learning
Proaftn, a multicriteria classification algorithm

Applications

Bioinformatics
Cheminformatics
- Quantitative structure–activity relationship
Database marketing
Handwriting recognition
Information retrieval
- Learning to rank
Information extraction
Object recognition in computer vision
Optical character recognition
Spam detection
Pattern recognition
Speech recognition
Supervised learning is a special case of Downward causation in biological systems
Landform classification using Satellite imagery^[8]

General issues

Computational learning theory
Inductive bias
Overfitting (machine learning)
(Uncalibrated) Class membership probabilities
Unsupervised learning
Version spaces

References

^ Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 9780136042594.
^ Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258.
^ S. Geman, E. Bienenstock, and R. Doursat (1992). Neural networks and the bias/variance dilemma. Neural Computation 4, 1–58.
^ G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)
^ C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)
^ M.R. Smith and T. Martinez (2011). "Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified". Proceedings of International Joint Conference on Neural Networks (IJCNN 2011): 2690–2697. doi:10.1109/IJCNN.2011.6033571.
^ Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000.
^ A. Maity (2016). "Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features". arXiv:1608.00501 [cs.CV].

External links

Machine Learning Open Source Software (MLOSS)

الكلمات الدالة:

[1] Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 9780136042594.

[2] Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258.

[3] S. Geman, E. Bienenstock, and R. Doursat (1992). Neural networks and the bias/variance dilemma. Neural Computation 4, 1–58.

[4] G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)

[5] C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)

[6] M.R. Smith and T. Martinez (2011). "Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified". Proceedings of International Joint Conference on Neural Networks (IJCNN 2011): 2690–2697. doi:10.1109/IJCNN.2011.6033571.

[7] Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000.

[8] A. Maity (2016). "Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features". arXiv:1608.00501 [cs.CV].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]