رؤية الحاسوب

رؤية الحاسوب هو مجال علمي متعدد التخصصات يتعامل مع الكيفية التي يمكن بها لـ الحاسوب اكتساب فهم عالي المستوى من صورة رقمية أو فيديو. من منظور الهندسة ، يسعى إلى فهم وأتمتة المهام التي يمكن أن يقوم بها النظام البصري البشري.^[1]^[2]^[3]

تتضمن مهام رؤية الحاسوب طرق الحصول على ، المعالجة ، التحليل وفهم الصور الرقمية ، واستخراج البيانات عالية الأبعاد من العالم الحقيقي من أجل إنتاج معلومات رقمية أو رمزية ، على سبيل المثال في صيغ القرارات.^[4]^[5]^[6]^[7]يعني الفهم في هذا السياق تحويل الصور المرئية (إدخال شبكية العين) إلى أوصاف البشر و الكائنات بشكل منطقي لعمليات التفكير ويمكنها استخلاص الإجراءات المناسبة. يمكن النظر إلى فهم الصورة هذا على أنه تفكيك للمعلومات الرمزية من بيانات الصورة باستخدام نماذج تم إنشاؤها بمساعدة الهندسة والفيزياء والإحصاءات ونظرية التعلم.^[8]

يهتم التخصص العلمي للرؤية الحاسوبية بالنظرية الكامنة وراء النظم الاصطناعية التي تستخرج المعلومات من الصور. يمكن أن تأخذ بيانات الصورة العديد من الأشكال ، مثل تسلسلات الفيديو ، وطرق العرض من كاميرات متعددة ، وبيانات متعددة الأبعاد من ماسح ضوئي ثلاثي الأبعاد أو جهاز مسح طبي. يسعى النظام التكنولوجي للرؤية الحاسوبية إلى تطبيق نظرياته ونماذجه على بناء أنظمة رؤية الحاسوب.

تشمل المجالات الفرعية للرؤية الحاسوبية إعادة تشكيل المشهد ، واكتشاف الأحداث ، تتبع الڤيديو ، التعرف على الأشياء ، تقدير الوضع ثلاثي الأبعاد ، التعلم ، الفهرسة ، تقدير الحركة ، المؤازرة البصرية ، نمذجة المشهد ثلاثي الأبعاد ، استعادة الصور.^[6]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تعريف

رؤية الحاسب عبارة عن حقل متعدد التخصصات يتعامل مع كيفية صنع أجهزة الكمبيوتر لاكتساب فهم عالي المستوى من صورة رقمية أو فيديو. من منظور الهندسة ، فإنه يسعى إلى أتمتة المهام التي يمكن أن يقوم بها النظام البصري البشري.^[1]^[2]^[3] "tفرؤية الحاسوب معنية بالاستخراج والتحليل وفهم المعلومات المفيدة تلقائيًا من صورة واحدة أو سلسلة من الصور. وهي تنطوي على تطوير أساس نظري وخوارزمي لتحقيق الفهم البصري التلقائي."^[9] بصفتها تخصص علمي ، تهتم رؤية الحاسوب بالنظرية الكامنة وراء النظم الاصطناعية التي تستخرج المعلومات من الصور. يمكن أن تأخذ بيانات الصورة العديد من الأشكال ، مثل تسلسلات الفيديو أو المشاهدات من كاميرات متعددة أو بيانات متعددة الأبعاد من الماسح الضوئي الطبي.^[10] باعتبارها تخصصًا تقنيًا ، تسعى رؤية الحاسوب إلى تطبيق نظرياتها ونماذجها لبناء أنظمة رؤية الحاسوب.

تاريخ

في أواخر الستينيات ، بدأت فكرة رؤية الحاسوب في الجامعات التي كانت رائدة في الذكاء الاصطناعي. كان من المفترض أن تحاكي النظام البصري البشري ، كنقطة انطلاق لمنح الروبوتات السلوك الذكي.^[11] في عام 1966 ، كان يُعتقد أنه يمكن تحقيق ذلك من خلال مشروع صيفي ، عن طريق توصيل كاميرا بجهاز كمبيوتر وجعلها "تصف ما رآه".^[12]^[13]

ما ميز الرؤية الحاسوبية من المجال السائد معالجة الصور الرقمية في ذلك الوقت كان الرغبة في استخراج ثلاثي الأبعاد من الصور بهدف تحقيق فهم كامل للمشهد. شكلت الدراسات في السبعينيات الأسس الأولى للعديد من خوارزميات الرؤية الحاسوبية الموجودة اليوم ، بما في ذلك استخراج الحواف من الصور ، وسم الخطوط ، غير متعدد السطوح و نمذجة متعدد السطوح ، تمثيل الأجسام على أنها ترابطات بين الهياكل الصغيرة ، التدفق البصري ، و تقدير الحركة.^[11]

شهد العقد التالي دراسات تستند إلى تحليل رياضي أكثر صرامة والجوانب الكمية للرؤية الحاسوبية. وتشمل هذه مفهوم مقياس المساحة ، واستدلال الشكل من مختلف الإشارات مثل التظليل ، والملمس والتركيز ، و نموذج محيطي نشط يعرف باسم الثعابين. أدرك الباحثون أيضًا أن العديد من هذه المفاهيم الرياضية يمكن معالجتها ضمن نفس إطار التحسين مثل التسوية و مجال ماركوڤ العشوائي.^[14]

بحلول التسعينات ، أصبحت بعض مواضيع البحث السابقة أكثر نشاطًا من غيرها. أدى البحث في الإسقاطي عمليات إعادة البناء ثلاثية الأبعاد إلى فهم أفضل معايرة الكاميرا. مع ظهور طرق التحسين لمعايرة الكاميرا ، تم إدراك أن الكثير من الأفكار قد تم استكشافها بالفعل في نظرية تعديل الحزم من مجال التصوير الفوتوغرافي. أدى ذلك إلى طرق متفرقة عمليات إعادة إنشاء ثلاثية الأبعاد لمشاهد من صور متعددة. تم إحراز تقدم في مشكلة المراسلات الاستريو الكثيفة وتقنيات الاستريو متعددة المشاهد الأخرى. في الوقت نفسه ، تم استخدام تنويعات قطع الرسم البياني لحل تجزئة الصورة. شهد هذا العقد أيضًا أول مرة تم استخدام تقنيات التعلم الإحصائي في الممارسة العملية للتعرف على الوجوه في الصور (انظر Eigenface). في نهاية التسعينيات ، حدث تغيير هام مع زيادة التفاعل بين مجالات رسومات الكمبيوتر ورؤية الكمبيوتر. وشمل ذلك الاستدعاء المستند إلى الصورة ، تحويل الصورة ، إقحام العرض ، تركيب الصور البانورامية والمبكر عرض مجال الضوء.^[11]

شهد العمل الأخير عودة ظهور الأساليب القائمة على الميزة ، والتي يتم استخدامها مع تقنيات التعلم الآلي وأطر التحسين المعقدة.^[15]^[16]

جلب تقدم تقنيات التعلم العميق مزيدًا من الحيوية إلى مجال رؤية الكمبيوتر. تجاوزت دقة خوارزميات التعلم العميق في العديد من مجموعات بيانات رؤية الحاسوب المعيارية للمهام التي تتراوح من التصنيف والتجزئة والتدفق البصري للطرق السابقة.^{[بحاجة لمصدر]}

مجالات ذات صلة

الذكاء الصنعي

تتعامل مجالات الذكاء الصنعي مع التخطيط أو التداول المستقل للأنظمة الآلية من أجل التنقل عبر البيئة. مطلوب فهم مفصل لهذه البيئات للتنقل من خلالها. يمكن توفير معلومات حول البيئة من خلال نظام رؤية الكمبيوتر ، يعمل كمستشعر رؤية ويوفر معلومات عالية المستوى حول البيئة والآلية.

يشترك الذكاء الاصطناعي ورؤية الكمبيوتر في مواضيع أخرى مثل التعرف على الأنماط وتقنيات التعلم. وبالتالي ، يُنظر أحيانًا إلى رؤية الكمبيوتر على أنها جزء من مجال الذكاء الاصطناعي أو مجال علوم الكمبيوتر بشكل عام.

الهندسة المعلوماتية

غالبًا ما تعتبر رؤية الكمبيوتر جزءًا من هندسة المعلوماتية.^[17]^[18]

فيزياء الحالة الصلبة

فيزياء الحالة الصلبة مجال آخر يرتبط ارتباطًا وثيقًا برؤية الكمبيوتر. تعتمد معظم أنظمة رؤية الكمبيوتر على مستشعرات الصور ، التي تكتشف الإشعاع الكهرومغناطيسي ، والذي يكون عادة في شكل مرئي أو ضوء الأشعة تحت الحمراء. تم تصميم أجهزة الاستشعار باستخدام فيزياء الكم. يتم شرح العملية التي يتفاعل من خلالها الضوء مع الأسطح باستخدام الفيزياء. تشرح الفيزياء سلوك البصريات التي تعد جزءًا أساسيًا من معظم أنظمة التصوير. تتطلب مستشعرات الصورة المتطورة حتى ميكانيكا الكم لتوفير فهم كامل لعملية تكوين الصورة.^[11] أيضا ، يمكن معالجة مشاكل القياس المختلفة في الفيزياء باستخدام رؤية الكمبيوتر ، على سبيل المثال الحركة في السوائل.

علوم عصبية

المجال الثالث الذي يلعب دورًا مهمًا هو العلوم العصبية ، وتحديدًا دراسة نظام الرؤية البيولوجية. على مدار القرن الماضي ، كانت هناك دراسة مكثفة للعيون والخلايا العصبية وهياكل الدماغ المخصصة لمعالجة المحفزات البصرية في كل من البشر والحيوانات المختلفة. وقد أدى ذلك إلى وصف خشن ، لكنه معقد ، لكيفية عمل أنظمة الرؤية "الحقيقية" من أجل حل بعض المهام المتعلقة بالرؤية. وقد أدت هذه النتائج إلى مجال فرعي ضمن رؤية الكمبيوتر حيث تم تصميم الأنظمة الاصطناعية لتقليد معالجة وسلوك النظم البيولوجية ، على مستويات مختلفة من التعقيد. أيضًا ، بعض الأساليب القائمة على التعلم التي تم تطويرها ضمن رؤية الكمبيوتر ("" على سبيل المثال "" الشبكة العصبونية و التعلم العميق القائمة على تحليل الصور والميزات وتصنيفها) لها خلفيتها في علم الأحياء.

ترتبط بعض فروع أبحاث رؤية الكمبيوتر ارتباطًا وثيقًا بدراسة الرؤية البيولوجية - في الواقع ، تمامًا مثلما ترتبط العديد من فروع أبحاث الذكاء الاصطناعي ارتباطًا وثيقًا بالبحث في الوعي البشري ، واستخدام المعرفة المخزنة لتفسير ودمج واستخدام المعلومات البصرية. مجال دراسات الرؤية البيولوجية ونماذج العمليات الفزيولوجية وراء الإدراك البصري لدى البشر والحيوانات الأخرى. من ناحية أخرى ، تدرس رؤية الكمبيوتر وتصف العمليات المنفذة في البرمجيات والأجهزة وراء أنظمة الرؤية الاصطناعية. وقد ثبت أن التبادل بين التخصصات بين الرؤية البيولوجية والحاسوب مثمر في كلا المجالين.^[19]

معالجة الإشارة

مجال آخر يتعلق برؤية الكمبيوتر هو معالجة الإشارات. يمكن توسيع العديد من طرق معالجة الإشارات ذات المتغير الواحد ، عادةً الإشارات الزمنية ، بطريقة طبيعية لمعالجة الإشارات ذات المتغيرين أو الإشارات المتعددة المتغيرة في رؤية الكمبيوتر. ومع ذلك ، بسبب الطبيعة المحددة للصور ، هناك العديد من الطرق التي تم تطويرها داخل رؤية الكمبيوتر والتي ليس لها نظير في معالجة الإشارات ذات المتغير الواحد. يحدد هذا الحقل الفرعي في معالجة الإشارة كجزء من رؤية الكمبيوتر, جنباً إلى جنب مع الأبعاد المتعددة للإشارة.

مجالات أخرى

إلى جانب الآراء المذكورة أعلاه حول رؤية الكمبيوتر ، يمكن أيضًا دراسة العديد من الموضوعات البحثية ذات الصلة من وجهة نظر رياضية بحتة. على سبيل المثال ، تعتمد العديد من الطرق في رؤية الكمبيوتر على إحصائيات أو التحسين أو الهندسة. وأخيرًا ، تم تخصيص جزء كبير من المجال لجانب تنفيذ رؤية الكمبيوتر ؛ كيف يمكن تحقيق الأساليب الحالية في مجموعات مختلفة من البرامج والأجهزة ، أو كيف يمكن تعديل هذه الأساليب من أجل الحصول على سرعة المعالجة دون فقدان الكثير من الأداء. تستخدم رؤية الكمبيوتر أيضًا في التجارة الإلكترونية للأزياء ، وإدارة المخزون ، والبحث عن براءات الاختراع ، والأثاث ، وصناعة التجميل.^{[بحاجة لمصدر]}

فروقات

المجالات الأكثر ارتباطًا برؤية الكمبيوتر هي معالجة الصور ، تحليل الصور و الرؤية الآلية. هنالك تداخلاً كبيراً في مجموعة التقنيات والتطبيقات التي تغطيها. هذا يعني أن التقنيات الأساسية التي يتم استخدامها وتطويرها في هذه المجالات متشابهة ، وهو أمر يمكن تفسيره على أنه لا يوجد سوى حقل واحد بأسماء مختلفة. من ناحية أخرى ، يبدو أنه من الضروري للمجموعات البحثية والمجلات العلمية والمؤتمرات والشركات تقديم أو تسويق أنفسهم على أنهم ينتمون على وجه التحديد إلى أحد هذه المجالات ، ومن ثم ، فقد تم تقديم السمات المختلفة التي تميز كل مجال عن المجالات الأخرى.

تنتج رسوميات الحاسوب بيانات الصور من النماذج ثلاثية الأبعاد ، وغالبًا ما تنتج رؤية الحاسب نماذج ثلاثية الأبعاد من بيانات الصور.^[20] هناك أيضًا اتجاه نحو الجمع بين النظامين ، "على سبيل المثال" ، كما هو موضح في الواقع المعزز.

تبدو التوصيفات التالية ذات صلة ولكن لا يجب اعتبارها مقبولة عالميًا ::

معالجة الصور و تحليل الصور يميلان إلى التركيز على الصور ثنائية الأبعاد ، وكيفية تحويل صورة إلى أخرى ، "على سبيل المثال" ، من خلال عمليات الپكسل مثل تحسين التباين ، والعمليات المحلية مثل استخراج الحواف أو إزالة التشويش ، أو التحولات الهندسية مثل تدوير الصورة. يشير هذا الوصف إلى أن معالجة / تحليل الصورة لا تتطلب افتراضات ولا تنتج تفسيرات حول محتوى الصورة.
تتضمن رؤية الكمبيوتر تحليلاً ثلاثي الأبعاد من صور ثنائية الأبعاد. يقوم هذا بتحليل المشهد ثلاثي الأبعاد المسقط على صورة واحدة أو عدة صور ، على سبيل المثال ، "كيفية إعادة بناء الهيكل أو معلومات أخرى حول المشهد ثلاثي الأبعاد من صورة واحدة أو عدة صور. غالبًا ما تعتمد رؤية الكمبيوتر على افتراضات أكثر أو أقل تعقيدًا حول المشهد الموضح في الصورة.
الرؤية الآلية هي عملية تطبيق مجموعة من التقنيات والأساليب لتوفير الفحص التلقائي القائم على التصوير والتحكم في العملية وتوجيه الروبوت^[21] في التطبيقات الصناعية.^[19] تميل رؤية الآلة إلى التركيز على التطبيقات ، وبشكل رئيسي في التصنيع ، "على سبيل المثال" ، الروبوتات والأنظمة القائمة على الرؤية من أجل الفحص أو القياس أو الانتقاء القائم على الرؤية (مثل انتقاء الصناديق^[22]). هذا يعني أن تقنيات استشعار الصورة ونظرية التحكم غالبًا ما يتم دمجها مع معالجة بيانات الصورة للتحكم في الروبوت وأن المعالجة في الزمن الحقيقي يتم التأكيد عليها من خلال تطبيقات فعالة في الأجهزة والبرامج. وهذا يعني أيضًا أن الظروف الخارجية مثل الإضاءة يمكن أن تكون غالبًا ما تكون أكثر تحكمًا في رؤية الآلة مما هي عليه في رؤية الكمبيوتر العامة ، والتي يمكن أن تتيح استخدام خوارزميات مختلفة.
هناك أيضًا حقل يسمى التصوير الذي يركز بشكل أساسي على عملية إنتاج الصور ، ولكنه يتعامل أحيانًا أيضًا مع معالجة الصور وتحليلها. على سبيل المثال ، التصوير الطبي الذي يتضمن عملًا كبيرًا على تحليل بيانات الصورة في التطبيقات الطبية.
أخيرًا ، التعرف على الأنماط فهو حقل يستخدم أساليب مختلفة لاستخراج المعلومات من الإشارات بشكل عام ، ويستند بشكل أساسي إلى الأساليب الإحصائية و الشبكات العصبونية الاصطناعية. جزء كبير من هذا المجال مخصص لتطبيق هذه الأساليب على بيانات الصورة.

يتداخل المسح التصويري أيضًا مع رؤية الحاسوب ، على سبيل المثال ، القياس التصويري المجسم مقابل الرؤية المجسمة الحاسوبية.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تطبيقات

تتراوح التطبيقات من مهام مثل أنظمة رؤية الآلة الصناعية التي ، على سبيل المثال ، تفحص الزجاجات السريعة المرور على خط الإنتاج ، للبحث في الذكاء الاصطناعي وأجهزة الكمبيوتر أو الروبوتات التي يمكنها استيعاب الكائنات من حولهم. تتداخل مجالات رؤية الكمبيوتر ورؤية الآلة بشكل كبير. تغطي رؤية الكمبيوتر التكنولوجيا الأساسية لتحليل الصور الآلي الذي يستخدم في العديد من المجالات. تشير رؤية الماكينة عادةً إلى عملية الجمع بين تحليل الصور المؤتمت وطرق وتقنيات أخرى لتوفير الفحص الآلي وتوجيه الروبوت في التطبيقات الصناعية. في العديد من تطبيقات رؤية الكمبيوتر ، تتم برمجة أجهزة الكمبيوتر مسبقًا لحل مهمة معينة ، ولكن الطرق القائمة على التعلم أصبحت الآن شائعة بشكل متزايد. تتضمن أمثلة تطبيقات رؤية الحاسوب أنظمة لـ:

لقد كان تعلم الأشكال ثلاثية الأبعاد مهمة صعبة في رؤية الكمبيوتر. مكّنت التطورات الحديثة في التعلم العميق الباحثين من بناء نماذج قادرة على إنشاء وإعادة تشكيل الأشكال ثلاثية الأبعاد من مشهد واحد أو متعدد كخريطة العمق لرسومات الحاسوب ثلاثية الأبعاد أو الصور الظلية بسلاسة وكفاءة. ^[20]

الفحص الأوتوماتيكي ، "على سبيل المثال" ، في تطبيقات التصنيع ؛
مساعدة البشر في مهام تحديد الهوية ، على سبيل المثال ، نظام تحديد الأنواع;^[23]
عمليات التحكم ، على سبيل المثال ، الروبوت الصناعي ؛
كشف الأحداث ، على سبيل المثال ، لـ المراقبة المرئية أو عدّ الأشخاص ، على سبيل المثال ، في صناعة المطاعم ؛
التفاعل ، على سبيل المثال ، كمدخل لجهاز التفاعل بين الإنسان والحاسوب ؛
نمذجة الأشياء أو البيئات ، على سبيل المثال ، تحليل الصور الطبية أو النمذجة الطبوغرافية ؛
الملاحة ، على سبيل المثال، بواسطة مركبة مستقلة أو روبوت متنقل ؛ و
تنظيم المعلومات ، على سبيل المثال ، لفهرسة قواعد بيانات الصور وتسلسل الصور.

الطب

مفهوم الوسائط المرئية DARPA للمنطق المرئي

أحد أبرز مجالات التطبيق هو رؤية الكمبيوتر الطبية ، أو معالجة الصور الطبية ، التي تتميز باستخراج المعلومات من بيانات الصورة إلى تشخيص المريض. مثال على ذلك هو الكشف عن الورم ، تصلب الشرايين أو غيرها من التغيرات الخبيثة ؛ قياسات أبعاد الأعضاء ، وتدفق الدم ، وما إلى ذلك هي مثال آخر. كما يدعم البحث الطبي من خلال توفير معلومات جديدة: "على سبيل المثال" ، حول بنية الدماغ ، أو حول جودة العلاجات الطبية. تتضمن تطبيقات رؤية الكمبيوتر في المجال الطبي أيضًا تحسين الصور التي يفسرها البشر - صور الموجات فوق الصوتية أو صور الأشعة السينية على سبيل المثال - لتقليل تأثير التشويش.

رؤية الآلة

يوجد مجال تطبيق ثان في رؤية الكمبيوتر في الصناعة ، ويسمى أحيانًا رؤية الآلة ، حيث يتم استخراج المعلومات لغرض دعم عملية التصنيع. ومن الأمثلة على ذلك مراقبة الجودة حيث يتم فحص التفاصيل أو المنتجات النهائية تلقائيًا للعثور على العيوب. مثال آخر هو قياس الموقع واتجاه التفاصيل ليتم التقاطها بواسطة ذراع الروبوت. كما تستخدم رؤية الآلة بكثافة في العملية الزراعية لإزالة المواد الغذائية غير المرغوب فيها من كتلة المواد الكلية ، وهي عملية تسمى الفرز البصري أو التصنيف البصري.^[24]

الجيش

التطبيقات العسكرية هي على الأرجح واحدة من أكبر المجالات لرؤية الحاسوب. الأمثلة الواضحة هي الكشف عن جنود أو مركبات العدو و توجيه القذائف. ترسل الأنظمة الأكثر تقدمًا لتوجيه الصواريخ الصاروخ إلى منطقة بدلاً من هدف معين ، ويتم اختيار الهدف عندما يصل الصاروخ إلى المنطقة بناءً على بيانات الصورة المكتسبة محليًا. تشير المفاهيم العسكرية الحديثة ، مثل "الوعي و الإدراك في ساحة المعركة" ، إلى أن أجهزة الاستشعار المختلفة ، بما في ذلك أجهزة استشعار الصورة ، توفر مجموعة غنية من المعلومات حول مشهد قتالي يمكن استخدامه لدعم القرارات الاستراتيجية. في هذه الحالة ، يتم استخدام المعالجة التلقائية للبيانات لتقليل التعقيد ودمج المعلومات من أجهزة استشعار متعددة لزيادة الموثوقية.

مركبات ذاتية القيادة

مفهوم المصمم عن " كيريُستي" ، مثال لمركبة برية غير مأهولة. لاحظ أن الكاميرا المجسمة مثبتة على سطح المركبة.

واحدة من مجالات التطبيق الأحدث هي المركبات ذاتية القيادة ، والتي تشمل الغواصات ، ومركبات برية (روبوتات صغيرة ذات عجلات ، أو سيارات أو شاحنات) ، ومركبات جوية ، ومركبات جوية بلا طيار ( UAV). حيث يتراوح مستوى الاستقلالية من السيارات ذاتية القيادة (غير المأهولة) إلى المركبات حيث تدعم الأنظمة القائمة على رؤية الحاسوب السائق أو الطيار في حالات مختلفة. عادةً ما تستخدم المركبات المستقلة بالكامل رؤية الحاسوب للملاحة ، "على سبيل المثال" لمعرفة مكانها ، أو لإنتاج خريطة لبيئتها ( SLAM) ولاكتشاف العوائق. ويمكن استخدامها أيضًا للكشف عن بعض الأحداث الخاصة بمهام معينة ، على سبيل المثال ، طائرة بدون طيار وهي تبحث عن حرائق الغابات. هنالك أمثلة على أنظمة الدعم كأنظمة التحذير من العوائق في السيارات ، وأنظمة الهبوط الذاتي للطائرات. فقد أظهر العديد من مصنعي السيارات أنظمة لـ سيارة ذاتية القيادة ، لكن هذه التقنية لم تصل بعد إلى مستوى يمكن طرحه في السوق. فهناك أمثلة كثيرة على المركبات العسكرية المستقلة التي تتراوح من الصواريخ المتطورة إلى الطائرات بدون طيار لمهام إعادة الإعمار أو توجيه الصواريخ. يتم بالفعل استكشاف الفضاء باستخدام مركبات ذاتية القيادة باستخدام رؤية الحاسوب ، على سبيل المثال ناسا " كيريُستي و CNSA يوتو-2 rover.

ردود الفعل اللمسية

طبقة من الجلد الصناعي المطاطي ذات هيكل مرن لتقدير شكل الأسطح المتموجة الدقيقة

أعلاه قالب من السيليكون مزود بكاميرا داخلية تحتوي على العديد من علامات النقاط المختلفة. عندما يتم الضغط على هذا المستشعر على السطح ، يتشوه السيليكون ويتحول موضع علامات النقاط. يمكن للكمبيوتر عندئذٍ أخذ هذه البيانات وتحديد كيفية ضغط القالب بالضبط على السطح. يمكن استخدام هذا لمعايرة الأيدي الروبوتية للتأكد من أنها قادرة على فهم الأشياء و الأدوات بشكل فعال.

يتم استخدام مواد مثل المطاط والسيليكون لإنشاء أجهزة استشعار تسمح بتطبيقات مثل الكشف عن التموجات الصغيرة ومعايرة الأيدي الروبوتية. يمكن استخدام المطاط لإنشاء قالب يمكن وضعه على الإصبع ، سيكون داخل هذا القالب مقاييس سلالة متعددة. يمكن بعد ذلك وضع قالب الإصبع والمستشعرات فوق ورقة صغيرة من المطاط تحتوي على مجموعة من المسامير المطاطية. يمكن للمستخدم بعد ذلك ارتداء قالب الإصبع وتتبع السطح. يمكن للكمبيوتر بعد ذلك قراءة البيانات من مقاييس الإجهاد وقياس ما إذا تم دفع دبابيس واحد أو أكثر للأعلى. إذا تم دفع دبوس لأعلى ، فيمكن للكمبيوتر التعرف على ذلك على أنه عيب في السطح. هذا النوع من التكنولوجيا مفيد من أجل الحصول على بيانات دقيقة عن العيوب على سطح كبير جدًا.^[25] هناك اختلاف آخر لمستشعر قالب الإصبع هذا وهو المستشعرات التي تحتوي على كاميرا معلقة في السيليكون. يشكل السيليكون قبة حول الجزء الخارجي من الكاميرا ومدمجة في السيليكون عبارة عن علامات نقطية متساوية المسافات. يمكن بعد ذلك وضع هذه الكاميرات على أجهزة مثل الأيدي الروبوتية للسماح للكمبيوتر بتلقي بيانات ملموسة عالية الدقة.^[26]

تشمل مجالات التطبيق الأخرى:

دعم إنشاء تأثيرات بصرية للسينما والبث ، على سبيل المثال ، (توافق) تتبع الكاميرا.
مراقبة.
كشف تعب السائق^{[بحاجة لمصدر]}
تتبع وإحصاء الكائنات الحية في العلوم البيولوجية^[27]

المهام النموذجية

يستخدم كل مجال من مجالات التطبيق الموضحة أعلاه مجموعة من مهام رؤية الحاسوب ؛ مشاكل قياس أو معالجة محددة أكثر أو أقل ، والتي يمكن حلها باستخدام مجموعة متنوعة من الأساليب. يتم عرض بعض الأمثلة على مهام رؤية الكمبيوتر النموذجية أدناه.

تتضمن مهام رؤية الكمبيوتر طرق حساس الصورة ، المعالجة ، التحليل وفهم الصور الرقمية ، واستخراج البيانات عالية الأبعاد من العالم الحقيقي من أجل إنتاج معلومات رقمية أو رمزية ، "على سبيل المثال" ، في أشكال القرارات.^[4]^[5]^[6]^[7] يعني الفهم في هذا السياق تحويل الصور المرئية (داخل شبكية العين) إلى أوصاف للمحيط يمكنها التفاعل مع عمليات التفكير الأخرى واستنباط الإجراءات المناسبة. يمكن النظر إلى فهم الصورة هذا على أنه تفكيك للمعلومات الرمزية من بيانات الصورة باستخدام نماذج تم إنشاؤها بمساعدة الهندسة والفيزياء والإحصاءات ونظرية التعلم.^[8]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الإدراك

تتمثل المشكلة الكلاسيكية في رؤية الحاسوب ومعالجة الصور و رؤية الآلة في تحديد ما إذا كانت بيانات الصورة تحتوي على كائن أو ميزة أو نشاط معين أم لا. يتم وصف أنواع مختلفة من مسألة التعرف أو الإدراك في الوصف:^{[بحاجة لمصدر]}

التعرف على الأشياء (و الذي يسمى تصنيف المواد) – يمكن التعرف على واحد أو أكثر من المواد أو الأشياء المحددة مسبقًا أو المكتسبة بالتعليم أو فئات المادة أو الكائن ، عادةً مع مواضعها ثنائية الأبعاد في الصورة أو أوضاع ثلاثية الأبعاد في المشهد. يقدم كل من بلِپَر و گوگل گُگلز و لايك ذات وهي برامج مستقلة توضح هذه الوظيفة.
كشف الهوية – يتم التعرف على مثيل فردي لكائن ما. تشمل الأمثلة تحديد وجه أو بصمة شخص معين ، أو تحديد الأرقام المكتوبة بخط اليد ، أو تحديد مركبة معينة.
الكشف – يتم مسح بيانات الصورة لحالة معينة. تشمل الأمثلة الكشف عن الخلايا أو الأنسجة غير الطبيعية المحتملة في الصور الطبية أو الكشف عن مركبة في نظام رسوم الطرق التلقائي. يُستخدم الكشف المستند إلى عمليات حسابية بسيطة وسريعة نسبيًا في بعض الأحيان للعثور على مناطق أصغر من بيانات الصور المثيرة للاهتمام والتي يمكن تحليلها بشكل أكبر من خلال تقنيات تتطلب المزيد من العمليات الحسابية لإنتاج تفسير صحيح.

حاليًا ، تعتمد أفضل الخوارزميات لمثل هذه المهام على الشبكات العصبية التلافيفية. تم توضيح مثال لقدراتهم بواسطة إيمج نت تحدي التعرف البصري على نطاق واسع؛ هذا هو معيار في تصنيف الكائنات والكشف عنها ، مع ملايين الصور ومئات فئات الكائنات. أصبح أداء الشبكات العصبية التلافيفية ، في اختبارات إيمج نت، قريبًا من أداء الشبكات البشرية.^[28] لا تزال أفضل الخوارزميات تتعاكل بصعوبة مع الأشياء الصغيرة أو الرقيقة ، مثل نملة صغيرة على ساق زهرة أو شخص يمسك ريشة في يده. لديهم أيضًا مشكلة في الصور التي تم تشويهها بالفلاتر (وهي ظاهرة شائعة بشكل متزايد مع الكاميرات الرقمية الحديثة). على النقيض من ذلك ، نادرًا ما تكدر هذه الأنواع من الصور البشر. ومع ذلك ، يميل البشر إلى مواجهة مشاكل مع قضايا أخرى. على سبيل المثال ، ليست جيدة في تصنيف الأشياء إلى فئات دقيقة ، مثل سلالة معينة من الكلاب أو أنواع الطيور ، في حين تتعامل الشبكات العصبية التلافيفية مع هذا بسهولة^{[بحاجة لمصدر]}.

توجد العديد من المهام المتخصصة القائمة على الإدراك، مثل:

استرجاع الصور على أساس المحتوى – العثور على جميع الصور في مجموعة أكبر من الصور التي تحتوي على محتوى معين. يمكن تحديد المحتوى بطرق مختلفة ، على سبيل المثال من حيث التشابه النسبي للصورة المستهدفة (أعطني جميع الصور المشابهة للصورة X) ، أو من حيث معايير البحث عالية المستوى المقدمة كإدخال نص (أعطني جميع الصور التي تحتوي على العديد من المنازل ، تؤخذ خلال فصل الشتاء ، وليس فيها سيارات).

رؤية الكمبيوتر لأغراض إحصاء تعداد الناس في الأماكن العامة والمولات ومراكز التسوق

تقدير الموضع – تقدير موضع أو اتجاه كائن معين بالنسبة للكاميرا. من أمثلة التطبيقات لهذه التقنية مساعدة ذراع آلي في استرجاع الأشياء من حزام ناقل في حالة خط التجميع أو انتقاء أجزاء من سلة.
التعرف الضوئي على الحروف (OCR) – تحديد الأحرف في صور للنص المطبوع أو المكتوب بخط اليد ، عادةً بهدف ترميز النص بتنسيق أكثر قابلية للتحرير أو الفهرسة (مثال ASCII).
قراءة الرمز ثنائي الأبعاد – قراءة رموز ثنائية الأبعاد مثل مصفوفة البيانات و رموز QR.
التعرف على الوجه
تقنية التعرف على الأشكال (SRT) في أنظمة إحصاء تعداد الناس التي تميز البشر (أنماط الرأس والكتف) عن الأشياء الأخرى

تحليل الحركة

تتعلق العديد من المهام بتقدير الحركة حيث تتم معالجة تسلسل صور لإنتاج تقدير للسرعة إما في كل نقطة في الصورة أو في المشهد ثلاثي الأبعاد ، أو حتى في الكاميرا التي تنتج الصور. أمثلة على هذه المهام هي:

تحريك ذاتي – تحديد الحركة الجامدة ثلاثية الأبعاد (دوران وتحريك) للكاميرا من تسلسل صور تم إنتاجه بواسطة الكاميرا.
التتبع – بعد تحركات مجموعة أصغر (عادةً) من نقاط مرجعية أو الأشياء ("على سبيل المثال" المركبات أو البشر أو الكائنات الحية الأخرى)^[27] في تتابع الصورة.
تدفق بصري – لتحديد ، لكل نقطة في الصورة ، كيف تتحرك هذه النقطة بالنسبة لمستوى الصورة ، "أي" ، حركتها الظاهرة. هذه الحركة هي نتيجة لكيفية تحرك النقطة الثلاثية الأبعاد المقابلة في المشهد وكيف تتحرك الكاميرا بالنسبة للمشهد.

إعادة بناء المشهد

عند إعطاء صورة أو (عادة) المزيد من الصور لمشهد أو مقطع فيديو ، تهدف إعادة بناء المشهد إلى حساب نموذج ثلاثي الأبعاد للمشهد. في أبسط الحالات ، يمكن أن يكون النموذج عبارة عن مجموعة من النقاط ثلاثية الأبعاد. تنتج الطرق الأكثر تعقيدًا نموذج سطح كامل ثلاثي الأبعاد. إن ظهور التصوير ثلاثي الأبعاد الذي لا يتطلب حركة أو مسحًا ، وخوارزميات المعالجة ذات الصلة تتيح التقدم السريع في هذا المجال. يمكن استخدام الاستشعار ثلاثي الأبعاد المستند إلى الشبكة للحصول على صور ثلاثية الأبعاد من زوايا متعددة. تتوفر الخوارزميات الآن لربط العديد من الصور ثلاثية الأبعاد معًا في السحب النقطية والنماذج ثلاثية الأبعاد.^[20]

استعادة صورة

الهدف من استعادة الصورة هو إزالة التشويش (تشويش الحساس ، ضبابية الحركة ، إلخ) من الصور. إن أبسط طريقة ممكنة لإزالة التشويش هي أنواع مختلفة من الفلاتر مثل فلاتر التمرير المنخفض أو الفلاتر المتوسطة. تفترض الأساليب الأكثر تعقيدًا نموذجًا لكيفية ظهور هياكل الصورة المحلية ، لتمييزها عن التشويش. من خلال تحليل بيانات الصورة أولاً من حيث هياكل الصور المحلية ، مثل الخطوط أو الحواف ، ثم التحكم في التصفية بناءً على المعلومات المحلية من خطوة التحليل ، يتم عادةً الحصول على مستوى أفضل لإزالة التشويش مقارنة بالطرق الأبسط.

من الأمثلة في هذا المجال ترميم الصورة.

نهج النظام

يعتمد تنظيم نظام رؤية الحاسوب بشكل كبير على التطبيق. بعض الأنظمة عبارة عن تطبيقات قائمة بذاتها تعمل على حل مشكلة قياس أو كشف معينة ، بينما يشكل البعض الآخر نظامًا فرعيًا بتصميم أكبر يحتوي ، على سبيل المثال ، على أنظمة فرعية للتحكم في المحركات الميكانيكية والتخطيط وقواعد بيانات المعلومات و واجهات الإنسان-الآلة ، وما إلى ذلك. يعتمد التطبيق المحدد لنظام رؤية الكمبيوتر أيضًا على ما إذا كانت وظيفته محددة مسبقًا أو إذا كان يمكن تعلم جزء منها أو تعديله أثناء التشغيل. هنالك العديد من الوظائف الفريدة للتطبيق. ومع ذلك ، وهنالك وظائف نموذجية توجد في العديد من أنظمة رؤية الحاسوب.

اكتساب صورة – يتم إنتاج الصورة الرقمية بواسطة واحدة أو أكثر من مستشعرات الصور ، والتي ، إلى جانب أنواع مختلفة من الكاميرات الحساسة للضوء ، تشمل مستشعرات المدى ، وأجهزة التصوير المقطعي ، والرادار ، والكاميرات فوق الصوتية ، إلخ. وفقًا لنوع المستشعر ، تكون بيانات الصورة الناتجة صورة عادية ثنائية الأبعاد ، أو حجم ثلاثي الأبعاد ، أو تسلسل صور. تتوافق قيم البكسل عادةً مع شدة الضوء في واحد أو عدة نطاقات طيفية (صور رمادية أو صور ملونة) ، ولكن يمكن أيضًا أن ترتبط بمقاييس فيزيائية مختلفة ، مثل العمق أو الامتصاص أو الانعكاس للموجات الصوتية أو الكهرومغناطيسية ، أو الرنين المغناطيسي النووي.^[24]
المعالجة المسبقة – قبل التمكن من تطبيق طريقة رؤية الكمبيوتر على بيانات الصورة لاستخراج جزء معين من المعلومات ، من الضروري عادةً معالجة البيانات للتأكد من أنها تفي ببعض الافتراضات التي تنطوي عليها الطريقة. من الأمثلة:
- إعادة أخذ العينات للتأكد من صحة نظام إحداثيات الصورة.
- تقليل التشويش للتأكد من أن تشويش المستشعر لايقدم معلومات خاطئة.
- تحسين التباين لضمان إمكانية اكتشاف المعلومات ذات الصلة.
- مقياس المساحة تمثيل لتحسين هياكل الصور بمقاييس مناسبة محلياً.
استخراج الملامح- يتم استخراج ميزات و ملامح الصورة بمستويات مختلفة من التعقيد من بيانات الصورة.^[24] الأمثلة النموذجية لهذه الميزات:
- الخطوط و الحواف و التلال.
- نقاط الاهتمام محددة الموقع مثل الزوايا أو قطرات أو النقاط.

قد تكون الميزات الأكثر تعقيدًا مرتبطة بالملمس أو الشكل أو الحركة.

الكشف / التقسيم- في مرحلة ما من المعالجة ، يتم اتخاذ قرار بشأن نقاط الصورة أو مناطق الصورة ذات الصلة بالمزيد من المعالجة.^[24]من الأمثلة:
- اختيار مجموعة محددة من نقاط الاهتمام.
- تقسيم منطقة صورة واحدة أو عدة مناطق تحتوي على شيء محدد محل اهتمام.
- تجزئة الصورة إلى بنية مشهد متداخلة تشتمل الطليعة أو مجموعات الكائنات أو كائنات مفردة أو كائن بارز^[29] الأجزاء (يشار إليها أيضًا بالتسلسل الهرمي لموقع مجموعة المكاني),^[30]بينما يتم تنفيذ البروز البصري غالبًا المكاني و الملاحظة الزمنية.
- التقسيم أو التقسيم المشترك لمقطع فيديو واحد أو أكثر في سلسلة من الأقنعة الأمامية لكل إطار ، مع الحفاظ على استمراريته الدلالية الزمنية.^[31]^[32]
معالجة عالية المستوى – Atفي هذه الخطوة ، يكون الإدخال عادةً عبارة عن مجموعة صغيرة من البيانات ، على سبيل المثال مجموعة من النقاط أو منطقة صورة يُفترض أنها تحتوي على كائن معين.^[24] تتعامل المعالجة المتبقية ، على سبيل المثال:
- التحقق من أن البيانات تفي بالافتراضات القائمة على النموذج والتطبيق.
- تقدير الپارامترات الخاصة بالتطبيق ، مثل وضع الكائن أو حجم الكائن.
- التعرف على الصور - تصنيف كائن مكتشف إلى فئات مختلفة.
- تسجيل الصور - مقارنة ودمج مشاهدتين مختلفتين لنفس الكائن.
صنع القرار اتخاذ القرار النهائي المطلوب للتطبيق,^[24] على سبيل المثال:
- اجتياز / فشل في تطبيقات الفحص التلقائي.
- تطابق / لا يوجد تطابق في تطبيقات التعرف.
- وضع علامة لمزيد من المراجعة البشرية في التطبيقات الطبية والعسكرية والأمنية والتعرف عليها.

أنظمة فهم الصورة

تتضمن أنظمة فهم الصورة (IUS) ثلاثة مستويات من التجريد على النحو التالي: يتضمن المستوى المنخفض العناصر الأولية للصورة مثل الحواف أو عناصر البنية أو المناطق ؛ يشمل المستوى المتوسط الحدود والأسطح والأحجام ؛ ويشمل المستوى العالي الأشياء أو المشاهد أو الأحداث. العديد من هذه المتطلبات هي مواضيع بالكامل لمزيد من البحث. المتطلبات التمثيلية في تصميم (IUS) لهذه المستويات هي: تمثيل المفاهيم النموذجية ، وتنظيم المفاهيم ، والمعرفة المكانية ، والمعرفة الزمنية ، والقياس ، والوصف من خلال المقارنة والتمايز.

بينما يشير الاستدلال إلى عملية استخلاص حقائق جديدة غير ممثلة بشكل صريح من الحقائق المعروفة حاليًا ، يشير التحكم إلى العملية التي تحدد أيًا من تقنيات الاستدلال والبحث والمطابقة العديدة التي يجب تطبيقها في مرحلة معينة من المعالجة. متطلبات الاستدلال والتحكم في (IUS) هي: البحث وتفعيل الفرضية ، المطابقة واختبار الفرضية ، توليد واستخدام التوقعات ، التغيير وتركيز الانتباه ، اليقين وقوة الاعتقاد ، الاستدلال ورضا الهدف.^[33]

المعدات

يتضمن iPad الجديد مستشعر ليدار

هناك أنواع عديدة من أنظمة رؤية الكمبيوتر ؛ ومع ذلك ، تحتوي جميعها على هذه العناصر الأساسية: مصدر طاقة ، وجهاز واحد على الأقل للحصول على صورة (كاميرا ، ccd ، وما إلى ذلك) ، ومعالج وكابلات تحكم واتصال أو نوع من آلية التوصيل البيني اللاسلكي. بالإضافة إلى ذلك ، يحتوي نظام الرؤية العملية على برامج ، بالإضافة إلى شاشة عرض لمراقبة النظام. تحتوي أنظمة الرؤية للمساحات الداخلية ، مثل معظم الأماكن الصناعية ، على نظام إضاءة ويمكن وضعها في بيئة خاضعة للرقابة. علاوة على ذلك ، يتضمن النظام المكتمل العديد من الملحقات مثل دعامات الكاميرا والكابلات والموصلات.

تستخدم معظم أنظمة رؤية الكمبيوتر كاميرات الضوء المرئي التي تعرض بشكل سلبي مشهد بمعدلات إطارات بحد أقصى 60 إطارًا في الثانية (عادةً أبطأ كثيرًا).

تستخدم بعض أنظمة رؤية الكمبيوتر أجهزة التقاط الصور ذات الإضاءة النشطة أو أي شيء آخر بخلاف الضوء المرئي أو كليهما ، مثل الماسح الضوئي ثلاثي الأبعاد الخفيف ، الكاميرا الحرارية ، التصوير الطيفي ، التصوير بالرادار ، ليدار الماسحات الضوئية ، صور الرنين المغناطيسي ، سونار المسح الجانبي ، سونار ذو الفتحة الاصطناعية ، إلخ. هذه الأجهزة تلتقط "الصور" التي ثم تتم معالجتها غالبًا باستخدام نفس خوارزميات رؤية الكمبيوتر المستخدمة لمعالجة صور الضوء المرئي.

في حين أن أنظمة البث التقليدية وأنظمة الفيديو الاستهلاكية تعمل بمعدل 30 إطارًا في الثانية ، فإن التقدم في معالجة الإشارات الرقمية و أجهزة رسومات المستهلك جعل الحصول على الصور ومعالجتها وعرضها عالي السرعة يمكن للأنظمة في الزمن الفعلي بترتيب مئات إلى آلاف الإطارات في الثانية. بالنسبة للتطبيقات في مجال الروبوتات ، تعد أنظمة الفيديو السريعة في الزمن الفعلي ذات أهمية حاسمة ويمكنها غالبًا تبسيط المعالجة المطلوبة لبعض الخوارزميات. عند الجمع مع جهاز عرض عالي السرعة ، يتيح الحصول السريع على الصور تحقيق الأبعاد الثلاثية وتتبع الميزات.^[34]

تتكون أنظمة الرؤية المركزية من كاميرا يمكن ارتداؤها حيث تلتقط الصور تلقائيًا من منظور الشخص الأول.

اعتبارًا من عام 2016 ، ظهرت وحدة معالجة الرؤية كفئة جديدة من المعالج ، لتكملة وحدات المعالجة المركزية و وحدات معالجة الرسومات (GPUs) في هذا الدور.^[35]

انظر أيضاً

قوائم

مراجع

^ ^أ ^ب Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall. ISBN 978-0-13-165316-0.
^ ^أ ^ب Huang, T. (1996-11-19). "Computer Vision : Evolution And Promise" in 19th CERN School of Computing.: 21–25, CERN. doi:10.5170/CERN-1996-008.21.
^ ^أ ^ب Milan Sonka; Vaclav Hlavac; Roger Boyle (2008). Image Processing, Analysis, and Machine Vision. Thomson. ISBN 978-0-495-08252-1.
^ ^أ ^ب Reinhard Klette (2014). Concise Computer Vision. Springer. ISBN 978-1-4471-6320-6.
^ ^أ ^ب Linda G. Shapiro; George C. Stockman (2001). Computer Vision. Prentice Hall. ISBN 978-0-13-030796-5.
^ ^أ ^ب ^ت Tim Morris (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN 978-0-333-99451-1.
^ ^أ ^ب Bernd Jähne; Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners. Academic Press. ISBN 978-0-13-085198-7.
^ ^أ ^ب David A. Forsyth; Jean Ponce (2003). Computer Vision, A Modern Approach. Prentice Hall. ISBN 978-0-13-085198-7.
^ http://www.bmva.org/visionoverview The British Machine Vision Association and Society for Pattern Recognition Retrieved February 20, 2017
^ Murphy, Mike. "Star Trek's "tricorder" medical scanner just got closer to becoming a reality".
^ ^أ ^ب ^ت ^ث Richard Szeliski (30 September 2010). Computer Vision: Algorithms and Applications. Springer Science & Business Media. pp. 10–16. ISBN 978-1-84882-935-0.
^ Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959 - 2004). hdl:1721.1/6125.
^ Margaret Ann Boden (2006). Mind as Machine: A History of Cognitive Science. Clarendon Press. p. 781. ISBN 978-0-19-954316-8.
^ Takeo Kanade (6 December 2012). Three-Dimensional Machine Vision. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
^ Nicu Sebe; Ira Cohen; Ashutosh Garg; Thomas S. Huang (3 June 2005). Machine Learning in Computer Vision. Springer Science & Business Media. ISBN 978-1-4020-3274-5.
^ William Freeman; Pietro Perona; Bernhard Scholkopf (2008). "Guest Editorial: Machine Learning for Computer Vision". International Journal of Computer Vision. 77 (1): 1. doi:10.1007/s11263-008-0127-7. ISSN 1573-1405.
^ "Information Engineering | Department of Engineering". www.eng.cam.ac.uk (in الإنجليزية). Retrieved 2018-10-03.
^ "Information Engineering Main/Home Page". www.robots.ox.ac.uk (in الإنجليزية). Retrieved 2018-10-03.
^ ^أ ^ب Steger, Carsten; Markus Ulrich; Christian Wiedemann (2018). Machine Vision Algorithms and Applications (2nd ed.). Weinheim: Wiley-VCH. p. 1. ISBN 978-3-527-41365-2. Retrieved 2018-01-30.
^ ^أ ^ب ^ت "Soltani, A. A., Huang, H., Wu, J., Kulkarni, T. D., & Tenenbaum, J. B. Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1511-1519)". 2019-01-25.
^ Turek, Fred (June 2011). "Machine Vision Fundamentals, How to Make Robots See". NASA Tech Briefs Magazine. 35 (6). pages 60–62
^ "The Future of Automated Random Bin Picking".
^ Wäldchen, Jana; Mäder, Patrick (2017-01-07). "Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review". Archives of Computational Methods in Engineering (in الإنجليزية). 25 (2): 507–543. doi:10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396. PMID 29962832.
^ ^أ ^ب ^ت ^ث ^ج ^ح E. Roy Davies (2005). Machine Vision: Theory, Algorithms, Practicalities. Morgan Kaufmann. ISBN 978-0-12-206093-9.
^ Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020-03-03). "Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces". ROBOMECH Journal. 7 (1): 11. doi:10.1186/s40648-020-00159-0. ISSN 2197-4225.
^ Choi, Seung-hyun; Tahara, Kenji (2020-03-12). "Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors". ROBOMECH Journal. 7 (1): 14. doi:10.1186/s40648-020-00162-5. ISSN 2197-4225.
^ ^أ ^ب Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Automated particle tracking to obtain population counts and size distributions from videos in r". Methods in Ecology and Evolution. 9 (4): 965–973. doi:10.1111/2041-210X.12975. ISSN 2041-210X.
^ O. Russakovsky et al., "ImageNet Large Scale Visual Recognition Challenge", 2014.
^ A. Maity (2015). "Improvised Salient Object Detection and Manipulation". arXiv:1511.02999 [cs.CV].
^ Barghout, Lauren. "Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions." Information Processing and Management of Uncertainty in Knowledge-Based Systems. Springer International Publishing, 2014.
^ Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks" (PDF). IEEE Transactions on Image Processing. 27 (12): 5840–5853. Bibcode:2018ITIP...27.5840L. doi:10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300.
^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Sensors. 18 (5): 1657. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447.{{cite journal}}: CS1 maint: unflagged free DOI (link)
^ Shapiro, Stuart C. (1992). Encyclopedia of Artificial Intelligence, Volume 1. New York: John WIley & Sons, Inc. pp. 643–646. ISBN 978-0-471-50306-4.
^ Kagami, Shingo (2010). High-speed vision systems and projectors for real-time perception of the world. Vol. 2010. pp. 100–107. doi:10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. {{cite book}}: |journal= ignored (help)
^ Seth Colaner (January 3, 2016). "A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU". www.tomshardware.com.

للاستزادة

David Marr (1982). Vision. W. H. Freeman and Company. ISBN 978-0-7167-1284-8.
Azriel Rosenfeld; Avinash Kak (1982). Digital Picture Processing. Academic Press. ISBN 978-0-12-597301-4.
Barghout, Lauren; Lawrence W. Lee (2003). Perceptual information processing system. U.S. Patent Application 10/618,543. ISBN 978-0-262-08159-7.
Berthold K.P. Horn (1986). Robot Vision. MIT Press. ISBN 978-0-262-08159-7.
Michael C. Fairhurst (1988). Computer Vision for robotic systems. Prentice Hall. ISBN 978-0-13-166919-2.
Olivier Faugeras (1993). Three-Dimensional Computer Vision, A Geometric Viewpoint. MIT Press. ISBN 978-0-262-06158-2.
Tony Lindeberg (1994). Scale-Space Theory in Computer Vision. Springer. ISBN 978-0-7923-9418-1.
James L. Crowley and Henrik I. Christensen (Eds.) (1995). Vision as Process. Springer-Verlag. ISBN 978-3-540-58143-7.
Gösta H. Granlund; Hans Knutsson (1995). Signal Processing for Computer Vision. Kluwer Academic Publisher. ISBN 978-0-7923-9530-0.
Reinhard Klette; Karsten Schluens; Andreas Koschan (1998). Computer Vision – Three-Dimensional Data from Images. Springer, Singapore. ISBN 978-981-3083-71-4.
Emanuele Trucco; Alessandro Verri (1998). Introductory Techniques for 3-D Computer Vision. Prentice Hall. ISBN 978-0-13-261108-4.
Bernd Jähne (2002). Digital Image Processing. Springer. ISBN 978-3-540-67754-3.
Richard Hartley and Andrew Zisserman (2003). Multiple View Geometry in Computer Vision. Cambridge University Press. ISBN 978-0-521-54051-3.
Gérard Medioni; Sing Bing Kang (2004). Emerging Topics in Computer Vision. Prentice Hall. ISBN 978-0-13-101366-7.
R. Fisher; K Dawson-Howe; A. Fitzgibbon; C. Robertson; E. Trucco (2005). Dictionary of Computer Vision and Image Processing. John Wiley. ISBN 978-0-470-01526-1.
Nikos Paragios and Yunmei Chen and Olivier Faugeras (2005). Handbook of Mathematical Models in Computer Vision. Springer. ISBN 978-0-387-26371-7.
Wilhelm Burger; Mark J. Burge (2007). Digital Image Processing: An Algorithmic Approach Using Java. Springer. ISBN 978-1-84628-379-6.
Pedram Azad; Tilo Gockel; Rüdiger Dillmann (2008). Computer Vision – Principles and Practice. Elektor International Media BV. ISBN 978-0-905705-71-2.
Richard Szeliski (2010). Computer Vision: Algorithms and Applications. Springer-Verlag. ISBN 978-1848829343.
J. R. Parker (2011). Algorithms for Image Processing and Computer Vision (2nd ed.). Wiley. ISBN 978-0470643853.
Richard J. Radke (2013). Computer Vision for Visual Effects. Cambridge University Press. ISBN 978-0-521-76687-6.
Nixon, Mark; Aguado, Alberto (2019). Feature Extraction and Image Processing for Computer Vision (4th ed.). Academic Press. ISBN 978-0128149768.

وصلات خارجية

USC Iris computer vision conference list
Computer vision papers on the web A complete list of papers of the most relevant computer vision conferences.
Computer Vision Online News, source code, datasets and job offers related to computer vision.
Keith Price's Annotated Computer Vision Bibliography
CVonline Bob Fisher's Compendium of Computer Vision.
British Machine Vision Association Supporting computer vision research within the UK via the BMVC and MIUA conferences, Annals of the BMVA (open-source journal), BMVA Summer School and one-day meetings
Computer Vision Container, Joe Hoeller GitHub: Widely adopted open-source container for GPU accelerated computer vision applications. Used by researchers, universities, private companies as well as the U.S. Gov't.

قالب:Computer vision footer

الكلمات الدالة:

[Ballard-Brown-1982-1] أ ^ب Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall. ISBN 978-0-13-165316-0.

[Huang-1996-2] أ ^ب Huang, T. (1996-11-19). "Computer Vision : Evolution And Promise" in 19th CERN School of Computing.: 21–25, CERN. doi:10.5170/CERN-1996-008.21.

[Sonka-Hlavac-Boyle-2008-3] أ ^ب Milan Sonka; Vaclav Hlavac; Roger Boyle (2008). Image Processing, Analysis, and Machine Vision. Thomson. ISBN 978-0-495-08252-1.

[Klette-2014-4] أ ^ب Reinhard Klette (2014). Concise Computer Vision. Springer. ISBN 978-1-4471-6320-6.

[Shapiro-Stockman-2001-5] أ ^ب Linda G. Shapiro; George C. Stockman (2001). Computer Vision. Prentice Hall. ISBN 978-0-13-030796-5.

[Morris-2004-6] أ ^ب ^ت Tim Morris (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN 978-0-333-99451-1.

[Jahne-Haussecker-2000-7] أ ^ب Bernd Jähne; Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners. Academic Press. ISBN 978-0-13-085198-7.

[Forsyth-Ponce-2003-8] أ ^ب David A. Forsyth; Jean Ponce (2003). Computer Vision, A Modern Approach. Prentice Hall. ISBN 978-0-13-085198-7.

[bmva-9] ttp://www.bmva.org/visionoverview The British Machine Vision Association and Society for Pattern Recognition Retrieved February 20, 2017

[10] Murphy, Mike. "Star Trek's "tricorder" medical scanner just got closer to becoming a reality".

[Szeliski2010-11] أ ^ب ^ت ^ث Richard Szeliski (30 September 2010). Computer Vision: Algorithms and Applications. Springer Science & Business Media. pp. 10–16. ISBN 978-1-84882-935-0.

[Seymour1966-12] Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959 - 2004). hdl:1721.1/6125.

[Boden2006-13] Margaret Ann Boden (2006). Mind as Machine: A History of Cognitive Science. Clarendon Press. p. 781. ISBN 978-0-19-954316-8.

[Kanade20122-14] Takeo Kanade (6 December 2012). Three-Dimensional Machine Vision. Springer Science & Business Media. ISBN 978-1-4613-1981-8.

[Sebe2005-15] Nicu Sebe; Ira Cohen; Ashutosh Garg; Thomas S. Huang (3 June 2005). Machine Learning in Computer Vision. Springer Science & Business Media. ISBN 978-1-4020-3274-5.

[Freeman2008-16] William Freeman; Pietro Perona; Bernhard Scholkopf (2008). "Guest Editorial: Machine Learning for Computer Vision". International Journal of Computer Vision. 77 (1): 1. doi:10.1007/s11263-008-0127-7. ISSN 1573-1405.

[17] "Information Engineering | Department of Engineering". www.eng.cam.ac.uk (in الإنجليزية). Retrieved 2018-10-03.

[18] "Information Engineering Main/Home Page". www.robots.ox.ac.uk (in الإنجليزية). Retrieved 2018-10-03.

[TextbookP1-19] أ ^ب Steger, Carsten; Markus Ulrich; Christian Wiedemann (2018). Machine Vision Algorithms and Applications (2nd ed.). Weinheim: Wiley-VCH. p. 1. ISBN 978-3-527-41365-2. Retrieved 2018-01-30.

[3DVAE-20] أ ^ب ^ت "Soltani, A. A., Huang, H., Wu, J., Kulkarni, T. D., & Tenenbaum, J. B. Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1511-1519)". 2019-01-25.

[NASAarticle-21] Turek, Fred (June 2011). "Machine Vision Fundamentals, How to Make Robots See". NASA Tech Briefs Magazine. 35 (6). pages 60–62

[22] "The Future of Automated Random Bin Picking".

[23] Wäldchen, Jana; Mäder, Patrick (2017-01-07). "Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review". Archives of Computational Methods in Engineering (in الإنجليزية). 25 (2): 507–543. doi:10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396. PMID 29962832.

[Davies-2005-24] أ ^ب ^ت ^ث ^ج ^ح E. Roy Davies (2005). Machine Vision: Theory, Algorithms, Practicalities. Morgan Kaufmann. ISBN 978-0-12-206093-9.

[:0-25] Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020-03-03). "Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces". ROBOMECH Journal. 7 (1): 11. doi:10.1186/s40648-020-00159-0. ISSN 2197-4225.

[:1-26] Choi, Seung-hyun; Tahara, Kenji (2020-03-12). "Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors". ROBOMECH Journal. 7 (1): 14. doi:10.1186/s40648-020-00162-5. ISSN 2197-4225.

[BruijningVisser2018-27] أ ^ب Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Automated particle tracking to obtain population counts and size distributions from videos in r". Methods in Ecology and Evolution. 9 (4): 965–973. doi:10.1111/2041-210X.12975. ISSN 2041-210X.

[28] O. Russakovsky et al., "ImageNet Large Scale Visual Recognition Challenge", 2014.

[29] A. Maity (2015). "Improvised Salient Object Detection and Manipulation". arXiv:1511.02999 [cs.CV].

[30] Barghout, Lauren. "Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions." Information Processing and Management of Uncertainty in Knowledge-Based Systems. Springer International Publishing, 2014.

[Liu_Wang_Hua_Zhang_2018_pp._5840–5853-31] Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks" (PDF). IEEE Transactions on Image Processing. 27 (12): 5840–5853. Bibcode:2018ITIP...27.5840L. doi:10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300.

[Wang_Duan_Zhang_Niu_p=1657-32] Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Sensors. 18 (5): 1657. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447.{{cite journal}}: CS1 maint: unflagged free DOI (link)

[33] Shapiro, Stuart C. (1992). Encyclopedia of Artificial Intelligence, Volume 1. New York: John WIley & Sons, Inc. pp. 643–646. ISBN 978-0-471-50306-4.

[34] Kagami, Shingo (2010). High-speed vision systems and projectors for real-time perception of the world. Vol. 2010. pp. 100–107. doi:10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. {{cite book}}: |journal= ignored (help)

[the_rise_of_VPUs-35] Seth Colaner (January 3, 2016). "A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU". www.tomshardware.com.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]