بيانات ضخمة

A visualization of Wikipedia edits created by IBM. At multiple terabytes in size, the text and images of Wikipedia are a classic example of big data.

البيانات الضخمة Big data، هو مصطلح شامل لأي مجموعة بيانات ضخمة ومعقدة للغاية والتي من الصعوبة معالجتها باستخدام التطبيقات التقليدية لمعالجة البيانات.

حيث تشمل التحديات الالتقاط، والمدة، والتخزين^[1]، والبحث، والمشاركة، والنقل، والتحليل والتصور^[2]. ويرجع الاتجاه إلي مجموعات البيانات الضخمة بسبب المعلومات الإضافية المشتقة من تحليل مجموعة واحدة كبيرة من البيانات ذات الصلة، بالمقارنة مع المجموعات المنفصلة الأصغر حجماً مع نفس الحجم الإجمالي للبيانات، مما يسمح بوجود ارتباطات تكشف "الاتجاهات التجارية المحورية، وتحديد جودة البحث، وربط الاستشهادات القانونية، ومكافحة الجريمة وتحديد ظروف حركة تدفق البيانات في الوقت الحقيقي"^[3]^[4]^[5].

اعتباراً من عام 2012، كانت الحدود المفروضة على حجم مجموعات البيانات الملائمة للمعالجة في مدة معقولة من الوقت خاضعة لوحدة قياس البيانات إكسابايت^[6]^[7]. عادة ما يواجه العلماء عددا من القيود بسبب مجموعات البيانات الضخمة الموجودة في العديد من المجالات، والتي تتضمن الأرصاد الجوية(علم الطقس)، وعلم الجينات(علم الجينوم)^[8]، والمحاكاة الفيزيائية^[9]. المعقدة والبحوث البيولوجية والبيئية^[10], وتؤثر القيود أيضاً علي بحث الانترنت(محرك بحث)، وتقنية الأعمال التجارية والتمويل. وتنمو مجموعات البيانات في الحجم بشكل جزئي، ويرجع ذلك لأنها يتم جمعها بشكل متزايد عن طريق أجهزة استشعار المعلومات المتنقلة، والتقنيات الحسية الجوية (الاستشعار عن بعد)^[11]^[12]، وسجلات البرامج، والكاميرات، والميكروفونات، وأجهزة تحديد ذبذبات الإرسال(تحديد الهوية بإستخدام موجات الراديو) وشبكات استشعار اللاسلكية. وتضاعفت القدرة التكنولوجية العالمية لتخزين المعلومات للفرد الواحد تقريباً كل 40 شهر من الثمانينات، واعتباراً من عام 2012، ينشيء 2.5 كوينتيليون بايت ( 2.5 × 1018) من البيانات يوميا^[13]. والتحدي بالنسبة للشركات الكبيرة هو تحديد من يجب أن يمتلك مبادرات البيانات الضخمة التي تنتشر على المنظمة بأكملها.^[14]

من الصعب العمل مع البيانات الضخمة باستخدام معظم أنظمة إدارة قواعد البيانات العلائقية وإحصائيات سطح المكتب وحزم المحاكاة، حيث يتطلب الأمر بدلاً من ذلك "برامج متوازية واسعة النطاق تعمل على عشرات أو مئات أو حتي آلاف الخوادم".^[15] وما يُعتبر "بيانات ضخمة" يختلف باختلاف قدرات المنظمة التي تقوم بإدارة المجموعة، وعلي قدرات التطبيقات التي تستخدم بشكل تقليدي لمعالجة وتحليل مجموعة البيانات في النطاق الخاص بها. "فبالنسبة لبعض المنظمات، ربما تؤدي مواجهة مئات الغيغا بايت من البيانات لأول مرة إلى إعادة النظر في خيارات إدارة البيانات. وبالنسبة للبعض الآخر، ربما يستغرق الأمر عشرات أو مئات تيرابايت من البيانات قبل أن يصبح حجم البيانات شأناً مهماً".^[16]

التعريف

البيانات الضخمة عادة ما تتضمن مجموعات بيانات ذات أحجام تتخطي قدرة البرامج التي يشيع استخدامها لالتقاط وإدارة ومعالجة البيانات في غضون فترة زمنية مقبولة.^[17] وبالنسبة لأحجام البيانات الضخمة فهي هدف متحرك باستمرار، فاعتباراً من عام 2012، يتراوح حجمها بين بضع عشرات من تيرابايت إلي العديد من بيتابايت من البيانات في مجموعة واحدة فقط. ومع هذه الصعوبة، يتم تطوير منصات جديد من أدوات "البيانات الضخمة" للتعامل مع مختلف الجوانب الخاصة بالكميات الكبيرة من البيانات.

في تقرير بحثي وعدد من المحاضرات المتعلقة به عام 2001،^[18] قام "دوغ لاني" محلل مجموعة META Group (المعروفة الآن باسم Gartner) بتعريف تحديات نمو البيانات وفرصها كعنصر ثلاثي الأبعاد، بمعني زيادة الحجم (كمية البيانات)، السرعة (سرعة البيانات الصادرة والواردة) والتنوع (تنوع أنواع البيانات ومصادرها). وتقوم Gartner والكثير من الشركات في هذه الصناعة الآن بالاستمرار في استخدام نموذج "3Vs" لوصف البيانات الضخمة.^[19] وفي 2012، قامت Gartner بتحديث تعريفها ليصبح كالتالي: "البيانات الضخمة هي أصول معلومات كبيرة الحجم، عالية السرعة، و/أو عالية التنوع تتطلب أشكال جديدة من المعالجة لتعزيز عملية صنع القرار والفهم العميق وتحسين العملية".

تعريف TBDI للبيانات الضخمة: البيانات الضخمة هو مصطلح ينطبق علي الأجسام الضخمة للبيانات التي تتنوع في طبيعتها سواء أكانت منظمة، غير منظمة أو شبه منظمة، بما في ذلك من المصادر الداخلية أو الخارجية للمنظمة، ويتم توليدها بدرجة عالية من السرعة مع نموذج مضطرب، والتي لا تتفق تماماً مع مخازن البيانات التقليدية والمنظمة وتتطلب نظام إيكولوجي قوي ومعقد مع منصة حوسبة عالية الأداء وقدرات تحليلية للالتقاط ومعالجة وتحويل وكشف واستخلاص القيمة والرؤى العميقة في غضون وقت زمني مقبول".^[20]

أمثلة

تتضمن الأمثلة العلم الضخم، سجلات الويب، تحديد الهوية بإستخدام موجات الراديو إنگليزية: RFID، شبكات الاستشعار، الشبكات الاجتماعية، البيانات الاجتماعية ^[21] (يرجع هذا لثورة البيانات الاجتماعية)، نصوص الانترنت والوثائق، فهرسة بحث الانترنت، تفاصيل سجلات الاتصال، علم الفلك، علوم الغلاف الجوي، علم الجينات، العلوم الكيميائية والبيولوجية وغيرها من البحوث المعقدة وأغلبية المراقبات العسكرية، السجلات الطبية، أرشيفات الصور والتجارة الإلكترونية واسعة النطاق.

العلوم الضخمة

تُمثل تجارب مصادم الهدرونات الكبير إنگليزية: Large Hadron Collider حوالي 150 مليون جهاز استشعار تقدم بيانات 40 مليون مرة في الثانية الواحدة. وهناك ما يقرب من 600 مليون تصادم في الثانية الواحدة. وبعد تصفية وتنقيح تسجيلات أكثر من 99.999% من هذه التدفقات، نجد أن هناك 100 تعارض للفائدة في الثانية الواحدة^[22]^[23]^[24].

ونتيجة لذلك، بالعمل مع أقل من 0.001% فقط من بيانات تيار الاستشعار، فإن تدفق البيانات من جميع تجارب LHC الأربعة يمثل 25 بيتابايت المعدل السنوي قبل النسخ المتماثل (اعتباراً من 2012). وهذا يصبح تقريباً 200 بيتابايت بعد النسخ المتماثل.

وإذا تصورنا أن جميع بيانات الاستشعار كان سيتم تسجيلها في LHC، فإن تدفق البيانات كان سيصعب العمل معه للغاية. حيث سيتجاوز تدفق البيانات 150 مليون بيتابايت المعدل السنوي، أو ما يقرب من 500 إكسابايت في اليوم الواحد، قبل النسخ المتماثل. وبالنظر للرقم بشكل نظري، فإنه يصبح مُعادل لـ 500 كوينتيليون بايت (5 x 1020) في اليوم، وهو رقم أعلي 200 مرة تقريباً من جميع المصادر الأخري المجتمعة في العالم.

العلوم الأبحاث

عندما بدأ مسح سلووان الرقمي للسماء إنگليزية: SDSS بجمع البيانات الفلكية في عام 2000، فإنه قد جمع بيانات في أسابيعه القليلة الأولي أكثر مما تم جمعه في تاريخ علم الفلك بأكمله. ومع استمراره بمعدل 200 جيجا بايت في الليلة، جمع SDSS أكثر من 140 تيرابايت من المعلومات. وعندما يأتي Large Synoptic Survey Telescope خليفة SDSS إلي أرض الواقع في عام 2016، فمن المتوقع أن يقوم بجمع هذه الكمية من البيانات كل خمسة أيام.^[3]

إن فك رموز الجين البشري تستغرق عادة 10 سنوات حتي تتم العملية، ولكن الآن فإن هذه العملية يمكن إنجازها في أسبوع واحد.^[3]

بالنسبة للعلوم الاجتماعية الحسابية – استخدم "توبياس بريس" وآخرون بيانات اتجاهات جوجل إنگليزية: Google Trends لإثبات أن مستخدمي الإنترنت من البلدان التي لديها ناتج محلي إجمالي أعلي للفرد (GDP) يتجهون للبحث عن معلومات حول المستقبل أكثر من المعلومات المتعلقة بالماضي. وتشير النتائج إلي أنه قد يكون هناك ارتباط بين السلوك عبر الانترنت والمؤشرات الاقتصادية في العالم الحقيقي.^[25]^[26]^[27] وقد قام مؤلفو هذه الدراسة بفحص تسجيلات جوجل المصنوعة من قبل مستخدمي الإنترنت في 45 دولة مختلفة عام 2010، وقاموا بحساب نسبة حجم البحث للسنة التالية "2011" مقارنة بحجم البحث في السنة السابقة "2009" والذي أطلق عليه اسم "مؤشر التوجه المستقبلي".^[28] ثم قاموا بمقارنة التوجه المستقبلي مع الناتج المحلي الإجمالي للفرد الواحد في كل بلد، حيث وجدوا اتجاه قوي للبلدان التي يقوم فيها مستخدمي جوجل بالبحث عن المستقبل بالحصول علي ناتج محلي إجمالي أعلي. وتُلمح النتائج لاحتمال وجود علاقة بين النجاح الاقتصادي للبلد وسلوك مواطنيها في البحث عن المعلومات المأسورة في البيانات الضخمة.

الحكومات

في عام 2012، أعلنت إدارة أوباما عن مبادرة التنمية وبحوث البيانات الضخمة والتي تناولت كيفية استخدام البيانات الضخمة لمعالجة المشاكل الهامة التي تواجه الحكومة^[29] وقد تألفت المبادرة من 84 برنامج مختلف للبيانات الضخمة موزعة علي 6 دوائر.^[30]

والجدير بالذكر، أن تحليل البيانات الضخمة قد لعب دوراً كبيراً في حملة إعادة انتخاب باراك أوباما الناجحة عام 2012.^[31]

وتمتلك الحكومة الاتحادية للولايات المتحدة 6 من أصل 10 أجهزة كمبيوتر تُعد هي الأكثر نفوذا في العالم والتي يُطلق عليها " Supercomputers".^[32]

وتقوم وكالة الأمن الوطني الأمريكي حالياً ببناء مركز بيانات يوتاه " Utah Data Center"، والذي سيكون قادر علي التعامل مع معلومات تقدر مساحاتها بـ يوتابايت والتي جمعتها وكالة الأمن القومي عبر الإنترنت.^[33]^[34]

القطاع الخاص

يقوم أمازون (موقع) Amazon.com بمعالجة ملايين العمليات الخلفية كل يوم، فضلاً عن استفسارات من أكثر من نصف مليون بائع طرف ثالث. وتعتمد أمازون علي تقنية اللينكس بشكل أساسي كي تعمل وسط هذا الكم الهائل من البيانات، واعتباراً من 2005 كانت أمازون تمتلك أكبر 3 قواعد بيانات لينكس في العالم والتي تصل سعتها إلي 7.8، 18.5 و 24.7 تيرابايت.^[35]

ومن ناحية أخري، يقوم متجر وول مارت Walmart بمعالجة أكثر من مليون معاملة تجارية كل ساعة، والتي يتم استيرادها إلي قواعد بيانات يُقدر أنها تحتوي علي أكثر من 2.5 بيتابايت (2560 تيرابايت) من البيانات – وهو ما يوازي 167 ضعف البيانات الواردة في جميع الكتب الموجودة في مكتبة الكونغرس في الولايات المتحدة.^[3]

أما الفيسبوك فيعالج 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال " FICO Falcon Credit Card Fraud Detection System" بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.

ووفقاً لأحدث الإحصائيات، فإن حجم البيانات التجارية في جميع أنحاء العالم، عبر جميع الشركات، يتضاعف حجمها كل 1.2 سنة.^[36]

وتقوم شركة Windermere Real Estate باستخدام إشارات GPS مجهولة من ما يقرب من 100 مليون سائق لمساعدة مشتري المنازل الجدد لتحديد أوقات قيادتهم من وإلي العمل خلال الأوقات المختلفة لليوم.^[37]

التنمية الدولية

بعد عقود من العمل في مجال الاستخدام الفعال لتكنولوجيا المعلومات والاتصالات من أجل التنمية (أو ICT4D)، فقد قيل أنه يمكن للبيانات الضخمة أن تسهم إسهاماً كبيراً في التنمية الدولية.^[38]^[39] من ناحية، فإن ظهور البيانات الضخمة يوفر احتماليات فعالة من حيث التكلفة لتحسين عملية صنع القرار في مجالات التنمية الحيوية مثل الرعاية الصحية، العمالة، الإنتاجية الاقتصاد، الجريمة والأمن، الكوارث الطبيعية وإدارة الموارد. ومن ناحية أخري، فإن جميع المخاوف المتعلقة بالبيانات الضخمة مثل الخصوصية، تحديات التشغيل البيني، والقوة غير محدودة للخوارزميات المنقوصة تتفاقم في البلدان النامية من خلال تحديات التنمية طويلة الأمد مثل الافتقار إلي البنية التحتية التكنولوجية والاقتصادية بالإضافة لندرة الموارد البشرية. "وهذا أدي إلي إحداث نوع جديد من الفجوات التقنية: فجوة في تقصي البيانات لاتخاذ قرارات مستنيرة".

سوق العمل

لقد تسببت "البيانات الضخمة" في زيادة الطلب علي المتخصصين في إدارة المعلومات لهذا البرنامج الضخم، وقد أنفقت عدد من الشركات العالمية مثل Oracle Corporation، IBM، Microsoft، SAP، EMC و HP أكثر من 15 مليار دولار علي شركات البرمجيات المتخصصة فقط في مجال إدارة البيانات والتحليلات. وفي عام 2010، كانت هذه الصناعة مستقلة بذاتها تساوي أكثر من 100 مليار دولار، كما أنها تنمو تقريباً بمعدل 10% سنوياً، أي حوالي ضعفي قطاع البرمجيات ككل.^[3]

تقوم البلدان ذات الاقتصاديات المتقدمة باستخدام التقنيات كثيفة البيانات بشكل متزايد. فهناك 4.6 مليار اشتراك للهواتف النقالة حول العالم، وهناك ما بين 1 مليار إلي 2 مليار شخص يتصل بالإنترنت.^[3] وبين عامي 1990 و 2005، أرتقي أكثر من مليار شخص حول العالم بمكانتهم إلي الطبقة المتوسطة مما يعني أن هناك الكثير والكثير من الناس الذين يكسبون المال سوف يصبحون أكثر تثقيفاً والذي يؤدي بدوره إلي نمو المعلومات. لقد كانت قدرة العالم الفعالة لتبادل المعلومات من خلال شبكات الاتصال السلكية واللاسلكية هي 281 بيتابايت في 1986، 471 بيتابايت في 1993، 2.2 إكسابايت في عام 2000، 65 إكسابايت في عام 2007 ويتوقع أن تصل كمية البيانات المتدفقة عبر شبكة الانترنت إلي 667 إكسابايت سنوياً بحلول عام 2013.^[3]

العمارة

نظراً لتعقيدات نظم البيانات الضخمة، فقد كان وجود ممارسات متطورة للهندسة المعمارية الخاصة بالبيانات الضخمة أمر لابد منه. إن الإطار المعماري للبيانات الضخمة (BDAF) هو إطار هيكلي لحلول البيانات الضخمة، والذي يهدف إلي المساعدة في إدارة مجموعة من الأعمال الفنية المتميزة وتنفيذ مجموعة من عناصر التصميم المحددة. إن الغرض من (BDAF) هو فرض الالتزام بنهج تصميم متناسق، الحد من تعقيدات النظام، تعظيم إعادة الاستخدام، تخفيض التبعيات وزيادة الإنتاجية.

إن الإطار المعماري للبيانات الضخمة (BDAF) يضم أربعة أجزاء متكاملة: دومين محدد، منصة، الاعتماد علي التفعيل ونموذج محايد تكنولوجياً. وتعتبر مكونات (BDAF) هي نموذج مركزي، تتحكم به الهندسة المعمارية، ويشكل بناء متماسك لمعالجة البيانات الضخمة، بما في ذلك استخراج البيانات، التخزين، المعالجة، التخطيط، التجميع، الإرسال والتواصل، إعداد التقارير، التصور، الرصد، التدفق والتشغيل الآلي.

في عام 2004، نشرت جوجل بحث عن عملية تُدعي MapReduce والتي استخدمت هندسة معمارية مثل هذه. حيث يوفر الإطار الخاص بـ MapReduce نموذج برمجة متوازي والتطبيق المرتبط به لمعالجة كمية هائلة من البيانات. من خلال MapReduce، يتم تقسيم الأطروحات وتوزيعها عبر العقد المتوازية ومعالجتها بشكل متواز (خطوة the Map). ثم يتم تجميع النتائج بعد ذلك وتسليمها (خطوة the Reduce). لقد كان الإطار ناجح بشكل مذهل، لذا أراد البعض تكرار تلك الخوارزمية. ولذلك، أعتُمد تنفيذ إطار MapReduce من قبل مشروع Apache مفتوح المصدر أطلق عليه اسم Hadoop.^[40]

إن MIKE2.0 هو نهج مفتوح لإدارة المعلومات يتناول منهجية التعامل مع البيانات الضخمة من حيث التعديل المفيد لمصادر البيانات، التعقيد في العلاقات المتبادلة والصعوبة في حذف (أو تعديل) السجلات الفردية.^[41]

تتطلب البيانات الضخمة تقنيات استثنائية لمعالجة الكميات الكبيرة من البيانات بكفاءة ضمن الوقت المسموح. ويشير تقرير ماكينزي 2011^[42] لبعض التقنيات المناسبة التي تتضمن اختبار A/B، تعلم قاعدة المصادقة، التصنيف، التحليل العنقودي، انصهار وتكامل البيانات، الخوارزميات الجينية، التعلم الآلي، معالجة اللغات الطبيعية، الشبكات العصبية، التعرف علي الأنماط، الكشف عن الأشياء الشاذة، النمذجة التنبؤية، الانحدار، تحليل وجهات النظر، معالجات الإشارات، التعلم الخاضع والغير خاضع للرقابة، المحاكاة، تحليل السلاسل الزمنية والتصور. إن البيانات الضخمة متعددة الأبعاد يمكن أيضاً أن تُمثل مثل tensors،^[43] والتي يمكن التعامل معها بكفاءة أكبر من خلال الحسابات التي تعتمد علي الموترة مثل التعلم الفضائي الجزئي متعدد الخطي.^[44] والتقنيات الإضافية التي يجري تطبيقها علي البيانات الضخمة تتضمن قواعد بيانات هائلة تتم معالجتها بشكل متوازي (MPP)، التطبيقات المعتمدة علي البحث، شبكات البيانات والتعدين، أنظمة الملفات الموزعة، قواعد البيانات الموزعة، البنية التحتية المعتمدة علي التخزين السحابي (التطبيقات، التخزين ومصادر الحوسبة) والإنترنت.^{[بحاجة لمصدر]}

إن بعض وليس كل قواعد البيانات العلائقية MPP لديها القدرة علي تخزين وإدارة بيتابايت من البيانات. والمفهوم ضمنياً هو القدرة علي تحميل، مراقبة، النسخ الاحتياطي، وتحقيق الاستخدام الأمثل لجداول البيانات الضخمة في RDBMS.^[45]

إن برنامج تحليل بيانات DARPA يستهدف البنية الأساسية لمجموعات البيانات الهائلة، وفي عام 2008 ظهرت هذه التقنية للجمهور مع انطلاقة شركة تُدعي Ayasdi.

إن ممارسي عمليات تحليل البيانات الضخمة عادة ما يكونوا معاديين لمساحات التخزين المشتركة الأبطأ،^[46] مُفضلين مساحات التخزين المتصلة والمباشرة (DAS) في جميع أشكالها المختلفة بدءاً من محركات الأقراص الصلبة (SSD) وصولاً إلي أقراص الساتا عالية القدرة والموضوعة داخل عقد معالجة متوازية. وإذا نظرنا إلي البنية المعمارية لمساحات التخزين المشتركة SAN و NAS فسوف نجد أنها بطيئة، معقدة وباهظة الثمن. وهذه الصفات لا تتفق مع أنظمة تحليل البيانات الضخمة التي تقوم علي أداء النظام، البنية التحتية والتكلفة المنخفضة.

إن تسليم المعلومات في الوقت الحقيقي أو شبه الحقيقي هي واحدة من الخصائص المميزة لتحليل البيانات الضخمة. وبالتالي، يتم تجنب الخمول كلما وحيثما كان ذلك ممكناً. إن تكلفة SAN في النطاق اللازم لتطبيقات التحليلات تُعد أعلي بكثير جداً من تقنيات التخزين الأخري.

هناك مزايا وكذلك يوجد عيوب لمساحات التخزين المشتركة في تحليلات البيانات الضخمة، ولكن ممارسي تحليل البيانات الضخمة لم يحبذوا ذلك بدءاً من عام 2011.^[47]

الطب

ن للبيانات أهمية حاسمة في مهنة العناية الصحية لتوثيق الأمراض والمعالجة التي يتلقاها آحاد المرضى. وبتنامي محفوظات الصور الطبية بنسبة مئوية تراوح بين 20 و40 في المائة سنوياً يُتوقع للمستشفى المتوسط الحجم أن يُؤتي في كل عام 665 تيرابايت من البيانات الطبية بحلول عام 2015. وتكثُر تطبيقات تحليل البيانات الضخمة في مجال العناية الصحية كثرةً تضاهي تعدد وجوهها، سواء على صعيد البحث أم على صعيد الممارسة. فعلى سبيل المثال يمكن بنظم مراقبة المرضى عن بُعد في حالات الأمراض المزمنة تقليصُ أعداد الأطباء الموظفين وأعداد استشارات قسم الطوارئ في المستشفى وأعداد الأيام التي تُشغَل فيها الأسرّة ضمن المستشفى، وتحسينُ الاستهداف في المعالجة، واتّقاءُ بعض التعقيدات الصحية الطويلة الأمد. ويساعد تحليل مجموعات واسعة من البيانات المتعلقة بخصائص المرضى ونتائج المعالجات وتكاليفها على تمييز أنواع العلاج الأكثر فعالية من الناحية السريرية والأنجع بالقياس إلى تكاليفها لكي يجري تطبيقها. كما أن تحليل أنماط الأمراض العامة لتمييز الاتجاهات في مرحلة مبكرة أمر حاسم فيما يخص العمل، لا في تدبر أزمات الصحة العامة فحسب بل أيضاً في تمكين القطاع الصيدلاني والقطاع الطبي من وضع نماذج الطلب المقبل على منتجاتهما بمثابة منطلق لاتخاذ القرار بشأن الاستثمار في البحوث التطويرية.

الأنشطة البحثية

في مارس 2012، أعلن البيت الأبيض عن "مبادرة البيانات الضخمة" القومية التي تتألف من 6 إدارات ووكالات فيدرالية تودع أكثر من 200 مليون دولار لمشاريع البيانات الضخمة البحثية.^[48]

وقد تضمنت المبادرة National Science Foundation "بعثات في الحوسبة" والتي منحت 10 مليون دولار علي مدي 5 سنوات لمعمل AMPLab كما تلقي AMPLab أيضاً تمويل من DARPA، وأكثر من اثني عشر راعياً صناعياً ويستخدم البيانات الضخمة لمواجهة مجموعة واسعة من المشاكل بدءاً من الاختناقات المرورية^[49] وحتي مكافحة السرطان.^[50]

وشملت مبادرة البيت الأبيض أيضاً التزاماً من وزارة الطاقة لتوفير 25 مليون دولار علي مدار 5 سنوات لإنشاء معهد إدارة وتحليل وتصور البيانات (SDAV)^[51]، والذي يتم قيادته من قبل معمل لورانس بيركلي الوطني التابع لوزارة الطاقة. ويهدف معهد SDAV جمع الخبرات من 6 مختبرات وطنية و 7 جامعات لتطوير أدوات جديدة لمساعدة العلماء في إدارة وتصور البيانات علي أجهزة الكمبيوتر العملاقة الخاصة بالإدارة.

هذا وقد أعلنت ولاية ماساشوستس الأمريكية عن مبادرة ماساشوستس للبيانات الضخمة في مايو2012، والتي توفر التمويل من حكومة الولاية وشركات القطاع الخاص لمجموعة متنوعة من المؤسسات البحثية.^[52] وقد استضاف معهد ماساشوستس للتكنولوجيا مركز إنتل للعلوم والتكنولوجيا الخاص بالبيانات الضخمة في مختبر MIT لعلوم الكمبيوتر والذكاء الاصطناعي.^[53]

وتقوم المفوضية الأوروبية علي مدار عامين بتمويل منتدي القطاعين العام والخاص للبيانات الضخمة من خلال برنامجهم السابع لإشراك الشركات والأكاديميات وغيرهم من أصحاب المصلحة في مناقشة قضايا البيانات الضخمة. ويهدف المشروع إلي تحديد إستراتيجية خاصة بالبحث والابتكار لتوجيه إجراءات الدعم من المفوضية الأوروبية للتنفيذ الناجح لاقتصاد البيانات الضخمة. وسوف تستخدم نتائج هذا المشروع كمدخل لمشروعهم التالي Horizon 2020.^[54]

الخصائص

وحتى تكون البيانات ضخمة يجب توفر ثلاثة عوامل رئيسية:

الحجم: وهو عدد التيراباتيت من البيانات التي نطلقها يومياً من المحتوى.
التنوع: وهو تنوع هذه البيانات ما بين مهيكلة وغير مهيكلة ونصف مهيكلة
السرعة: مدى سرعة تواتر حدوث البيانات، مثلاً تختلف سرعة نشر التغريدات عن سرعة مسح أجهزة الاستشعار عن بعد لتغييرات المناخ.

يتم تمييز البيانات الضخمة من خلال الحجم، التنوع، والسرعة. ومن خلال دراسة الحجم الكبير للبيانات يمكن للشركات أن تفهم زبائنها بشكل أفضل، تخيل مثلاً البحث في بيانات مشتريات مليون شخص يتعامل مع متجر وول مارت، هذا البحث والتحليل في الكم الهائل من فواتير المشتريات وتكرار المشتريات و تنوعها، سيعطي معلومات مفيدة جداً للإدارة ومتخذي القرار.^[55]

وتبرز التحديات أمام أدوات إدارة قواعد البيانات التقليدية في التعامل مع البيانات المتنوعة و السريعة، حيث كانت قواعد البيانات التقليدية تتعامل مع المستندات النصية و الأرقام فقط، أما البيانات الضخمة اليوم تحوي أنواع جديدة من البيانات التي لا يمكن تجاهلها، كالصور و المقاطع الصوتية والفيديو والنماذج ثلاثية الأبعاد وبيانات المواقع الجغرافية وغيرها.

ومع تزايد حجم وتنوع البيانات التي تتعامل معها الشركات اليوم وجدت نفسها أمام طريقين، إما تجاهل هذه البيانات، أو البدء بالتكيف معها تدريجياً لفهمها والإستفادة منها. لكن مع إستخدام الأدوات التقليدية المتبعة سابقاً لا يمكنك تحليل و الإستفادة من هذه البيانات الجديدة الضخمة.

وعلى سبيل المثال فإن غالبية المتاجر الضخمة و الأسواق التجارية التي تتعامل مع بطاقات الولاء، لا تستفيد من هذه البيانات وتعالجها بطريقة تساعدها على فهم المشترين بشكل أفضل لتطوير نموذج بطاقات الولاء.

وأيضاً كل مقاطع الفيديو التي تسجلها الأجهزة الطبية خلال العمليات الجراحية، لا يتم الإستفادة منها بالشكل المطلوب، بل ويتم حذفها خلال أسابيع.

واليوم تعد Hadoop من أفضل تقنيات التعامل مع البيانات الضخمة، وهي مكتبة مفتوحة المصدر مناسبة للتعامل مع البيانات الضخمة المتنوعة و السريعة، وتستخدم شركات كبرى خدمة Hadoop، مثلاً هناك لينكدإن الشبكة الإجتماعية المتخصصة بالوظائف والعمل تستخدم الخدمة من أجل توليد أكثر من 100 مليار مقترح على المستخدمين أسبوعياً. لكن ما الفائدة من البيانات الضخمة؟ تقول IBM أن البيانات الضخمة تعطيك فرصة إكتشاف رؤى مهمة في البيانات، وتقول أوراكل أن البيانات الضخمة تتيح للشركات أن تفهم بعمق أكثر زبائنها.

قدرت شركة سيسكو أنه وبحلول عام 2015 فإن حركة الزيارات على الإنترنت بالشكل الإجمالي ستتجاوز 4.8 زيتابايت (أي 4.8 مليار تيرا بايت ) سنوياً.

المعايير

المعايير سيستلزم تحقيق الأهداف التي حددتها الشركات والمستهلكون في مجال البيانات الضخمة قابلية نظم وتكنولوجيات متعدِّدة للعمل البيني. وقد دشَّنت الأوساط المهتمة بالمعايير عدة مبادرات وأفرقة عمل معنية بالبيانات الضخمة. ففي عام 2012 أنشأ التحالف من أجل أمن الحوسبة السحابية فريق عمل معنياً بالبيانات الضخمة بغية تمييز التقنيات القابلة للتوسيع اللاحق فيما يخص مشكلات الأمن والخصوصية المتركّزة على البيانات. ويُتوخى من التحرّي الذي سيجريه هذا الفريق تبيان أفضل الممارسات الخاصة بأمن وخصوصية البيانات الضخمة، وتوفير إرشادات للأوساط المهنية والحكومية في اعتماد هذه الممارسات الفضلى. وقد بدأ المعهد الوطني للمعايير والتكنولوجيا في الولايات المتحدة أنشطته في مجال البيانات الضخمة بورشة نُظمت في يونيو 2012، ودشَّن فريقَ عمل عمومياً في عام 2013. ويعتزم فريق العمل هذا أن يدعم اعتماد البيانات الضخمة على نحو آمن وفعّال بالعمل لتحقيق التوافق بشأن التعاريف، والتصانيف، والمعماريات المرجعية الآمنة، وخريطة طريق للتكنولوجيا فيما يخص تقنيات تحليل البيانات الضخمة والبنية التحتية التكنولوجية ذات الصلة. وقد استهلت اللجنة المعنية بمعايير إدارة البيانات وتبادلها ‭(‬SC32‭)‬ المنبثقة عن اللجنة التقنية 1 المشتركة بين المنظمة الدولية للتوحيد القياسي واللجنة الكهرتقنية الدولية ‭(‬ISO/IEC JTC1‭)‬ دراسة لتحليل الجيل التالي والبيانات الضخمة. وأنشأ اتحاد الشبكة العالمية ‭(‬W3C‭)‬ عدة مجموعات محلية معنية بمختلف جوانب البيانات الضخمة. ويعكف قطاع تقييس الاتصالات التابع للاتحاد الدولي للاتصالات حالياً على تناول آحاد المتطلبات على صعيد البنية التحتية، محيطاً علماً بالعمل القائم في مجالات منها النقلُ بالألياف البصرية وشبكاتُ النفاذ، والقدراتُ المقبلة في مضمار الشبكات (مثل الربط الشبكي الذي يتحدَّد بالبرامج الحاسوبية)، وتعدُّدُ الوسائط، والأمنُ. ويدرس قطاع تقييس الاتصالات العلاقة بين الحوسبة السحابية والبيانات الضخمة نظراً إلى المتطلبات والقدرات. وتقرن التوصية ITU-T X.1600 بشأن "الإطار الأمني للحوسبة السحابية" التهديدات الأمنية بتقنيات تخفيفها، ويُتوقع أن تكون حالات استعمال البيانات الضخمة مشمولة بالتقييس المقبل لتقنيات تخفيف الأخطار التي تم وصفها. فقد دُعي في تقرير سابق من مجموعة تقارير رصد التكنولوجيا إلى استعمال تكنولوجيات تعزيز الخصوصية بمثابة وسيلة لإعمال مبدأ "الخصوصية المهيأ لها عند التصميم"، الذي يحظى طبعاً باهتمام كبير في سياق تطبيقات البيانات الضخمة. إن للاتحاد الدولي للاتصالات من عضويته العالمية النطاق، التي تشتمل على الحكومات والجهات المشغِّلة للاتصالات والجهات الصانعة للمعدات والأوساط الأكاديمية ومعاهد البحوث، ما يجعله في وضع مثالي للقيام بمراجعة الممارسات الحالية على صعيد استعمال جمل البيانات المجمَّعة وبوضع المعايير التقنية والسياسات ذات الصلة. وقد عمل الاتحاد الدولي للاتصالات على تسريع جهوده الرامية إلى زيادة قابلية التشغيل البيني في تطبيقات الصحة الإلكترونية في مجالات مثل تبادل البيانات المتعلقة بالصحة وتصميم النظم الصحية الشخصية. وإذا ظل موضوعاً في الاعتبار الازدهارُ الكبير فيما يقبل الحملَ على الجسم من "وسائل الصحة المربوطة بالشبكة" والمنتجات الخاصة باللياقة فقد يمكن للتقييس أن يتيح الاستعانة بسوار ذكي للقيام بأمور من قبيل تبادل البيانات الآمن مع ساعة ذكية من ماركة أخرى (على نحو لا تحبطه الحدود التي تضعها الجهات المورِّدة أو الجهات الصانعة). عندها يمكن لتحليل البيانات الضخمة أن يدمج دفوق البيانات المجموعة من مختلف الأجهزة ليُستنتج منها على نحو دقيق ما يمكن أن يؤذِن باتّخاذ تدابير نافعة للصحة.

وبعد أن ضاعفت التوصية نجاعة سابقتها الفائزة بجائزة إيمي، يسير العمل بها جيداً لتصير الكوديك الرائد بين الكوديكات الفيديوية لشبكة الإنترنت. وبالنظر إلى الحصة الكبيرة التي تعود لتعدد الوسائط في مجمل حركة الاتصال عبر الإنترنت فإن التحليل التلقائي للصور الرقمية والبيانات السمعية والبصرية يمثل مجالاً ينبغي أن يتابع متابعة وثيقة من منظور البيانات الضخمة.

وتكتمل حركة البيانات المفتوحة، سواء في الاقتصادات الصاعدة أم في البلدان الصناعية المتقدمة. وإذ تتعيَّن مواجهة عدد من التحديات المتعلقة بقابلية التشغيل البيني والسياسات ذات الصلة فإن الوضع مؤات لكي يهتم الاتحاد الدولي للاتصالات بقضية البيانات المفتوحة وأن يعمل للدفع بها قدماً (بالتشارك مع كثير من أنصار البيانات المفتوحة من بين أعضائه ومن غيرهم). ومن ناحية المعايير قد يشتمل ذلك على وضع متطلبات فيما يخص الإبلاغ عن البيانات، وآليات نشر مجموعات البيانات وتوزيعها وكشفها.

فيتعيَّن القيام بمزيد من العمل للإحاطة الكاملة بالإمكانات التي تتيحها البيانات الضخمة، وينبغي للاتحاد الدولي للاتصالات المضي في دراسة التحديات والفرص المتصلة بالبيانات الضخمة ضمن قطاع تكنولوجيا المعلومات والاتصالات.

حماية‭ ‬البيانات،‭ ‬والخصوصية،‭ ‬والأمن‭ ‬السيبراني

من الجلي أن المبدأين الأساسيين لحماية البيانات – تفادي إفشاء البيانات الشخصية وتقليل اطلاع الآخرين عليها – يتعارضان مع قدرة البيانات الضخمة على تسهيل تتّبع حركات الناس، وتصرفاتهم، وتفضيلاتهم، للتنبؤ بتصرف الفرد بدرجة دقة لم يسبق لها مثيل، دون موافقة الشخص المعني في معظم الحالات. فيمكن مثلاً أن تكون السجلات الصحية الإلكترونية ووسائل التحديد الكمي الذاتي العاملة على المنوال الآني (المحاسيس التي يحملها الناس لرصد أمور من قبيل درجة لياقتهم أو أسلوب نومهم) خطوة كبيرة إلى الأمام على طريق تبسيط إصدار وصفات الأدوية أو خطط الحمية واللياقة. لكن كثيراً من المستهلكين ينظرون إلى هذه البيانات باعتبارها بيانات بالغة الحساسية.^[56]

إن المجموعات الكبيرة من سجلات المكالمات بالهواتف المحمولة يمكن أن تُستخدم، حتى إذا كانت هوية أصحابها مُغفَلةً وكانت مجرَّدة من جميع المعلومات الشخصية، لاستحداث بصمات للمستعملين، قد تكشف عن هوية الشخص المعني عندما يُجمع بينها وبين بيانات أخرى مثل التغريدات التي يحدَّد موقع مطلقها الجغرافي أو سجلات التسجُّل عند القدوم إلى أماكن معيَّنة. وكلما تنامى مقدار البيانات الشخصية والمعلومات الرقمية العالمية تزايد عدد الجهات التي تَنْفَذ إلى هذه المعلومات وتستخدمها. فيجب تقديم تطمينات إلى أن البيانات الشخصية ستُستعمل بصورة مناسبة، في سياق وجوه الاستعمال المهيأ لها ومع التقيد بالقوانين ذات الصلة. ويمثِّل الأمن السيبراني شاغلاً وجيهاً. فتتعيَّن إعادة تقييم التهديدات والمخاطر المتأتية عن البيانات الضخمة، مع تكييف الحلول التقنية للتصدي لها. فقد آن أوان مراجعة السياسات المتعلقة بأمن المعلومات، والمبادئ التوجيهية بشأن الخصوصية، وقوانين حماية البيانات. وثمة مصادر هامة للبيانات الجديدة، مثل المعلومات المتأتية من شبكات الهواتف الخلوية المحمولة، وبخاصة خدمات الشبكات الاجتماعية، قد تمثِّل تكملة للإحصاءات الرسمية. بيد أن الندوة العالمية لمؤشرات الاتصالات/تكنولوجيا المعلومات والاتصال ‭(‬WTIS‭)‬ نوهَّت إلى عدد من الشواغل المتعلقة بالسرية والخصوصية فيما يتعلق باستعمال البيانات الضخمة. وقد شجَّعت هذه الندوة سلطات التنظيم على استطلاع إمكانية وضع مبادئ توجيهية بشأن السبل التي يمكن بها إعداد البيانات الضخمة، واستغلالها، وتخزينها. وينبغي للمكاتب الإحصائية الوطنية، بالتعاون مع سائر الوكالات ذات الصلة، أن تنظر في الفرص التي تتيحها البيانات الضخمة، مهتمة في الوقت نفسه بالتحديات الماثلة حالياً على صعيد جودة البيانات الضخمة وصحتها وخصوصيتها ضمن إطار المبادئ الأساسية للإحصائيات الرسمية.

نقد

إن انتقادات نموذج البيانات الضخمة تأتي من ناحيتين، الأولي نابعة من أولئك الذين يشككون في الآثار المترتبة علي النهج نفسه. والثانية تأتي من الذين يشككون في الطريقة التي يتم تنفيذها حالياً.

انتقادات نموذج البيانات الضخمة

"المشكلة الكبيرة هي أننا لا نعرف الكثير عن العمليات التجريبية الأساسية الصغرى التي تؤدي إلي ظهور خصائص الشبكة النموذجية للبيانات الضخمة".^[17] في نقدهم للبيانات الضخمة أشار Snijders، Matzat و Reips إلي أنه في كثير من الأحيان يتم طرح افتراضات قوية جداً حول الخصائص الرياضية التي قد لا تعكس علي الإطلاق ما يحدث في الواقع علي مستوي العمليات الصغرى. وقد وجه مارك غراهام انتقادات واسعة لتأكيد كريس أندرسون بأن البيانات الضخمة سوف توضح نهاية نظرية: مع التركيز بصفة خاصة علي فكرة أن البيانات الضخمة سوف تحتاج دائماً إلي أن يتم وضعها في سياقها الاجتماعي، والاقتصادي والسياسي.^[57] حتي إذا كانت هناك شركة تستثمر 8 أو 9 مبالغ مالية لاشتقاق البصيرة من المعلومات المتدفقة من الموردين والعملاء، فإن 40% من الموظفين فقط هم من لديهم مهارات ناضجة بما فيه الكفاية للقيام بذلك. وللتغلب علي هذا العجز، فإن "البيانات الضخمة" مهما كانت شاملة أو تم تحليلها بشكل جيد، فإنه يجب أن تُستكمل من قبل "حكم كبير"، وفقاً لمقال نشر في مجلة Harvard Business Review.^[58]

وفي نفس السياق، فقد تم الإشارة إلي أن القرارات المستندة علي تحليل البيانات الضخمة تُعد حتمية "فقد عرفناها من العالم مثلما حدثت بالماضي، أو في أحسن الأحوال عرفناها كما هي حالياَ .^[59] فمن خلال تغذيتها بعدد كبير من البيانات الخاصة بالتجارب السابقة، يمكن للخوارزميات التنبؤ بالتطور المستقبلي إذا كان المستقبل يشبه الماضي. وإذا تغيرت ديناميكيات النظم في المستقبل، فإن الماضي سوف يكون لديه القليل ليقوله عن المستقبل. ولهذا، سيكون من الضروري وجود فهم دقيق لديناميكية النظم، وهو ما يعني ضمنياً وجود نظرية.^[60] ورداً علي هذا النقد، فقد أقتُرح ضم مناهج البيانات الضخمة مع المحاكاة الحاسوبية، مثل النماذج القائمة علي وكيل.^[59] حيث تقوم هذه النماذج علي نحو متزايد بالتحسن في توقع نتائج التعقيدات الاجتماعية حتي للسيناريوهات المستقبلية الغير معروفة من خلال المحاكاة الحاسوبية التي تعتمد علي مجموعة من الخوارزميات المترابطة مع بعضها البعض. وبالإضافة لذلك، تقوم باستخدام طرق ذات متغيرات متعددة والتي تبحث في البنية الكامنة من البيانات مثل تحليل العامل وتحليل الكتلة، والتي أثبتت فائدتها كمناهج تحليلية تتفوق علي المناهج ثنائية التعدد والي تعمل عادة مع مجموعات البيانات الأصغر حجماً.

إن المدافعين عن خصوصية المستهلك يشعرون بالقلق تجاه تهديدات الخصوصية المتمثلة في زيادة مساحة التخزين وتكامل المعلومات الشخصية، وقد أصدرت لجنة الخبراء توصيات مختلفة لسياسة الخصوصية تتوافق مع مستوي التوقعات.^[61]

انتقادات تنفيذ البيانات الضخمة

لقد أثار دانا بويد عدة مخاوف حول استخدام البيانات الضخمة في العلم، ولكنه أغفل عدة مبادئ مثل اختياره لعينة متمثلة في عدد من الأشخاص القلقين جداً من التعامل في الواقع مع كميات ضخمة من البيانات.^[62] وقد يؤدي هذا النهج إلي تحيز في النتائج بطريقة أو بأخري. فالتكامل بين موارد البيانات الغير متجانسة – يمكن أن يعتبره البعض "بيانات ضخمة" وقد لا يعتبره البعض كذلك – وهو ما يمثل تحديات لوجستية وتحليلية هائلة، ولكن العديد من الباحثين يرون أن مثل هذه التكاملات من المحتمل أن تمثل الحدود الجديدة الواعدة في مجال العلوم.^[63]

انظر أيضاً

المصادر

^ Kusnetzky, Dan. "What is "Big Data?"". ZDNet.
^ Vance, Ashley (22 April 2010). "Start-Up Goes After Big Data With Hadoop Helper". New York Times Blog.
^ ^أ ^ب ^ت ^ث ^ج ^ح ^خ "Data, data everywhere". The Economist. 25 February 2010. Retrieved 9 December 2012.
^ "E-Discovery Special Report: The Rising Tide of Nonlinear Review". Hudson Global. Retrieved 1 July 2012. by Cat Casey and Alejandra Perez
^ "What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review". Forbes. Retrieved 1 July 2012.
^ Francis, Matthew (2012-04-02). "Future telescope array drives development of exabyte processing". Retrieved 2012-10-24.
^ Watters, Audrey (2010). "The Age of Exabytes: Tools and Approaches for Managing Big Data" (Website/Slideshare). Hewlett-Packard Development Company. Retrieved 2012-10-24.
^ "Community cleverness required". Nature. 455 (7209): 1. 4 September 2008. doi:10.1038/455001a.
^ "Sandia sees data management challenges spiral". HPC Projects. 4 August 2009.
^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703–5. doi:10.1126/science.1197962.
^ Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog.
^ Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1.
^ "IBM What is big data? — Bringing big data to the enterprise". 01.ibm.com. Retrieved 2013-03-05.
^ Oracle and FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity", December 2012
^ Jacobs, A. (6 July 2009). "The Pathologies of Big Data". ACMQueue.
^ Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O’Reilly Media (11).
^ ^أ ^ب Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
^ Douglas, Laney. "3D Data Management: Controlling Data Volume, Velocity and Variety" (PDF). Gartner. Retrieved 6 February 2001.
^ Beyer, Mark. "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data". Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011. {{cite web}}: Unknown parameter |deadurl= ignored (|url-status= suggested) (help)
^ Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner. Retrieved 21 June 2012.
^ 2013: Big social data analysis. E. Cambria, D. Rajagopal, D. Olsher, and D. Das. In: R. Akerkar (ed.) Big Data Computing, ch. 13, Taylor & Francis
^ "LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public". CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. Retrieved 20 January 2013.
^ "LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers". CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. Retrieved 20 January 2013.
^ Brumfiel, Geoff (19 January 2011). "High-energy physics: Down the petabyte highway". Nature. Vol. 469. pp. 282–83. doi:10.1038/469282a.
^ Preis, Tobias; Moat,, Helen Susannah; Stanley, H. Eugene; Bishop, Steven R. (2012). "Quantifying the Advantage of Looking Forward". Scientific Reports. 2: 350. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.{{cite journal}}: CS1 maint: extra punctuation (link)
^ Marks, Paul (April 5, 2012). "Online searches for future linked to economic success". New Scientist. Retrieved April 9, 2012.
^ Johnston, Casey (April 6, 2012). "Google Trends reveals clues about the mentality of richer nations". Ars Technica. Retrieved April 9, 2012.
^ Tobias Preis (2012-05-24). "Supplementary Information: The Future Orientation Index is available for download" (PDF). Retrieved 2012-05-24.
^ Kalil, Tom. "Big Data is a Big Deal". White House. Retrieved 26 September 2012.
^ Executive Office of the President (2012). "Big Data Across the Federal Government" (PDF). White House. Retrieved 26 September 2012. {{cite web}}: Unknown parameter |month= ignored (help)
^ "How big data analysis helped President Obama defeat Romney in 2012 Elections". Bosmol Social Media News. 8 February 2013. Retrieved 9 March 2013.
^ Hoover, J. Nicholas. "Government's 10 Most Powerful Supercomputers". Information Week. UBM. Retrieved 26 September 2012.
^ Bamford, James. "The NSA Is Building the Country's Biggest Spy Center (Watch What You Say)". Wired Magazine. Retrieved 2013-03-18. {{cite web}}: Cite has empty unknown parameter: |1= (help)
^ "Groundbreaking Ceremony Held for $1.2 Billion Utah Data Center". National Security Agency Central Security Service. Retrieved 2013-03-18. {{cite web}}: Cite has empty unknown parameter: |1= (help)
^ Layton, Julia. "Amazon Technology". Money.howstuffworks.com. Retrieved 2013-03-05.
^ "eBay Study: How to Build Trust and Improve the Shopping Experience". Knowwpcarey.com. 2012-05-08. Retrieved 2013-03-05.
^ http://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/
^ UN GLobal Pulse (2012). Big Data for Development: Opportunities and Challenges (White p. by Letouzé, E.). New York: United Nations. Retrieved from http://www.unglobalpulse.org/projects/BigDataforDevelopment
^ WEF (World Economic Forum), & Vital Wave Consulting. (2012). Big Data, Big Impact: New Possibilities for International Development. World Economic Forum. Retrieved August 24, 2012, from http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
^ Webster, John. "MapReduce: Simplified Data Processing on Large Clusters", "Search Storage", 2004. Retrieved on 25 March 2013.
^ "Big Data Definition". MIKE2.0. Retrieved 9 March 2013.
^ Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). Big Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute.
^ "Future Directions in Tensor-Based Computation and Modeling" (PDF). May 2009.
^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
^ Monash, Curt (30 April 2009). "eBay's two enormous data warehouses".
Monash, Curt (6 October 2010). "eBay followup — Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more".
^ CNET News (April 1, 2011). "Storage area networks need not apply".
^ "How New Analytic Systems will Impact Storage". September 2011.
^ "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million In New R&D Investments" (PDF). The White House.
^ (October 2011) "Scaling the Mobile Millennium System in the Cloud"..
^ David Patterson (5 December 2011). "Computer Scientists May Have What It Takes to Help Cure Cancer". The New York Times.
^ "Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". "energy.gov".
^ "Governor Patrick announces new initiative to strengthen Massachusetts' position as a World leader in Big Data". Commonwealth of Massachusetts.
^ "Big Data @ CSAIL". Bigdata.csail.mit.edu. 2013-02-22. Retrieved 2013-03-05.
^ "Big Data Public Private Forum". Cordis.europa.eu. 2012-09-01. Retrieved 2013-03-05.
^ "لمحة عن البيانات الضخمة Big Data". عالم التقنية. 2013-07-24. Retrieved 2014-12-11.
^ "البيانات‭ ‬الضخمة‭: ‬تطورات‭ ‬عظيمة‭ ‬وتحديات‭ ‬هائلة". الاتحاد الدولي للاتصالات. 2014-01-19. Retrieved 2014-12-11.
^ Graham M. (2012). "Big data and the end of theory?". The Guardian.
^ "Good Data Won't Guarantee Good Decisions. Harvard Business Review". Shah, Shvetank; Horne, Andrew; Capellá, Jaime;. HBR.org. Retrieved 8 September 2012.{{cite web}}: CS1 maint: extra punctuation (link)
^ ^أ ^ب "Big Data for Development: From Information- to Knowledge Societies", Martin Hilbert (2013), SSRN Scholarly Paper No. ID 2205145). Rochester, NY: Social Science Research Network; http://papers.ssrn.com/abstract=2205145
^ Anderson, C. (2008, June 23). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine, (Science: Discoveries). http://www.wired.com/science/discoveries/magazine/16-07/pb_theory
^ Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review.
^ Danah Boyd (2010-04-29). "Privacy and Publicity in the Context of Big Data". WWW 2010 conference. Retrieved 2011-04-18.
^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031.

قراءات إضافية

Big Data Computing and Clouds: Challenges, Solutions, and Future Directions. Marcos D. Assuncao, Rodrigo N. Calheiros, Silvia Bianchi, Marco A. S. Netto, Rajkumar Buyya. Technical Report CLOUDS-TR-2013-1, Cloud Computing and Distributed Systems Laboratory, The University of Melbourne, 17 Dec. 2013.
Encrypted search & cluster formation in Big Data. Gautam Siwach, Dr. A. Esmailpour. American Society for Engineering Education, Conference at the University of Bridgeport, Bridgeport, Connecticut 3–5 April 2014.
"Big Data for Good" (PDF). ODBMS.org. 5 June 2012. Retrieved 2013-11-12.
Hilbert, Martin; López, Priscila (2011). "The World's Technological Capacity to Store, Communicate, and Compute Information". Science. 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967. {{cite journal}}: Invalid |ref=harv (help)
"The Rise of Industrial Big Data". GE Intelligent Platforms. Retrieved 2013-11-12.
History of Big Data Timeline. A visual history of Big Data with links to supporting articles.

وصلات خارجية

Media related to Big data at Wikimedia Commons
The Wiktionary definition of big data

تصنيفTechnology forecasting

الكلمات الدالة:

[1] Kusnetzky, Dan. "What is "Big Data?"". ZDNet.

[2] Vance, Ashley (22 April 2010). "Start-Up Goes After Big Data With Hadoop Helper". New York Times Blog.

[Economist-3] أ ^ب ^ت ^ث ^ج ^ح ^خ "Data, data everywhere". The Economist. 25 February 2010. Retrieved 9 December 2012.

[BD-HB-R-01-4] "E-Discovery Special Report: The Rising Tide of Nonlinear Review". Hudson Global. Retrieved 1 July 2012. by Cat Casey and Alejandra Perez

[BD-HB-R-02-5] "What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review". Forbes. Retrieved 1 July 2012.

[Ars_Technica-6] Francis, Matthew (2012-04-02). "Future telescope array drives development of exabyte processing". Retrieved 2012-10-24.

[ReadWriteWeb-7] Watters, Audrey (2010). "The Age of Exabytes: Tools and Approaches for Managing Big Data" (Website/Slideshare). Hewlett-Packard Development Company. Retrieved 2012-10-24.

[8] "Community cleverness required". Nature. 455 (7209): 1. 4 September 2008. doi:10.1038/455001a.

[9] "Sandia sees data management challenges spiral". HPC Projects. 4 August 2009.

[10] Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703–5. doi:10.1126/science.1197962.

[11] Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog.

[12] Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1.

[13] "IBM What is big data? — Bringing big data to the enterprise". 01.ibm.com. Retrieved 2013-03-05.

[14] Oracle and FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity", December 2012

[15] Jacobs, A. (6 July 2009). "The Pathologies of Big Data". ACMQueue.

[16] Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O’Reilly Media (11).

[Editorial-17] أ ^ب Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html

[18] Douglas, Laney. "3D Data Management: Controlling Data Volume, Velocity and Variety" (PDF). Gartner. Retrieved 6 February 2001.

[19] Beyer, Mark. "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data". Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011. {{cite web}}: Unknown parameter |deadurl= ignored (|url-status= suggested) (help)

[20] Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner. Retrieved 21 June 2012.

[21] 2013: Big social data analysis. E. Cambria, D. Rajagopal, D. Olsher, and D. Das. In: R. Akerkar (ed.) Big Data Computing, ch. 13, Taylor & Francis

[22] "LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public". CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. Retrieved 20 January 2013.

[23] "LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers". CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. Retrieved 20 January 2013.

[nature-24] Brumfiel, Geoff (19 January 2011). "High-energy physics: Down the petabyte highway". Nature. Vol. 469. pp. 282–83. doi:10.1038/469282a.

[25] Preis, Tobias; Moat,, Helen Susannah; Stanley, H. Eugene; Bishop, Steven R. (2012). "Quantifying the Advantage of Looking Forward". Scientific Reports. 2: 350. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.{{cite journal}}: CS1 maint: extra punctuation (link)

[26] Marks, Paul (April 5, 2012). "Online searches for future linked to economic success". New Scientist. Retrieved April 9, 2012.

[27] Johnston, Casey (April 6, 2012). "Google Trends reveals clues about the mentality of richer nations". Ars Technica. Retrieved April 9, 2012.

[28] Tobias Preis (2012-05-24). "Supplementary Information: The Future Orientation Index is available for download" (PDF). Retrieved 2012-05-24.

[WH_Big_Data-29] Kalil, Tom. "Big Data is a Big Deal". White House. Retrieved 26 September 2012.

[30] Executive Office of the President (2012). "Big Data Across the Federal Government" (PDF). White House. Retrieved 26 September 2012. {{cite web}}: Unknown parameter |month= ignored (help)

[31] "How big data analysis helped President Obama defeat Romney in 2012 Elections". Bosmol Social Media News. 8 February 2013. Retrieved 9 March 2013.

[32] Hoover, J. Nicholas. "Government's 10 Most Powerful Supercomputers". Information Week. UBM. Retrieved 26 September 2012.

[33] Bamford, James. "The NSA Is Building the Country's Biggest Spy Center (Watch What You Say)". Wired Magazine. Retrieved 2013-03-18. {{cite web}}: Cite has empty unknown parameter: |1= (help)

[34] "Groundbreaking Ceremony Held for $1.2 Billion Utah Data Center". National Security Agency Central Security Service. Retrieved 2013-03-18. {{cite web}}: Cite has empty unknown parameter: |1= (help)

[35] Layton, Julia. "Amazon Technology". Money.howstuffworks.com. Retrieved 2013-03-05.

[KnowWPCarey.com-36] "eBay Study: How to Build Trust and Improve the Shopping Experience". Knowwpcarey.com. 2012-05-08. Retrieved 2013-03-05.

[37] ttp://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/

[38] UN GLobal Pulse (2012). Big Data for Development: Opportunities and Challenges (White p. by Letouzé, E.). New York: United Nations. Retrieved from http://www.unglobalpulse.org/projects/BigDataforDevelopment

[39] WEF (World Economic Forum), & Vital Wave Consulting. (2012). Big Data, Big Impact: New Possibilities for International Development. World Economic Forum. Retrieved August 24, 2012, from http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development

[40] Webster, John. "MapReduce: Simplified Data Processing on Large Clusters", "Search Storage", 2004. Retrieved on 25 March 2013.

[41] "Big Data Definition". MIKE2.0. Retrieved 9 March 2013.

[42] Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). Big Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute.

[43] "Future Directions in Tensor-Based Computation and Modeling" (PDF). May 2009.

[MSLsurvey-44] Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.

[45] Monash, Curt (30 April 2009). "eBay's two enormous data warehouses".
Monash, Curt (6 October 2010). "eBay followup — Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more".

[46] CNET News (April 1, 2011). "Storage area networks need not apply".

[47] "How New Analytic Systems will Impact Storage". September 2011.

[48] "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million In New R&D Investments" (PDF). The White House.

[49] (October 2011) "Scaling the Mobile Millennium System in the Cloud"..

[50] David Patterson (5 December 2011). "Computer Scientists May Have What It Takes to Help Cure Cancer". The New York Times.

[51] "Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". "energy.gov".

[52] "Governor Patrick announces new initiative to strengthen Massachusetts' position as a World leader in Big Data". Commonwealth of Massachusetts.

[53] "Big Data @ CSAIL". Bigdata.csail.mit.edu. 2013-02-22. Retrieved 2013-03-05.

[54] "Big Data Public Private Forum". Cordis.europa.eu. 2012-09-01. Retrieved 2013-03-05.

[55] "لمحة عن البيانات الضخمة Big Data". عالم التقنية. 2013-07-24. Retrieved 2014-12-11.

[56] "البيانات‭ ‬الضخمة‭: ‬تطورات‭ ‬عظيمة‭ ‬وتحديات‭ ‬هائلة". الاتحاد الدولي للاتصالات. 2014-01-19. Retrieved 2014-12-11.

[57] Graham M. (2012). "Big data and the end of theory?". The Guardian.

[58] "Good Data Won't Guarantee Good Decisions. Harvard Business Review". Shah, Shvetank; Horne, Andrew; Capellá, Jaime;. HBR.org. Retrieved 8 September 2012.{{cite web}}: CS1 maint: extra punctuation (link)

[HilbertBigData2013-59] أ ^ب "Big Data for Development: From Information- to Knowledge Societies", Martin Hilbert (2013), SSRN Scholarly Paper No. ID 2205145). Rochester, NY: Social Science Research Network; http://papers.ssrn.com/abstract=2205145

[60] Anderson, C. (2008, June 23). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine, (Science: Discoveries). http://www.wired.com/science/discoveries/magazine/16-07/pb_theory

[61] Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review.

[danah-62] Danah Boyd (2010-04-29). "Privacy and Publicity in the Context of Big Data". WWW 2010 conference. Retrieved 2011-04-18.

[63] Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

v t e نماذج قواعد البيانات
نماذج شائعة	Flat Hierarchical Dimensional الشبكة Relational Entity–relationship Enhanced Graph Object-oriented Entity–attribute–value
نماذج أخرى	Associative Multidimensional Array Semantic Star schema XML database
تطبيقات	Flat file Column-oriented Document-oriented Object-relational Deductive Temporal XML data stores Triplestores

v t e نظام إدارة قواعد البيانات
الأنواع	Object-oriented comparison Relational list comparison Key–value Column-oriented list Document-oriented Wide-column store Graph NoSQL NewSQL In-memory list Multi-model comparison Cloud Blockchain-based database
المفاهيم	Database ACID Armstrong's axioms Codd's 12 rules CAP theorem CRUD Null Candidate key Foreign key PACELC design principle Superkey Surrogate key Unique key
الكائنات	Relation table column row View Transaction Transaction log Trigger Index Stored procedure Cursor Partition
المكونات	Concurrency control Data dictionary JDBC XQJ ODBC Query language Query optimizer Query rewriting system Query plan
الوظائف	Administration Query optimization Replication Sharding
مواضيع متعلقة	Database models Database normalization Database storage Distributed database Federated database system Referential integrity Relational algebra Relational calculus Relational model Object–relational database Transaction processing
Category Outline