شركة فيزا VISA – وهي شركة تدير أكبر شبكة في العالم للمدفوعات الالكترونية – تعالج 150 مليون عملية الكترونية في اليوم. تويتر يستقبل يوميا 720 مليون تغريدة، وكذلك سناب شات، و55 مليار رسالة يوميا يجري تداولها في واتس اب.
ما ذكر سابقا أمثلة للبيانات الضخمة أو ما يسمى Big Data، وهي بيانات ذات حجم ضخم جدا يتم توليدها بسرعة عالية نسبيا وتأخذ صيغا مختلفة (نص، صوت، صورة، فيديو، جداول، روابط.. إلخ) ويتم جمعها من مصدر واحد أو مصادر متعددة.
ولكن ما هي المعايير التي تجعلنا نطلق على بيانات ما أنها بيانات ضخمة؟
يحدد السيد دوج ليني، وهو أحد المختصين في تحليل البيانات ويشغل منصب نائب الرئيس لشركة Gartner وهي شركة أبحاث واستشارات عالمية – في مقال علمي له نشر عام 2001 ثلاثة معايير رئيسة يجب توفرها معا لكي يطلق على بيانات ما أنها بيانات ضخمة، هي: الحجم والسرعة والتنوع. وتوجد معايير أخرى أضيفت لاحقا من علماء آخرين، ولكن تبقى هذه المعايير الثلاثة هي الأساس. ولكن ما هو المقصود بهذه المعايير؟
لنبدأ بالمعيار الأول وهو «الحجم»، حيث يشير السيد ليني وغيره من المختصين في علم البيانات إلى أن حجم البيانات لا بد أن يجتاز حاجزا معينا لكي تصنف كبيانات ضخمة، وهذا الحاجز يختلف من زمن إلى آخر. على سبيل المثال لا يمكن في وقتنا الحالي أن نصنف ملفا بحجم 10 جيجا بايت أو حتى 100 جيجا بايت من ضمن ملفات البيانات الضخمة. والمتابع للتطور في حجم تخزين البيانات يلاحظ أنه منذ عام 2001 إلى 2011 تقريبا كان الجيجا بايت والتيرا بايت من وحدات القياس المستخدمة لوصف حجم البيانات الضخمة، ولكن منذ عام 2015 وما بعده أصبح البيتا بايت والإكسا بايت والزيتا بايت أكثر استخداما عند الحديث عن البيانات الضخمة.
أما «السرعة» وهي المعيار الثاني، فالمقصود بها معدل سرعة البيانات الصادرة والواردة. لنأخذ على سبيل المثال تويتر، حيث نلاحظ أن مستخدميه يكتبون من 6000 إلى 8000 تغريدة تقريبا في الثانية الواحدة، وهذا العدد في تزايد مع الأيام. إذن فالملاحظ هنا هو التدفق العالي للبيانات، وهذا ما يجعل معيار السرعة مهما لتصنيف البيانات كبيانات ضخمة.
والمعيار الثالث هو «التنوع»، ويقصد به تنوع البيانات بين مهيكلة وغير مهيكلة، فالبيانات المهيكلة هي تلك التي تكون على هيئة جداول أو محفوظة في قواعد بيانات بطريقة منظمة ويسهل التعامل معها. وهذا النوع من البيانات هو الموجود في قواعد البيانات التقليدية، أما البيانات غير المهيكلة هي تلك التي يتم توليدها عن طريق أجهزة كأجهزة الاستشعار أو الأجهزة الطبية أو غيرها أو يقوم الإنسان بتكوينها مثل النصوص الكتابية أو الصور أو الفيديو أو الملفات الصوتية، وهذا النوع من البيانات يعد الأكثر صعوبة وتعقيدا في المعالجة والتحليل.
إذا توفرت هذه المعايير الثلاثة في البيانات أصبحت بيانات ضخمة، وهذا النوع من البيانات تصعب معالجته باستخدام أداة واحدة فقط من أدوات إدارة قواعد البيانات أو باستخدام تطبيقات معالجة البيانات التقليدية، لذلك استخدم علماء البيانات أدوات متطورة ومتقدمة لمعالجتها وتحليلها بشكل صحيح ودقيق.
وفي المقال القادم بإذن الله سنتحدث عن أهمية البيانات الضخمة.
معاييرها :
-
- حجمها كبير ويقاس حاليا بالبيتا والإكسا والزيتا بايت
-
- حركتها سريعة جدا كبيانات تويتر مثلا
-
- متنوعة بين مهيكلة وغير مهيكلة