ارتبطت بالبيانات الضخمة مفرداتٌ أخذت بالتزايد، مع احتلالها مساحة أكبر في الاستخدامات التقنية. خلال عمله عام 2001 في مجموعة «ميتا» الاستشارية المعروفة اليوم بـ«غارتنر»، اختصر المستشار المالي دوغ لايني أهم سمات البيانات بالحديث عن ضخامتها، تنوّعها، وتسارع إنتاجها، بما عُرف بأحرف الـV الثلاثة: Volume, Velocity, Variety. اهتم لايني بطرق الاستفادة من البيانات ماليًا، وترافقَ تصنيفه مع بداية موجة «البيغ داتا» والآمال التي علقتها عليها شركات وحكومات لإحداث تغييرات في الاقتصاد والاجتماع؛ من الاعتماد المتزايد على وفرة البيانات بدلًا من التركيز على دقة تحليلها بشريًا، إلى الافتراضات المتسرعة بإمكانية تحقيق الربح السريع بمجرد توفر بيانات أضخم دون الالتفات لكلفة تخزينها أو قيمة محتواها.
لا شك أن تلك الموجة تعثّرت، لكنها لا تبدو في تراجع اليوم. إذ يتسارع إنتاج البيانات وتتسارع معه الأسئلة حول جدوى تلك الطفرة والاعتماد عليها لرسم تفاصيل من حياتنا عبر قرارات تتخذها الخوارزميّات.
مع نهاية العام الحالي، من المتوقّع أن يبلغ حجم البيانات المعلنة أو الممكن تعقبها وتقديرها، والتي تم إنتاجها واستهلاكها عالميًا خلال العام، 94 زيتابايت (1 زيتابايت يساوي تريليون غيغابايت). قدّرت توقعات سابقة أيضًا أن يُنتَج 1.7 ميغابايت في الثانية لكل شخص على الكرة الأرضية. لا يقتصر الاهتمام بهذه البيانات على استعمالها المتكرر لانتهاك الخصوصية الإلكترونية، بل يتعداه لمساءلة التفاوتات في ملكية البيانات وقدرة مالكيها على التحكم بها، وربما بنا كمستخدمين. نعجز اليوم كبشر عن اللحاق بوتيرة إنتاج البيانات وصعوبة تحليلها دون الاستعانة بالآلة، وكما في كل معضلة تكنولوجية تقريبًا، لا يبدو توقع المستقبل سهلًا.
البيانات المظلمة: أهميّة ما لا نعرف
في كتابه الأخير «البيانات المظلمة: أهميّة ما لا نعرف»، يتحدّث أستاذ الرياضيات وعلم الإحصاء دايفيد هاند عن محدودية البيانات الضخمة رغم وفرتها. عبر تحديده 15 نوعًا مما يسميه «البيانات المظلمة» (لنقصها أو عدم دقّتها)، يحذّر هاند من الاتكال التّام على البيانات المتوفّرة لما قد تحتويه من مشاكل بنيويّة لا تسمح بالوصول إلى خلاصاتٍ دقيقة. رغم ذلك، يعتبر الكاتب أنّ فرص الاستفادة من البيانات لتحسين حياة البشر غير محدودة. بتركيز صفحاته على العنصر البشري دون سواه، وعلى ما يعيق مزيدًا من الإنجازات عبر تحليل البيانات، يبدو الكتاب كدعوة إصلاحية، لا اعتراضية، ضمن موجة الـ«بيغ داتا».
اختار هاند أسلوبًا قصصيًا أكثر منه تقني، وركز بشكل واضح على أمثلة اقتصرت تقريبًا على بريطانيا والولايات المتحدة. يتحدّث الكتاب بدايةً عن البيانات التي يسهل معرفة غيابها، كتلك التي يتم إخفاؤها لأسباب تجارية أو سياسية، أو كالإجابات الناقصة في استطلاعات الرأي، قبل أن يركز على بيانات أكثر تعقيدًا قد لا يُعرف وجودها أصلًا من عدمه. في 28 كانون الثاني 1986 مثلًا، أدّى عطل تقني لانفجار مكوك الفضاء الأميركي «تشالنجر» بعد أقل من دقيقتين على إطلاقه ومقتل رواد ورائدات الفريق السبعة. توصلت لجنة التحقيق بعدها لخلاصات حول أسباب الحادثة، وكان أحدها عدم توفر البيانات المكتملة حول احتمال حدوث مشاكل تقنية، في ظل درجات حرارة مختلفة أثناء التحضير للإقلاع. في قضية تشالنجر، ساعد التحقيق على الوصول إلى البيانات المظلمة التي لم يعرف الفريق بها عند اتخاذ قرار الإقلاع، لكن الكاتب يقدّم أمثلة أخرى تُظهر ضرورة مساءلة بيانات قد لا تبدو ناقصة بالضرورة.
خلال إعصار ساندي الذي ضرب ثماني بلدان تقع على المحيط الأطلسي عام 2012، منها الولايات المتحدة، تسارعت التغريدات عن الإعصار على «تويتر» لتصل إلى أكثر من 20 مليونًا خلال أربعة أيام فقط. يتحدّث هاند عن أهمية هذه التغريدات لما قد تقدمه فوريًا من تقدير لحجم أضرار الإعصار وتوزّعه على المناطق، لكنه يشير إلى خلل كبير فيها. فبعد تحليل البيانات، تبيّن أن أكثر المناطق إرسالًا للتغريدات كانت في مدينة نيويورك، حيث الكثافة السكانية العالية، لا في المناطق الأكثر تضررًا. يقدم الكتاب مثلًا افتراضيًا آخر: بحال دمّر الإعصار منطقة ما بالكامل، فستغيب التغريدات منها تمامًا، ليختفي عكسيًا حجم الضرر البالغ بها بحال تم الاكتفاء ببيانات تويتر.
مفارقات السرد عبر البيانات
يضيئ هاند أيضًا على مفارقات أخرى قد تؤدي إلى خلاصات مختلفة، أو حتى متضادة، باستعمال البيانات نفسها. بعد غرق سفينة تايتانيك، أحصيت خلال التحقيق أعداد الوفيات والناجين وفق تموقع من في السفينة. نجت نسبة أعلى بقليل بين ركاب «الدرجة الثالثة» ككل مقارنة بتلك التي بين طاقم القيادة. لكن عند النظر إلى توزّع الوفيات بين النساء والرجال من الركاب في البيانات نفسها ولكن كمجموعتين منفصلتين إحصائيًا، يتبيّن أن نسب النجاة كانت أعلى في الطاقم لا في «الدرجة الثالثة» داخل كل من المجموعتين على حدة. فنظرًا إلى أنه تم تفضيل النساء والأطفال أثناء عمليات الإنقاذ، وإلى انخفاض نسبة النساء بين أفراد الطاقم مقابل نسبتهن بين ركاب الدرجة الثالثة، بدا في الإحصاء الأولي أن نسبة النجاة في الدرجة الثالثة كانت أعلى، لكن في الحقيقة، تم إنقاذ 20 سيدة من أصل 23 من نساء الطاقم، مقارنةً بـ76 من 165 من نساء الدرجة الثالثة.
لا يقتصر الاهتمام بالبيانات على استعمالها المتكرر لانتهاك الخصوصية الإلكترونية، بل يتعداه لمساءلة التفاوتات في ملكية البيانات وقدرة مالكيها على التحكم بها، وربما بنا كمستخدمين.
إذن، باستخدام مجموعة البيانات نفسها، يمكن الحديث عن روايتين مختلفتين، وفق ما يعرف بمفارقة سيمبسِن (Simpson’s paradox). تحدث هذه المفارقة عند عدم الالتفات إلى عناصر في البيانات (كجنس ركاب وراكبات التايتانيك) قد تؤدي إلى رسم صورة مختلفةٍ عن تلك التي تعبر عن قاعدة البيانات كمجموعة واحدة. فعند النظر لتلك التقسيمات داخل قاعدة البيانات نفسها، قد تظهر الاختلافات بين الأعداد والفوارق في توزّع النسب بين المجموعات المختلفة. عمليًا، تستند كلا القصتين إلى بيانات دقيقة، لكن اختيار القصة التي تفسر البيانات يتعلق بأهمية العناصر الإحصائية للقصة ورواتها. تفتح مثل هذه المفارقة الباب للتلاعب بطريقة السرد ورسم حدود خيال المتلقين والملتقيات لأهداف قد تكون سياسية أيضًا، وتتشابه مع الأساليب التي تعتمد عليها حكومات وشركات لتضخيم أو إخفاء بعض الأرقام، عبر تركيزها على الأعداد حينًا والنسب أحيانًا أخرى، أو التلاعب بالنسب لتشتيت الانتباه. يعطي هاند مثلًا عن الترويج لوجبة طعام باعتبارها خالية من الدهون بنسبة 90% لتجنّب القول باحتوائها للدهون بنسبة 10%.
يتجنّب الكاتب اتخاذ مواقف سياسية واضحة، وبهذا تميل بعض تفاصيل السرد نحو التيارات المهيمنة حاضرًا أو ماضيًا. يكتفي هاند في أحد الفصول بوصف الإحصائي رونالد فيشر بالـ«رائد» مثلًا، بينما بدأت خلال الأعوام القليلة الماضية مساءلة إرث الأخير لمساهماته خلال النصف الأول من القرن العشرين في المجال الذي سمي بـ«علم تحسين النوع» أو اليوجينيا، والذي شكل ركنًا في تكريس مفاهيم وممارسات عنصرية قبل دحضه بصورة كاملة منتصف القرن الماضي. رغم ذلك، يشير الكتاب عرَضًا لما قد تسببه الانحيازات الاجتماعية من انعدام للدقّة في قواعد البيانات، أو لضرورة الالتفات لمرور الزمن عند جمع البيانات وتحليلها.
في الفصول الأخيرة، وخلال عرضه للأسباب المختلفة خلف «البيانات المظلمة»، يقلب الكاتب العدسة رأسًا على عقب، ليتحدث عن حالات يصبح إخفاء جزء من البيانات فيها سبيلًا لخلاصات أكثر عَمَليّة أو دقة. في بعض التجارب الطبية مثلًا، يتم إخفاء هويات المرضى المتلقين والمتلقيات لعلاجات مختلفة كي لا تتدخل الفرق الطبية في سير التجارب وفق انحيازات اجتماعية قد يحملها أفرادها. في مثل آخر، يشرح الكاتب أهمية التقديرات الإحصائية بناء على استطلاعات رأي لعينات صغيرة ومدروسة، كما في التقديرات المتتالية لنتائج انتخابات تشريعية قبيل حصولها مثلًا، لما توفره من سرعة في الوصول إلى خلاصات دقيقة نسبيًا، بدلًا من جمع البيانات عن جميع أفراد فئة مستهدفة.
عصر ظلمات جديد
اختار جايمس برايدل الغوص فيما لم يتحدث عنه هاند. في كتابه الأخير، «عصر ظلمات جديد: التقنية والمعرفة ونهاية المستقبل»، يركّز برايدل على السياسات التي ترسم حدود البيانات الضخمة. اختار الكاتب التوسّع لما بعد التفاصيل التقنية، ودعا لحق الجميع بنقد، وأحيانًا مقاومة، التطورات التكنولوجية دون التخصص بتفاصيلها التقنية. يبدأ برايدل كتابه بنقد ما يسميه بـ«التفكير المحوسب» (أو الحوسبي) الذي يقلّص كل قضية لمسألة حسابية يجب حلّها عبر البرمجة وتحليل البيانات. يخلق هذا النوع من التفكير، بحسب الكاتب، صورة حياديةً للتكنولوجيا كأداة منفصلة يسعى صنّاعها لحل المشاكل بعيدًا عن الانحيازات البشرية، لتغيب عن المشهد رغبات سياسية وتجارية غالبًا ما تحرك صنع التكنولوجيا المستهلكة للبيانات أو المنتجة لها. كبديل لهذا التصور، يعتبر برايدل التكنولوجيا امتدادًا لنا في شبكة من العلاقات البشرية وغير البشرية، وينقل الانقسام بين الإنسان والآلة إلى آخر بين البشر أنفسهم: من يملك المادة والتقنية ومن لا يملكها.
يبدو الكتاب مهتمًا أيضًا في تفكيك التصور السائد حول دقّة التكنولوجيا وتفوقها على البشر. خلال نقده لظاهرة الانحياز للآلة (automation bias)، يعرض برايدل عددًا من الأخطاء التقنية الفادحة كالتي دفعت بمجموعة سواح في أستراليا لقيادة سيارتهم نحو البحر بعد أن أكدت أجهزة الملاحة التي استعملوها وجود طريق سالكة، أو تلك التي أدت إلى دخول طائرة كورية جنوبية أجواءً سيطر الاتحاد السوفييتي عليها عسكريًا فوق شبه جزيرة كامتشاتكا عام 1983، بعد اتباع قائديها نظام الطيران الآلي (autopilot)، مما أدى لقصف الطائرة وموت جميع ركابها الـ269.
يربط الكاتب تحذيراته من مثل هذه الأمثلة بالانتشار الواسع للخوارزميات اليوم، حيث لم تعد الأخيرة مجرد أدوات لحل مشاكل محددة، بل تعدتها لتتخذ القرارات في الفضاء الإلكتروني وخارجه. في مخازن شركة «أمازون» مثلًا، انقلبت علاقات التحكم نسبيًا وبات الموظفون مجبرين على اتباع الآلة. يتم توضيب السلع في المخازن الضخمة حسب قرارات خوارزمية بهدف الإسراع في توضيب أكبر عدد ممكن من الطلبات، لا حسب تصنيف يسهل فهمه بشريًا، كالاعتماد على نوع السلع. تنتشر أنواع مختلفة من نوع السلعة نفسها في نقاط بعيدة في المخزن بينما تتحاذى أخرى مختلفة الاستعمالات بسبب ترجيحات خوارزمية. بعد كل طلب إلكتروني، تصل موظفي المخازن تعليمات بالتوجه إلى رفوف مرقمة، ليمضوا ساعات عمل طويلة يخضعون فيها للمراقبة الإلكترونية عبر إحدى الخوارزميات، ويتبعون تعليمات خوارزمياتٍ أخرى.
يحدث هذا التفاوت وسط الاندفاع التجاري لتوظيف مزيد من الروبوتات لاستبدال العمال البشريين، أو لاستخدام خوارزميات ذكاء اصطناعي عملاقة يصعب على البشر (حتى الآن) فهم طريقة عملها. ينسب برايدل مرارًا هذا الاعتماد على ضبابية التكنولوجيا لرغبات سياسية بالإخفاء لدى صناع التكنولوجيا الكبار، ويتحدث عن ممارسات أتاحت للشركات التلاعب بالواقع أيضًا بالاستفادة من هذه الضبابية. مثلًا، للإيحاء للزبائن بحيوية تطبيقها في منطقة ما، تضيف «أوبر» رموز سيارات وهمية على الشاشة. أبعد من ذلك، جمعت الشركة بيانات متنوعة عن موظفين حكوميين يحققون بقضايا تتعلق بمخالفات الشركة، واستخدمت سرًا برنامجًا يدعى Greyball لرفض طلبات التنقل الصادرة عنهم أثناء التحقيقات. فولكسفاجن، بدورها، أخفت برنامجًا محوسبًا للتلاعب بمستوى الانبعاثات من حوالي 11 مليون سيارة صدّرتها حول العالم. عمل البرنامج قبل كشفه في الولايات المتحدة عام 2015 على تحديد الفترة التي تخضع خلالها السيارات لفحوص الانبعاثات، ليقّلصها حينها بما يتلاءم مع القوانين البيئية، قبل أن يرفعها تلقائيًا بعد الفحوصات لتتجاوز الحدود المسموح بها بأكثر من أربعين ضعفًا.
صدمة البيانات الضخمة
تأخذ الصدمة التي سببتها طفرة البيانات حيزًا واسعًا من نقد برايدل. في قطاع صناعة الأدوية مثلًا، تزايدت البيانات التجريبية بصورة هائلة، لكن عدد الأدوية الجديدة المصادق عليها تقلص نسبيًا، بصورة تذكّر بما نظّر له عالم الاجتماع الفرنسي جان بودريار منذ 1983 في كتابه «استراتيجيات قاتلة»، حيث تؤدي طفرة الإنتاج لعالمٍ يصعب فهمه أو السيطرة عليه. ينسب برايدل هذا التراجع للتسرع في إنتاج البيانات والعجز أمام التعامل مع طفرتها. ولوصف هذه الحالة، يتحدّث عن البيانات التي يتم إنتاجها باستمرار لتعود وتؤكد عدم أهميتها، قبل أن يعمّم هذه الملاحظة، ببعض التسرّع، على قطاعات تتجاوز صناعة الأدوية.
يعتبر برايدل التكنولوجيا امتدادًا لنا في شبكة من العلاقات البشرية وغير البشرية، وينقل الانقسام بين الإنسان والآلة إلى آخر بين البشر أنفسهم: من يملك المادة والتقنية ومن لا يملكها.
في بحر البيانات هذا، تأخذ نظريات المؤامرة والأخبار الكاذبة مكانها أيضًا. مع وفرة البيانات بصورة عشوائية، وضبابية المعرفة في عصر يصفه برايدل بالمظلم، باتت نظريات المؤامرة إحدى السبل لنشر تصورات تبسيطية توحي شكليًا بربط للنقاط أو بمعرفة أكثر اكتمالًا. يسهِّل تركيز الشركات على تحقيق الربح على حساب المحتوى من انتشار تلك النظريات، وتعود الخوارزميات لتأخذ سلطة القرار مرجحةً ما يجذب الانتباه حسب أولويات الربح تلك.
تتسم معظم فصول كتاب برايدل بنظرة أبوكاليبسية لا يخلو عنوان الكتاب منها بحديثه عن «نهاية المستقبل»، لكن الكاتب اختار في الفصل الأخير أن يرفض السيناريوهات الأبوكاليبسية كما المثالية التي يروّج لها أصحاب «التفكير المحوسب». بعد سرده لتاريخ العلاقة بين تطورات تكنولوجية عديدة وسيطرة الدول الكبرى، وحديثه عن تحول الاستعمار نحو البنى التحتية القائمة على استغلال المستعمرات السابقة والبيئة في عالم اليوم، يقترح برايدل طريقًا جديدًا يسميه بـ«الولاية» (Guardianship) على البيانات. لا تعتمد هذه الولاية على التخلي عن البيانات، إنما على الاعتراف بمحدوديتها والتوقف عن استعمالها لمحاولة السيطرة على المستقبل. يحدد الكاتب الولاية زمنيًا عبر التعلّم من الماضي والتركيز على الحاضر مع إدراك لا يقينية المستقبل. بهذا الاعتراف الواقعي بالعجز يكمن تحرر يصبح عبره عصر الظلمات الجديد، بحسب الكاتب، فرصة لخلق عوالم جديدة يتشارك الجميع بالتفكير بتكنولوجياتها وسياقات عملها.
في كتابيهما، يتشارك هاند وبرايدل المحاولة لنزع البداهة عن البيانات، ثم يفترقان جذريًا حول أهمية ضخامتها. بين عالم هاند الذي يزدهر ببيانات أكثر وفرة، وعالم برايدل الذي لا مستقبل فيه ما لم تتبدل الأيديولوجية المسببة بطفرة البيانات، ثمة مساحة غير ضيقة من الاحتمالات.