الجميع يكذب، أو كيف تكون البيانات الضّخمة أصدق من الجميع. لمحة سريعة حول كتاب Everybody Lies
كتاب ينتهج منهج كُتب Freakonomics من حيث أنه قد يُخبرك بمعلومات عكس ما كُنت تتوقّع. الفكرة العامة للكتاب هي كالتالي: يُمكن معرفة الكثير عن البشر بشكل عام من تحليل الكم الضخم من البيانات التي نتركها لدى استخدامنا للإنترنت.
الأمر راجع بشكل أساسي إلى طريقة استخدامنا للإنترنت. إن كان الناس عادة يكذبون على الشبكات الاجتماعية ويُحاولون تجميل صُورهم لتظهر في أبهى حلّة مُمكنة، فإن استخدامنا لمُحركات البحث يكشفنا على حقيقتنا، ليس لأننا لا نتشارك عمليات بحثنا مع غيرنا فحسب، وإنما لأننا نحاول أن نحصل على إجابات ونتائج دقيقة، وبالتالي فإننا لا نقوم بأية عمليات«رقابة» على ما نبحث في أغلب الحالات. هذا الأمر يجعل تحليل الكم الكبير من البيانات الضخمة خاصّة تلك المُستخرجة من مُحرّكات البحث مصدرًا أساسيًا للعديد من الدراسات في الوقت الراهن. بعبارة أخرى نحن في أفضل زمن عرفته البشرية فيما يخص الدراسات الاجتماعية.
من بين الأفكار التي ترسّبت لدي بعد الفراغ من الكتاب:
البيانات الضخمة مفيدة في فهم العالم الذي حولنا بشكل عام وفي الدراسات الإنسانية/الاجتماعية بشكل خاص لأنها تتميّز بأربعة مزايا هامة:
1- توفّر بيانات من نوع جديد وبأشكال مُختلفة لم تكن متوفّرة من قبل. فعلى سبيل المثال أصبح بالإمكان تحليل الصّور والتغريدات مثلًا للحصول على بيانات اقتصادية يُمكن تحليلها لاتخاذ قرارات.
2- البيانات تكون صادقة في الكثير من الحالات لأنها تُجمع بشكل لا يفتح الباب أمام المُستخدم ليكذب أو ليُحاول تلميع صورته.
3- توفر بيانات بشكل كبير بشكل يسمح لنا بالتركيز على جزء صغير منها لدراسته بشكل أدق.
4 – توفر البيانات بشكل كبير بشكل يسمح لنا بإجراء تجارب على نطاق واسع (مثلما هو الحال مع محرك البحث Google).
أشار الكتاب إلى أننا كبشر نُحاول تلميع صورنا حتى لما ندلي بإجاباتنا بشكل مجهول، حيث ذكر دراسات أجريت لمقارنة ما بين البيانات التي نحصل عليها من الاستبيانات وما بين الإحصائيات الرسمية وتبين وجود فرق يكون في أحيان عديدة كبيرة. فعلى سبيل المثال وفي بعض الاستقصاءات، تبين بأن هناك فرق ما بين نتائج الاستقصاءات والإحصائيات الرسمية في أمور تتوزّع ما بين نسبة المُشاركة في الانتخابات، أعداد من يملكون بطاقة مكتبة، أعداد المُتخرّجين الذين يتبرعون لجامعاتهم بعد تخرّجهم وحتى بعض المُعدّلات الخاصة بتحصيلهم الدراسي. في حين يمكن أن يكون بعض الاختلاف راجعًا إلى عدم دقّة الاستقصاءات والعيّنة التي تم استقصاؤها، إلا أن كِبر الفرق ما بين النتائج يوحي بأننا كبشر نكذب أكثر مما نعتقد.
الكاتب اعتمد على بيانات من مصادر مُختلفة، عمليات البحث على جوجل كانت المصدر الرئيس لها، لكنه اعتمد أيضًا على مصادر أخرى«غير كلاسيكية» كبيانات الشبكات الاجتماعية أو كعمليات البحث على أحد أكبر المواقع الإباحية والتي أوصلته إلى نتائج حول تفضيلات البشر في مجال الجنس قد لا تخطر على بال.
هل جميع البيانات الضخمة تُوصلنا إلى نتائج غير مُتوقّعة أو غير معروفة على طبيعة البشر؟ قد يدفعنا الكم الكبير من البيانات المُتوفّرة إلى محاولة تفسيرها بشكل لا يتوافق مع ما هو متعارف/مُتّفق عليه من القواعد والمُسلّمات، ولهذا يركّز الكاتب على نقطة مُهمّة وهي أن استخراج مثل هذه النتائج من البيانات الضخمة يصلح بشكل أساسي في المجالات التي لم تكن تتوفر فيها أيّة بيانات من قبل، أو تلك المجالات التي لا يُمكن لنا أن نجري أية دراسات علمية دقيقة. بعبارة أخرى استخراج القواعد والأنماط من البيانات الضخمة ليس أمرًا مثاليًا (المثالي أن ندرس أية قضية وفق منهجية علمية) وإنما يُعتبر الأمر أفضل ما يتوفّر لدينا إن لم يكن بالإمكان إجراء دراسة علمية.
من بين أفضل الأمثلة التي نجدها في الكتاب هو تلك الشركة التي تعتمد على خوارزميات خاصة لاختيار وشراء الخيول السريعة. الشركة تعتمد على البيانات الضخمة الخاصة بسباقات الخيول السابقة وخصائص كل حصان. بإمكان الشركة أن تختار أفضل حصان في مزاد خيول مُعيّن عبر تزويد خوارزمياتها بخصائص كل حصان لكنها لا تعرف بالتحديد ما الذي يجعل هذا الحصان أفضل من ذلك بالتحديد.
من بين الأفكار الطريفة في الكتاب هو إثبات أن الكثير من تفسيرات الأحلام المُتداولة لا تعطي أيّة دلائل على شخصية الحالم بها. فعلى سبيل المثال وبحكم توفر تطبيقات تسمح لمستخدميها بتدوين أحلامهم من خلالها، تبين مثلًا أن تواتر ظهور بعض الكلمات (مثل بعض الفواكه مثلا) يتوافق بشكل كبير مع تواتر تلك الكلمات في الحياة العامة (أو استهلاك تلك الفواكه بشكل عام) وبالتالي لما يتم تحليل الأحلام على نطاق واسع (وليس على مُستوى كل حُلم بشكل فردي) يتبيّن أن محتوياتها/مصطلحاتها تتوزّع بشكل يتوافق مع توزّع تلك المحتويات والمُصطلحات في الحياة اليومية.
أشار الكتاب إلا أنه يُمكن معرفة تأثير الخطابات السياسية بتحليل بيانات البحث خلال الفترة التي يُلقى فيها الخطاب، فعلى سبيل المثال درس الكاتب خطابين مُختلفين لأوباما كان يُحاول من خلالهما التخفيف من ظاهرة الإسلاموفوبيا التي تعرف تصاعدًا بعد كل هجمة إرهابية، وبين كيف أن لغة الخطاب الأول لم يكن لها تأثير إيجابي بل سلبي (ارتفاع عمليات البحث ذات الطابع الإسلاموفوبي خلال وبعد الخطاب) وكيف أن عمليات البحث ذات هذا الطابع انخفضت لما ركّز أوباما خطابه على أمثلة وشخصيات أمريكية مُسلمة.
الكتاب أيضًا أشار إلى أن مُعدلات العنصرية الحقيقية مُختلفة بشكل كبير على ما يظهر بشكل عام، فعلى سبيل المثال ارتفعت عمليات البحث ذات الطابع العنصري بعد انتخاب أوباما كرئيس للولايات المُتّحدة.
يُمكن للبيانات الضخمة التنبؤ بشكل دقيق إلى حد ما بانتشار الأمراض والأوبئة. فعلى سبيل المثال يُمكن لـGoogle أن تعرف مدى انتشار الإنفلونزا وطريقة انتشارها عبر تتبّع عمليات البحث الخاصة بالأعراض الخاصة بها.
ليست كل النتائج التي نستخلصها من البيانات الضخمة صحيحة أو دقيقة، في الكثير من الحالات ولدى دراسة الكثير من المُتغيّرات في مجال مُعيّن فإننا عادة ما نستخلص نتائج (علاقة بعض المُتغيرات ببعضها البعض) دون أن تكون هناك علاقة فعلية بينها. كثرة المُتغيرات التي تُدرس في هذه الحالة، وبحكم أننا نحاول تصيّد الأنماط حتى ولو لم تكن هناك أنماط حقيقية، كفيلة بإنتاج علاقات ونتائج بمحض الصدفة فقط.
في نهاية الكتاب وفي خضم حديثه عن كتابة خاتمة لكتابه، ذكر الكاتب أن إحصائيات تطبيق kindle تشير إلى أن قلّة قليلة فقط تنهي الكتب التي تقرأها (أو التي تفخر بأنها قرأتها) خاصة تلك الكُتب التي تُعتبر «كلاسيكية» أو أساسية في مجالها فعلى سبيل المثال لم يُكمل سوى 7 بالمئة من القرّاء كتاب Thinking, Fast and Slow أما نصيب كتاب Capital in the 21st Century فلم يُكمله سوى 3 بالمئة من القراء.
أنصح بقراءة الكتاب كل من يرغب في معرفة المزيد حول ما يُعرف بـ«البيانات الضخمة» Big Data. أنصح به أيضًا كل من يدرس أو يختصّ في العلوم الاجتماعية أو العلوم التي لا تُعرف عادة على أنها«علوم دقيقة» فالكم الهائل من البيانات المُتوفّر حاليًا قد يُغيّر طريقة دراستها وفهمنا لعلوم كثيرة.
وجب التنبيه إلى أن الكتاب يحتوي أمثلة عديدة ذات طابع قد ينفر منها الكثيرون، على غرار المسائل المُتعلّقة بالعُنف أو الجنس.
بعد فراغك من هذا الكتاب فقد ترغب في قراءة كتاب Weapons of Math Destruction، فإن كان الكتاب الحالي Everybody Lies يتحدّث عن قوة استخدام البيانات الضخمة Big Data وفوائدها، فإن كتاب Weapons of Math Destruction يُحذّر من أخطارها ويُبيّن نقاط ضعفها.