التعلم المعزز: تكنولوجيا الذكاء الاصطناعي تنتقل من المختبر إلى العالم الحقيقي
هذا المقال ترجمة بتصرف لمقال: Reinforcement learning: The next great AI tech moving from the lab to the real world لكاتبته: Hassan Mahmud في موقع: venturebeat.com. الآراء الواردة أدناه تعبّر عن كاتب المقال الأصلي ولا تعبّر بالضرورة عن تبيان.
يعد التعلم المعزز نوعًا قويًا من تقنيات الذكاء الاصطناعي التي يمكن استخدامها لتعلم استراتيجيات للتحكم الأمثل في الأنظمة الكبيرة والمعقدة مثل المصانع وأنظمة التحكم في حركة المرور (الطرق / القطارات / الطائرات) والمحافظ المالية والروبوتات وما إلى ذلك. تنتقل هذه التقنية حاليًا من مختبرات الأبحاث إلى تطبيقات واقعية للغاية وذات تأثير كبير كالسيارات ذاتية القيادة، فعلى سبيل المثال؛ تستخدم الشركات مثل ويف ووايمو التعلم المعزز لتطوير أنظمة التحكم في سياراتهم.
تُستخدم عادةً أنظمة الذكاء الاصطناعي في الصناعة في التعرف على الأنماط للتنبؤ مثل اكتشاف الوجوه في الصور أو التعرف على الأنماط في بيانات المبيعات للتنبؤ بتغيير في الطلب وما إلى ذلك، من ناحية أخرى تُستخدم أساليب التعلم المعزز لاتخاذ القرارات أو الإجراءات المثلى في التطبيقات التي توجد بها حلقة تعديل على الأوامر من خلال نتائج العملية أو استجابة النظام. سيساعدنا المثال الآتي على التمييز بوضوح بين طرق استخدام الذكاء الاصطناعي المعتادة والتعلم المعزز حيث يمكن استخدامهما في إطار واحد ولكن لأغراض مختلفة.
لنفترض أننا نستخدم الذكاء الاصطناعي للمساعدة في تشغيل مصنع. يمكن استخدام التعرف على الأنماط لضمان الجودة؛ حيث يلتقط نظام الذكاء الاصطناعي صورًا ويجري مسحًا للمنتج النهائي للكشف عن أي نقص أو عيب، بينما يقوم نظام التعلم المعزز بحساب وتنفيذ إستراتيجية التحكم في عملية التصنيع نفسها (مثل تحديد الخطوط التي سيتم تشغيلها، والتحكم في الآلات / الروبوتات، وتحديد المنتج المطلوب تصنيعه، وما شابه).
سيحاول النظام أيضًا التأكد من مثالية الإستراتيجية من حيث إنها تزيد من كفاءة بعض المعايير مثل كمية الإنتاج مع الحفاظ على مستوى معين من جودة المنتج. تعتبر عملية حساب استراتيجية التحكم المثلى أصعب بكثير من التعرف على الأنماط لأنها تحتاج إلى الدقة والبراعة.
عند حساب الإستراتيجية المثلى، أو سياسة أسلوب التعلم المعزز، فإن التحدي الرئيسي الذي تواجهه خوارزمية تعليم النظام يكمن بما يسمى بمشكلة “الإقراض الزمني”. بمعنى؛ من المرجح أن معرفة تأثير إجراء ما في حالة نظام معينة على الأداء العام تحتاج إلى وقت طويل، على سبيل المثال: “تشغيل الخط 1 يوم الأربعاء” حسب “مستوى الإنتاج الحالي للآلات، ومدى انشغال كل خط” على “إجمالي حجم الإنتاج”.
ولجعل الأمور أسوأ، يعتمد الأداء العام أيضًا على جميع الإجراءات التي يتم اتخاذها بعد الإجراء الذي يتم تقييمه؛ مما يعني أنه عندما يُنفذ الأسلوب المرشح للتقييم، من الصعب معرفة أي الإجراءات كانت جيدة وأيها كانت سيئة؛ أي من الصعب للغاية إسناد الفضل إلى الإجراءات المختلفة كما ينبغي. ويزداد تفاقم الوضع مع العدد الكبير من الحالات المحتملة في هذه المشاكل المعقدة من خلال ما يسمى “لعنة الأبعاد” المخيفة.
يمكننا فهم كيفية حل النظام لكل هذه المشكلات في نفس الوقت من خلال النظر إلى النجاحات المذهلة التي حققوها مؤخرًا في المختبر.
تأتي العديد من البراهين البارزة مؤخرًا لقوة التعلم المعزز من تطبيقه على ألعاب الفيديو وألعاب الطاولة على الإنترنت. إذ استطاع أول نظام للتعلم المعزز التأثير على مجتمع الذكاء الاصطناعي العالمي بقدرته على تعلم التفوق على البشر في ألعاب الأتاري المختلفة. أسس في لندن عام 2013 من قبل مختبر أبحاث الذكاء الاصطناعي ديب مايند (الآن جزء من ألفابيت إنك)، وأنشأ نفس المختبر لاحقًا سلسلة من أنظمة أو وكلاء التعلم المعزز، بدءًا من وكيل ألفا جو؛ والذي استطاع هزيمة أفضل اللاعبين في العالم في لعبة “Go”. اجتاحت هذه الإنجازات الرائعة التي حدثت بين عامي 2015 و2017 العالم؛ لأن اللعبة معقدة للغاية وتتطلب تفكيرًا إستراتيجيًا معقدًا وطويل الأمد مع ملايين اللاعبين حول العالم بالإضافة لترتيبات محلية وعالمية.
تبعًا لذلك، أصدر ديب مايند ومختبر أبحاث الذكاء الاصطناعي “OpenAI” أنظمة للعب ألعاب الفيديو ستاركرافت ودوتا 2؛ والتي يمكنها هزيمة أفضل اللاعبين البشريين في جميع أنحاء العالم. تمثل هذه الألعاب تحديًا لأنها تتطلب التفكير الإستراتيجي وإدارة الموارد والتحكم والتنسيق بين كيانات متعددة داخل اللعبة.
تم تدريب جميع الأدوات المذكورة أعلاه من خلال السماح لخوارزمية التعلم المعزز باللعب عدة مرات (الملايين أو أكثر) ومعرفة السياسات المجدية والغير مجدية ضد أنواع مختلفة من الخصوم واللاعبين. تمكن النظام من خوض العديد من التجارب لأن كل هذه الألعاب تعمل على الكمبيوتر.
وغالبًا ما استخدمت خوارزمية التعلم في تحديد فعالية السياسات المختلفة مزيجًا معقدًا من الأفكار؛ يتضمن ذلك تسلق التلال، واللعب ضد نفسها، وإدارة البطولات داخليًا بين سياسات المرشحين أو استخدام السياسات التي يستخدمها البشر كنقطة انطلاق، والموازنة بطريقة صحيحة بين استكشاف سياسات جديدة مقابل استغلال السياسات الجيدة الموجودة حتى الآن.
مكّنت التجارب الكثيرة من استكشاف العديد من حالات اللعبة المختلفة التي يمكن الوصول إليها على نحو معقول، في حين مكّنت طرق التقييم المعقدة نظام الذكاء الاصطناعي من تحديد الإجراءات المفيدة على المدى الطويل.
إن إمكانية إجراء ملايين التجارب في العالم الحقيقي تحول دون استخدام هذه الخوارزميات.
لحسن الحظ هناك اقتراح لحل هذه المشكلة؛ أولًا قم بإنشاء محاكاة على الكمبيوتر للتطبيق المرغوب (محاكاة لعملية التصنيع، أو محاكاة السوق وما إلى ذلك)، ثم اكتشف السياسة المثلى في المحاكاة باستخدام خوارزميات التعلم المعزز، وأخيرًا قم بتكييفها مع العالم الحقيقي من خلال تشغيله عدة مرات وتعديل بعض العوامل.
أظهرت مختبرات “OpenAI” فعالية هذا النهج في عرض توضيحي مبهر عام 2019 من خلال تدريب ذراع روبوت على حل أحجية مكعب روبيك بيد واحدة.
لكي يعمل هذا النهج يجب أن تمثل المحاكاة المشكلة الأساسية بدرجة عالية من الدقة، كما يجب أن تكون المشكلة “محصورة”؛ بمعنى ألا يكون هناك تأثيرات خارجية عشوائية أو غير مرئية قد تؤثر على أداء النظام. على سبيل المثال؛ لن تعمل هذه الطريقة إذا كان ذراع الروبوت المحاكي مختلفًا جدًا عن ذراع الروبوت الحقيقي، أو إذا كانت هناك محاولات لإخراج مكعب روبيك من ذراع الروبوت الحقيقي (عمومًا فقد يستجيب لأنواع معينة من العوائق والتدخلات ويمكن تدريبه لهذه الحالات).
ستبدو هذه القيود مقبولة لمعظم الناس إلا أنه من الصعب تحديد كفاءة النظام بصورة صحيحة في التطبيقات الحقيقية وقد يؤدي ذلك إلى مفاجآت غير سارة. في مثالنا السابق لتشغيل المصنع، إذا تم استبدال آلة بآلة أسرع أو أبطأ كثيرًا؛ فقد تتغير ديناميكيات المصنع ويصبح من الضروري إعادة تدريب النظام مجددًا، وهذا بديهي بالنسبة لأي وحدة تحكم آلية، لكن أصحاب المصلحة يتوقعون أفضل من هذا من نظام الذكاء الاصطناعي ويجب خفض هذه التوقعات.
بغض النظر، يبدو مستقبل التعلم المعزز في العالم الحقيقي مشرقًا للغاية، ففي الوقت الحالي هناك العديد من الشركات الناشئة التي تقدم منتجات التعليم المعزز للتحكم في روبوتات التصنيع مثل “أوسارو” و”لافي”، وإدارة جداول الإنتاج، واتخاذ القرارات المؤسسية، والخدمات اللوجستية، وتصميم الدوائر، والتحكم في السيارات المستقلة “ويف” و”وايمو”، والتحكم في الطائرات بدون طيار “أمازون”، والإدارة المالية، والعديد من التطبيقات الأخرى التي يصعب الوصول إليها من أنظمة الذكاء الاصطناعي القائمة على التعرف على الأنماط.
استثمرت كل شركة من شركات “Big Tech” مبالغًا ضخمة في أبحاث تقنية التعلم المعزز، واستحوذت جوجل على ديب مايند مقابل 400 مليون جنيه إسترليني (حوالي 525 مليون دولار أمريكي) في عام 2015. لذلك فمن المنطقي أن نفترض أن هذه التقنية إما قيد الاستخدام داخليًا بالفعل في هذه الشركات أو في طور الإعداد لكنهم يحافظون على سرية التفاصيل لأسباب تتعلق بالمزايا التنافسية.
يجب أن نأخذ بعين الاعتبار احتمالية تراجع هذه التطبيقات الواعدة، ولكن من المحتمل أن تحصل هذه التقنية على مكانتها المعتبرة في المستقبل القريب.