AI

إسكا: ترسيخ الوكلاء المتجسدين باستخدام الرسوم البيانية للمشهد وJAX لتحقيق أداء في الوقت الفعلي

ع
عبدالله الفضلي
· · 3 دقائق قراءة
إسكا: ترسيخ الوكلاء المتجسدين باستخدام الرسوم البيانية للمشهد وJAX لتحقيق أداء في الوقت الفعلي

يواجه الذكاء الاصطناعي المتجسد، حيث تتفاعل وكلاء الذكاء الاصطناعي مع العالم المادي، تحديات كبيرة في إدراك وتفسير المعلومات المرئية بدقة. غالبًا ما تكافح نماذج اللغة متعددة الوسائط (MLLMs)، على الرغم من تطورها، مع الروابط الدقيقة بين الميزات المرئية والدلالات النصية. طور الباحثون في جامعة بنسلفانيا، بالتعاون مع جوجل، ESCA (وكيل مجسد ومُسيَّق بالرسم البياني للمشهد) لمعالجة هذه المشكلة في الإدراك. من خلال الاستفادة من الرسوم البيانية للمشهد وإطار عمل JAX، حققوا تحسينات كبيرة في الدقة والأداء، مما يدل على قوة البيانات المنظمة والبنية التحتية الفعالة لتطبيقات الذكاء الاصطناعي في العالم الحقيقي.

مشكلة الإدراك في الذكاء الاصطناعي المتجسد

غالبًا ما تفشل نماذج اللغة متعددة الوسائط (MLLMs) الحالية في التقاط العلاقة بين المدخلات المرئية والتعليمات النصية بدقة. يؤدي هذا إلى أخطاء في مهام الملاحة والتفاعل. كشف اكتشاف رئيسي من تحليل مهام الملاحة أن نسبة كبيرة من حالات فشل الوكيل متجذرة في أخطاء الإدراك.

  • معدل الخطأ المرتفع: 69% من حالات فشل الوكيل في مهام الملاحة EmbodiedBench تنبع من أخطاء الإدراك.
  • أنواع الأخطاء: تتضمن هذه الأخطاء الهلوسة والتعرف الخاطئ ومشاكل الفهم المكاني.
  • الفهم الدقيق مطلوب: تكافح النماذج لتحديد العلاقات المكانية الدقيقة بين الكائنات اللازمة لإكمال المهام.

إسكا: إنارة بيئة الوكيل

تعالج ESCA مشكلة الإدراك باستخدام الرسوم البيانية للمشهد لتوفير معلومات سياقية منظمة لنماذج اللغة متعددة الوسائط (MLLMs). يشبه هذا النهج سمكة أبو الشص التي تستخدم إغراءها البيولوجي لإضاءة محيطها.

  • الرسوم البيانية للمشهد: تقوم ESCA بإنشاء خريطة منظمة للكائنات والسمات والعلاقات داخل بيئة الوكيل.
  • الترسيخ الانتقائي: بدلاً من إغراق النموذج بكل المعلومات المتاحة، تحدد ESCA بشكل انتقائي وتستخدم الكائنات والعلاقات الأكثر صلة بالمهمة الحالية.
  • الاستدلال الاحتمالي: تستخدم ESCA الاستدلال الاحتمالي لإنشاء مطالبات غنية بالتفاصيل السياقية التي يحتاجها الوكيل للتصرف بفعالية.

LASER و Scallop: المحرك وراء ESCA

جوهر ESCA هو LASER، وهو نموذج أساسي قائم على CLIP تم تدريبه على مجموعة بيانات كبيرة من أزواج الفيديو والتسميات التوضيحية. يعمل LASER مع Scallop، وهي لغة برمجة عصبية رمزية مع نهايات JAX الخلفية، لربط الرسوم البيانية للمشهد بالقواعد المنطقية.

  • LASER: نموذج أساسي قائم على CLIP تم تدريبه على أزواج الفيديو والتسميات التوضيحية.
  • Scallop: لغة برمجة عصبية رمزية تدعم نهايات JAX الخلفية.
  • إنشاء الرسوم البيانية الآلي: يتيح هذا المسار تدريب نماذج الإدراك التي تنتج رسومًا بيانية مفصلة دون تعليقات توضيحية يدوية مكثفة.

JAX: الأداء والنمطية

أثبت الانتقال إلى JAX أنه حاسم في تحقيق الأداء في الوقت الفعلي. كانت إمكانات التصميم الوظيفي والتجميع في الوقت المناسب (JIT) الخاصة بـ JAX مفيدة في تحسين خط الأنابيب.

  • انعدام الحالة: مكّنت بنية JAX الوظيفية النمطية وسهلت تجميع JIT الفعال، مما قلل من الحمل الزائد لوحدة معالجة الرسومات (GPU).
  • تدفق التحكم المعقد: توفر JAX بدائيات مثل jax.lax.cond لإدارة تدفق التحكم داخل الرسوم البيانية الاحتمالية بكفاءة.
  • تصحيح الأخطاء والشفافية: تتيح أدوات تصحيح الأخطاء في JAX، مثل jax.debug.print و jax.disable_jit، سهولة الفحص وتصحيح وظائف التجميع. توفر الطبيعة مفتوحة المصدر لـ JAX أيضًا رؤى عميقة حول أعمالها.
  • التكامل السلس مع Flax: تتكامل مكتبة NNX بسلاسة، مما يتيح سهولة هيكلة النماذج وإدارة المعلمات.

مكاسب أداء JAX

أدى التحول من PyTorch إلى JAX إلى زيادة كبيرة في الأداء، وهو أمر بالغ الأهمية لتطبيقات الوكيل المتجسد في الوقت الفعلي.

  • زيادة السرعة بنسبة 25٪: قللت JAX متوسط الوقت لكل إطار على وحدة معالجة الرسومات NVIDIA H100 من 18.15 مللي ثانية (PyTorch) إلى 14.55 مللي ثانية.
  • زيادة الإطارات في الثانية (FPS): وبالمثل، زادت الإطارات في الثانية (FPS) من 55.15 إلى 68.82.
  • الجدوى في الوقت الفعلي: هذا التسريع يجعل إطار عمل ESCA أكثر جدوى للتطبيقات في الوقت الفعلي.

خاتمة

توضح ESCA أهمية الجمع بين البيانات المنظمة (الرسوم البيانية للمشهد) والبنية التحتية الفعالة (JAX) للتغلب على مشكلة الإدراك في الذكاء الاصطناعي المتجسد. يسلط البحث الضوء على كيف تسهل سرعة JAX وشفافيتها ونمطيته تطوير وكلاء استدلال موثوقين في الوقت الفعلي. يمهد نجاح ESCA الطريق لأنظمة الذكاء الاصطناعي المتجسدة الأكثر تقدمًا والقادرة على التنقل والتفاعل مع العالم المادي بشكل أكثر فعالية.


المصدر: Google Open Source Blog