يواجه الذكاء الاصطناعي المتجسد، حيث تتفاعل وكلاء الذكاء الاصطناعي مع العالم المادي، تحديات كبيرة في إدراك وتفسير المعلومات المرئية بدقة. غالبًا ما تكافح نماذج اللغة متعددة الوسائط (MLLMs)، على الرغم من تطورها، مع الروابط الدقيقة بين الميزات المرئية والدلالات النصية. طور الباحثون في جامعة بنسلفانيا، بالتعاون مع جوجل، ESCA (وكيل مجسد ومُسيَّق بالرسم البياني للمشهد) لمعالجة هذه المشكلة في الإدراك. من خلال الاستفادة من الرسوم البيانية للمشهد وإطار عمل JAX، حققوا تحسينات كبيرة في الدقة والأداء، مما يدل على قوة البيانات المنظمة والبنية التحتية الفعالة لتطبيقات الذكاء الاصطناعي في العالم الحقيقي.
مشكلة الإدراك في الذكاء الاصطناعي المتجسد
غالبًا ما تفشل نماذج اللغة متعددة الوسائط (MLLMs) الحالية في التقاط العلاقة بين المدخلات المرئية والتعليمات النصية بدقة. يؤدي هذا إلى أخطاء في مهام الملاحة والتفاعل. كشف اكتشاف رئيسي من تحليل مهام الملاحة أن نسبة كبيرة من حالات فشل الوكيل متجذرة في أخطاء الإدراك.
- معدل الخطأ المرتفع: 69% من حالات فشل الوكيل في مهام الملاحة EmbodiedBench تنبع من أخطاء الإدراك.
- أنواع الأخطاء: تتضمن هذه الأخطاء الهلوسة والتعرف الخاطئ ومشاكل الفهم المكاني.
- الفهم الدقيق مطلوب: تكافح النماذج لتحديد العلاقات المكانية الدقيقة بين الكائنات اللازمة لإكمال المهام.
إسكا: إنارة بيئة الوكيل
تعالج ESCA مشكلة الإدراك باستخدام الرسوم البيانية للمشهد لتوفير معلومات سياقية منظمة لنماذج اللغة متعددة الوسائط (MLLMs). يشبه هذا النهج سمكة أبو الشص التي تستخدم إغراءها البيولوجي لإضاءة محيطها.
- الرسوم البيانية للمشهد: تقوم ESCA بإنشاء خريطة منظمة للكائنات والسمات والعلاقات داخل بيئة الوكيل.
- الترسيخ الانتقائي: بدلاً من إغراق النموذج بكل المعلومات المتاحة، تحدد ESCA بشكل انتقائي وتستخدم الكائنات والعلاقات الأكثر صلة بالمهمة الحالية.
- الاستدلال الاحتمالي: تستخدم ESCA الاستدلال الاحتمالي لإنشاء مطالبات غنية بالتفاصيل السياقية التي يحتاجها الوكيل للتصرف بفعالية.
LASER و Scallop: المحرك وراء ESCA
جوهر ESCA هو LASER، وهو نموذج أساسي قائم على CLIP تم تدريبه على مجموعة بيانات كبيرة من أزواج الفيديو والتسميات التوضيحية. يعمل LASER مع Scallop، وهي لغة برمجة عصبية رمزية مع نهايات JAX الخلفية، لربط الرسوم البيانية للمشهد بالقواعد المنطقية.
- LASER: نموذج أساسي قائم على CLIP تم تدريبه على أزواج الفيديو والتسميات التوضيحية.
- Scallop: لغة برمجة عصبية رمزية تدعم نهايات JAX الخلفية.
- إنشاء الرسوم البيانية الآلي: يتيح هذا المسار تدريب نماذج الإدراك التي تنتج رسومًا بيانية مفصلة دون تعليقات توضيحية يدوية مكثفة.
JAX: الأداء والنمطية
أثبت الانتقال إلى JAX أنه حاسم في تحقيق الأداء في الوقت الفعلي. كانت إمكانات التصميم الوظيفي والتجميع في الوقت المناسب (JIT) الخاصة بـ JAX مفيدة في تحسين خط الأنابيب.
- انعدام الحالة: مكّنت بنية JAX الوظيفية النمطية وسهلت تجميع JIT الفعال، مما قلل من الحمل الزائد لوحدة معالجة الرسومات (GPU).
- تدفق التحكم المعقد: توفر JAX بدائيات مثل
jax.lax.cond لإدارة تدفق التحكم داخل الرسوم البيانية الاحتمالية بكفاءة.
- تصحيح الأخطاء والشفافية: تتيح أدوات تصحيح الأخطاء في JAX، مثل
jax.debug.print و jax.disable_jit، سهولة الفحص وتصحيح وظائف التجميع. توفر الطبيعة مفتوحة المصدر لـ JAX أيضًا رؤى عميقة حول أعمالها.
- التكامل السلس مع Flax: تتكامل مكتبة NNX بسلاسة، مما يتيح سهولة هيكلة النماذج وإدارة المعلمات.
مكاسب أداء JAX
أدى التحول من PyTorch إلى JAX إلى زيادة كبيرة في الأداء، وهو أمر بالغ الأهمية لتطبيقات الوكيل المتجسد في الوقت الفعلي.
- زيادة السرعة بنسبة 25٪: قللت JAX متوسط الوقت لكل إطار على وحدة معالجة الرسومات NVIDIA H100 من 18.15 مللي ثانية (PyTorch) إلى 14.55 مللي ثانية.
- زيادة الإطارات في الثانية (FPS): وبالمثل، زادت الإطارات في الثانية (FPS) من 55.15 إلى 68.82.
- الجدوى في الوقت الفعلي: هذا التسريع يجعل إطار عمل ESCA أكثر جدوى للتطبيقات في الوقت الفعلي.
خاتمة
توضح ESCA أهمية الجمع بين البيانات المنظمة (الرسوم البيانية للمشهد) والبنية التحتية الفعالة (JAX) للتغلب على مشكلة الإدراك في الذكاء الاصطناعي المتجسد. يسلط البحث الضوء على كيف تسهل سرعة JAX وشفافيتها ونمطيته تطوير وكلاء استدلال موثوقين في الوقت الفعلي. يمهد نجاح ESCA الطريق لأنظمة الذكاء الاصطناعي المتجسدة الأكثر تقدمًا والقادرة على التنقل والتفاعل مع العالم المادي بشكل أكثر فعالية.
المصدر: Google Open Source Blog
Embodied AI, where AI agents interact with the physical world, faces significant challenges in accurately perceiving and interpreting visual information. Multi-Modal Language Models (MLLMs), despite their advancements, often struggle with the fine-grained links between visual features and textual semantics. Researchers at the University of Pennsylvania, in collaboration with Google, have developed ESCA (Embodied and Scene-Graph Contextualized Agent) to address this perception bottleneck. By leveraging scene graphs and the JAX framework, they’ve achieved significant improvements in accuracy and performance, demonstrating the power of structured data and efficient infrastructure for real-world AI applications.
The Perception Problem in Embodied AI
Existing MLLMs often fail to accurately capture the relationship between visual inputs and textual instructions. This leads to errors in navigation and interaction tasks. A key finding from their analysis of navigation tasks revealed that a significant proportion of agent failures are rooted in perception errors.
- High Error Rate: 69% of agent failures in EmbodiedBench navigation tasks stem from perception errors.
- Types of Errors: These errors include hallucination, wrong recognition, and spatial understanding issues.
- Fine-grained Understanding Required: Models struggle to identify precise spatial relationships between objects needed to complete tasks.
ESCA: Illuminating the Agent’s Environment
ESCA addresses the perception problem by using scene graphs to provide structured contextual information to MLLMs. This approach is likened to an anglerfish using its bioluminescent lure to reveal its surroundings.
- Scene Graphs: ESCA generates a structured map of objects, attributes, and relationships within the agent’s environment.
- Selective Grounding: Instead of overwhelming the model with all available information, ESCA selectively identifies and uses the most relevant objects and relations to the current task.
- Probabilistic Reasoning: ESCA employs probabilistic reasoning to create prompts enriched with the contextual details the agent needs to act effectively.
LASER and Scallop: The Engine Behind ESCA
The core of ESCA is LASER, a CLIP-based foundation model trained on a large dataset of video-caption pairs. LASER works with Scallop, a neurosymbolic programming language with JAX backends, to connect scene graphs to logical rules.
- LASER: A CLIP-based foundation model trained on video-caption pairs.
- Scallop: A neurosymbolic programming language that supports JAX backends.
- Automated Graph Generation: This pipeline enables the training of perception models that produce detailed graphs without extensive manual annotation.
The transition to JAX proved crucial in achieving real-time performance. JAX’s functional design and Just-In-Time (JIT) compilation capabilities were instrumental in optimizing the pipeline.
- Statelessness: JAX’s functional architecture enabled modularity and facilitated effective JIT compilation, reducing GPU overhead.
- Complex Control Flow: JAX provides primitives like
jax.lax.cond for managing control flow within probabilistic graphs efficiently.
- Debugging and Transparency: JAX’s debugging tools, like
jax.debug.print and jax.disable_jit, allow for easy inspection and debugging of compiled functions. The open-source nature of JAX also provides deep insights into its workings.
- Seamless Integration with Flax: The NNX library integrates seamlessly, allowing easy structuring of models and management of parameters.
The switch from PyTorch to JAX resulted in a substantial performance boost, critical for real-time embodied agent applications.
- 25% Speedup: JAX reduced the average time per frame on an NVIDIA H100 GPU from 18.15 ms (PyTorch) to 14.55 ms.
- Increased FPS: Correspondingly, Frames Per Second (FPS) increased from 55.15 to 68.82.
- Real-Time Viability: This speedup makes the ESCA framework more viable for real-time applications.
Conclusion
ESCA demonstrates the importance of combining structured data (scene graphs) with efficient infrastructure (JAX) to overcome the perception bottleneck in Embodied AI. The research highlights how JAX’s speed, transparency, and modularity facilitate the development of real-time, reliable reasoning agents. The success of ESCA paves the way for more advanced embodied AI systems capable of navigating and interacting with the physical world more effectively.
Source: Google Open Source Blog