في عالم يعتمد بشكل متزايد على الذكاء الاصطناعي (AI)، يلوح في الأفق تحدٍ حاسم: استنفاد بيانات التدريب المتاحة بسهولة. يستكشف هذا المقال، الذي كتبه جاك هيداري، الرئيس التنفيذي لشركة SandboxAQ، للمنتدى الاقتصادي العالمي، “جفاف البيانات” الناشئ هذا ويقترح توليد البيانات الاصطناعية كحل لتغذية الموجة التالية من تطورات الذكاء الاصطناعي. تسلط المقالة الضوء على القيود المفروضة على نماذج الذكاء الاصطناعي الحالية المدربة على مجموعات البيانات الحالية وتؤكد على الحاجة إلى بيانات كمية جديدة لإطلاق الإمكانات الحقيقية للذكاء الاصطناعي عبر مختلف الصناعات. علاوة على ذلك، تناقش أهمية إنشاء أنظمة بيئية بيانات يسهل الوصول إليها لتعزيز الابتكار وتحقيق ميزة تنافسية في المستقبل الذي يقوده الذكاء الاصطناعي.
أزمة بيانات الذكاء الاصطناعي: عنق الزجاجة للتقدم
تفتتح المقالة بتحديد مشكلة واضحة: تستهلك نماذج الذكاء الاصطناعي بسرعة البيانات المتاحة، متجاوزة قدرتنا على توليد معلومات جديدة ومتنوعة. إن المضاعفة المستمرة للبيانات كل بضع سنوات ليست كافية، حيث ينقص التنوع و الابتكار في البيانات. وتشمل النقاط الرئيسية:
- تستهلك نماذج الذكاء الاصطناعي البيانات وتدمجها بشكل أسرع من إنشاء بيانات جديدة.
- ستنتج نماذج اللغة الكبيرة (LLMs) المدربة على نفس البيانات في النهاية مخرجات سلعية.
- إن نقص البيانات الجديدة يعيق قدرة الذكاء الاصطناعي على حل تحديات الأعمال والعلم والمجتمع المتقدمة، لا سيما في المجالات الكمية.
- غالبًا ما تكون التجارب الفيزيائية لتوليد بيانات جديدة بطيئة ومكلفة وأحيانًا مستحيلة.
البيانات الاصطناعية: حل واعد
تقدم المقالة مفهوم البيانات الاصطناعية كحل للتغلب على مشكلة ندرة البيانات. يتم تقديم طريقتين أساسيتين لتوليد مجموعات بيانات جديدة:
- الأتمتة: استخدام الروبوتات وأجهزة الاستشعار المتقدمة لإجراء تجارب فيزيائية مستمرة. ومع ذلك، يعتبر هذا النهج غير فعال من حيث التكلفة ويقلل من تعلم الإنسان.
- الحوسبة: استخدام مجموعات بيانات متنوعة وقوانين فيزيائية ونماذج حسابية عميقة لمحاكاة الأنظمة المعقدة. هذه الطريقة أسرع وأكثر أمانًا وفعالية من حيث التكلفة وأكثر دقة.
تؤكد المقالة أيضًا على أهمية النماذج الكمية الكبيرة (LQMs):
- يتم تدريب LQMs على معادلات المبادئ الأولى (الفيزياء والكيمياء والأحياء).
- أنها تولد تفسيرات سببية قابلة للتدقيق وبيانات جديدة غير متوفرة في الأدبيات الحالية.
- يمكن لـ LQMs تسريع البحث والتطوير عبر الصناعات، ويتضح ذلك من خلال قدرتها على إحداث ثورة في اكتشاف الأدوية.
بناء نظام بيئي للبيانات الاصطناعية للابتكار
تؤكد المقالة على أهمية الوصول إلى مجموعات البيانات الاصطناعية لابتكار الذكاء الاصطناعي. وهذا يشمل:
- الوصول المستند إلى النظام الأساسي إلى النماذج التأسيسية، مما يتيح مشاركة أوسع دون المساس بخصوصية البيانات أو الملكية الفكرية.
- تبادل موارد البيانات (مثل مجموعات المرضى الافتراضية) لتسهيل البحث والتطوير التعاوني.
- إضفاء الطابع الديمقراطي على الوصول لتسريع حل المشكلات على نطاق واسع، لا سيما في مجالات مثل الطب الشخصي والتمويل وعلوم المواد والطاقة.
الميزة الاستراتيجية لتوليد البيانات
يتم تصوير القدرة على توليد البيانات ليس فقط كميزة تقنية ولكن أيضًا كميزة استراتيجية. سيؤدي التحول من دورات “التصميم والبناء والاختبار” إلى سير عمل “المحاكاة والتحسين والتحقق من الصحة” إلى تحقيق ميزة تنافسية في الصناعات الرئيسية:
- علوم الحياة: يمكن لبيانات المرضى الاصطناعية تسريع تطوير الأدوية وتحسين التنبؤ بالتجارب السريرية.
- التمويل: يمكن لمحاكاة السوق أن تعزز اختبارات الإجهاد للمحافظ والاستعداد للمخاطر الجديدة.
- التصنيع: يمكن للنماذج الرقمية للمواد أن تؤدي إلى اكتشاف مركبات وسبائك فائقة.
- الطاقة: يؤدي تحويل النفايات إلى منتجات عالية القيمة إلى تحسين الاستدامة وإنشاء مصادر دخل جديدة.
هندسة مستقبل يعتمد على البيانات أولاً
تختتم المقالة بحث قادة الأعمال والحكومات على إعطاء الأولوية للاستثمار في طرق جديدة لتوليد البيانات، والدعوة إلى “هندسة تعتمد على البيانات أولاً” لإطلاق العنان لذكاء الذكاء الاصطناعي الجماعي. يتطلب هذا الانتقال تنمية المواهب والشراكات والأطر التي تمكن المؤسسات من الازدهار في عصر يقوده وفرة الإمكانيات المستقبلية، وليس ندرة الملاحظات التاريخية.
المصدر: World Economic Forum
In a world increasingly reliant on Artificial Intelligence (AI), a critical challenge looms: the depletion of readily available training data. This article, penned by Jack Hidary, CEO of SandboxAQ, for the World Economic Forum, explores this emerging “data drought” and proposes synthetic data generation as a solution to fuel the next wave of AI advancements. The piece highlights the limitations of current AI models trained on existing datasets and emphasizes the need for novel quantitative data to unlock AI’s true potential across various industries. Furthermore, it discusses the importance of creating accessible data ecosystems to foster innovation and achieve a competitive edge in the AI-driven future.
The AI Data Crisis: A Bottleneck to Progress
The article opens by establishing a clear problem: AI models are rapidly consuming the available data, exceeding our capacity to generate new, diverse information. The continuous doubling of data every few years is not enough, as the variety and novelty of the data are lacking. Key points include:
- AI models are ingesting and synthesizing data faster than new data is being created.
- Large Language Models (LLMs) trained on the same data will eventually produce commoditized outputs.
- Lack of new data hinders AI’s ability to solve advanced business, scientific, and societal challenges, particularly in quantitative fields.
- Physical experiments to generate new data are often slow, expensive, and sometimes impossible.
Synthetic Data: A Promising Solution
The article introduces the concept of synthetic data as a solution to overcome the data scarcity issue. Two primary methods for generating novel datasets are presented:
- Automation: Using robotics and advanced sensors for continuous physical experiments. However, this approach is deemed cost-ineffective and reduces human learning.
- Computation: Employing diverse datasets, physical laws, and deep computational models to simulate complex systems. This method is faster, safer, more cost-effective, and more accurate.
The article further emphasizes the importance of Large Quantitative Models (LQMs):
- LQMs are trained on first-principles equations (physics, chemistry, biology).
- They generate auditable, causal explanations and new data that is not available in existing literature.
- LQMs can accelerate research and development across industries, exemplified by their potential to revolutionize drug discovery.
Building a Synthetic Data Ecosystem for Innovation
The article underscores the importance of accessibility to synthetic datasets for AI innovation. This includes:
- Platform-based access to foundational models, enabling broader participation without compromising data privacy or intellectual property.
- Sharing of data resources (e.g., virtual patient populations) to facilitate collaborative research and development.
- Democratization of access to accelerate problem-solving at scale, particularly in areas like personalized medicine, finance, materials science, and energy.
The Strategic Advantage of Data Generation
The capacity to generate data is portrayed not only as a technical advantage but also as a strategic one. The shift from “design-build-test” cycles to “simulate-refine-validate” workflows will drive competitive advantage in key industries:
- Life Sciences: Synthetic patient data can accelerate drug development and improve clinical trial prediction.
- Finance: Market simulations can enhance portfolio stress-testing and prepare for novel risks.
- Manufacturing: Digital modeling of materials can lead to the discovery of superior compounds and alloys.
- Energy: Conversion of waste materials into high-value products improves sustainability and creates new revenue streams.
Architecting a Data-First Future
The article concludes by urging business and government leaders to prioritize investment in new data generation methods, advocating for a “data-first architecture” to unlock collective AI intelligence. This transition requires cultivating talent, partnerships, and frameworks that enable organizations to thrive in an era where innovation is driven by the abundance of future possibilities, rather than the scarcity of historical observations.
Source: World Economic Forum