طور باحثون من معهد MIT و NVIDIA أداة جديدة تعرف بـHART كأداة لتوليد صور فائقة الجودة بكفاءة وسرعة غير مسبوقة.
يعتمد النموذج على الجمع بين تقنيات النماذج التلقائية ونماذج الانتشار لتقديم أفضل ما في الطريقتين، مما يحدث ثورة في مجال توليد الصور باستخدام الذكاء الاصطناعي.
التحدي الذي يواجه توليد الصور
تتميز النماذج “الانتشارية التقليدية” - نوع من نماذج الذكاء الاصطناعي تستخدم في توليد الصور وغيرها من المهام الإبداعية- مثل Stable Diffusion بقدرتها على إنتاج صور دقيقة للغاية، لكنها بطيئة وتستهلك موارد ضخمة.
في المقابل، النماذج التلقائية أسرع بكثير لكنها تعاني من مشكلات الجودة والأخطاء في التفاصيل، و هنا يأتي دور HART.
كيف يعمل HART؟
يجمع نموذج HART بين السرعة والكفاءة، حيث يستخدم النموذج التلقائي لإنشاء الصورة الأساسية بسرعة، ثم يتم تحسين التفاصيل باستخدام نموذج انتشار صغير لتصحيح الأخطاء الدقيقة.
يمكن بهذه الطريقة، لـHART تحقيق جودة تنافس أو تتفوق على النماذج الانتشارية الكبيرة، ولكن بمعدل أسرع بتسع مرات تقريبًا.
مزايا HART
يتميز أداة HART بالكفاءة العالية، حيث يتطلب HART موارد حسابية أقل بنسبة 31% مقارنة بالنماذج التقليدية.
كما يتميز أداة بانه يعمل حتى على الاجهزة العادية، حيث يمكن تشغيل HART على أجهزة اللابتوب أو الهواتف الذكية دون الحاجة إلى معدات قوية.
ويتميز أداة HART بتطبيقات متعددة، حيث يمكن استخدام HART في مجالات متنوعة، مثل تدريب السيارات ذاتية القيادة، تدريب الروبوتات على المهام المعقدة، وتصميم مشاهد الألعاب.
أفاق المستقبل
يهدف الباحثون إلى توسيع استخدام HART ليشمل توليد الفيديو والتنبؤات الصوتية.
بالإضافة إلى ذلك، يمكن دمجه مع نماذج الذكاء الاصطناعي متعددة الوسائط للتفاعل بشكل أكثر ذكاءً وسلاسة.