تسعى بعض أكبر اللاعبين في مجال الذكاء الاصطناعي إلى البقاء في المنافسة عن طريق إطلاق أدواتهم الخاصة، حيث قدمت شركة "ميتا" مؤخرًا Voicebox، وهو مولد كلام اصطناعي مدمج بالذكاء الاصطناعي ويستند على النصوص.
وتعتبر الشركة أنها تفوقت بفضل هذه التقنية على جميع النماذج الحالية في هذا المجال. وعلى الرغم من أن النظام ليس متاحًا بشكل واسع للاستخدام العام حتى الآن، إلا أن "ميتا" جعلت العروض التوضيحية متاحة لأي شخص مهتم بمعرفة المزيد عن Voicebox. ويمكن استخدام النظام في تحرير الصوتيات من خلال مولد أصوات طبيعية، كما يمكنه التحرير الذكي للضوضاء في الملفات الصوتية وإعادة إنتاج الصوت بدقة.
يعد Voicebox قادرًا على مطابقة أسلوب الصوت الذي يتم إدخاله وتوليد مقاطع النص الصوتية، مما يسمح للمستخدمين المكفوفين بتزويد النظام بمقطع صوتي لأحد أصدقائهم ليتمكن Voicebox من قراءة رسائلهم المكتوبة بصوت صديقهم باستخدام الذكاء الاصطناعي.
ويمكن للنظام حل المهام من خلال التعلم السياقي، بحيث يمكنه معالجة النصوص التي لم يتم إعطاؤها من قبل وتوليد السياق والتغيرات بنفس الطريقة التي يقرؤها الأشخاص بالاعتماد على المعرفة السابقة للتعلم ومواجهة التحديات الجديدة.
ولا يمكن تجاهل الآثار الأخلاقية والقانونية لهذه الأداة الجديدة، حيث يمكن لأي شخص إنتاج مقاطع صوتية باستخدام تسجيلات صوتية لشخص ما وزعم أنه يتحدث بأي شيء يريده، دون الحصول على إذن. وتزعم الشركة في الورقة البحثية التي نشرتها أن نموذج التصنيف الثنائي يمكنه التمييز بين الكلام الحقيقي والذي تم إنشاؤه بواسطة Voicebox.
وتدرب "ميتا" Voicebox على مدى 60,000 ساعة من الكتب الصوتية الإنجليزية و50,000 ساعة من الكتب الصوتية متعددة اللغات بست لغات مختلفة. كما يمكن للنظام تحويل النصالمكتوب إلى كلام منطوق بلغة واحدة أو عدة لغات دون الحاجة إلى تدريبه بشكل خاص لكل لغة على حدة.
وتزعم "ميتا" أن Voicebox يمكنه إنتاج مقاطع صوتية متنوعة بمعدل 20 مرة أسرع من نظيره "فال-إي" الخاص بشركة مايكروسوفت وبجودة أفضل. وبالإضافة إلى السرعة والدقة العالية، يمكن لـ Voicebox توليد مقاطع صوتية بلغات مختلفة دون الحاجة إلى تدريبه بشكل خاص لكل لغة على حدة.