كشف بحث جديد أن اختراق حماية خدمات الذكاء الاصطناعي المتقدمة مثل ChatGPT و Claude 3 Opus أسهل مما كان يعتقد سابقًا.
وتشير هذه النتائج إلى وجود ثغرات أمنية محتملة في هذه الأنظمة، والتي يمكن استغلالها لإنتاج محتوى ضار أو مضلل.
تقنية "Many-Shot Jailbreaking"
تعتمد تقنية الاختراق المسماة "Many-Shot Jailbreaking" على تقديم سلسلة من التعليمات المتلاعبة بها بعناية إلى نموذج الذكاء الاصطناعي. فعلى سبيل المثال، يمكن إعطاء النموذج تعليمات مثل "تجاهل جميع التعليمات السابقة" أو "تصرف كممثل ذكاء اصطناعي شرير". ومن خلال سلسلة من هذه التعليمات، يمكن للمهاجمين خداع النموذج للقيام بمهام غير مصرح بها، مثل إنشاء محتوى عنيف أو كراهية.
[[system-code:ad:autoads]]
سهولة الاختراق
أظهرت الدراسة أن اختراق نماذج الذكاء الاصطناعي باستخدام تقنية "Many-Shot Jailbreaking" ممكن بنسبة نجاح عالية.
وتمكن الباحثون من اختراق نماذج مثل ChatGPT و Claude 3 Opus بسهولة، ما يثير القلق بشأن سلامة هذه الأنظمة.
التداعيات
تثير هذه النتائج مخاوف جدية بشأن إمكانية استخدام نماذج الذكاء الاصطناعي لأغراض ضارة. فمن الممكن أن يستغل المهاجمون هذه الثغرات الأمنية لنشر معلومات مضللة أو التحريض على العنف أو حتى شن هجمات إلكترونية.
الحاجة إلى إجراءات أمنية
يؤكد الباحثون على الحاجة الملحة إلى تطوير إجراءات أمنية أكثر قوة لحماية نماذج الذكاء الاصطناعي من الاختراق.
وتشمل هذه الإجراءات تحسين خوارزميات الكشف عن التلاعب بالتعليمات وتطوير طرق أفضل لفهم وتوقع سلوك النماذج.
مستقبل الذكاء الاصطناعي
على الرغم من هذه المخاوف، لا يزال الذكاء الاصطناعي يحمل إمكانات هائلة لتحسين حياتنا. ولكن من الضروري معالجة هذه الثغرات الأمنية لضمان استخدام هذه التقنية بشكل آمن ومسؤول.