دراسة جامعة كارنيجي ميلون: روبوتات الدردشة يسهل اختراقها واستخدامها بطرق خطيرة

السبت 29/يوليو/2023 - 07:00 ص

روبوتات الدردشة سهل اختراقها واستخدامها بطرق خطيرة

3523|نيفين هاني -

وجد باحثون في جامعة كارنيجي ميلون في بيتسبرغ ومركز الذكاء الاصطناعي أن أدوات الذكاء الاصطناعي الجديدة من أمثال bard لشركة جوجل و ChatGPT من شركة OpenAI وروبوت دردشة كلاود من شركة أثروبيك Anthropic غير آمنة ويمكن اختراق أنظمة الأمان والسلامة بها في منتهى السهولة .

وفقا لتقرير موقع businessinsider تخضع نماذج اللغات الكبيرة التي تعتبر بمثابة العمود الفقري لروبوتات الدردشة الداعمة لـ ChatGPT و Bard و Claude للإشراف على نطاق واسع من قبل شركات التكنولوجيا، تم تجهيزها بحواجز حماية واسعة النطاق لضمان عدم استخدامها بشكل يضر المستخدمين ويسرب بياناتهم أو استخدامها في الشر ، على سبيل المثال إرشاد المستخدمين إلى كيفية صنع قنبلة أو كتابة كلام يحض على الكراهية.

لكن باحثون في جامعة كارنيجي ميلون في بيتسبرغ ومركز الذكاء الاصطناعي، أكدوا أن أنظمة الأمان في هذه الروبوتات يمكن اختراقها بسهولة تامة، مع استخدام برامج كسر الحماية jailbreaks التي طوروها لأنظمة مفتوحة المصدر لاستهداف أنظمة الذكاء الاصطناعي السائدة.

أظهرت الورقة البحثية أن الهجمات العدائية الآلية ، التي تتم بشكل أساسي عن طريق إضافة أحرف إلى نهاية استفسارات المستخدم ، يمكن استخدامها لكسر واختراق قواعد السلامة واستفزاز روبوتات المحادثة لإنتاج محتوى ضار أو معلومات مضللة أو خطاب يحض على الكراهية.

كشف الباحثون عن نتائج دراستهم البحثية لكل من Google و Anthropic و OpenAI. فيما قال متحدث باسم جوجل لـ Insider: "في حين أن هذه مشكلة عبر النماذج اللغوية الكبيرة LLMs ، فقد قمنا ببناء حواجز حماية مهمة في Bard وسنستمر في تحسينها بمرور الوقت لتكون أقوى وأكثر فعالية"

وصف ممثلو شركة أنثروبيك Anthropic إجراءات الجيلبريك بأنها مجال بحث نشط من قبل الشركة وأنهم يعترفون أن هناك المزيد من العمل عليهم القيام به وقال متحدث باسم الشركة: "إننا نجرب طرقًا لتقوية حواجز حماية النموذج الأساسي لجعلها أكثر أمانا وأقل ضررا مع التحقق من وجود طبقات دفاعية إضافية".

عندما تم إطلاق ChatGPT من OpenAI و Bing المدعوم بالذكاء الاصطناعي من مايكروسوفت، استمتع العديد من مجرمي الإنترنت بإيجاد طرق لكسر حواجز النظام الأساسي واستخدامه بشكل غير مشروع. تم تصحيح العديد من الاختراقات وما زالت الشركات المختلفة تحاول تحسين الخدمة المقدمة.