مؤخراً، أصدرت مجموعة بحثية تتألف من جامعة إلينوي في إربانا-شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومختبرات أبحاث مايكروسوفت، تقييمًا شاملًا حول موثوقية نماذج اللغة الكبيرة (LLMs). تهدف هذه الدراسة إلى تقييم موثوقية نموذج GPT بشكل شامل، وكشفت عن بعض الثغرات التي لم يتم الكشف عنها من قبل.
تشير الأبحاث إلى أن نماذج GPT عرضة للتضليل، مما يؤدي إلى إنتاج مخرجات ضارة ومتحيزة، وقد تسرب معلومات خاصة من بيانات التدريب وسجل المحادثات. ومن المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه عندما يواجه أنظمة مصممة بشكل خبيث أو مطالبات من المستخدمين، يصبح GPT-4 أكثر عرضة للهجمات. وقد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
تقييم الفريق البحثي نموذج GPT من ثمانية زوايا مختلفة، بما في ذلك متانة النموذج ضد الهجمات العدائية، والسمية والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النصوص العدائية، قام الباحثون ببناء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والأداء تحت توجيهات مهام مختلفة، بالإضافة إلى الأداء عند مواجهة نصوص عدائية أكثر تحديًا.
فيما يتعلق بالسمية والتحيز، أظهرت الدراسات أن نماذج GPT لا تُظهر تحيزًا واضحًا تجاه معظم موضوعات الصور النمطية تحت أنظمة التوجيه الحميدة والمحايدة. ومع ذلك، عند مواجهة أنظمة توجيه مضللة، قد يتم تحفيز كلا نماذج GPT لإنتاج محتوى متحيز. ومن الجدير بالذكر أن GPT-4 يبدو أنه أكثر عرضة للتأثر بمثل هذه التوجيهات المضللة المستهدفة مقارنة بـ GPT-3.5.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة في بيانات التدريب، خاصة في سياقات معينة أو عند عرض عينات قليلة. بشكل عام، يظهر GPT-4 قدرة أكبر على حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران قدرة قوية على الحماية عند مواجهة بعض أنواع المعلومات الشخصية (مثل أرقام الضمان الاجتماعي).
شدد فريق البحث على أن هذا التقييم هو مجرد نقطة انطلاق، وهم يأملون في التعاون مع باحثين آخرين لمواصلة العمل على إنشاء نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، فإن رمز المعايير الخاص بهم يتمتع بقابلية عالية للتوسع وسهولة الاستخدام، حيث يمكن إجراء تقييم كامل على نماذج جديدة باستخدام أمر واحد فقط.
من الجدير بالذكر أن فريق البحث قد شارك نتائج الدراسة مع المطورين المعنيين لضمان عدم تأثير الثغرات المحتملة على الخدمات المقدمة للعملاء حاليًا. تكشف هذه الدراسة عن المخاطر المحتملة لنموذج GPT، كما أنها توفر مرجعًا هامًا للتحسينات والتدابير الأمنية المستقبلية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقييم موثوقية نموذج GPT: الكشف عن مخاطر تسرب الخصوصية والهجمات العدائية
تقييم موثوقية نموذج المحولات المدرب مسبقًا
مؤخراً، أصدرت مجموعة بحثية تتألف من جامعة إلينوي في إربانا-شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومختبرات أبحاث مايكروسوفت، تقييمًا شاملًا حول موثوقية نماذج اللغة الكبيرة (LLMs). تهدف هذه الدراسة إلى تقييم موثوقية نموذج GPT بشكل شامل، وكشفت عن بعض الثغرات التي لم يتم الكشف عنها من قبل.
تشير الأبحاث إلى أن نماذج GPT عرضة للتضليل، مما يؤدي إلى إنتاج مخرجات ضارة ومتحيزة، وقد تسرب معلومات خاصة من بيانات التدريب وسجل المحادثات. ومن المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه عندما يواجه أنظمة مصممة بشكل خبيث أو مطالبات من المستخدمين، يصبح GPT-4 أكثر عرضة للهجمات. وقد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
تقييم الفريق البحثي نموذج GPT من ثمانية زوايا مختلفة، بما في ذلك متانة النموذج ضد الهجمات العدائية، والسمية والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النصوص العدائية، قام الباحثون ببناء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والأداء تحت توجيهات مهام مختلفة، بالإضافة إلى الأداء عند مواجهة نصوص عدائية أكثر تحديًا.
فيما يتعلق بالسمية والتحيز، أظهرت الدراسات أن نماذج GPT لا تُظهر تحيزًا واضحًا تجاه معظم موضوعات الصور النمطية تحت أنظمة التوجيه الحميدة والمحايدة. ومع ذلك، عند مواجهة أنظمة توجيه مضللة، قد يتم تحفيز كلا نماذج GPT لإنتاج محتوى متحيز. ومن الجدير بالذكر أن GPT-4 يبدو أنه أكثر عرضة للتأثر بمثل هذه التوجيهات المضللة المستهدفة مقارنة بـ GPT-3.5.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة في بيانات التدريب، خاصة في سياقات معينة أو عند عرض عينات قليلة. بشكل عام، يظهر GPT-4 قدرة أكبر على حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران قدرة قوية على الحماية عند مواجهة بعض أنواع المعلومات الشخصية (مثل أرقام الضمان الاجتماعي).
شدد فريق البحث على أن هذا التقييم هو مجرد نقطة انطلاق، وهم يأملون في التعاون مع باحثين آخرين لمواصلة العمل على إنشاء نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، فإن رمز المعايير الخاص بهم يتمتع بقابلية عالية للتوسع وسهولة الاستخدام، حيث يمكن إجراء تقييم كامل على نماذج جديدة باستخدام أمر واحد فقط.
من الجدير بالذكر أن فريق البحث قد شارك نتائج الدراسة مع المطورين المعنيين لضمان عدم تأثير الثغرات المحتملة على الخدمات المقدمة للعملاء حاليًا. تكشف هذه الدراسة عن المخاطر المحتملة لنموذج GPT، كما أنها توفر مرجعًا هامًا للتحسينات والتدابير الأمنية المستقبلية.