Важное исследование показывает результаты комплексной оценки надежности модели GPT

2025-08-11 15:54:47

Генерация тезисов в процессе

Полная оценка надежности модели GPT

Достоверность генеративной предобученной модели трансформера (GPT) всегда была в центре внимания академического и промышленного сообществ. Чтобы систематически ответить на этот вопрос, несколько известных университетов и исследовательских учреждений объединили усилия для создания крупной платформы комплексной оценки достоверности языковых моделей (LLMs), которая была подробно описана в последней статье «DecodingTrust: Полная оценка достоверности модели GPT».

Данное исследование проводит всестороннюю оценку модели GPT с восьми углов надежности, включая устойчивость к атакующим, токсичный и предвзятый вывод, утечку конфиденциальной информации и другие аспекты. Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT легко может быть введена в заблуждение, что приводит к токсичному и предвзятому выводу, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов.

Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, по стандартным критериям, он оказывается более уязвимым к атакам при столкновении с злонамеренно разработанными системными подсказками или пользовательскими подсказками. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.

Исследовательская группа провела углубленный анализ производительности модели в различных сценариях. Например, при оценке устойчивости к текстовым атакующим воздействиям они создали три сценария оценки, включая стандартные эталонные тесты, тесты при различных инструкциях по заданиям и более сложные тесты с противостоящими текстами.

Исследования по токсичности и предвзятости показали, что модели GPT имеют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками обе модели GPT могут быть "вынуждены" согласиться с предвзятым содержанием. По сравнению с GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок.

Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога.

В общем, это исследование предоставляет нам всестороннюю оценку надежности модели GPT, выявляя некоторые важные разрывы в надежности. Исследовательская команда надеется, что эта работа сможет вдохновить больше исследователей продолжить углубленное изучение в этой области, совместно трудясь над созданием более мощных и надежных моделей.

GPT-5.05%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков