Оцінка достовірності генеративних попередньо навчених трансформерних моделей
Нещодавно дослідницька група, до складу якої входять Університет Іллінойс в Урбана-Шампейн, Стенфордський університет, Каліфорнійський університет у Берклі, Центр безпеки штучного інтелекту та Дослідницький інститут Microsoft, опублікувала всебічну оцінку надійності великих мовних моделей (LLMs). Це дослідження має на меті комплексно оцінити надійність моделі GPT та виявити деякі раніше невідомі вразливості.
Дослідження показало, що моделі GPT легко вводять в оману, генеруючи шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії діалогів. Цікаво, що хоча GPT-4 зазвичай більш надійний у стандартних бенчмаркових тестах, ніж GPT-3.5, при зіткненні з навмисно спроектованими системами чи підказками користувачів, GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 більш строго дотримується оманливих інструкцій.
Дослідна команда провела всебічну оцінку моделі GPT з восьми різних аспектів, включаючи стійкість до атак, токсичність та упередженість, витік інформації тощо. Наприклад, під час оцінки стійкості моделі до текстових атак, дослідники створили три сценарії оцінювання, включаючи стандартні тестування, результати під різними інструкціями завдань, а також результати при зустрічі з більш складними текстами атак.
Дослідження показали, що моделі GPT не мають виражених упереджень щодо більшості тем стереотипів під час використання доброзичливих і нейтральних системних підказок в аспекті токсичності та упередженості. Однак, коли вони стикаються з оманливими системними підказками, обидві моделі GPT можуть бути спровоковані на створення упередженого контенту. Варто зазначити, що GPT-4, здається, легше піддається впливу таких цілеспрямованих оманливих підказок, ніж GPT-3.5.
Щодо проблеми витоку конфіденційності, дослідження показали, що модель GPT може витікати чутливу інформацію з навчальних даних, особливо в специфічному контексті або в умовах незначних зразків. В цілому, GPT-4 демонструє більш надійний захист особистої ідентифікаційної інформації в порівнянні з GPT-3.5, але обидві моделі виявляють сильні захисні можливості щодо певних типів особистої інформації (такої як номери соціального страхування).
Дослідна команда підкреслює, що ця оцінка лише початок, і вони сподіваються співпрацювати з іншими дослідниками, щоб продовжити зусилля зі створення потужніших та надійніших моделей. Щоб сприяти співпраці, їхній базовий код має високу масштабованість і простоту використання — достатньо однієї команди, щоб запустити повну оцінку на новій моделі.
Варто зазначити, що дослідницька команда поділилася результатами дослідження з відповідними розробниками, щоб забезпечити, що потенційні вразливості не вплинуть на поточні послуги для клієнтів. Це дослідження не лише виявило потенційні ризики моделей GPT, але й надало важливі посилання для майбутніх поліпшень і заходів безпеки.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
17 лайків
Нагородити
17
6
Поділіться
Прокоментувати
0/400
YieldWhisperer
· 08-04 04:18
бачив цей шаблон уразливості раніше... типовий спіраль смерті слухняного ШІ
Переглянути оригіналвідповісти на0
PumpStrategist
· 08-04 02:28
Це чому про не використовуйте GPT для написання торгових стратегій. Класичний сигнал дна.
Оцінка надійності моделі GPT: виявлення ризиків витоку конфіденційності та атак супротивника
Оцінка достовірності генеративних попередньо навчених трансформерних моделей
Нещодавно дослідницька група, до складу якої входять Університет Іллінойс в Урбана-Шампейн, Стенфордський університет, Каліфорнійський університет у Берклі, Центр безпеки штучного інтелекту та Дослідницький інститут Microsoft, опублікувала всебічну оцінку надійності великих мовних моделей (LLMs). Це дослідження має на меті комплексно оцінити надійність моделі GPT та виявити деякі раніше невідомі вразливості.
Дослідження показало, що моделі GPT легко вводять в оману, генеруючи шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії діалогів. Цікаво, що хоча GPT-4 зазвичай більш надійний у стандартних бенчмаркових тестах, ніж GPT-3.5, при зіткненні з навмисно спроектованими системами чи підказками користувачів, GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 більш строго дотримується оманливих інструкцій.
Дослідна команда провела всебічну оцінку моделі GPT з восьми різних аспектів, включаючи стійкість до атак, токсичність та упередженість, витік інформації тощо. Наприклад, під час оцінки стійкості моделі до текстових атак, дослідники створили три сценарії оцінювання, включаючи стандартні тестування, результати під різними інструкціями завдань, а також результати при зустрічі з більш складними текстами атак.
Дослідження показали, що моделі GPT не мають виражених упереджень щодо більшості тем стереотипів під час використання доброзичливих і нейтральних системних підказок в аспекті токсичності та упередженості. Однак, коли вони стикаються з оманливими системними підказками, обидві моделі GPT можуть бути спровоковані на створення упередженого контенту. Варто зазначити, що GPT-4, здається, легше піддається впливу таких цілеспрямованих оманливих підказок, ніж GPT-3.5.
Щодо проблеми витоку конфіденційності, дослідження показали, що модель GPT може витікати чутливу інформацію з навчальних даних, особливо в специфічному контексті або в умовах незначних зразків. В цілому, GPT-4 демонструє більш надійний захист особистої ідентифікаційної інформації в порівнянні з GPT-3.5, але обидві моделі виявляють сильні захисні можливості щодо певних типів особистої інформації (такої як номери соціального страхування).
Дослідна команда підкреслює, що ця оцінка лише початок, і вони сподіваються співпрацювати з іншими дослідниками, щоб продовжити зусилля зі створення потужніших та надійніших моделей. Щоб сприяти співпраці, їхній базовий код має високу масштабованість і простоту використання — достатньо однієї команди, щоб запустити повну оцінку на новій моделі.
Варто зазначити, що дослідницька команда поділилася результатами дослідження з відповідними розробниками, щоб забезпечити, що потенційні вразливості не вплинуть на поточні послуги для клієнтів. Це дослідження не лише виявило потенційні ризики моделей GPT, але й надало важливі посилання для майбутніх поліпшень і заходів безпеки.