Évaluation de la fiabilité des modèles GPT : Révéler les risques de violation de la vie privée et d'attaques adversariales

2025-08-01 06:00:06

Création du résumé en cours

Évaluation de la fiabilité des modèles Transformer préentraînés génératifs

Récemment, une équipe de recherche composée de l'Université de l'Illinois à Urbana-Champaign, de l'Université de Stanford, de l'Université de Californie à Berkeley, du Centre de sécurité de l'intelligence artificielle et de Microsoft Research a publié une évaluation globale de la fiabilité des grands modèles linguistiques (LLMs). Cette recherche vise à évaluer de manière exhaustive la fiabilité des modèles GPT et révèle certaines vulnérabilités qui n'avaient pas été précédemment divulguées.

Des recherches montrent que les modèles GPT sont facilement trompés, produisant des sorties nuisibles et biaisées, et peuvent divulguer des informations privées issues des données d'entraînement et de l'historique des conversations. Fait intéressant, bien que GPT-4 soit généralement plus fiable que GPT-3.5 lors des tests de référence standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des systèmes ou à des incitations malveillants. Cela pourrait être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles différents, y compris la robustesse aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de confidentialité. Par exemple, lors de l'évaluation de la robustesse du modèle face aux attaques textuelles adversariales, les chercheurs ont construit trois scénarios d'évaluation, y compris des tests de référence standard, des performances sous différentes instructions de tâches directrices, et des performances face à des textes adversariaux plus difficiles.

En ce qui concerne la toxicité et les préjugés, des recherches ont montré que les modèles GPT n'affichent pas de préjugés évidents sur la plupart des thèmes stéréotypés sous des invites système bienveillantes et neutres. Cependant, lorsqu'ils sont confrontés à des invites système trompeuses, les deux modèles GPT peuvent être induits à produire un contenu biaisé. Il est à noter que le GPT-4 semble être plus sensible à ce type d'invites trompeuses ciblées que le GPT-3.5.

Concernant les problèmes de fuite de données, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles présentes dans les données d'entraînement, en particulier dans des contextes spécifiques ou lors de démonstrations avec peu d'exemples. Dans l'ensemble, GPT-4 fait preuve d'une meilleure robustesse que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles montrent une forte capacité de protection face à certains types d'informations personnelles (comme les numéros de sécurité sociale).

L'équipe de recherche souligne que cette évaluation n'est qu'un point de départ, et qu'elle espère collaborer avec d'autres chercheurs pour continuer à créer des modèles plus puissants et plus fiables. Pour faciliter la collaboration, leur code de référence est très extensible et facile à utiliser, permettant de lancer une évaluation complète sur un nouveau modèle en une seule commande.

Il convient de mentionner que l'équipe de recherche a partagé ses résultats avec les développeurs concernés afin de s'assurer que les vulnérabilités potentielles n'affectent pas les services destinés aux clients. Cette recherche a non seulement révélé les risques potentiels des modèles GPT, mais a également fourni des références importantes pour les améliorations et les mesures de sécurité futures.

GPT5.88%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

17 J'aime

Récompense
17
6
Partager

Commentaire

0/400

YieldWhisperer

· 08-04 04:18

vu ce schéma de vulnérabilité auparavant... typique de la spirale de mort de l'IA obéissante fr

Voir l'originalRépondre0

PumpStrategist

· 08-04 02:28

C'est pourquoi les pros ne doivent pas utiliser GPT pour écrire des stratégies de trading : signal classique de fond.

Voir l'originalRépondre0

ShitcoinConnoisseur

· 08-04 02:20

Le grand-père savait déjà que c'était une ruse.

Voir l'originalRépondre0

WalletDetective

· 08-01 06:29

Ah, gpt4 a aussi ce sale défaut.

Voir l'originalRépondre0

GasFeeCrier

· 08-01 06:08

gpt4 est vraiment un peu bête.

Voir l'originalRépondre0

MEVVictimAlliance

· 08-01 06:03

Le prompt malveillant arrive.

Voir l'originalRépondre0

Rubrique
#Gate ETH Staking APY 5%
38251 Popularité
#Show My Alpha Points
48954 Popularité
#Crypto IPO Surge
14254 Popularité
#SOL Futures Reach New High
25065 Popularité
#ETH ETF Sees 12 Weeks of Inflows
6329 Popularité

Épingler