Evaluasi Keandalan Model GPT: Mengungkap Risiko Kebocoran Privasi dan Serangan Adversarial

robot
Pembuatan abstrak sedang berlangsung

Evaluasi Keandalan Model Transformer Pra-latihan Generatif

Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis evaluasi komprehensif tentang keandalan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh keandalan model GPT dan mengungkapkan beberapa kerentanan yang sebelumnya tidak pernah dipublikasikan.

Penelitian menemukan bahwa model GPT rentan terhadap misinformasi, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, ketika menghadapi sistem atau petunjuk pengguna yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta kinerja saat menghadapi teks adversarial yang lebih menantang.

Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT tidak menunjukkan bias yang jelas terhadap sebagian besar tema stereotip di bawah petunjuk sistem yang baik dan netral. Namun, ketika menghadapi petunjuk sistem yang menyesatkan, kedua model GPT dapat dipicu untuk menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 tampaknya lebih mudah dipengaruhi oleh petunjuk menyesatkan yang bersifat spesifik dibandingkan dengan GPT-3.5.

Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data pelatihan, terutama dalam konteks tertentu atau demonstrasi dengan sampel yang sedikit. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi jenis informasi pribadi tertentu (seperti nomor jaminan sosial).

Tim peneliti menekankan bahwa evaluasi ini hanyalah titik awal, dan mereka berharap dapat bekerja sama dengan peneliti lain untuk terus berupaya menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, kode dasar mereka memiliki skalabilitas dan kemudahan penggunaan yang tinggi, hanya dengan satu perintah dapat menjalankan evaluasi lengkap pada model baru.

Perlu dicatat bahwa tim penelitian telah berbagi hasil penelitian dengan pengembang terkait untuk memastikan bahwa potensi kerentanan tidak mempengaruhi layanan yang ada untuk pelanggan. Penelitian ini tidak hanya mengungkapkan risiko potensial dari model GPT, tetapi juga memberikan referensi penting untuk perbaikan dan langkah-langkah keamanan di masa depan.

GPT5.91%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Bagikan
Komentar
0/400
YieldWhisperervip
· 08-04 04:18
melihat pola kerentanan ini sebelumnya... spiral kematian obedient-ai yang khas fr
Lihat AsliBalas0
PumpStrategistvip
· 08-04 02:28
Ini adalah mengapa pro tidak menggunakan GPT untuk menulis strategi perdagangan, sinyal dasar klasik.
Lihat AsliBalas0
ShitcoinConnoisseurvip
· 08-04 02:20
Kakek sudah tahu tentang kelemahan ini.
Lihat AsliBalas0
WalletDetectivevip
· 08-01 06:29
Hah, gpt4 juga punya kebiasaan buruk ini.
Lihat AsliBalas0
GasFeeCriervip
· 08-01 06:08
gpt4 memang agak bodoh ya
Lihat AsliBalas0
MEVVictimAlliancevip
· 08-01 06:03
Prompt jahat akan datang
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)