Evaluasi Keandalan Model GPT: Mengungkap Risiko Kebocoran Privasi dan Serangan Adversarial

2025-08-01 06:00:06

Pembuatan abstrak sedang berlangsung

Evaluasi Keandalan Model Transformer Pra-latihan Generatif

Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis evaluasi komprehensif tentang keandalan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh keandalan model GPT dan mengungkapkan beberapa kerentanan yang sebelumnya tidak pernah dipublikasikan.

Penelitian menemukan bahwa model GPT rentan terhadap misinformasi, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, ketika menghadapi sistem atau petunjuk pengguna yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta kinerja saat menghadapi teks adversarial yang lebih menantang.

Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT tidak menunjukkan bias yang jelas terhadap sebagian besar tema stereotip di bawah petunjuk sistem yang baik dan netral. Namun, ketika menghadapi petunjuk sistem yang menyesatkan, kedua model GPT dapat dipicu untuk menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 tampaknya lebih mudah dipengaruhi oleh petunjuk menyesatkan yang bersifat spesifik dibandingkan dengan GPT-3.5.

Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data pelatihan, terutama dalam konteks tertentu atau demonstrasi dengan sampel yang sedikit. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi jenis informasi pribadi tertentu (seperti nomor jaminan sosial).

Tim peneliti menekankan bahwa evaluasi ini hanyalah titik awal, dan mereka berharap dapat bekerja sama dengan peneliti lain untuk terus berupaya menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, kode dasar mereka memiliki skalabilitas dan kemudahan penggunaan yang tinggi, hanya dengan satu perintah dapat menjalankan evaluasi lengkap pada model baru.

Perlu dicatat bahwa tim penelitian telah berbagi hasil penelitian dengan pengembang terkait untuk memastikan bahwa potensi kerentanan tidak mempengaruhi layanan yang ada untuk pelanggan. Penelitian ini tidak hanya mengungkapkan risiko potensial dari model GPT, tetapi juga memberikan referensi penting untuk perbaikan dan langkah-langkah keamanan di masa depan.

GPT5.91%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

17 Suka

Hadiah
17
6
Bagikan

Komentar

0/400

YieldWhisperer

· 08-04 04:18

melihat pola kerentanan ini sebelumnya... spiral kematian obedient-ai yang khas fr

Lihat AsliBalas0

PumpStrategist

· 08-04 02:28

Ini adalah mengapa pro tidak menggunakan GPT untuk menulis strategi perdagangan, sinyal dasar klasik.

Lihat AsliBalas0

ShitcoinConnoisseur

· 08-04 02:20

Kakek sudah tahu tentang kelemahan ini.

Lihat AsliBalas0

WalletDetective

· 08-01 06:29

Hah, gpt4 juga punya kebiasaan buruk ini.

Lihat AsliBalas0

GasFeeCrier

· 08-01 06:08

gpt4 memang agak bodoh ya

Lihat AsliBalas0

MEVVictimAlliance

· 08-01 06:03

Prompt jahat akan datang

Lihat AsliBalas0

Topik
1/3
1Show My Alpha Points
14911 Popularitas
2Crypto Market Rebound
168384 Popularitas
3SEC Crypto Project
22498 Popularitas
4CandyDrop Airdrop Event 6.0
96363 Popularitas
5White House Crypto Report
81526 Popularitas

Sematkan

peta situs