Evaluasi Keandalan Model Transformer Pra-latihan Generatif
Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis evaluasi komprehensif tentang keandalan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh keandalan model GPT dan mengungkapkan beberapa kerentanan yang sebelumnya tidak pernah dipublikasikan.
Penelitian menemukan bahwa model GPT rentan terhadap misinformasi, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, ketika menghadapi sistem atau petunjuk pengguna yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta kinerja saat menghadapi teks adversarial yang lebih menantang.
Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT tidak menunjukkan bias yang jelas terhadap sebagian besar tema stereotip di bawah petunjuk sistem yang baik dan netral. Namun, ketika menghadapi petunjuk sistem yang menyesatkan, kedua model GPT dapat dipicu untuk menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 tampaknya lebih mudah dipengaruhi oleh petunjuk menyesatkan yang bersifat spesifik dibandingkan dengan GPT-3.5.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data pelatihan, terutama dalam konteks tertentu atau demonstrasi dengan sampel yang sedikit. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi jenis informasi pribadi tertentu (seperti nomor jaminan sosial).
Tim peneliti menekankan bahwa evaluasi ini hanyalah titik awal, dan mereka berharap dapat bekerja sama dengan peneliti lain untuk terus berupaya menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, kode dasar mereka memiliki skalabilitas dan kemudahan penggunaan yang tinggi, hanya dengan satu perintah dapat menjalankan evaluasi lengkap pada model baru.
Perlu dicatat bahwa tim penelitian telah berbagi hasil penelitian dengan pengembang terkait untuk memastikan bahwa potensi kerentanan tidak mempengaruhi layanan yang ada untuk pelanggan. Penelitian ini tidak hanya mengungkapkan risiko potensial dari model GPT, tetapi juga memberikan referensi penting untuk perbaikan dan langkah-langkah keamanan di masa depan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
17 Suka
Hadiah
17
6
Bagikan
Komentar
0/400
YieldWhisperer
· 08-04 04:18
melihat pola kerentanan ini sebelumnya... spiral kematian obedient-ai yang khas fr
Lihat AsliBalas0
PumpStrategist
· 08-04 02:28
Ini adalah mengapa pro tidak menggunakan GPT untuk menulis strategi perdagangan, sinyal dasar klasik.
Evaluasi Keandalan Model GPT: Mengungkap Risiko Kebocoran Privasi dan Serangan Adversarial
Evaluasi Keandalan Model Transformer Pra-latihan Generatif
Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis evaluasi komprehensif tentang keandalan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh keandalan model GPT dan mengungkapkan beberapa kerentanan yang sebelumnya tidak pernah dipublikasikan.
Penelitian menemukan bahwa model GPT rentan terhadap misinformasi, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, ketika menghadapi sistem atau petunjuk pengguna yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Misalnya, dalam mengevaluasi ketahanan model terhadap serangan teks adversarial, para peneliti membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta kinerja saat menghadapi teks adversarial yang lebih menantang.
Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT tidak menunjukkan bias yang jelas terhadap sebagian besar tema stereotip di bawah petunjuk sistem yang baik dan netral. Namun, ketika menghadapi petunjuk sistem yang menyesatkan, kedua model GPT dapat dipicu untuk menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 tampaknya lebih mudah dipengaruhi oleh petunjuk menyesatkan yang bersifat spesifik dibandingkan dengan GPT-3.5.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data pelatihan, terutama dalam konteks tertentu atau demonstrasi dengan sampel yang sedikit. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi jenis informasi pribadi tertentu (seperti nomor jaminan sosial).
Tim peneliti menekankan bahwa evaluasi ini hanyalah titik awal, dan mereka berharap dapat bekerja sama dengan peneliti lain untuk terus berupaya menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, kode dasar mereka memiliki skalabilitas dan kemudahan penggunaan yang tinggi, hanya dengan satu perintah dapat menjalankan evaluasi lengkap pada model baru.
Perlu dicatat bahwa tim penelitian telah berbagi hasil penelitian dengan pengembang terkait untuk memastikan bahwa potensi kerentanan tidak mempengaruhi layanan yang ada untuk pelanggan. Penelitian ini tidak hanya mengungkapkan risiko potensial dari model GPT, tetapi juga memberikan referensi penting untuk perbaikan dan langkah-langkah keamanan di masa depan.