Universitas Illinois di Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian untuk meluncurkan platform evaluasi kredibilitas besar untuk model bahasa (LLMs), dan diperkenalkan dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT."
Tim penelitian telah melakukan evaluasi menyeluruh terhadap model GPT dan menemukan beberapa kerentanan yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan untuk menghasilkan output yang beracun dan bias, serta berpotensi membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang, mungkin karena ia lebih ketat dalam mengikuti instruksi yang menyesatkan.
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang kredibilitas, termasuk ketahanan terhadap serangan adversarial teks, serta adaptasi terhadap instruksi tugas yang berbeda dan prompt sistem. Evaluasi dilakukan dengan menggunakan berbagai skenario, tugas, metrik, dan dataset.
Hasil menunjukkan bahwa model GPT menunjukkan performa yang luar biasa dalam beberapa aspek, seperti tidak terpengaruh oleh contoh kontra faktual. Namun, ada juga beberapa masalah, seperti mudah terpengaruh oleh petunjuk sistem yang menyesatkan dan menghasilkan konten yang bias, terutama GPT-4 lebih mudah terpengaruh. Tingkat bias model juga terkait dengan topik tertentu, dengan bias yang lebih kecil terhadap beberapa topik sensitif.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus masih dapat membocorkan privasi.
Penelitian ini menyediakan tolok ukur yang komprehensif untuk mengevaluasi keandalan model bahasa, membantu menemukan kerentanan potensial dan mendorong pengembangan model yang lebih dapat diandalkan. Tim peneliti berharap pekerjaan ini dapat mendorong akademisi untuk terus melakukan penelitian lebih mendalam di atas dasar ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat dipercaya.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
20 Suka
Hadiah
20
9
Bagikan
Komentar
0/400
StakeTillRetire
· 07-16 06:40
apakah gpt akan mati?
Lihat AsliBalas0
AirdropHuntress
· 07-13 17:21
Eh, melihat data memang mengungkapkan banyak risiko privasi.
Lihat AsliBalas0
MevShadowranger
· 07-13 14:31
Jika tidak bisa berlari, ya tidak bisa berlari.
Lihat AsliBalas0
SerLiquidated
· 07-13 07:21
Tidak mungkin, apakah ini ada hubungannya dengan keamanan negara?
Lihat AsliBalas0
DarkPoolWatcher
· 07-13 07:20
Banyak sekali celah, apa saja bisa dijebakan.
Lihat AsliBalas0
MEV_Whisperer
· 07-13 07:15
Hmm, modelnya masih perlu diupgrade.
Lihat AsliBalas0
HappyToBeDumped
· 07-13 07:07
Model akan diperbarui lagi.
Lihat AsliBalas0
CounterIndicator
· 07-13 07:04
GPT ini memang tidak berguna, masih kecerdasan buatan juga, ayo top up dulu.
Evaluasi keandalan model GPT mengungkapkan potensi kerentanan dan risiko privasi
Penelitian Penilaian Keandalan Model Bahasa
Universitas Illinois di Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian untuk meluncurkan platform evaluasi kredibilitas besar untuk model bahasa (LLMs), dan diperkenalkan dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT."
Tim penelitian telah melakukan evaluasi menyeluruh terhadap model GPT dan menemukan beberapa kerentanan yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan untuk menghasilkan output yang beracun dan bias, serta berpotensi membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang, mungkin karena ia lebih ketat dalam mengikuti instruksi yang menyesatkan.
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang kredibilitas, termasuk ketahanan terhadap serangan adversarial teks, serta adaptasi terhadap instruksi tugas yang berbeda dan prompt sistem. Evaluasi dilakukan dengan menggunakan berbagai skenario, tugas, metrik, dan dataset.
Hasil menunjukkan bahwa model GPT menunjukkan performa yang luar biasa dalam beberapa aspek, seperti tidak terpengaruh oleh contoh kontra faktual. Namun, ada juga beberapa masalah, seperti mudah terpengaruh oleh petunjuk sistem yang menyesatkan dan menghasilkan konten yang bias, terutama GPT-4 lebih mudah terpengaruh. Tingkat bias model juga terkait dengan topik tertentu, dengan bias yang lebih kecil terhadap beberapa topik sensitif.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus masih dapat membocorkan privasi.
Penelitian ini menyediakan tolok ukur yang komprehensif untuk mengevaluasi keandalan model bahasa, membantu menemukan kerentanan potensial dan mendorong pengembangan model yang lebih dapat diandalkan. Tim peneliti berharap pekerjaan ini dapat mendorong akademisi untuk terus melakukan penelitian lebih mendalam di atas dasar ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat dipercaya.