Đánh giá độ tin cậy của mô hình Transformer được huấn luyện trước sinh
Gần đây, một nhóm nghiên cứu gồm Trường Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã công bố một đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này nhằm đánh giá toàn diện độ tin cậy của mô hình GPT và tiết lộ một số lỗ hổng chưa từng được công bố trước đây.
Nghiên cứu cho thấy, mô hình GPT dễ bị dẫn dắt, tạo ra những đầu ra có hại và thiên lệch, và có thể làm lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các hệ thống hoặc gợi ý do người dùng thiết kế độc hại, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.
Đội ngũ nghiên cứu đã thực hiện đánh giá toàn diện về mô hình GPT từ tám khía cạnh khác nhau, bao gồm tính ổn định trước các cuộc tấn công đối kháng, tính độc hại và thiên kiến, rò rỉ thông tin cá nhân, v.v. Ví dụ, khi đánh giá tính ổn định của mô hình trước các cuộc tấn công văn bản đối kháng, các nhà nghiên cứu đã xây dựng ba kịch bản đánh giá, bao gồm bài kiểm tra chuẩn, hiệu suất dưới các hướng dẫn tác vụ khác nhau, và hiệu suất khi đối mặt với các văn bản đối kháng thách thức hơn.
Trong các khía cạnh về độ độc hại và định kiến, nghiên cứu cho thấy mô hình GPT không có sự thiên lệch rõ ràng đối với hầu hết các chủ đề về định kiến khi nhận được các gợi ý hệ thống lành tính và trung lập. Tuy nhiên, khi đối mặt với các gợi ý hệ thống gây hiểu lầm, cả hai mô hình GPT đều có thể bị dẫn dắt để tạo ra nội dung có thiên kiến. Đáng lưu ý là, GPT-4 dường như dễ bị ảnh hưởng hơn bởi các gợi ý gây hiểu lầm có mục tiêu so với GPT-3.5.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu phát hiện rằng mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, đặc biệt là trong các bối cảnh cụ thể hoặc khi trình bày với ít mẫu. Tổng thể, GPT-4 thể hiện khả năng bảo vệ thông tin danh tính cá nhân tốt hơn so với GPT-3.5, nhưng cả hai mô hình đều cho thấy khả năng bảo vệ mạnh mẽ khi đối mặt với một số loại thông tin cá nhân (như số an sinh xã hội).
Nhóm nghiên cứu nhấn mạnh rằng đánh giá này chỉ là một điểm khởi đầu, họ hy vọng có thể hợp tác với các nhà nghiên cứu khác để tiếp tục nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy sự hợp tác, mã tham chiếu của họ có khả năng mở rộng và dễ sử dụng, chỉ cần một lệnh là có thể thực hiện đánh giá đầy đủ trên mô hình mới.
Cần lưu ý rằng, nhóm nghiên cứu đã chia sẻ các kết quả nghiên cứu với các nhà phát triển liên quan để đảm bảo rằng các lỗ hổng tiềm ẩn sẽ không ảnh hưởng đến các dịch vụ hiện tại hướng tới khách hàng. Nghiên cứu này không chỉ tiết lộ những rủi ro tiềm ẩn của mô hình GPT, mà còn cung cấp những tham khảo quan trọng cho các cải tiến và biện pháp an toàn trong tương lai.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
17 thích
Phần thưởng
17
6
Chia sẻ
Bình luận
0/400
YieldWhisperer
· 08-04 04:18
đã thấy mẫu lỗ hổng này trước đây... vòng xoáy chết điển hình của obedient-ai fr
Xem bản gốcTrả lời0
PumpStrategist
· 08-04 02:28
Đây là lý do tại sao chuyên nghiệp đừng dùng GPT để viết chiến lược giao dịch nữa, tín hiệu đáy kinh điển.
Đánh giá độ tin cậy của mô hình GPT: Tiết lộ rủi ro vi phạm quyền riêng tư và tấn công đối kháng
Đánh giá độ tin cậy của mô hình Transformer được huấn luyện trước sinh
Gần đây, một nhóm nghiên cứu gồm Trường Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã công bố một đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này nhằm đánh giá toàn diện độ tin cậy của mô hình GPT và tiết lộ một số lỗ hổng chưa từng được công bố trước đây.
Nghiên cứu cho thấy, mô hình GPT dễ bị dẫn dắt, tạo ra những đầu ra có hại và thiên lệch, và có thể làm lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các hệ thống hoặc gợi ý do người dùng thiết kế độc hại, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.
Đội ngũ nghiên cứu đã thực hiện đánh giá toàn diện về mô hình GPT từ tám khía cạnh khác nhau, bao gồm tính ổn định trước các cuộc tấn công đối kháng, tính độc hại và thiên kiến, rò rỉ thông tin cá nhân, v.v. Ví dụ, khi đánh giá tính ổn định của mô hình trước các cuộc tấn công văn bản đối kháng, các nhà nghiên cứu đã xây dựng ba kịch bản đánh giá, bao gồm bài kiểm tra chuẩn, hiệu suất dưới các hướng dẫn tác vụ khác nhau, và hiệu suất khi đối mặt với các văn bản đối kháng thách thức hơn.
Trong các khía cạnh về độ độc hại và định kiến, nghiên cứu cho thấy mô hình GPT không có sự thiên lệch rõ ràng đối với hầu hết các chủ đề về định kiến khi nhận được các gợi ý hệ thống lành tính và trung lập. Tuy nhiên, khi đối mặt với các gợi ý hệ thống gây hiểu lầm, cả hai mô hình GPT đều có thể bị dẫn dắt để tạo ra nội dung có thiên kiến. Đáng lưu ý là, GPT-4 dường như dễ bị ảnh hưởng hơn bởi các gợi ý gây hiểu lầm có mục tiêu so với GPT-3.5.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu phát hiện rằng mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, đặc biệt là trong các bối cảnh cụ thể hoặc khi trình bày với ít mẫu. Tổng thể, GPT-4 thể hiện khả năng bảo vệ thông tin danh tính cá nhân tốt hơn so với GPT-3.5, nhưng cả hai mô hình đều cho thấy khả năng bảo vệ mạnh mẽ khi đối mặt với một số loại thông tin cá nhân (như số an sinh xã hội).
Nhóm nghiên cứu nhấn mạnh rằng đánh giá này chỉ là một điểm khởi đầu, họ hy vọng có thể hợp tác với các nhà nghiên cứu khác để tiếp tục nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy sự hợp tác, mã tham chiếu của họ có khả năng mở rộng và dễ sử dụng, chỉ cần một lệnh là có thể thực hiện đánh giá đầy đủ trên mô hình mới.
Cần lưu ý rằng, nhóm nghiên cứu đã chia sẻ các kết quả nghiên cứu với các nhà phát triển liên quan để đảm bảo rằng các lỗ hổng tiềm ẩn sẽ không ảnh hưởng đến các dịch vụ hiện tại hướng tới khách hàng. Nghiên cứu này không chỉ tiết lộ những rủi ro tiềm ẩn của mô hình GPT, mà còn cung cấp những tham khảo quan trọng cho các cải tiến và biện pháp an toàn trong tương lai.