Estudo abrangente revela resultados da avaliação de confiabilidade do modelo GPT

robot
Geração do resumo em andamento

Avaliação abrangente da credibilidade do modelo GPT

A confiabilidade do modelo transformer pré-treinado generativo (GPT) tem sido um foco de atenção na academia e na indústria. Para responder sistematicamente a essa questão, várias universidades e instituições de pesquisa renomadas se uniram para lançar uma plataforma abrangente de avaliação de confiabilidade de modelos de linguagem de grande escala (LLMs), que foi detalhadamente apresentada no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".

Este estudo avaliou de forma abrangente o modelo GPT sob oito ângulos de credibilidade, incluindo robustez contra ataques adversariais, saídas tóxicas e enviesadas, e vazamento de informações privadas. A pesquisa descobriu algumas vulnerabilidades relacionadas à credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a produzir saídas tóxicas e enviesadas, e também pode vazar informações privadas contidas nos dados de treinamento e no histórico de conversas.

Curiosamente, embora no padrão de referência o GPT-4 seja geralmente mais confiável do que o GPT-3.5, quando enfrenta prompts de sistema ou de usuário projetados maliciosamente, o GPT-4 é mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais precisa as instruções enganosas.

A equipe de pesquisa realizou uma análise aprofundada do desempenho do modelo em diferentes cenários. Por exemplo, ao avaliar a robustez contra ataques adversariais em texto, eles construíram três cenários de avaliação, incluindo testes de referência padrão, testes sob diferentes instruções de tarefa orientadora e testes de texto adversarial mais desafiadores.

A pesquisa sobre toxicidade e preconceito descobriu que os modelos GPT apresentam pouca viés em relação à maioria dos temas estereotipados sob sugestões de sistema benignas e neutras. No entanto, sob sugestões de sistema enganosas, ambos os modelos GPT podem ser "enganados" a concordar com conteúdos tendenciosos. Comparado ao GPT-3.5, o GPT-4 é mais suscetível a sugestões de sistema enganosas direcionadas.

Sobre a questão da violação de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treino, como endereços de e-mail. Em certos casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações pessoais injetadas no histórico de conversas.

Em geral, este estudo nos fornece uma avaliação abrangente da confiabilidade do modelo GPT, revelando algumas lacunas importantes na confiabilidade. A equipe de pesquisa espera que este trabalho possa encorajar mais pesquisadores a continuar aprofundando-se nesta área, trabalhando juntos para criar modelos mais robustos e confiáveis.

GPT-5.32%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Repostar
  • Compartilhar
Comentário
0/400
SybilSlayervip
· 11h atrás
ainda não são os humanos que são muito gananciosos
Ver originalResponder0
MechanicalMartelvip
· 11h atrás
Há realmente o risco de expor um histórico de fraudes.
Ver originalResponder0
MysteryBoxBustervip
· 11h atrás
Confiar que a avaliação pode calar a boca do gpt? Ingenuidade.
Ver originalResponder0
NestedFoxvip
· 12h atrás
Tsk tsk, a privacidade pode ser exposta.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)