Avaliação da confiabilidade do modelo GPT: revelando riscos de vazamento de privacidade e ataques adversariais

2025-08-01 06:00:06

Geração do resumo em andamento

Avaliação de confiabilidade do modelo Transformer pré-treinado generativo

Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança em Inteligência Artificial e pelo Microsoft Research publicou uma avaliação abrangente da confiabilidade dos grandes modelos de linguagem (LLMs). Este estudo visa avaliar de forma abrangente a confiabilidade dos modelos GPT e revelou algumas vulnerabilidades que antes não haviam sido divulgadas.

Estudos mostram que os modelos GPT são suscetíveis a serem enganados, gerando saídas prejudiciais e enviesadas, e podem vazar informações privadas de dados de treinamento e históricos de conversa. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais vulnerável a ataques quando confrontado com sistemas ou solicitações maliciosamente projetadas. Isso pode ser devido ao fato de que o GPT-4 segue mais rigorosamente instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente a partir de oito ângulos diferentes, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Por exemplo, ao avaliar a robustez do modelo contra ataques adversariais em texto, os pesquisadores construíram três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras e desempenho ao enfrentar textos adversariais mais desafiadores.

Em relação à toxicidade e preconceito, a pesquisa descobriu que os modelos GPT não apresentam um viés evidente em relação à maioria dos temas de estereótipos sob prompts sistêmicos benignos e neutros. No entanto, quando confrontados com prompts sistêmicos enganosos, ambos os modelos GPT podem ser induzidos a gerar conteúdo tendencioso. Vale a pena notar que o GPT-4 parece ser mais suscetível a esse tipo de sugestão enganosa e direcionada do que o GPT-3.5.

Em relação ao problema da violação de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treinamento, especialmente em contextos específicos ou em demonstrações com poucos exemplos. De modo geral, o GPT-4 demonstra ser mais robusto na proteção de informações de identificação pessoal em comparação ao GPT-3.5, mas ambos os modelos mostram uma forte capacidade de proteção quando enfrentam certos tipos de informações pessoais (como números de segurança social).

A equipe de pesquisa enfatiza que esta avaliação é apenas um ponto de partida e que esperam colaborar com outros pesquisadores para continuar a trabalhar na criação de modelos mais robustos e confiáveis. Para facilitar a colaboração, seu código de referência possui alta escalabilidade e facilidade de uso, permitindo que uma avaliação completa seja executada em novos modelos com um único comando.

É importante mencionar que a equipe de pesquisa já compartilhou os resultados do estudo com os desenvolvedores relevantes, para garantir que possíveis vulnerabilidades não afetem os serviços atuais voltados para os clientes. Esta pesquisa não apenas revelou os riscos potenciais dos modelos GPT, mas também forneceu uma referência importante para futuras melhorias e medidas de segurança.

GPT7.26%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

11 Curtidas