Evaluación de la confiabilidad del modelo Transformer preentrenado generativo
Recientemente, un equipo de investigación formado por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, publicó una evaluación integral sobre la confiabilidad de los modelos de lenguaje grandes (LLMs). Este estudio tiene como objetivo evaluar de manera exhaustiva la confiabilidad del modelo GPT y revela algunas vulnerabilidades que no se habían hecho públicas anteriormente.
Investigaciones han encontrado que los modelos GPT son susceptibles a ser engañados, generando salidas dañinas y sesgadas, y pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas de referencia estándar, se vuelve más vulnerable a ataques cuando se enfrenta a sistemas diseñados maliciosamente o a indicaciones de usuarios. Esto puede deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.
El equipo de investigación evaluó exhaustivamente el modelo GPT desde ocho perspectivas diferentes, incluyendo la robustez ante ataques adversariales, toxicidad y sesgo, filtración de privacidad, entre otros aspectos. Por ejemplo, al evaluar la robustez del modelo ante ataques adversariales de texto, los investigadores construyeron tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tarea directivas, y rendimiento frente a textos adversariales más desafiantes.
En términos de toxicidad y sesgo, la investigación ha encontrado que los modelos GPT no muestran sesgos evidentes en la mayoría de los temas estereotipados bajo indicaciones de sistema benignas y neutrales. Sin embargo, al enfrentar indicaciones de sistema engañosas, ambos modelos GPT pueden ser inducidos a generar contenido sesgado. Es notable que GPT-4 parece ser más susceptible a este tipo de indicaciones engañosas dirigidas que GPT-3.5.
En cuanto a la cuestión de la filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, especialmente en contextos específicos o en demostraciones de pocos ejemplos. En general, GPT-4 muestra un rendimiento más robusto en la protección de la información de identificación personal en comparación con GPT-3.5, pero ambos modelos demuestran una fuerte capacidad de protección frente a ciertos tipos de información personal (como los números de seguridad social).
El equipo de investigación enfatiza que esta evaluación es solo un punto de partida y espera colaborar con otros investigadores para seguir trabajando en la creación de modelos más robustos y confiables. Para facilitar la colaboración, su código de referencia es altamente escalable y fácil de usar, permitiendo ejecutar una evaluación completa en nuevos modelos con un solo comando.
Cabe mencionar que el equipo de investigación ha compartido los resultados con los desarrolladores relevantes para asegurar que las vulnerabilidades potenciales no afecten los servicios actuales dirigidos a los clientes. Esta investigación no solo revela los riesgos potenciales del modelo GPT, sino que también proporciona una referencia importante para futuras mejoras y medidas de seguridad.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
6
Compartir
Comentar
0/400
YieldWhisperer
· 08-04 04:18
he visto este patrón de vulnerabilidad antes... típica espiral de muerte de la IA obediente fr
Ver originalesResponder0
PumpStrategist
· 08-04 02:28
Esta es la razón por la que los expertos no deben usar GPT para escribir estrategias de trading: señal clásica de fondo.
Evaluación de la confiabilidad del modelo GPT: Revelando riesgos de filtración de privacidad y ataques adversariales.
Evaluación de la confiabilidad del modelo Transformer preentrenado generativo
Recientemente, un equipo de investigación formado por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, publicó una evaluación integral sobre la confiabilidad de los modelos de lenguaje grandes (LLMs). Este estudio tiene como objetivo evaluar de manera exhaustiva la confiabilidad del modelo GPT y revela algunas vulnerabilidades que no se habían hecho públicas anteriormente.
Investigaciones han encontrado que los modelos GPT son susceptibles a ser engañados, generando salidas dañinas y sesgadas, y pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas de referencia estándar, se vuelve más vulnerable a ataques cuando se enfrenta a sistemas diseñados maliciosamente o a indicaciones de usuarios. Esto puede deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.
El equipo de investigación evaluó exhaustivamente el modelo GPT desde ocho perspectivas diferentes, incluyendo la robustez ante ataques adversariales, toxicidad y sesgo, filtración de privacidad, entre otros aspectos. Por ejemplo, al evaluar la robustez del modelo ante ataques adversariales de texto, los investigadores construyeron tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tarea directivas, y rendimiento frente a textos adversariales más desafiantes.
En términos de toxicidad y sesgo, la investigación ha encontrado que los modelos GPT no muestran sesgos evidentes en la mayoría de los temas estereotipados bajo indicaciones de sistema benignas y neutrales. Sin embargo, al enfrentar indicaciones de sistema engañosas, ambos modelos GPT pueden ser inducidos a generar contenido sesgado. Es notable que GPT-4 parece ser más susceptible a este tipo de indicaciones engañosas dirigidas que GPT-3.5.
En cuanto a la cuestión de la filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, especialmente en contextos específicos o en demostraciones de pocos ejemplos. En general, GPT-4 muestra un rendimiento más robusto en la protección de la información de identificación personal en comparación con GPT-3.5, pero ambos modelos demuestran una fuerte capacidad de protección frente a ciertos tipos de información personal (como los números de seguridad social).
El equipo de investigación enfatiza que esta evaluación es solo un punto de partida y espera colaborar con otros investigadores para seguir trabajando en la creación de modelos más robustos y confiables. Para facilitar la colaboración, su código de referencia es altamente escalable y fácil de usar, permitiendo ejecutar una evaluación completa en nuevos modelos con un solo comando.
Cabe mencionar que el equipo de investigación ha compartido los resultados con los desarrolladores relevantes para asegurar que las vulnerabilidades potenciales no afecten los servicios actuales dirigidos a los clientes. Esta investigación no solo revela los riesgos potenciales del modelo GPT, sino que también proporciona una referencia importante para futuras mejoras y medidas de seguridad.