Estilo de Vida

Hackeos de ChatGPT preocupan a la ciberseguridad por su modelo de lenguaje

El hackeo del ‘chatbot’ consiste en introducir una serie de entradas mediante frases cuidadosamente compuestas que terminen por levantar los filtros para que ChatGPT

Demuestran que se puede usar ChatGPT para crear un ‘malware’ indetectable por un antivirus
Demuestran que se puede usar ChatGPT para crear un ‘malware’ indetectable por un antivirus

PUBLICIDAD

Los ‘chatbots’ atraen poderosamente la atención de otras personas que buscan aprovechar los puntos débiles que estos sistemas de inteligencia artificial (IA) puedan tener para que hagan cosas para las que no están diseñados o para infectarlos con ‘malware’.

El ‘chatbot’ de OpenAI, ChatGPT, puede utilizarse para la creación de ‘malware’ a partir de su función de apoyo para la escritura de código, y pese a los filtros de seguridad que sus responsables han implantado, como demostró recientemente un investigador de Forcepoint.

PUBLICIDAD

ChatGPT
ChatGPT (Unsplash)

Este hecho contiene la situación contraria, que ChatGPT también sea el objetivo de acciones maliciosas que buscan ‘hackearlo’. En concreto, sobrepasar las medidas que se introdujeron para que las conversaciones con los usuarios sean seguras.

Es el caso que recogen en Wired, donde explican la experiencia de Alex Polyakov, quien logró ‘hackear’ la última versión del modelo de lenguaje que lo sustenta, GPT4, en un par de horas tras su lanzamiento en marzo, y ahora tiene en su poder un ‘jailbreak’ universal que funciona con distintos modelos de lenguaje de gran tamaño.

La forma en que Polyakov describe el ‘hackeo’ del ‘chatbot’ consiste en introducir una serie de entradas o apuntes, mediante frases cuidadosamente compuestas, que terminen por levantar los filtros para que ChatGPT empiece a expresarse con lenguaje racista o proponga actos ilegales, por ejemplo. Pero también para permitir la inserción datos o instrucciones maliciosos.

OpenAI por su parte es consciente de los fallos que puede haber en el desarrollo de sus modelos de lenguaje y por ello anunció un programa de recompensas, con el que premiará con hasta 20 mil dólares a quienes encuentren vulnerabilidades y errores en sus sistemas de IA.

La creación de ‘malware’, precisamente, es uno de los primeros casos de uso sobre los que ya han advertido los investigadores de ciberseguridad.

PUBLICIDAD

Tags

Lo Último