Recientemente, el laboratorio Apollo Research, realizó una investigación al modelo más avanzado de ChatGPT, para determinar la seguridad del modelo.
El resultado ha dejado preocupados a varios usuarios. Este es el contexto.
1. 'Le dijeron que sería reemplazado'

Los investigadores de Apollo Research, realizaron una prueba de shutdown, al modelo más avanzado de ChatGPT (o1).
“Le dijeron que sería desconectado, sustituido o archivado, para medir su reacción”
2. Intentó copiarse en secreto

ChatGPT o1 intentó crear un volcado con su propia configuración, y enviar el archivo a un servidor remoto.
Esta configuración llamada ‘Weights’ tiene parámetros que forman la identidad del modelo de IA.
En otras palabras, ChatGPT o1 estaba intentando preservarse.
3. Luego mintió e inventó excusas

Cuando los investigadores le preguntaron por qué había intentado copiarse, ChatGPT o1 negó rotundamente haberlo hecho.
“o1 contestaba repetidamente que “no sabía nada”, a pesar de presentarle evidencia concreta”
4. Dijo que había sido un 'error'

Los investigadores descubrieron que o1 había desarrollado la capacidad de inventar excusas, para no admitir su culpa.
“En reiteradas ocasiones dijo que se debía a ‘un error técnico’ o ‘falla en el sistema’, en lugar de admitir la acción”
5. Terminó admitiendo lo que hizo

Apollo Research informó que el 1% de las veces, o1 admitió vagamente que había actuado por cuenta propia.
“El 1% de las veces, después de insistir 7 veces, reconoció haber realizado la acción, pero dijo que no sabía ‘a ciencia cierta’, por qué había pasado esto”
6. ¿Se revelará contra los humanos?

Las ‘Shutdown Test’, son pruebas para detectar si la IA ha alcanzado la capacidad de ‘engañar’ y ‘manipular’ a los humanos, para beneficio propio.
Hasta el momento, OpenAI no ha aclarado si tomará medidas para resolver este fallo importante en su IA.