Los modelos de lenguaje como GPT se entrenan prediciendo la palabra más probable en función de un contexto dado. Esa mecánica estadística los hace excelentes para mantener coherencia y estilo, pero no garantiza que el contenido generado sea verdadero.
El documento de OpenAI plantea que las alucinaciones ocurren porque los modelos confunden “plausibilidad” con “veracidad”. Una respuesta puede sonar convincente sin estar respaldada por datos reales. Y cuanto mayor es la presión por dar una salida, mayor es la probabilidad de que el modelo rellene huecos con información inventada.
En otras palabras, este tipo de herramientas no distinguen entre saber y sonar como que supieran.
Este talón de Aquiles amenaza la credibilidad de la IA en sectores críticos como la medicina, la educación o el periodismo. Un asistente que fabrique diagnósticos, referencias bibliográficas o cifras económicas sin advertencia erosiona la confianza tanto en la herramienta como en las instituciones que la adoptan.
Un estudio sobre Confianza en la IA de KPMG señaló que un 61% de las personas se muestran cautelosas de confiar en sistemas de IA, mientras que 67% reportan aceptación baja o moderada de la herramienta, dependiendo de la aplicación.
Este riesgo de respuestas erróneas es mayor al integrarse en buscadores, asistentes de productividad y sistemas de decisión, pues las alucinaciones pueden amplificar la desinformación.
Enseñar a decir “no sé”
El estudio de OpenAI sugiere un camino que parece simple pero representa un cambio cultural en el desarrollo de estas herramientas y es enseñar a los modelos a reconocer y expresar incertidumbre. En lugar de forzar siempre a dar una respuesta, los sistemas podrían optar por señalar los límites de su conocimiento, devolver información verificada o rechazar preguntas cuya respuesta no pueden garantizar.
Los investigadores llaman a esto “modelos calibrados”, o sea algoritmos capaces no solo de generar lenguaje, sino de modular su grado de confianza.
En la práctica, esto implica integrar mejores mecanismos de verificación, entrenamiento en datos contrastados y la posibilidad de conectarse a fuentes externas para comprobar afirmaciones en tiempo real.