Esto es lo que se conoce como reinforcement learning from human feedback (RLHF), un proceso mediante el cual los sistemas aprenden de la evaluación humana de sus respuestas. Y aunque permite que modelos como ChatGPT o Gemini sean cada vez más precisos, también los hace profundamente dependientes de la calidad y los sesgos de esa retroalimentación.
"El feedback del usuario juega un rol principal en el desarrollo de Gemini", explicó Ángela Sun, directora multiplataforma en Google.
La ejecutiva subrayó que cada interacción cuenta, desde un prompt simple hasta un error de interpretación, todo sirve para refinar el comportamiento de la IA y volverla más precisa, accesible y personal.
Gemini, el modelo multimodal de Google, está diseñado para ser un asistente universal capaz de generar respuestas a partir de texto, voz, imagen y video, lo que lo puede volver una extensión de los usuarios que interactuan con él.
Pero también esta interacción es más personal, lo que lleva a una ilusión de intimidad. En algunos casos, usuarios comparten información sensible, asumen que el sistema tiene memoria o incluso proyectan emociones en él.
Un estudio de Mozilla Foundation sobre privacidad en plataformas de IA encontró que más del 30% de los usuarios compartió datos personales sin verificar si estaban siendo almacenados.
Además, existen preocupaciones éticas sobre cómo la IA “reconfigura” el error humano. Si una persona expresa un prejuicio, y el sistema lo interpreta como un patrón válido porque fue reforzado con retroalimentación positiva, el modelo podría amplificarlo. A esto se le conoce como "deriva algorítmica".
Según un informe de AI Squared, integrar retroalimentación humana en el entrenamiento de modelos mejora significativamente la precisión y la relevancia de sus respuestas. A su vez, Zendesk señala que el 72% de los líderes en experiencia del cliente esperan que la IA refleje los valores y la voz de sus marcas, lo que sólo es posible si la tecnología aprende de los usuarios reales.
El futuro, según Sun, será inevitablemente multimodal, pues no se tratará de elegir entre texto o imagen, sino de interactuar según el contexto y la necesidad. En ese escenario, el error humano no desaparecerá, pero cambiará de función. Ya no será una falla que interrumpe el sistema, sino una señal que lo fortalece.