Tecnología

Meta lanza un modelo de IA más ‘potente’, pero expertos dudan de sus resultados

La empresa presentó Llama 4 Maverick, una versión de su IA que superaría a GPT-4, pero la comunidad descubrió que los resultados se basaban en un modelo optimizado y no en el que llegó al público.

jue 10 abril 2025 09:00 AM

Meta lanza Llama 4 Maverick, un modelo de IA más ‘potente’, pero con resultados dudosos — Meta reconoció que durante la prueba se utilizó una versión “de chat experimental ” de Maverick. (Dado Ruvic/REUTERS)

Fernando Guarneros Olmos

@Guarolf_

El fin de semana, Meta anunció el lanzamiento de un par de nuevos modelos de Inteligencia Artificial Llama 4. Uno es pequeño y recibe el nombre de Scout, el segundo se llama Maverick y ha generado polémica por ‘manipular’ sus resultados y presuntamente superar a GPT-4o y Gemini 2.0 Flash.

De acuerdo con la información que compartió Meta, Maverick obtuvo una puntuación de 1417, cifra que lo ubicó por encima de los modelos anteriormente mencionados de OpenAI y Google, lo cual lo posiciona como un modelo de suma relevancia debido al hecho de que se trata de una herramienta de código abierto.

No obstante, las pruebas que la empresa publicó en LMArena, una plataforma diseñada para comparar y evaluar grandes modelos de lenguaje, provenían de una versión experimental del modelo y no de la que se lanzó para todos los usuarios, de acuerdo con investigadores independientes que revisaron los documentos de Meta.

Meta reconoció que durante la prueba se utilizó una versión “de chat experimental ” de Maverick, la cual estaba optimizada para obtener mejores resultados durante el experimento, algo de lo que se dieron cuenta los responsables de LMArena.

“Meta debería haber aclarado que 'Llama-4-Maverick-03-26-Experimental' era un modelo personalizado para optimizar las preferencias humanas. Por ello, estamos actualizando nuestras políticas de clasificación para reforzar nuestro compromiso con evaluaciones justas y reproducibles, a fin de evitar que esta confusión se repita en el futuro”, publicó el equipo de LMArena.

Un portavoz de Meta dijo a Expansión que la versión Llama-4-Maverick-03-26-Experimental “es una versión optimizada para charlar con la que experimentamos y que también funciona bien en LMArena. Ya lanzamos nuestra versión de código abierto y veremos cómo los desarrolladores personalizan Llama 4 para sus propios casos de uso. Estamos emocionados de ver qué construirán y estamos pendientes de su retroalimentación”.

Cabe resaltar que el uso de diferentes versiones de Maverick no está prohibido por LMArena, sin embargo, este hecho ha generado preocupación por el hecho de que los resultados que se generen puedan ser “manipulados”.

Por ello, los responsables del sitio web actualizaron sus políticas y dieron a conocer que en caso de que las empresas envíen versiones optimizadas de sus modelos diferentes a las que finalmente llegan al público, las clasificaciones perderán relevancia ante los consumidores que consultan la plataforma, pues no representa la versión que llega para ellos.

Meta lanzó Llama 4 el sábado pasado, un día poco peculiar para dar a conocer nuevos productos. Un ía antes, el diario The Information había dado a conocer sobre el retraso de su lanzamiento debido a que no cumplió con las expectativas internas en cuanto a puntos de referencia técnicos, especialmente en tareas de razonamiento y matemáticas.

La complejidad de las benchmark en el campo de la IA

El superar los marcos de referencia en el campo de la Inteligencia Artificial cada vez es más relevante. Es una clase de muestra de músculo por parte de las empresas para demostrar que sus sistemas son más aptos que otros, lo cual genera un nuevo problema y es que los exámenes hacia las IA se comienzan a quedar cortos.

A inicios de 2023, ChatGPT fue capaz de aprobar pruebas de derecho de grandes universidades de Estados Unidos y su evolución ha sido ta marcada que de acuerdo con Epoch AI, una ONG de investigación y generación de pruebas para sistemas de IA, los modelos pasaron de cumplir con el 2% de sus test a tener rendimientos superiores al 25% en un par de años.

A finales del año pasado, Epoch AI lanzó un nuevo conjunto de pruebas matemáticas llamado FrontierMath , el cual consiste en unos 300 problemas matemáticos de distinto nivel diseñados por un equipo de más de 60 especialistas entre los cuales estabaTerence Tao, ganador de la medalla Fields.

Si bien había problemas asequibles, el 25% de ellos eran considerados especialmente difíciles de resolver e incluso a las mentes expertas les tomaban días resolverlos, algo que lograron sistemas de IA, como GPTo3 en cuestión de horas.