Meta reconoció que durante la prueba se utilizó una versión “de chat experimental ” de Maverick, la cual estaba optimizada para obtener mejores resultados durante el experimento, algo de lo que se dieron cuenta los responsables de LMArena.
“Meta debería haber aclarado que 'Llama-4-Maverick-03-26-Experimental' era un modelo personalizado para optimizar las preferencias humanas. Por ello, estamos actualizando nuestras políticas de clasificación para reforzar nuestro compromiso con evaluaciones justas y reproducibles, a fin de evitar que esta confusión se repita en el futuro”, publicó el equipo de LMArena.
Un portavoz de Meta dijo a Expansión que la versión Llama-4-Maverick-03-26-Experimental “es una versión optimizada para charlar con la que experimentamos y que también funciona bien en LMArena. Ya lanzamos nuestra versión de código abierto y veremos cómo los desarrolladores personalizan Llama 4 para sus propios casos de uso. Estamos emocionados de ver qué construirán y estamos pendientes de su retroalimentación”.
Cabe resaltar que el uso de diferentes versiones de Maverick no está prohibido por LMArena, sin embargo, este hecho ha generado preocupación por el hecho de que los resultados que se generen puedan ser “manipulados”.
Por ello, los responsables del sitio web actualizaron sus políticas y dieron a conocer que en caso de que las empresas envíen versiones optimizadas de sus modelos diferentes a las que finalmente llegan al público, las clasificaciones perderán relevancia ante los consumidores que consultan la plataforma, pues no representa la versión que llega para ellos.
Meta lanzó Llama 4 el sábado pasado, un día poco peculiar para dar a conocer nuevos productos. Un ía antes, el diario The Information había dado a conocer sobre el retraso de su lanzamiento debido a que no cumplió con las expectativas internas en cuanto a puntos de referencia técnicos, especialmente en tareas de razonamiento y matemáticas.
La complejidad de las benchmark en el campo de la IA
El superar los marcos de referencia en el campo de la Inteligencia Artificial cada vez es más relevante. Es una clase de muestra de músculo por parte de las empresas para demostrar que sus sistemas son más aptos que otros, lo cual genera un nuevo problema y es que los exámenes hacia las IA se comienzan a quedar cortos.
A inicios de 2023, ChatGPT fue capaz de aprobar pruebas de derecho de grandes universidades de Estados Unidos y su evolución ha sido ta marcada que de acuerdo con Epoch AI, una ONG de investigación y generación de pruebas para sistemas de IA, los modelos pasaron de cumplir con el 2% de sus test a tener rendimientos superiores al 25% en un par de años.
A finales del año pasado, Epoch AI lanzó un nuevo conjunto de pruebas matemáticas llamado FrontierMath , el cual consiste en unos 300 problemas matemáticos de distinto nivel diseñados por un equipo de más de 60 especialistas entre los cuales estabaTerence Tao, ganador de la medalla Fields.
Si bien había problemas asequibles, el 25% de ellos eran considerados especialmente difíciles de resolver e incluso a las mentes expertas les tomaban días resolverlos, algo que lograron sistemas de IA, como GPTo3 en cuestión de horas.