¿Por qué la inferencia es tan atractiva en la actualidad?
David Feng, vicepresidente del segmento de cómputo para clientes en Intel, explica que existen diferentes razones por las cuales la inferencia es el motor principal en la evolución de la IA, entre las que destacan: la diversificación de cargas de trabajo, es decir, los modelos ahora son de diferentes tamaños y tipo, lo que exige emparejar cada carga de trabajo con el hardware más eficiente (ya sea CPU, GPU o aceleradores específicos) para entregar resultados de manera económica.
En este sentido es importante detallar que la inferencia no requiere las miles de GPUs de alto rendimiento, que sí son necesarias para entrenar un modelo, pues puede ejecutarse en hardware más pequeño o en dispositivos edge, como computadoras locales o incluso teléfonos.
Asimismo, a diferencia del alto costo inicial del entrenamiento, la inferencia se factura generalmente bajo demanda por token de entrada/salida, lo que permite a empresas pequeñas y desarrolladores pagar solo por la capacidad que utilizan, mientras que a nivel de centros de datos, detalla Feng, el foco ha pasado de tener potencia a buscar la plataforma más eficiente para reducir costos operativos y de energía.
Una IA más accesible de la mano de la inferencia
Según un informe de Grand View Research , el mercado de la inferencia está experimentando un rápido crecimiento impulsado por la gran necesidad de procesamiento de IA en tiempo real en numerosos sectores. “Las empresas confían cada vez más en la IA para analizar datos rápidamente y tomar decisiones instantáneas, lo que mejora la eficiencia operativa y la experiencia del cliente”, se lee en el reporte.
Para los negocios y la economía, apunta Feng, esta era de la inferencia representa cambios profundos, pues bajará el costo de la IA. Por ejemplo, una sola persona ahora puede desarrollar un sitio web empresarial completo utilizando agentes de bajo costo mensual.
“A diferencia del entrenamiento, que estaba limitado a las grandes tecnológicas, la inferencia impactará a todos los niveles, permitiendo que incluso pequeños negocios y particulares tengan sus propios agentes ejecutándose localmente”, comenta.
La capacidad de realizar inferencia de forma local (en dispositivos como estaciones de trabajo o PCs), agrega, también permitirá que las empresas mantengan su privacidad y datos locales seguros, evitando pagar por cada interacción (token) en la nube. Además, agrega que en un futuro la IA híbrida, donde el cómputo se distribuye entre dispositivos locales y la nube, facilitará que este proceso ocurra de manera fluida donde sea más conveniente en términos de rendimiento y privacidad.