El revolucionario chip de IA de Groq logra notables 800 tokens por segundo en LLaMA 3 de Meta

En un logro de referencia innovador que potencialmente podría redefinir el panorama de la inferencia de IA, la nueva empresa de chips Groq parece haber confirmado, a través de una serie de retweets, que su sistema está procesando el modelo de lenguaje grande LLaMA 3 recientemente introducido por Meta a una velocidad impresionante de más de 800 fichas por segundo.

My mind is blown.@GroqInc is serving LLaMA 3 at over 800 tokens per second!

800. Tokens. Per. Second.

This unlocks so many incredible use-cases.

It's one thing to see my demo — it's another thing entirely to experience it for yourself.

Do yourself a favor and try it asap. pic.twitter.com/Rd5NW5SDlW
— Matt Shumer (@mattshumer_) April 19, 2024

Dan Jakaitis, un ingeniero que evalúa el rendimiento de LLaMA 3, compartió ideas en X.com, sugiriendo que si bien las pruebas con la API de Meta revelaron algunas discrepancias en la velocidad en comparación con las demostraciones de hardware, el sistema de Groq muestra una velocidad notable, lo que indica posibles optimizaciones de software.

Según una publicación de Matt Shumer, cofundador y director ejecutivo de OthersideAI, entre otros usuarios destacados, el sistema Groq está logrando velocidades de inferencia ultrarrápidas que superan los 800 tokens por segundo con el modelo LLaMA 3. Si se verifica de forma independiente, este hito podría indicar un avance significativo en el procesamiento de IA, superando los servicios de IA en la nube existentes. Las pruebas preliminares realizadas por VentureBeat corroboran esta afirmación.

Una arquitectura de procesador revolucionaria adaptada a la IA

Groq, una startup bien financiada con sede en Silicon Valley, ha estado desarrollando una arquitectura de procesador pionera optimizada específicamente para las operaciones de multiplicación de matrices fundamentales para el aprendizaje profundo. Su procesador Tensor Streaming se diferencia de las CPU y GPU convencionales, evitando lógicas de control complejas y cachés en favor de un modelo de ejecución simplificado y determinista diseñado para tareas de IA.

Al eliminar los cuellos de botella de memoria y sobrecarga inherentes a los procesadores de uso general, Groq pretende ofrecer un rendimiento y una eficiencia superiores para las tareas de inferencia de IA. El logro reportado de más de 800 tokens por segundo con el modelo LLaMA 3 refuerza esta afirmación.

La arquitectura de Groq representa una desviación de los diseños tradicionales empleados por fabricantes de chips establecidos como Nvidia. En lugar de reutilizar procesadores de uso general para IA, Groq ha diseñado su procesador Tensor Streaming para acelerar los patrones computacionales específicos característicos del aprendizaje profundo.

Este enfoque innovador permite a Groq optimizar los circuitos y optimizar el flujo de datos para las cargas de trabajo repetitivas y paralelizables típicas de las tareas de inferencia de IA. El resultado, sostiene Groq, es una reducción sustancial de la latencia, el consumo de energía y el costo en comparación con las alternativas convencionales.

Las implicaciones de una inferencia de IA rápida y eficiente

Alcanzar velocidades de 800 tokens por segundo equivale aproximadamente a 48.000 tokens por minuto, suficiente para generar alrededor de 500 palabras de texto por segundo. Esto representa un aumento de casi diez veces con respecto a las velocidades de inferencia típicas de los modelos de lenguaje grandes que se ofrecen en GPU convencionales en entornos de nube.

La demanda de una inferencia de IA rápida y eficiente está aumentando a medida que los modelos de lenguaje escalan hasta cientos de miles de millones de parámetros. Si bien entrenar estos modelos expansivos requiere recursos computacionales sustanciales, implementarlos de manera rentable requiere hardware capaz de procesar rápidamente sin un consumo excesivo de energía.

La inferencia eficiente de la IA también es crucial desde una perspectiva medioambiental, ya que el consumo de energía de los despliegues de IA a gran escala sigue creciendo. Las soluciones de hardware que ofrezcan el rendimiento de inferencia necesario y al mismo tiempo minimicen el uso de energía serán fundamentales para garantizar la sostenibilidad de las tecnologías de IA. El procesador Tensor Streaming de Groq está diseñado teniendo en cuenta este imperativo y promete reducciones sustanciales en el costo de energía de ejecutar grandes redes neuronales en comparación con los procesadores convencionales.

Desafiando a los jugadores establecidos

Nvidia actualmente domina el mercado de procesadores de IA con sus GPU A100 y H100 que impulsan la mayoría de los servicios de IA en la nube. Sin embargo, un grupo de nuevas empresas bien financiadas, incluidas Groq, Cerebras, SambaNova y Graphcore, están desafiando este dominio con arquitecturas novedosas diseñadas para aplicaciones de IA.

De estos contendientes, Groq ha sido particularmente elocuente en cuanto a centrarse tanto en tareas de inferencia como de entrenamiento. El director ejecutivo, Jonathan Ross, ha predicho con confianza la adopción generalizada de los procesadores de transmisión tensorial de baja precisión de Groq para inferencia para fines de 2024.

El lanzamiento de LLaMA 3 por parte de Meta, promocionado como uno de los modelos de lenguaje de código abierto más capaces disponibles, presenta una oportunidad para que Groq muestre las capacidades de inferencia de su hardware. Si el hardware de Groq puede superar significativamente a las alternativas convencionales al ejecutar LLaMA 3, corroboraría las afirmaciones de la startup y potencialmente aceleraría la adopción de su tecnología.

En el panorama en rápida evolución del hardware de IA, la convergencia de potentes modelos abiertos como LLaMA y hardware de inferencia altamente eficiente como el Tensor Streaming Processor de Groq promete hacer que la IA en lenguaje avanzado sea más accesible y rentable para diversas empresas y desarrolladores. Sin embargo, jugadores establecidos como Nvidia siguen siendo competidores formidables, y también hay otros rivales en el horizonte.

Lo que es evidente es que ha comenzado la carrera para desarrollar una infraestructura capaz de seguir el ritmo de la rápida evolución del desarrollo de modelos de IA y escalar la tecnología para satisfacer las demandas de una gama cada vez más amplia de aplicaciones. La inferencia de IA casi en tiempo real a un costo asequible tiene el potencial de desbloquear posibilidades transformadoras en sectores como el comercio electrónico, la educación, las finanzas, la atención médica y más.

Como comentó un usuario de X.com sobre la afirmación del benchmark LLaMA 3 de Groq: «velocidad + bajo costo + calidad = no tiene sentido usar nada más [ahora mismo]». Los meses siguientes determinarán si esta ecuación es cierta, pero es evidente que los cimientos del hardware de IA están experimentando una agitación significativa a medida que una nueva ola de arquitecturas desafía el status quo.

Meta AI

El revolucionario chip de IA de Groq logra notables 800 tokens por segundo en LLaMA 3 de Meta

Portechnoloia.com

Por technoloia.com

Entrada relacionada

Cepillos de Dientes Inteligentes: Innovación Tecnológica que Pone en Riesgo tu Privacidad

Vimeo Presenta la Traducción Automática de Videos con Clonación de Voz a través de IA

Revolucionando la Educación con IA: La Misión de Eureka Labs para Transformar el Aprendizaje

Deja una respuesta Cancelar la respuesta

¡No te quedes atrás! Descubre lo nuevo

Cepillos de Dientes Inteligentes: Innovación Tecnológica que Pone en Riesgo tu Privacidad

Vimeo Presenta la Traducción Automática de Videos con Clonación de Voz a través de IA

Revolucionando la Educación con IA: La Misión de Eureka Labs para Transformar el Aprendizaje

Nuevas Formas de Ser Creativo con Microsoft Designer, Impulsado por IA