Google presenta TurboQuant: comprime tanto la memoria de la IA que permite ejecutar modelos pesados en hardware pequeño

Google ha presentado TurboQuant, una tecnología de compresión que reduce al menos seis veces el tamaño de la memoria temporal conocida como KV cache, necesaria para que los modelos de inteligencia artificial recuerden información mientras generan respuestas. TurboQuant permite llevar la cuantización hasta 3 bits sin pérdidas apreciables de calidad y puede acelerar el cálculo de atención hasta ocho veces en GPU Nvidia H100.

La memoria de trabajo que utilizan los modelos de lenguaje consume mucha memoria cuando el contexto crece, lo que incrementa tanto el coste como la necesidad de hardware caro. TurboQuant aborda este problema al combinar dos ideas: PolarQuant, que reorganiza los vectores en coordenadas polares, y QJL, que añade una capa de corrección con 1 bit para compensar el error residual y evitar sesgos en los cálculos de atención. Esto permite una compresión más eficiente sin necesidad de guardar constantes adicionales que consumen memoria.

Google evaluó TurboQuant en benchmarks de contexto largo como LongBench y Needle In A Haystack, utilizando modelos abiertos como Gemma y Mistral. Los resultados mostraron que TurboQuant mantuvo resultados óptimos o muy cercanos al original, reduciendo el tamaño de la KV cache y superando a alternativas como Product Quantization en búsqueda vectorial. La técnica permite que el mismo hardware pueda atender cargas mayores o modelos más grandes, facilitando el despliegue de IA pesada con menos recursos.
¿Cómo transformará TurboQuant la capacidad de los modelos de IA en hardware limitado?
.

RESUMEN BASADO EN EL ARTÍCULO PUBLICADO EN La Razón EL 27.03.2026. Leer original

https://www.larazon.es/tecnologia-consumo/google/google-presenta-turboquant-comprime-tanto-memoria-ia-permite-ejecutar-modelos-pesados-hardware-pequeno_2026032769c66027bfc2456bae157998.html

Otras entradas que te pueden interesar

Illa reivindica una Catalunya líder «sin complejos» tras reforzar la alianza con Nvidia y Supermicro para potenciar la IA europea

Luis Martí Bonmatí, médico: «La inteligencia artificial ve, analiza patrones y cambios que somos incapaces de observar. Permite predecir en qué zona va a aparecer un tumor»

Google presenta TurboQuant: comprime tanto la memoria de la IA que permite ejecutar modelos pesados en hardware pequeño

Otras entradas que te pueden interesar

Illa reivindica una Catalunya líder «sin complejos» tras reforzar la alianza con Nvidia y Supermicro para potenciar la IA europea

Los estadounidenses se oponen a los centros de datos de IA en su área

Javi Creus, Abundancia (V): El día que el empleo dejó de sostenerlo todo

Cultura insta al liderazgo europeo para la protección jurídica del sector cultural ante la Inteligencia Artificial

Luis Martí Bonmatí, médico: «La inteligencia artificial ve, analiza patrones y cambios que somos incapaces de observar. Permite predecir en qué zona va a aparecer un tumor»

Cerebras fija su IPO por encima del rango esperado, Wall Street anticipa una inundación de IA

OpenEvidence: La mayoría de los médicos utilizan en silencio esta herramienta de IA médica

La inteligencia artificial está fabricando citas en estudios biomédicos, según encuentran investigadores

Mañana tendremos una conversación que me hace especial ilusión.