Google ha presentado TurboQuant, una tecnología de compresión que reduce al menos seis veces el tamaño de la memoria temporal conocida como KV cache, necesaria para que los modelos de inteligencia artificial recuerden información mientras generan respuestas. TurboQuant permite llevar la cuantización hasta 3 bits sin pérdidas apreciables de calidad y puede acelerar el cálculo de atención hasta ocho veces en GPU Nvidia H100.
La memoria de trabajo que utilizan los modelos de lenguaje consume mucha memoria cuando el contexto crece, lo que incrementa tanto el coste como la necesidad de hardware caro. TurboQuant aborda este problema al combinar dos ideas: PolarQuant, que reorganiza los vectores en coordenadas polares, y QJL, que añade una capa de corrección con 1 bit para compensar el error residual y evitar sesgos en los cálculos de atención. Esto permite una compresión más eficiente sin necesidad de guardar constantes adicionales que consumen memoria.
Google evaluó TurboQuant en benchmarks de contexto largo como LongBench y Needle In A Haystack, utilizando modelos abiertos como Gemma y Mistral. Los resultados mostraron que TurboQuant mantuvo resultados óptimos o muy cercanos al original, reduciendo el tamaño de la KV cache y superando a alternativas como Product Quantization en búsqueda vectorial. La técnica permite que el mismo hardware pueda atender cargas mayores o modelos más grandes, facilitando el despliegue de IA pesada con menos recursos.
¿Cómo transformará TurboQuant la capacidad de los modelos de IA en hardware limitado?
.
.
.
RESUMEN BASADO EN EL ARTÍCULO PUBLICADO EN La Razón EL 27.03.2026. Leer original
https://www.larazon.es/tecnologia-consumo/google/google-presenta-turboquant-comprime-tanto-memoria-ia-permite-ejecutar-modelos-pesados-hardware-pequeno_2026032769c66027bfc2456bae157998.html