Nueva técnica hace que los modelos de IA sean más delgados y rápidos mientras aún están aprendiendo

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT han desarrollado un nuevo método, llamado CompreSSM, que permite comprimir modelos de IA durante el entrenamiento, reduciendo costos computacionales sin sacrificar rendimiento. Esta técnica se enfoca en modelos de espacio de estado, utilizados en aplicaciones desde procesamiento de lenguaje hasta generación de audio y robótica.

CompreSSM identifica qué partes de un modelo son útiles y cuáles son innecesarias, eliminando componentes no esenciales temprano en el proceso de entrenamiento. La técnica utiliza valores singulares de Hankel para medir la contribución de cada estado interno al comportamiento general del modelo, permitiendo clasificar qué dimensiones son importantes tras aproximadamente el 10% del proceso de entrenamiento. Una vez establecidas estas clasificaciones, los componentes menos importantes pueden ser descartados, y el 90% restante del entrenamiento se realiza a la velocidad de un modelo mucho más pequeño.

Los resultados son notables. En benchmarks de clasificación de imágenes, los modelos comprimidos mantuvieron casi la misma precisión que sus contrapartes de tamaño completo mientras se entrenaban hasta 1.5 veces más rápido. Un modelo comprimido reducido a aproximadamente una cuarta parte de su dimensión original logró un 85.7% de precisión en el benchmark CIFAR-10, en comparación con un 81.8% para un modelo entrenado desde un tamaño más pequeño. En Mamba, uno de los arquitecturas de espacio de estado más utilizadas, el método logró aumentos de velocidad de entrenamiento de aproximadamente 4 veces, comprimiendo un modelo de 128 dimensiones a alrededor de 12 dimensiones mientras mantenía un rendimiento competitivo.

CompreSSM se distingue de los enfoques existentes por su base teórica. A diferencia de los métodos de poda convencionales que entrenan un modelo completo y luego eliminan parámetros, CompreSSM toma decisiones de compresión informadas durante el proceso de entrenamiento, evitando así costos computacionales adicionales.
¿Cómo transformará esta técnica la forma en que se desarrollan y optimizan los modelos de inteligencia artificial en el futuro?
.

.

.

RESUMEN BASADO EN EL ARTÍCULO PUBLICADO EN MIT News EL 9 de abril de 2026. Leer original

https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409

Otras entradas que te pueden interesar