Nvidia ha presentado Nemotron 3 Nano Omni, un modelo de IA diseñado para integrar capacidades de visión, audio y lenguaje, eliminando el flujo de trabajo fragmentado de los actuales agentes de IA. Este modelo cuenta con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia, y es nueve veces más rápido que los modelos separados, consumiendo 2,75 veces menos capacidad de cómputo en tareas de razonamiento a partir de un vídeo.
Los modelos Omni son intrínsecamente multimodales, lo que permite una interacción más natural y veloz entre modelos y estímulos. Nemotron 3 Nano Omni puede interpretar gráficos, tablas, documentos y medios mixtos, y tiene una resolución de entrada nativa de 1.920 x 1.080 para comprensión visual en HD. Además, comprende lo que ve y escucha, manteniendo coherencia en su interpretación.
Nvidia no lanza este modelo para el consumo masivo, sino que lo orienta hacia el ámbito empresarial, accesible a través de plataformas como Hugging Face y sistemas locales como DGX Spack o Jetson. Esta tecnología refuerza la narrativa de los agentes como entes omnipotentes, alineándose con el discurso del CEO Jensen Huang sobre el papel de la IA en el trabajo humano.
¿Está la IA avanzando hacia un futuro donde los agentes omnipotentes redefinirán la interacción humana con la tecnología?
.
.
.
RESUMEN BASADO EN EL ARTÍCULO PUBLICADO EN Xataka EL 2026-05-01. Leer original
https://www.xataka.com/robotica-e-ia/nvidia-no-solo-pegamento-ia-ahora-tiene-modelo-omnipotente-que-lee-ve-escucha-todo-a-vez
