Los denominados "chips calientes" de NVIDIA son en realidad "plataformas calientes"

Sep 03, 2024

Dejar un mensaje

NVIDIA se centra en proyectos de ingeniería a nivel de sistema y de centro de datos destinados a crear sistemas y plataformas avanzados capaces de afrontar desafíos complejos de IA generativa.

A principios de este mes, NVIDIA se encontró con una extraña mala noticia cuando surgieron informes de que los muy esperados aceleradores de GPU "Blackwell" de la compañía podrían retrasarse hasta tres meses debido a fallas de diseño. Sin embargo, un portavoz de NVIDIA afirmó que todo está avanzando según lo planeado. Algunos proveedores indicaron que nada ha cambiado, mientras que otros señalaron algunos retrasos normales.

Los expertos de la industria esperan que cuando NVIDIA publique sus resultados financieros del segundo trimestre del año fiscal 2025 el próximo miércoles, los usuarios obtendrán más información sobre el estado de Blackwell.

Se informa que los chips Blackwell B100, B200 y GB200- serán un punto destacado de la conferencia Hot Chips de este año, que se celebrará la próxima semana en la Universidad de Stanford en California. NVIDIA presentará su arquitectura, detallando algunas innovaciones nuevas, destacando el uso de IA en el diseño de chips y discutiendo la investigación de refrigeración líquida en los centros de datos utilizados para ejecutar estas crecientes cargas de trabajo de IA. Según el director de productos de computación acelerada de NVIDIA, Dave Salvator, la empresa también exhibirá los chips Blackwell que ya funcionan en uno de sus centros de datos.

Blackwell chips

▲ Fichas Blackwell

Gran parte de lo que NVIDIA está comentando sobre Blackwell ya se conoce, como el lanzamiento de la GPU Blackwell Ultra el año que viene y la GPU Rubin y la CPU Vera de próxima generación que empezarán a comercializarse en 2026. Sin embargo, Salvator enfatizó que, cuando se habla de Blackwell, es fundamental verlo como una plataforma en lugar de un solo chip. Salvator hizo hincapié en este punto en una sesión informativa para periodistas y analistas esta semana como parte de los preparativos para Hot Chips.

"Cuando piensas en NVIDIA y las plataformas que estamos construyendo, la GPU, la red e incluso nuestra CPU son solo el comienzo", dijo. "Estamos realizando ingeniería a nivel de sistema y de centro de datos para construir estos sistemas y plataformas que realmente puedan salir y abordar esos desafíos realmente difíciles de la IA generativa. Hemos visto que la escala de los modelos crece con el tiempo y la mayoría de las aplicaciones de IA generativa necesitan ejecutarse en tiempo real, con las demandas de inferencia aumentando drásticamente en los últimos años. La inferencia de modelos de lenguaje grandes en tiempo real requiere múltiples GPU y, en el futuro cercano, requerirá múltiples nodos de servidor".

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Esto incluye no solo las GPU Blackwell y las CPU Grace, sino también los chips NVLink Switch, las DPU Bluefield-3, las NIC ConnextX-7 y ConnectX-8, los conmutadores Ethernet Spectrum-4 y los conmutadores InfiniBand Quantum-3. Salvator también proporcionó diferentes perspectivas para NVLink Switch (a continuación), computación, Spectrum-X800 y Quantum-X800.

NVIDIA presentó la arquitectura Blackwell, muy esperada, en su conferencia GTC 2024 en marzo de este año, y los proveedores y OEM de hiperescala se sumaron rápidamente. La empresa apunta al campo de la IA generativa, en rápida expansión, donde los modelos de lenguaje grande (LLM) se están volviendo aún más masivos. Llama 3.1 de Meta, lanzado en junio, es un testimonio de esta tendencia, ya que presenta un modelo con 4,05 billones de parámetros. Salvator señaló que, a medida que los LLM se hacen más grandes, persiste la demanda de inferencia en tiempo real, lo que requiere más computación y menor latencia, lo que exige un enfoque de plataforma.

"Como ocurre con la mayoría de los demás LLM, se espera que los servicios que funcionan con este modelo se ejecuten en tiempo real. Para lograrlo, se necesitan varias GPU. El desafío es cómo lograr un gran equilibrio entre el alto rendimiento de las GPU, la alta utilización de las GPU y la provisión de una buena experiencia de usuario para los usuarios finales que consumen estos servicios impulsados por IA", afirmó.

La necesidad de velocidad

Con Blackwell, NVIDIA ha duplicado el ancho de banda de cada conmutador, incrementándolo de 900 GB/s a 1,8 TB/s. La tecnología del Protocolo de Reducción y Agregación Jerárquica Escalable (SHARP) de la empresa aporta más capacidad de procesamiento a los sistemas que residen realmente dentro de los conmutadores. Nos permite descargar algunas tareas de la GPU para ayudar a acelerar el rendimiento y también ayuda a suavizar el tráfico de red a través de la estructura NVLink. Se trata de innovaciones que seguimos impulsando a nivel de plataforma.

El GB200 NVL72 multinodo es un chasis refrigerado por líquido que conecta 72 GPU Blackwell y 36 CPU Grace en un diseño a escala de rack. NVIDIA afirma que proporciona un mayor rendimiento de inferencia para LLM de billones de parámetros como GPT-MoE-1.8T, funcionando efectivamente como una sola GPU. Su rendimiento es 30 veces mayor que el del sistema HGX H100, con una velocidad de entrenamiento cuatro veces más rápida que la del H100.

NVIDIA también ha añadido compatibilidad nativa con FP4, utilizando el sistema de cuantificación Quasar de la empresa, que ofrece la misma precisión que FP16 y reduce el uso del ancho de banda en un 75 %. El sistema de cuantificación Quasar es un software que aprovecha el motor Transformer de Blackwell para garantizar la precisión. Salvator demostró esto comparando imágenes de IA generativas creadas con FP4 y FP16, con poca o ninguna diferencia perceptible entre los dos.

Con FP4, los modelos pueden usar menos memoria y funcionar incluso mejor que con FP8 en la GPU Hopper.

Sistemas de refrigeración líquida

En términos de refrigeración líquida, NVIDIA presentará un método de chip a chip con agua caliente directa, que puede reducir el consumo de energía del centro de datos en un 28%.

Salvator dijo: "Lo interesante de este método son algunos de sus beneficios, que incluyen una mayor eficiencia de enfriamiento, menores costos operativos, una vida útil más prolongada del servidor y la posibilidad de reutilizar el calor capturado para otros usos. Definitivamente ayuda a mejorar la eficiencia de enfriamiento. Una de las formas en que se logra esto, como sugiere el nombre, es que este sistema en realidad no utiliza enfriadores. Si piensas en cómo funciona un refrigerador, funciona bastante bien. Pero también requiere electricidad. Al adoptar esta solución de agua caliente, no tenemos que usar enfriadores, lo que nos ahorra algo de energía y reduce los costos operativos".

Otro tema es cómo NVIDIA está aprovechando la IA para diseñar sus chips de IA utilizando Verilog, un lenguaje de descripción de hardware que se ha utilizado durante cuarenta años para describir circuitos en código. NVIDIA está impulsando este esfuerzo a través de un agente Verilog autónomo llamado VerilogCoder.

AI chips

Dijo: "Nuestros investigadores han desarrollado un gran modelo de lenguaje que puede acelerar la creación de código Verilog que describe nuestros sistemas. Lo utilizaremos en futuras generaciones de productos para ayudar a crear estos códigos. Puede hacer muchas cosas. Puede ayudar a acelerar el proceso de diseño y verificación. Puede acelerar las operaciones manuales del diseño y automatizar fundamentalmente muchas tareas".