Cuando los servidores de IA exigen una tecnología de refrigeración superior: por qué la tendencia está cambiando de la "refrigeración por aire" a la "refrigeración por líquido"

Aug 23, 2024

Dejar un mensaje

El director ejecutivo de NVIDIA, Jensen Huang, hizo una aparición especial en COMPUTEX 2023 para apoyar el discurso del presidente de Supermicro, Charles Liang. El presidente de Fanner, Lin Yushen, señaló que la mayoría de los productos de servidor que se exhibieron en el escenario incluían módulos de refrigeración por agua de Fanner. Fanner, que ha invertido en módulos de refrigeración por agua durante muchos años, está bien posicionada para capitalizar esta ola de IA. Sin embargo, como los servidores de IA exigen estándares de refrigeración cada vez más altos, ¿por qué la tendencia está cambiando de "refrigeración por aire" a "refrigeración por líquido"?

I Del funcionamiento a alta velocidad a la refrigeración líquida

En cuanto a la tecnología de refrigeración, Lin Yushen señaló que los módulos de refrigeración actuales utilizan principalmente tecnología de refrigeración híbrida que incorpora tubos de calor. Estos módulos de refrigeración con tubos de calor combinan componentes como ventiladores, disipadores de calor y tubos de calor para crear un entorno térmico equilibrado para los componentes electrónicos internos, mejorando así la estabilidad de los dispositivos electrónicos. Sin embargo, a medida que los productos electrónicos terminales posteriores se vuelven más multifuncionales y compactos, los fabricantes de módulos de refrigeración han pasado a diseñar soluciones de refrigeración centradas en cámaras de vapor y tubos de calor.

Actualmente, los módulos de refrigeración se dividen en dos tipos: "refrigeración por aire" y "refrigeración por líquido". La refrigeración por aire utiliza aire como medio, con materiales como materiales de interfaz térmica, cámaras de vapor (VC) o tubos de calor que conducen el calor, que luego se disipa a través de disipadores de calor o ventiladores mediante convección de aire. Por el contrario, la refrigeración por líquido disipa el calor a través de la convección de líquido, incluida la refrigeración por inmersión, que enfría los chips de manera más eficiente. Sin embargo, a medida que los chips generan más calor y se vuelven más pequeños, y a medida que aumenta la potencia de diseño térmico (TDP), la refrigeración por aire se vuelve gradualmente insuficiente.

A comparison between air cooling and liquid cooling technologies

▲ Comparación entre las tecnologías de refrigeración por aire y refrigeración por líquido

Con el auge de ChatGPT, la IA generativa ha impulsado un aumento en los envíos de servidores, lo que a su vez ha llevado a especificaciones mejoradas para los módulos de refrigeración, impulsándolos hacia soluciones de refrigeración líquida para cumplir con los estrictos requisitos de refrigeración y estabilidad del servidor. Lin Yushen destacó que Fanner comenzó con tecnología de refrigeración por aire y, hace ya diez años, comenzó a adquirir tecnología de refrigeración líquida a través de la transferencia de tecnología de IBM. Proporcionaron puertas traseras de refrigeración por agua que permitieron a los clientes agregar refrigeración por agua a los gabinetes sin modificar la infraestructura del centro de datos existente.

II Para 2025, una nueva era de refrigeración simultánea por aire y líquido

Impulsada por el desarrollo de la tecnología de semiconductores relacionada con las aplicaciones de IA, la introducción de GPT-3 en ChatGPT ha aumentado los parámetros del algoritmo de IA a 175 mil millones, lo que requiere un aumento de cien veces en la potencia de procesamiento de la GPU. La industria utiliza principalmente la tecnología de enfriamiento por inmersión monofásica dentro del enfriamiento líquido para resolver los desafíos de disipación de calor de los servidores o componentes de alta densidad. Sin embargo, este método tiene un límite de 600 W, mientras que las necesidades de enfriamiento de ChatGPT o servidores más avanzados superan los 700 W.

Illustration of single-phase immersion cooling technology

▲ Ilustración de la tecnología de enfriamiento por inmersión monofásica

Con el desarrollo de la IoT, la informática de borde y las aplicaciones 5G, la IA de datos está impulsando la potencia informática mundial hacia una fase de alto crecimiento. La próxima generación de diseños de módulos de refrigeración seguirá dos direcciones principales: actualizar los módulos de refrigeración existentes con cámaras de vapor 3D (3DVC) o introducir sistemas de refrigeración líquida que utilicen líquido como medio de convección térmica para mejorar la eficiencia de refrigeración. Como resultado, la cantidad de pruebas de refrigeración líquida aumentó significativamente en 2023. Sin embargo, la 3DVC es, en última instancia, una solución de transición y se espera que para el 2024-2025 comience la era de la refrigeración simultánea por aire y líquido.

Según TrendForce, en 2022, los servidores de IA equipados con GPGPU (GPU de uso general) representaron aproximadamente el 1 % de los envíos totales. Sin embargo, impulsados por la aplicación de ChatGPT, se espera que los envíos de servidores de IA crezcan un 38,4 % en 2023, y la tasa de crecimiento anual compuesta de los envíos de servidores de IA entre 2022 y 2026 alcance el 29 %.

III La refrigeración líquida se convertirá en la norma para los chips de IA

A medida que el TDP de la nueva generación de servidores se acerca a los límites de la refrigeración por aire, las empresas tecnológicas líderes están empezando a probar la refrigeración líquida o a aumentar el espacio de refrigeración. Por ejemplo, el TDP de Eagle Stream de Intel y el Genoa de AMD de 350-400W han alcanzado los límites de la refrigeración por aire, lo que convierte a la refrigeración líquida en la solución principal para los chips de IA. El H100 de NVIDIA tiene un TDP de 700W y la refrigeración por aire mediante 3DVC generalmente requiere más de 4U de espacio, lo que no es adecuado para arquitecturas de implementación de alta densidad.

NVIDIA's H100

▲ H100 de NVIDIA

Teniendo en cuenta que los sistemas de refrigeración representan aproximadamente el 33% del consumo total de energía en los centros de datos, reducir el consumo total de energía y mejorar la eficacia del uso de la energía (PUE) implica optimizar los sistemas de refrigeración, los equipos informáticos y el uso de energía renovable. Dado que la capacidad térmica del agua es cuatro veces mayor que la del aire, la implementación de sistemas de refrigeración líquida requiere solo 1U de espacio para la placa de refrigeración líquida. Según las pruebas de NVIDIA, para lograr la misma potencia de procesamiento, la refrigeración líquida puede reducir la cantidad de gabinetes necesarios en un 66%, el consumo de energía en un 28% y la PUE de 1,6 a 1,15, al tiempo que mejora el rendimiento informático.

El uso de módulos de refrigeración Fanner por parte de IV Supermicro es crucial

La refrigeración líquida se divide a su vez en "refrigeración por agua" y "refrigeración por aceite", siendo la refrigeración por agua la más utilizada en la actualidad. Lin Yushen señaló que casi todos los servidores de IA utilizan ahora soluciones de refrigeración por agua. Por ejemplo, el GH100 de NVIDIA, con un TDP superior a 700 W, debe utilizar refrigeración por agua. Aunque la refrigeración por agua representa actualmente una pequeña proporción de los ingresos de Fanner, el precio medio de venta (ASP) de los servidores de IA es diez veces superior al de los servidores tradicionales, lo que ayudará a transformar la estructura de productos de Fanner en la segunda mitad del año. Se estima que los servidores de IA podrían representar el 5-10% de su negocio en 2023.

Lin Yushen destacó que la razón principal por la que Supermicro utiliza módulos de refrigeración por agua de Fanner para servidores equipados con GPU NVIDIA GH100 es que Fanner ha estado trabajando en soluciones de refrigeración por líquido durante más de una década. Si bien los desafíos de implementar la refrigeración por agua involucran principalmente costos y prevención de fugas, los más de diez años de investigación de Fanner han superado gradualmente estos problemas de fugas. La inversión a largo plazo de Fanner en módulos de refrigeración por agua los ha posicionado para capitalizar esta ola de IA.

Supermicro Custom Liquid Cooling

▲ Refrigeración líquida personalizada Supermicro

Lin Yushen destacó que el aumento continuo del TDP impulsado por la computación de alta velocidad y las crecientes demandas de refrigeración de los servidores de IA han llevado la refrigeración tradicional por tubos de calor a sus límites, lo que hace necesaria la adopción de módulos de refrigeración por agua. Fanner ya tiene varios clientes, incluidos Supermicro y Meta, que han adoptado sus soluciones. A pesar de la adopción más rápida de lo esperado de la refrigeración por agua, es poco probable que se implemente por completo en 2023. Sin embargo, se espera que experimente un avance significativo para 2024, con un crecimiento explosivo previsto en 2025.