La inteligencia artificial (IA) ya está aquí y ha llegado para quedarse. “Cada sector se convertirá en un sector tecnológico”, según Jensen Huang, fundador y CEO de NVIDIA. Los casos de uso de la IA son prácticamente ilimitados, desde los avances en medicina hasta la prevención del fraude de alta precisión. La IA ya está transformando nuestras vidas del mismo modo que está transformando cada sector. También está empezando a transformar fundamentalmente la infraestructura del centro de datos.
Las cargas de trabajo de IA están impulsando cambios significativos en cómo alimentamos y enfriamos los datos procesados como parte de la computación de alto rendimiento (HPC). Un rack de TI típico solía ejecutar cargas de trabajo de 5-10 kilovatios (kW) y racks con cargas superiores a 20 kW se consideraban de alta densidad, una visión poco común fuera de aplicaciones muy específicas con un alcance limitado. La TI se está acelerando con GPUs para satisfacer las necesidades informáticas de los modelos de IA, y estos chips de IA pueden requerir aproximadamente cinco veces más potencia y cinco veces más capacidad de refrigeración1 en el mismo espacio que un servidor tradicional. Mark Zuckerberg anunció que a finales de 2024, Meta gastará miles de millones en implementar 350 000 GPU H100 de NVIDIA. Las densidades de rack de 40 kW por rack se encuentran ahora en el extremo inferior de lo necesario para facilitar las implementaciones de IA, con densidades de rack que superan los 100 kW por rack que se vuelven comunes y a gran escala en un futuro cercano.
Esto requerirá amplios aumentos de capacidad en todo el tren de potencia, desde la red hasta los chips en cada rack. La introducción de tecnologías de refrigeración líquida en el espacio útil del centro de datos y, finalmente, en las salas de servidores corporativas será un requisito para la mayoría de las implementaciones, ya que los métodos de refrigeración tradicionales no podrán manejar el calor generado por las GPU que ejecutan cálculos de IA. Las inversiones para actualizar la infraestructura necesaria para impulsar y enfriar el hardware de IA son sustanciales y abordar estos nuevos desafíos de diseño es fundamental.
La transición a la alta densidad
La transición a la computación acelerada no ocurrirá de la noche a la mañana. Los diseñadores de centros de datos y salas de servidores deben buscar formas de preparar la infraestructura de alimentación eléctrica y refrigeración para el futuro, teniendo en cuenta el crecimiento futuro de sus cargas de trabajo. Obtener suficiente potencia para cada rack requiere actualizaciones de la red al rack. En el espacio útil, esto probablemente significa carriles de alimentación de alto amperaje y PDU para rack de alta densidad. Para rechazar la enorme cantidad de calor generado por el hardware que ejecuta cargas de trabajo de IA, están surgiendo dos tecnologías de refrigeración líquida como opciones principales:
- Refrigeración líquida directa al chip: Las placas frías se asientan sobre los componentes generadores de calor (normalmente chips como CPU y GPU) para extraer calor. El fluido bombeado monofásico o bifásico extrae calor de la placa fría para enviarlo fuera del centro de datos, intercambiando calor pero no fluidos con el chip. Esto puede eliminar aproximadamente el 70-75 % del calor generado por el equipo en el rack, dejando el 25-30 % que los sistemas de refrigeración por aire deben eliminar.
- Intercambiadores de calor de puerta trasera: Los intercambiadores de calor pasivos o activos sustituyen la puerta trasera del rack de TI por bobinas de intercambio de calor a través de las cuales el fluido absorbe el calor producido en el rack. Estos sistemas suelen combinarse con otros sistemas de refrigeración como estrategia para mantener la neutralidad de la sala o como un diseño de transición que inicia el viaje hacia la refrigeración líquida.
Si bien la refrigeración líquida directa al chip ofrece una capacidad de refrigeración de densidad significativamente mayor que la del aire, es importante tener en cuenta que todavía hay un exceso de calor que las placas frías no pueden capturar. Este calor se rechazará en la sala de datos a menos que se contenga y elimine a través de otros medios como intercambiadores de calor de puerta trasera o refrigeración de aire de la sala. Para obtener más información sobre las soluciones de refrigeración líquida para centros de datos, consulte nuestro informe técnico .
Starter Kits de IA para retrofits y nuevas instalaciones
La energía y la refrigeración se están convirtiendo en partes integrales del diseño de la solución de TI en la sala de datos, desdibujando las fronteras entre los equipos de TI y de las instalaciones. Esto añade un alto grado de complejidad en lo que respecta al diseño, la implementación y el funcionamiento. Los partnerships y la experiencia en soluciones completas se clasifican como los principales requisitos para transiciones sencillas a densidades más altas.
Para simplificar el cambio a alta densidad, Vertiv ha introducido una gama de diseños optimizados que incluyen tecnología de alimentación eléctrica y refrigeración capaz de soportar cargas de trabajo de hasta 100 kW por rack en un conjunto diverso de configuraciones de despliegue.
Resumen del diseño | Racks | Densidad/rack | Instalaciones nuevas o existentes | Eliminación del calor | |
---|---|---|---|---|---|
desde el servidor | desde la sala | ||||
Modelos piloto de formación, inferencia en el edge a escala |
|||||
Pequeño retrofit para HPC | 1 | 70 kW | Instalaciones existentes | agua/glicol | aire |
Retrofit para HPC con sistema de agua enfriada | 1 | 100 kW | Instalaciones existentes | agua/glicol | agua/glicol |
Formación centralizada para empresas, espacio para IA en centros de datos |
|||||
Retrofit de tamaño medio optimizado en coste para HPC | 3 | 100 kW | Instalaciones existentes | agua/glicol | refrigerante |
HPC de tamaño mediano con mayor captura de calor | 4 | 100 kW | Instalaciones existentes Instalaciones nuevas |
agua/glicol+aire | agua/glicol |
Retrofit pragmático para HPC de tamaño mediano para salas de ordenadores con refrigeración por aire | 5 | 40 kW | Instalaciones existentes Instalaciones nuevas |
aire | refrigerante |
HPC de tamaño mediano | 5 | 100 kW | Instalaciones existentes Instalaciones nuevas |
agua/glicol | agua/glicol |
Fábrica de IA a gran escala |
|||||
Gran HPC que preserva la neutralidad de la sala | 12 | 100 kW | Instalaciones existentes Instalaciones nuevas |
agua/glicol+aire | agua/glicol |
Gran edificio HPC para crecer a escala | 14 | 100 kW | Instalaciones existentes Instalaciones nuevas |
agua/glicol | agua/glicol |
Estos diseños ofrecen múltiples rutas para que los integradores de sistemas, proveedores de colocation, proveedores de servicios en la nube o usuarios corporativos logren ahora el centro de datos del futuro. Cada instalación específica puede tener matices con el número de racks y su densidad dictados por la selección de equipos de TI. Como tal, esta colección de diseños proporciona una forma intuitiva de reducir definitivamente un diseño base y adaptarlo exactamente a las necesidades de implementación.
Al actualizar o reutilizar entornos existentes para la IA, nuestros diseños optimizados ayudan a minimizar la interrupción de las cargas de trabajo existentes aprovechando la infraestructura de refrigeración disponible y el rechazo del calor cuando sea posible. Por ejemplo, podemos integrar la refrigeración líquida directa al chip con un intercambiador de calor de puerta trasera para mantener una solución de refrigeración neutra para la sala. En este caso, el intercambiador de calor de la puerta trasera evita que el exceso de calor escape a la sala. Para una instalación de refrigeración por aire que busca añadir equipos de refrigeración líquida sin ninguna modificación en el propio sitio, tenemos opciones de diseño de líquido a aire disponibles. Esta misma estrategia se puede implementar en un solo rack, en filas o a escala en una implementación de HPC grande. Para los diseños de múltiples racks, también hemos incluido PDU para rack de alta densidad y carriles de alimentación de alto amperaje para distribuir energía a cada rack.
Estas opciones son compatibles con una gama de diferentes opciones de rechazo de calor que se pueden combinar con refrigeración líquida. Esto establece una ruta de transición limpia y rentable a la refrigeración líquida de alta densidad sin interrumpir otras cargas de trabajo en la sala de datos. Consulta nuestras soluciones de sala de datos de IA para obtener más información.
Aunque muchas instalaciones no están diseñadas para sistemas de alta densidad, Vertiv cuenta con una amplia experiencia en ayudar a los clientes a desarrollar planes de implementación para realizar una transición sin problemas a alta densidad para IA y HPC.
1 Estimaciones de gestión: Comparación de consumo de energía y salida de calor a nivel de rack para 5 servidores Nvidia DGX H100 y 21 servidores Dell PowerStore 500T y 9200T en un rack estándar de 42U basado en hojas de especificaciones del fabricante