La inteligencia artificial (IA) ha llegado para quedarse. “Cada industria se convertirá en una industria tecnológica”, según Jensen Huang, fundador y director ejecutivo de NVIDIA. Los casos de uso de la IA son prácticamente ilimitados, desde avances en la medicina hasta la prevención del fraude de alta precisión. La IA ya está transformando nuestras vidas de la misma manera que está transformando cada industria. También está comenzando a transformar fundamentalmente la infraestructura del centro de datos.
Las cargas de trabajo de IA están impulsando cambios significativos en la forma en que alimentamos y enfriamos los datos procesados como parte de la computación de alto rendimiento (HPC). Un rack de TI típico utilizado para ejecutar cargas de trabajo de 5 a 10 kilovatios (kW) y racks que ejecutan cargas superiores a 20 kW se consideraron de alta densidad, una visión rara fuera de aplicaciones muy específicas con un alcance estrecho. La TI se está acelerando con las GPU para satisfacer las necesidades de computación de los modelos de IA, y estos chips de IA pueden requerir aproximadamente cinco veces más potencia y cinco veces más capacidad de enfriamiento1 en el mismo espacio que un servidor tradicional. Mark Zuckerberg anunció que para fines de 2024, Meta gastará miles de millones en implementar 350 000 GPU H100 de NVIDIA. Las densidades de racks de 40 kW por rack ahora están en el extremo inferior de lo que se requiere para facilitar las implementaciones de IA, con densidades de rack superiores a 100 kW por rack que se vuelven comunes y a gran escala en un futuro cercano.
Esto requerirá grandes aumentos de capacidad en todo el tren de potencia, desde la red hasta los chips en cada rack. La introducción de tecnologías de enfriamiento líquido en el espacio en blanco del centro de datos y, finalmente, en las salas de servidores empresariales, será un requisito para la mayoría de las implementaciones, ya que los métodos de enfriamiento tradicionales no podrán manejar el calor generado por las GPU que ejecutan cálculos de IA. Las inversiones para actualizar la infraestructura necesaria para alimentar y enfriar el hardware de IA son sustanciales y navegar por estos nuevos desafíos de diseño es fundamental.
La transición a la alta densidad
La transición a la computación acelerada no ocurrirá de la noche a la mañana. Los diseñadores de centros de datos y salas de servidores deben buscar formas de preparar la infraestructura de alimentación y enfriamiento para el futuro, y a la vez tener en cuenta el crecimiento futuro de sus cargas de trabajo. Obtener suficiente alimentación para cada rack requiere actualizaciones desde la red hasta el rack. En el espacio en blanco específicamente, esto probablemente significa PDU de rack de alta densidad y blindobarras de alto amperaje. Para eliminar la enorme cantidad de calor generado por el hardware que ejecuta cargas de trabajo de IA, están surgiendo dos tecnologías de enfriamiento líquido como opciones principales:
- Enfriamiento líquido directo al chip: Las placas frías se asientan sobre los componentes generadores de calor (generalmente chips como CPU y GPU) para extraer calor. El fluido monofásico o bifásico bombeado extrae calor de la placa fría para enviarlo fuera del centro de datos, intercambiando calor, pero no fluidos con el chip. Esto puede eliminar aproximadamente entre el 70 % y el 75 % del calor generado por el equipo en el bastidor, y dejar entre el 25 % y el 30 % que los sistemas de enfriamiento por aire deben eliminar.
- Intercambiadores de calor de puerta trasera: Los intercambiadores de calor pasivos o activos reemplazan la puerta trasera del rack de TI con bobinas de intercambio de calor a través de las cuales el fluido absorbe el calor producido en el rack. Estos sistemas a menudo se combinan con otros sistemas de enfriamiento como una estrategia para mantener la neutralidad de la sala o un diseño de transición que inicia el viaje hacia el enfriamiento líquido.
Si bien el enfriamiento líquido directo al chip ofrece una capacidad de enfriamiento de densidad significativamente mayor que el aire, es importante tener en cuenta que aún hay exceso de calor que las placas frías no pueden capturar. Este calor se rechazará en la sala de datos a menos que se contenga y retire a través de otros medios, como intercambiadores de calor de la puerta trasera o enfriamiento por aire ambiente. Para obtener más detalles sobre las soluciones de refrigeración líquida para centros de datos, consulte nuestro informe técnico.
Diseños de alta densidad para modernizaciones y nuevas construcciones
Para simplificar el diseño y la implementación de infraestructuras de alta densidad, Vertiv ha presentado Vertiv 360AI, el cual incluye un portafolio completo de soluciones de alimentación, enfriamiento y servicios que resuelven los complejos desafíos provenientes de la revolución de la IA. La plataforma incluye una amplia gama de diseños integrales que soportan hasta 132 kW por rack para un conjunto diverso de casos de uso, desde pruebas piloto e inferencia de borde hasta una fábrica de IA.
Diseño para nuevas construcciones
| Densidad del rack | Recuento de racks | Recuento de GPU | ID de diseño | Tecnología de enfriamiento | ||
|---|---|---|---|---|---|---|
| NA | EMEA | ASIA | ||||
| 20 kW | 18 | 248 | RD002 |
RD002E |
RD002A |
Aire |
| 40kW | 10 | 248 | RD003 |
RD003E |
RD003A |
Aire |
| 40kW | 10 | 248 | RD004 |
RD004E |
RD004A |
Aire |
| 73kW | 88 | 2304 | RD006 |
RD006E | RD006A |
Líquido + aire |
| 73kW | 110 | 2880 | RD007 |
RD007E | RD007A |
Líquido + aire |
| 132kW | 36 | 1152 | RD014 |
RD014E | RD014A |
Líquido + aire |
| 132kW | 54 | 1728 | RD015 |
RD015E | RD015A |
Líquido + aire |
| 132kW | 72 | 2304 | RD016 |
RD016E | RD016A |
Líquido + aire |
| 300kW | - | - | RD300 | RD300E | RD300A | Líquido |
| 500kW | - | - | RD500 | RD500E | RD500A | Líquido |
Diseño optimizado para adaptaciones
| Densidad del rack | Recuento de racks | Recuento de GPU | ID de diseño | Tecnología de enfriamiento | ||
|---|---|---|---|---|---|---|
| NA | EMEA | ASIA | ||||
| 40kW | 4 | 128 | 4X160R |
4X160RE | 4X160RA | Aire |
| 70kW | 1 | 64 | 1L70R |
1L70RE |
1L70RA |
Líquido + aire |
| 100 kW | 1 | 88 | 1L100R |
1L100R |
1L100RA |
Líquido + aire |
| 100 kW | 4 | 368 | 4L400R |
4L400RE | 4L400RA | Líquido + aire |
| 100 kW | 4 | 368 | 4XL400 |
4XL400 |
4XL400A |
Líquido + aire |
| 100 kW | 5 | 460 | 5L500 |
5L500 |
5L500A |
Líquido + aire |
| 100 kW | 12 | 1104 | 12XL1200 |
12XL1200 |
12XL1200A |
Líquido + aire |
| 100 kW | 14 | 1288 | 14L1400 |
14L1400 |
14L1400A |
Líquido + aire |
Estos diseños ofrecen múltiples rutas para integradores de sistemas, proveedores de coubicaciones, proveedores de servicios en la nube o usuarios empresariales para alcanzar el centro de datos del futuro ahora. Cada instalación específica puede tener matices con recuento de racks y densidad de racks dictados por la selección de equipos de TI. De manera que esta colección de diseños proporciona una forma intuitiva de reducir definitivamente un diseño base y adaptarlo exactamente a las necesidades de implementación.
Al reacondicionar o reutilizar los entornos existentes para la IA, nuestros diseños optimizados ayudan a minimizar la interrupción de las cargas de trabajo existentes al aprovechar la infraestructura de enfriamiento disponible y el rechazo del calor cuando sea posible. Por ejemplo, podemos integrar el enfriamiento líquido directo al chip con un intercambiador de calor de puerta trasera para mantener una solución de enfriamiento de sala neutra. En este caso, el intercambiador de calor de puerta trasera evita que el exceso de calor escape a la habitación. Para una instalación enfriada por aire que busca agregar equipos de enfriamiento por líquido sin modificaciones en el sitio en sí, tenemos opciones de diseño de líquido a aire disponibles. Esta misma estrategia se puede implementar en un solo rack, en una fila o a escala en una implementación de HPC grande. Para los diseños de múltiples racks, también hemos incluido PDU de rack de alta densidad y blindobarras de alto amperaje para distribuir energía a cada rack.
Estas opciones son compatibles con una gama de diferentes opciones de rechazo de calor que pueden combinarse con el enfriamiento líquido. Esto establece una ruta de transición limpia y rentable hacia el enfriamiento líquido de alta densidad sin interrumpir otras cargas de trabajo en la sala de datos. Consulte nuestras soluciones de sala de datos de IA para obtener más información.
Si bien muchas instalaciones no están diseñadas para sistemas de alta densidad, Vertiv tiene amplia experiencia en ayudar a los clientes a desarrollar planes de implementación para hacer una transición sin problemas a la alta densidad para IA y HPC.
1 Estimaciones de gestión: Comparación del consumo de energía y la salida de calor a nivel de rack para 5 servidores Nvidia DGX H100 y 21 servidores Dell PowerStore 500T y 9200T en un rack estándar de 42U basado en hojas de especificaciones del fabricante