La inteligencia artificial (IA) ya está aquí y ha llegado para quedarse. “Cada sector se convertirá en un sector tecnológico”, según Jensen Huang, fundador y CEO de NVIDIA. Los casos de uso de la IA son prácticamente ilimitados, desde los avances en medicina hasta la prevención del fraude de alta precisión. La IA ya está transformando nuestras vidas del mismo modo que está transformando cada industria. También está empezando a transformar fundamentalmente la infraestructura del centro de datos.
Las cargas de trabajo de IA están impulsando cambios significativos en la forma en que alimentamos y refrigeramos los datos procesados como parte de la computación de alto rendimiento (HPC). Un rack de TI típico solía manejar cargas de trabajo de 5-10 kilovatios (kW) y los racks que soportaban cargas superiores a 20 kW se consideraban de alta densidad, una visión poco común fuera de aplicaciones muy específicas con un alcance limitado. Las TI se están acelerando con GPU para satisfacer las necesidades informáticas de los modelos de AI, y estos chips de AI pueden requerir aproximadamente cinco veces más potencia y cinco veces más capacidad de refrigeración1 en el mismo espacio que un servidor tradicional. Mark Zuckerberg anunció que para finales de 2024, Meta gastará miles de millones en implementar 350 000 GPU H100 de NVIDIA. Las densidades de rack de 40 kW por rack se encuentran ahora en el extremo inferior de lo necesario para facilitar los despliegues de AI, con densidades de rack que superan los 100 kW por rack que se vuelven comunes y a gran escala en un futuro cercano.
Esto requerirá amplios aumentos de capacidad en todo el power train, desde la red hasta los chips en cada rack. La introducción de tecnologías de refrigeración líquida en el white space del centro de datos y, finalmente, en las salas de servidores empresariales, será un requisito para la mayoría de los despliegues, ya que los métodos de refrigeración tradicionales no podrán gestionar el calor generado por las GPU que ejecutan cálculos de IA. Las inversiones para actualizar la infraestructura necesaria para alimentar y enfriar el hardware de IA son sustanciales y abordar estos nuevos desafíos de diseño es fundamental.
La transición a la alta densidad
La transición a la computación acelerada no ocurrirá de la noche a la mañana. Los diseñadores de centros de datos y salas de servidores deben buscar formas de preparar la infraestructura de alimentación y refrigeración para el futuro, teniendo en cuenta el crecimiento futuro de sus cargas de trabajo. Obtener suficiente energía para cada rack requiere actualizaciones de la red al rack. En el white space, esto probablemente significa un bus de alto amperaje y PDU para rack de alta densidad. Para rechazar la enorme cantidad de calor generada por el hardware que ejecuta cargas de trabajo de AI, están emergiendo dos tecnologías de refrigeración líquida como opciones principales:
- Refrigeración líquida directa al chip: Las placas frías se asientan sobre los componentes generadores de calor (normalmente chips como CPU y GPU) para extraer calor. El fluido monofásico o bifásico bombea calor de la placa fría para enviarlo fuera del centro de datos, intercambiando calor pero no fluidos con el chip. Esto puede eliminar aproximadamente el 70-75 % del calor generado por el equipo en el rack, dejando entre el 25 y el 30 % que los sistemas de refrigeración por aire deben eliminar.
- Intercambiadores de calor de puerta trasera: Los intercambiadores de calor pasivos o activos sustituyen la puerta trasera del rack de TI por bobinas de intercambio de calor a través de las cuales el fluido absorbe el calor producido en el rack. Estos sistemas suelen combinarse con otros sistemas de refrigeración como estrategia para mantener la neutralidad de la sala o un diseño de transición que comienza el viaje hacia la refrigeración líquida.
Si bien la refrigeración líquida directa al chip ofrece una capacidad de refrigeración de densidad significativamente mayor que el aire, es importante tener en cuenta que aún hay exceso de calor que las placas frías no pueden capturar. Este calor se expulsará a la sala de datos a menos que esté contenido y se elimine a través de otros medios como intercambiadores de calor de puerta trasera o refrigeración por aire de la sala. Para obtener más información sobre las soluciones de refrigeración líquida para centros de datos, consulta nuestro informe.
Diseños de alta densidad para reacondicionamientos y nuevas construcciones
Para simplificar el diseño y el despliegue de la infraestructura de alta densidad, Vertiv™ ha presentado Vertiv 360AI, que incluye un portfolio completo de soluciones de alimentación eléctrica, refrigeración y servicio que resuelven los complejos desafíos que surgen de la revolución de la IA. La plataforma incluye una amplia gama de diseños completos que admiten hasta 132 kW por rack para un conjunto diverso de casos de uso, desde pruebas piloto e inferencia de Edge hasta una fábrica de IA.
Diseño para nuevas instalaciones
| Densidad de rack | N.º de racks | N.º de GPU | ID de diseño | Tecnología de refrigeración | ||
|---|---|---|---|---|---|---|
| ND | EMEA | ASIA-OCEANÍA | ||||
| 20 kW | 18 | 248 | RD002 |
RD002E |
RD002A |
Aire |
| 40kW | 10 | 248 | RD003 |
RD003E |
RD003A |
Aire |
| 40kW | 10 | 248 | RD004 |
RD004E |
RD004A |
Aire |
| 73kW | 88 | 2304 | RD006 |
RD006E | RD006A |
Líquido + aire |
| 73kW | 110 | 2880 | RD007 |
RD007E | RD007A |
Líquido + aire |
| 132kW | 36 | 1152 | RD014 |
RD014E | RD014A |
Líquido + aire |
| 132kW | 54 | 1728 | RD015 |
RD015E | RD015A |
Líquido + aire |
| 132kW | 72 | 2304 | RD016 |
RD016E | RD016A |
Líquido + aire |
| 300kW | - | - | RD300 | RD300E | RD300A | Líquido |
| 500kW | - | - | RD500 | RD500E | RD500A | Líquido |
Diseño optimizado para readaptaciones
| Densidad de rack | N.º de racks | N.º de GPU | ID de diseño | Tecnología de refrigeración | ||
|---|---|---|---|---|---|---|
| ND | EMEA | ASIA-OCEANÍA | ||||
| 40kW | 4 | 128 | 4X160R |
4X160RE | 4X160RA | Aire |
| 70kW | 1 | 64 | 1L70R |
1L70RE |
1L70RA |
Líquido + aire |
| 100kW | 1 | 88 | 1L100R |
1L100R |
1L100RA |
Líquido + aire |
| 100kW | 4 | 368 | 4L400R |
4L400RE | 4L400RA | Líquido + aire |
| 100kW | 4 | 368 | 4XL400 |
4XL400 |
4XL400A |
Líquido + aire |
| 100kW | 5 | 460 | 5L500 |
5L500 |
5L500A |
Líquido + aire |
| 100kW | 12 | 1104 | 12XL1200 |
12XL1200 |
12XL1200A |
Líquido + aire |
| 100kW | 14 | 1288 | 14L1400 |
14L1400 |
14L1400A |
Líquido + aire |
Estos diseños ofrecen múltiples rutas para que los integradores de sistemas, proveedores de colocation, proveedores de servicios en la nube o usuarios empresariales logren el centro de datos del futuro, ahora. Cada instalación específica puede tener matices con el recuento de racks y la densidad de racks dictados por la selección de equipos de TI. Por lo tanto, esta colección de diseños ofrece una manera intuitiva de reducir de forma definitiva a un diseño base y adaptarlo exactamente a las necesidades del despliegue.
Al reacondicionar o reutilizar entornos existentes para la IA, nuestros diseños optimizados ayudan a minimizar la interrupción de las cargas de trabajo existentes aprovechando la infraestructura de refrigeración disponible y el rechazo de calor cuando sea posible. Por ejemplo, podemos integrar la refrigeración líquida directa al chip con un intercambiador de calor de puerta trasera para mantener una solución de refrigeración neutra para la sala. En este caso, el intercambiador de calor de la puerta trasera evita que el exceso de calor escape a la sala. Para una instalación refrigerada por aire que busca añadir equipos de refrigeración líquida sin ninguna modificación en el propio centro, tenemos opciones de diseño de líquido a aire disponibles. Esta misma estrategia puede implementarse en un solo rack, en fila o a escala en un despliegue de HPC grande. Para diseños multirack, también hemos incluido buses de alto amperaje y PDU para rack de alta densidad para distribuir energía a cada rack.
Estas opciones son compatibles con una gama de diferentes opciones de expulsión de calor que pueden combinarse con refrigeración líquida. Esto establece un camino de transición limpio y rentable a la refrigeración líquida de alta densidad sin interrumpir otras cargas de trabajo en la sala de datos. Consulta nuestras soluciones de sala de datos de IA para obtener más información.
Aunque muchas instalaciones no están diseñadas para sistemas de alta densidad, Vertiv cuenta con una amplia experiencia en ayudar a los clientes a desarrollar planes de despliegue para realizar una transición sin problemas a alta densidad para AI y HPC.
1 Estimaciones de gestión: Comparación del consumo de energía y la salida de calor a nivel de rack para 5 servidores Nvidia DGX H100 y 21 servidores Dell PowerStore 500T y 9200T en un rack estándar de 42U basado en hojas de especificaciones del fabricante