El avance de la inteligencia artificial (IA) lleva a los centros de datos a un nivel de exigencia sin precedentes. El entrenamiento de modelos, el procesamiento masivo de información y las cargas de inferencia en tiempo real demandan mayor capacidad de cómputo y energía. En este escenario, la resiliencia de la infraestructura digital ya no se define solo por el uptime, sino por la capacidad de anticipar y gestionar riesgos en sistemas cada vez más interconectados.

Los incidentes no siempre se originan en la caída de un componente específico, sino en la interacción entre sistemas energéticos, infraestructura TI y plataformas de enfriamiento. Luis Santamaría, Cloud and Service Provider Segment Leader de Schneider Electric, explica que esta interdependencia obliga a replantear la gestión de estas infraestructuras.

“Los centros de datos han evolucionado hacia sistemas altamente interdependientes. Un evento en energía puede afectar el enfriamiento, y un problema térmico puede impactar directamente en la capacidad de procesamiento”, señala.

Actualmente existen cerca de 10 000 centros de datos en 164 países, según datos del Programa de las Naciones Unidas para el Desarrollo (PNUD), aunque su distribución es desigual. América Latina y el Caribe concentran apenas el 4,8% de esta infraestructura, lo que evidencia la brecha tecnológica y el potencial de crecimiento regional.

  • De fallas aisladas a fallas sistémicas

Uno de los principales cambios en la industria es el paso de incidentes puntuales a fallas sistémicas, donde distintos subsistemas interactúan y generan efectos en cadena. Por ejemplo, un aumento repentino en la carga de procesamiento puede elevar la temperatura del hardware. El sistema de enfriamiento responde con mayor actividad, por lo que una gestión y mantenimiento optimizada mejorará su rendimiento energético, permitiendo una operación más eficiente y resiliente.

Si la gestión energética no está alineada con la operación, el equilibrio del sistema puede verse comprometido. “Hoy vemos más riesgo sistémico: no falla un componente, sino la interacción entre los sistemas. Energía, cooling, TI y automatización están tan interconectados que cualquier desajuste puede escalar rápidamente en un problema operativo”, advierte Santamaría.

Durante años, la continuidad operativa se basó en la redundancia: duplicar sistemas críticos o instalar generadores de respaldo. Estas medidas siguen siendo importantes, pero ya no son suficientes. Los centros de datos modernos generan grandes volúmenes de información sobre consumo energético, temperatura y comportamiento de las cargas de trabajo. Analizar esos datos permite anticipar riesgos y mejorar la toma de decisiones.

Sin embargo, Santamaría señala que el uso de esta información aún es limitado. “Si somos honestos como industria, todavía hay mucho uso reactivo en los datos. Tenemos sensores y monitoreo en tiempo real muy potentes, pero en muchos casos se utilizan solo para ver alarmas y no para anticipar decisiones”, afirma.

  • Datos para anticipar riesgos

El desafío consiste en usar esos datos para anticipar escenarios operativos. Este cambio ocurre en un contexto de fuerte expansión del sector. El informe Latin America Data Center Market Landscape 2024 proyecta que los centros de datos de colocation y edge crecerán más de 25% anual en la región hasta 2026, impulsados por servicios cloud, analítica avanzada e IA.