BLOG | OFICINA DEL CTO

El impacto de la inferencia de IA en la arquitectura del centro de datos

Miniatura de Lori MacVittie
Lori MacVittie
Publicado el 13 de junio de 2024

Se ha dicho que el presupuesto de TI es donde la estrategia vive o muere. Si ese es el caso, entonces las estrategias de IA están más vigentes que nunca. 

Nuestra investigación más reciente indica que las organizaciones destinan, en promedio, el 18 % de su presupuesto de TI solo a IA. Pero es la forma en que se asigna ese 18 % lo que nos da una idea de sus estrategias para la IA.

Actualmente, aproximadamente el 18% del presupuesto de IA se destina a servicios de IA: aplicações de terceros que integran u ofrecen algún tipo de herramientas de IA. El resto se destina a modelos (19%), desarrollo (16%), seguridad (9%), tecnologías de datos (11%) y GPU (9%). 

Combinado con la división equitativa del gasto entre capacitación (50%) e inferencia (50%) y el hallazgo de que la IA se distribuirá en la nube pública (80%) y en las instalaciones locales (54%), se puede suponer que las organizaciones están planeando un cambio significativo en su infraestructura para respaldar el ciclo de vida completo de la IA.

Parte de ese apoyo requiere una nueva mirada a la red.

La creación de la infraestructura necesaria para respaldar tanto la capacitación como la inferencia requiere prestar especial atención a los entornos de aplicação modernos, por ejemplo, Kubernetes, y a cómo fluirá el tráfico a través de las instancias de IA y entre los modelos y las aplicações que los utilizan. 

Si bien NVIDIA no es el único proveedor de tecnología de aceleración (GPU, DPU, IPU, etc.), sí es líder en lo que respecta a la arquitectura de referencia. Es en esos detalles donde encontramos impactos significativos en la arquitectura de redes y escalabilidad.

Cápsulas, clústeres y fábricas de IA

Actualmente existe mucha angustia en la industria sobre el uso de la terminología específica de Kubernetes. Si bien los operadores han llegado a comprender la definición de pods y clústeres, los principales proveedores de GPU están manipulando esas definiciones cuando se trata de implementar inferencias a escala.

Por ejemplo, NVIDIA se refiere a los pods de IA, que son clústeres de Kubernetes. Y a un conjunto de clústeres relacionados lo llaman fábrica de IA. 

No estoy aquí para discutir sobre terminología (raramente gano en esas discusiones), así que me centraré en estas unidades de capacidades de IA y en lo que significan para la red.

Una de las realidades de la escalabilidad de la IA generativa, en particular, es la demanda de ciclos de cómputo. En concreto, los ciclos de cómputo de la GPU. Para satisfacer esta demanda, especialmente de los proveedores de servicios de IA, es necesario construir unidades de cómputo de IA complejas. Estas unidades son lo que NVIDIA llama AI pods, pero otros sin duda tendrán sus propios nombres especiales para ellas. Son esencialmente clústeres de Kubernetes.

Eso significa mucho tráfico EW interno a la unidad de cómputo de IA, pero también significa mucho tráfico NS hacia esas unidades de cómputo de IA. Y ahí es donde nos encontramos ante un cambio significativo en el límite entre la infraestructura del centro de datos tradicional y los complejos informáticos de inteligencia artificial emergentes.

Diagrama de cómo se interconectan el centro de datos y la IA.

Están sucediendo muchas cosas en ese límite, especialmente para los proveedores de servicios que necesitan aislamiento de red por inquilino. También existe una necesidad considerable de gestión del tráfico L4-7, incluida la limitación de velocidad para no saturar los recursos de IA. También existe el equilibrio de carga esperado para escala y distribución, así como servicios de red como capacidades CGNAT avanzadas.

Las empresas también necesitan mucho de esto, ya que esperan ampliar sus implementaciones de IA para respaldar un conjunto cada vez mayor de casos de uso comercial, desde la productividad hasta la generación de código y contenido y la automatización del flujo de trabajo y, por supuesto, el creciente interés en el uso de IA para las operaciones. Si bien el aislamiento por inquilino puede no ser un requisito empresarial, puede ser útil para garantizar que las cargas de trabajo de IA de alta prioridad (como la automatización y el análisis operativo) no se vean sofocadas por cargas de trabajo de IA de menor prioridad.

Ya sea un proveedor de servicios o una empresa, el centro de datos experimentará cambios significativos en la red. La inserción de cargas de trabajo de IA en una arquitectura de centro de datos tradicional puede provocar que no se pueda escalar o incluso no se pueda operar de manera confiable.

Comprender los cambios en la arquitectura del centro de datos es importante, así como contar con herramientas y tecnologías como BIG-IP Next SPK disponibles para brindar las capacidades necesarias para modernizar con éxito la red del centro de datos para soportar cada carga de trabajo de IA y el negocio que, en última instancia, dependerá de ellas.