El renacimiento de la infraestructura tiene un lema: dejar que los servidores sirvan e inferir inferencias.
En los inicios de la tecnología, pasé años inmerso en pruebas y análisis de aceleradores SSL. Estas pequeñas tarjetas fueron diseñadas para abordar un problema importante que surgió del crecimiento explosivo de los negocios y el comercio digitales: las funciones de seguridad que utilizan SSL consumían ciclos de CPU y eran una fuente importante de problemas de rendimiento. Entonces, la industria, incluido F5, desarrolló hardware para descargar esas funciones y dejar que los servidores presten servicio .
Hoy en día estamos viendo surgir los mismos problemas con la IA (específicamente con la inferencia) y, sin ironías, estamos viendo surgir el mismo tipo de soluciones, es decir, hardware especializado que permite a los servidores prestar servicio e inferir .
Sí, no estoy seguro de que sea gramaticalmente correcto, pero sigamos así por ahora, ¿de acuerdo? Gracias.
Como hemos señalado, las aplicações de IA son aplicações modernas en su construcción arquitectónica . Pero en el corazón de una aplicação de IA está la inferencia, y ahí es donde la IA se diferencia de las aplicações modernas “normales”.
Hemos visto cómo los complejos computacionales de IA se construyen a partir de bancos de CPU y GPU . Estos recursos computacionales tienen proporciones y equilibrios que deben mantenerse para que el clúster siga funcionando de manera eficiente. Cada vez que una CPU no puede mantener el ritmo, una GPU muy costosa queda inactiva.
Verá, solo una parte del procesamiento de un servidor de inferencia es realmente inferencia. Gran parte es procesamiento web estándar de solicitudes HTTP y API. Es esa parte del servicio de inferencia que utiliza la CPU y a menudo se ve sobrecargada. Cuando eso sucede, las GPU se utilizan cada vez menos porque el lado del servidor de inferencia se satura al intentar procesar las solicitudes.
Probablemente esa sea la razón por la que el 15% de las organizaciones informan que menos del 50% de sus GPU disponibles y compradas están en uso ( State of AI Infrastructure at Scale 2024 ).
Parte del problema aquí es el uso de recursos de la CPU para lo que debería ser trabajo de infraestructura. Servicios como la gestión del tráfico, las operaciones de seguridad y la monitorización también consumen recursos de la CPU y contribuyen a la carga del sistema general. Esto conduce a una reducción en la capacidad y el rendimiento de los servidores de inferencia y a una menor utilización de los recursos de la GPU.
Afortunadamente, este renacimiento de la infraestructura consiste en conservar los recursos de la CPU para el trabajo de inferencia descargando las operaciones de infraestructura a una nueva unidad de procesamiento: la DPU.
Ahora bien, lo interesante de las DPU es que en realidad admiten dos modos diferentes. En uno, pueden descargar redes como RDMA sobre Infiniband o Ethernet. Esto ayuda enormemente cuando se construye un complejo computacional de IA en el que fluirán cantidades significativas de datos, como entrenar un modelo de IA o escalar la inferencia para una gran base de usuarios.
Pero las DPU también se pueden configurar en modo 'DPU'. En Kubernetes, esto hace que aparezcan como un nodo separado en el que pueden ejecutarse funciones como la entrega de aplicação y la seguridad. Esto reserva efectivamente el procesamiento de la CPU para servicios de inferencia al "descargar" las cargas de trabajo de infraestructura menos predecibles y más exigentes a su propio nodo en el clúster. Esto permite que soluciones como F5 BIG-IP Next SPK (Service Proxy for Kubernetes) administren y aseguren las solicitudes entrantes de IA de NS a través de API y las distribuyan adecuadamente al servicio de inferencia apropiado dentro del complejo computacional de IA.
Este enfoque significa que las organizaciones pueden aprovechar el conocimiento y las inversiones existentes en la gestión de la infraestructura de Kubernetes porque nuestra solución es nativa de Kubernetes. Núcleo, nube, borde: no importa porque la operación se realiza a nivel de clúster y es consistente en todos los entornos.
También separa la responsabilidad de gestionar la entrega de aplicação y los servicios de seguridad, lo que permite que los equipos de operaciones de red y seguridad manejen la infraestructura independientemente de las cargas de trabajo de IA administradas por los equipos de operaciones de desarrollo y aprendizaje automático.
Por último, aprovechar la DPU para la entrega y seguridad de aplicação respalda mejor las necesidades de múltiples inquilinos de las organizaciones. No se trata únicamente de aislar las cargas de trabajo de los clientes, sino también de las cargas de trabajo del modelo. Sabemos por nuestras investigaciones que las organizaciones ya están utilizando, en promedio, 2,9 modelos diferentes . Poder gestionar el uso de cada uno a través de una solución consistente permitirá una mayor confianza en la seguridad y privacidad de los datos que consume y genera cada modelo individual.
Esta no es la primera vez que F5 trabaja con DPU de NVIDIA en casos de uso relacionados con IA . Pero es la primera vez que trabajamos juntos para desarrollar una solución que ayude a clientes de todos los tamaños a construir complejos computacionales de IA escalables y seguros para que puedan aprovechar de manera segura y confiable el poder de la inferencia en cualquier entorno y optimizar el uso de los recursos de la GPU, para que no se queden inactivos .