A lo largo de la serie de fábricas de IA de F5, presentamos y definimos las fábricas de IA, exploramos sus elementos y cómo la entrega de aplicação y las opciones de seguridad afectan el rendimiento. En este artículo, el quinto de nuestra serie, exploramos el papel fundamental que desempeñan las redes multicloud en la entrega de inferencia y el soporte del movimiento de datos para una fábrica de IA, que F5 define como una inversión masiva en almacenamiento, redes y computación que satisface requisitos de capacitación e inferencia de alto volumen y alto rendimiento.
Los puntos de interconexión distribuidos son el núcleo de las fábricas de IA e impulsan el funcionamiento de la infraestructura de almacenamiento, redes y computación. A medida que las empresas diseñan sus fábricas de IA, es probable que muchos servicios estén ubicados físicamente dentro del mismo centro de datos o cerca. Sin embargo, existen servicios que pueden estar distribuidos geográficamente. Los servicios como aplicações front-end, servicios de inferencia y modelos requeridos brindarán el mejor rendimiento si están diseñados para estar cerca de donde deben consumirse. Además, los datos del corpus de conocimiento de recuperación-generación aumentada (RAG) pueden participar si el diseño requiere RAG, pero por ahora nos centraremos en el front-end, los servicios de inferencia y la implementación del modelo.
Servicios de inferencia y aplicações front-end
Según la lista de Google de 185 casos de uso de IA generativa en el mundo real de las principales organizaciones del mundo, observamos que muchas de estas empresas dependen de ubicaciones estratégicas para brindar cargas de trabajo de IA a clientes globales. La arquitectura distribuida de una fábrica de IA debe ser un foco de atención y estar cuidadosamente seleccionada al pensar en la experiencia del usuario final. En el informe Estado de la estrategia de aplicação 2024 de F5, se descubrió que el 88% de las organizaciones operan en un modelo de nube híbrida . También se informó que el 94% de los encuestados experimentan desafíos de múltiples nubes.
Entonces, ¿cuál es la mejor manera de permitir una comunicación segura y optimizada entre las fábricas de IA y las instancias donde se consume la inferencia? La respuesta gira en torno a la creación de redes. Para entender por qué, revisemos una palabra de moda en la industria que en gran parte se pasó por alto fuera del mundo de los proveedores de servicios: redes definidas por software (SDN), que han sido fundamentales para la seguridad de las arquitecturas 3GPP, como 4G y 5G. El éxito de seguridad de las arquitecturas 3GPP se puede atribuir a la adhesión a un estricto aislamiento de aplicação .
Las SDN ofrecen una solución poderosa al implementar los principios de confianza cero de las capas 2 y 3, donde el tráfico no puede enrutarse a una aplicação a menos que se verifique y procese a través de una infraestructura de enrutamiento determinista definida por software. Esto garantiza que cada componente de una aplicação pueda escalarse de forma independiente, tanto a nivel local como global, para lograr un rendimiento y una seguridad óptimos. Además, las SDN enrutan el tráfico de las aplicação por nombre en lugar de por dirección IP, lo que mitiga problemas como la superposición de direcciones IP y permite una escalabilidad perfecta de las aplicações y las soluciones de seguridad en diferentes regiones y entornos. El enrutamiento y la tunelización explícitos dentro de las SDN también brindan una defensa sólida contra posibles ataques, ya que el acceso no autorizado requiere la propiedad de los recursos dentro de la SDN, así como el cumplimiento de estrictos protocolos de comunicación.
Las grandes empresas de telecomunicaciones de primer nivel han demostrado la eficacia de estos principios a escala, y tiene sentido aplicarlos a cargas de trabajo aún mayores en redes multicloud (MCN) para fábricas de IA.
Esto suena fácil ¿verdad? El teléfono inteligente desde el cual quizás estés leyendo esto probablemente tenga una GPU, conectividad 5G y un código de acceso. Deberías estar listo para contratar seguridad privada, ¿verdad? Bueno, no exactamente. Por ahora, veremos tres puntos. Sin embargo, tenga en cuenta que esto es solo el comienzo y que se descubrirá más a medida que diseñe y modele el panorama de amenazas para su fábrica de IA.
Primero, hablemos de la velocidad. Cuando la IA generativa hizo su aparición inicial con ChatGPT a fines de 2022, nos centramos en los datos de texto. Sin embargo, en 2024 veremos cada vez más casos de uso en torno a otras modalidades, como imágenes, vídeo, texto y datos mezclados en los modelos de capa de flujo y aplicação basados en especializaciones. En una arquitectura de fábrica de IA distribuida, puede que no sea deseable ni factible implementar todos los modelos en todas partes. Podría reducirse a factores como la gravedad de los datos, la gravedad de la energía o los requisitos de computación. Aquí es donde puede seleccionar una interconexión de red de alta velocidad para salvar brechas y mitigar los problemas de rendimiento que enfrenta cuando aleja servicios dependientes unos de otros.
Visitemos también el robo de modelos, uno de los 10 principales riesgos de OWASP para los modelos de lenguaje grandes (LLM) y las aplicaciones de IA generativa . Cualquier empresa que busque aprovechar la IA generativa para obtener una ventaja competitiva incorporará su propiedad intelectual al sistema. Esto podría lograrse entrenando su propio modelo con datos corporativos o afinando un modelo. En estos escenarios, al igual que otros sistemas de su negocio, su fábrica de IA está creando valor a través de un modelo que usted debe proteger. Para evitar el robo de modelos en una arquitectura distribuida, debe asegurarse de que este modelo, las actualizaciones del modelo y las fuentes de datos a las que la aplicação necesita acceder estén cifrados y tengan controles de acceso aplicados.
Por último, consideremos el modelo de denegación de servicio, también en el Top 10 de OWASP para LLM y aplicaciones de IA generativa. A medida que se gana confianza en las aplicações de IA, aumenta su uso en sistemas críticos, ya sea que se trate de un sistema que genere ingresos importantes para su negocio o de un sistema crítico para el mantenimiento de la vida, como un escenario de atención médica. La capacidad de acceder a la interfaz y a la inferencia debe diseñarse de modo que cualquier forma posible de entrada sea resiliente, controlada y segura. Estos escenarios de acceso se pueden aplicar al acceso del usuario final, así como desde los servicios de inferencia hasta la fábrica central de IA.
Las soluciones de redes multicloud seguras permiten la conectividad, la seguridad y la visibilidad necesarias para diseñar los aspectos distribuidos de la arquitectura de la fábrica de IA. F5 Distributed Cloud Network Connect aborda todo lo anterior y mucho más. Distributed Could Network Connect también ofrece soluciones de borde para el cliente únicas que permiten conectividad universal, ya sea que busque ejecutar inferencias en la nube pública, en sus propios centros de datos o en centros de datos ubicados conjuntamente, o en el borde del hardware de su elección. Se implementa de manera simple y rápida, y el borde del cliente establece la conectividad por sí solo.
Diseñar su propia fábrica de IA no es tarea fácil, y las empresas quieren aprovechar los beneficios de la IA lo más rápido posible y al mismo tiempo garantizar la máxima seguridad. Poder implementar de manera confiable múltiples funciones seguras de su fábrica de IA permitirá una innovación más rápida, al tiempo que liberará tiempo para centrarse en los aspectos de las fábricas de IA que aportan una verdadera diferenciación comercial y una ventaja competitiva. Si desea obtener más información sobre redes multicloud, mire nuestra lección de Brightboard o explore F5 Distributed Cloud Network Connect .
El enfoque de F5 en la IA no termina aquí: explore cómo F5 protege y distribuye aplicaciones de IA en todas partes .
¿Está interesado en aprender más sobre las fábricas de IA? Explora otros dentro de nuestra serie de blogs sobre fábricas de IA: