BLOG

GPU como um serviço: O catalisador para o crescimento da IA na ASEAN, oportunidades e desafios

Miniatura de Chin Keng Lim
Chin Keng Lim
Publicado em 14 de outubro de 2024

À medida que a inteligência artificial (IA) continua a avançar, a demanda por hardware de alto desempenho está disparando. As organizações estão achando cada vez mais difícil acompanhar o poder de computação necessário para executar modelos e cargas de trabalho de IA complexos. É aqui que entra a GPU como serviço (GPUaaS).

Ao oferecer acesso sob demanda a poderosas unidades de processamento gráfico (GPUs) pela nuvem, o GPUaaS está transformando a maneira como as empresas abordam a infraestrutura de IA. Ele elimina a necessidade de investimentos caros em hardware, permite dimensionamento perfeito e integra-se perfeitamente aos serviços de nuvem existentes, tudo isso simplificando as operações. Mas como exatamente o GPUaaS funciona e por que ele está se tornando a solução preferida para organizações orientadas por IA?

Desbloqueando o potencial da IA na ASEAN

Na Associação das Nações do Sudeste Asiático (ASEAN), o mercado de GPUaaS está se expandindo à medida que mais participantes entram no espaço para enfrentar desafios regionais específicos. Um fator-chave que impulsiona esse crescimento é a linguagem. Os modelos de grandes linguagens (LLMs) de código aberto são treinados predominantemente em inglês e muitas vezes têm dificuldades com idiomas locais ricos em nuances culturais. Como resultado, as organizações precisam treinar novamente ou ajustar esses modelos com dados locais para garantir respostas mais precisas e relevantes nos idiomas nativos.

Ao mesmo tempo, os benefícios do uso do GPUaaS estão ajudando a impulsionar sua adoção. A escalabilidade permite que os usuários ajustem facilmente os recursos da GPU com base nas necessidades do projeto. Enquanto a elasticidade, por meio de um modelo de pagamento por uso, permite que as organizações reduzam as despesas gerais pagando apenas pelo que usam. O GPUaaS também concede acesso imediato à tecnologia de ponta, facilitando a rápida prototipagem e implantação, o que aumenta a flexibilidade e reduz o tempo de colocação no mercado.

Outra consideração importante é a gravidade, residência e soberania dos dados. A gravidade dos dados se refere à tendência dos dados de atrair aplicativos e serviços para sua localização para melhor desempenho e eficiência. Em muitos casos, os dados devem residir em locais específicos devido a regulamentações de residência e soberania, o que significa que os provedores de GPUaaS precisam estar localizados perto de suas bases de usuários. A IA soberana, que enfatiza a capacidade de uma nação de desenvolver IA usando sua própria infraestrutura, dados e recursos, também desempenha um papel significativo na formação da demanda por GPUaaS localizada.

Por fim, o custo e a oferta limitada de GPUs dentro dos provedores de serviços de nuvem (CSPs) na ASEAN são fatores a serem considerados quando se trata de adotar GPUaaS. De acordo com um relatório recente da Dell , implantações de IA no local podem gerar economias de até 75% em comparação com soluções baseadas em CSP. O GPUaaS oferece uma alternativa econômica, permitindo que organizações acessem GPUs de alto desempenho sem investir em uma quantidade significativa de hardware antecipadamente, o que o torna uma opção atraente para aqueles que buscam dimensionar seus recursos de IA na região.

Equilibrando os benefícios e riscos do GPUaaS

Embora os benefícios do GPUaaS ajudem a impulsionar sua ampla adoção, eles também trazem seu próprio conjunto de preocupações. Uma questão fundamental é a segurança dos dados, pois os dados transmitidos de e para GPUs podem ser vulneráveis à interceptação ou acesso não autorizado. Além disso, o processamento de dados em GPUs remotas pode envolver a navegação por diferentes regulamentações de proteção de dados e requisitos de conformidade. Outra preocupação é o desempenho, onde a dependência da Internet, da conectividade privada e o desempenho flutuante da GPU podem afetar a velocidade e a capacidade de resposta do aplicativo. O GPUaaS depende de conexões estáveis e de alta velocidade, muitas vezes favorecendo redes privadas em vez da Internet pública para desempenho ideal.

Como o F5 ajuda?

A F5 oferece serviços inovadores de rede, otimização de tráfego e segurança baseados em SaaS multinuvem para nuvens públicas e privadas, incluindo provedores de GPUaaS, por meio de um único console.

Ao formar uma sobreposição de malha criptografada sobre qualquer rede, as organizações podem se conectar a um provedor de GPUaaS (fábrica de IA) para inferência, incorporação ou treinamento de IA. Com segmentação completa de rede e aplicativos, toda a conectividade de sobreposição é privada e segura, construída sobre uma subcamada de rede existente. Além disso, a malha criptografada F5 aborda os desafios de resiliência digital monitorando, detectando, otimizando e entregando tráfego dinamicamente para esses componentes de IA saudáveis, garantindo que seus aplicativos de IA estejam sempre ativos e disponíveis.

Abaixo está um exemplo de uma implantação de geração aumentada de recuperação (RAG) de LLM, aproveitando uma fábrica de IA de um provedor de GPUaaS. Como os dados são transportados com segurança pela malha segura com criptografia, não há preocupação com dados em trânsito; também não há dados em repouso acontecendo no provedor de GPUaaS. Os dados do corpus de uma organização em repouso permanecem no local original sem nenhuma alteração. Essa arquitetura também permite que a inferência de IA ocorra para aplicativos sensíveis à latência na borda (uma nuvem pública ou até mesmo filiais).

Se o aplicativo de IA (como um chatbot habilitado para RAG) for disponibilizado pela Internet, é importante considerar um serviço de proteção de API e aplicativo web baseado em rede na nuvem (WAAP) para proteger o aplicativo de IA contra ataques cibernéticos.

Figura 1: Um exemplo de uma implantação de geração aumentada de recuperação LLM (RAG), aproveitando uma fábrica de IA de um provedor de GPUaaS
Figura 1: Um exemplo de uma implantação de geração aumentada de recuperação LLM (RAG), aproveitando uma fábrica de IA de um provedor de GPUaaS

Ao aproveitar uma plataforma com um único console de gerenciamento, agora é possível ter conformidade, observabilidade e controle de todo o tráfego, incluindo APIs que atravessam Norte/Sul e Leste/Oeste pela malha criptografada.

Figura 2: A descoberta de API, o gerenciamento de postura e a proteção de API são fundamentais para a segurança do AI LLM.
Figura 2: A descoberta de API, o gerenciamento de postura e a proteção de API são fundamentais para a segurança do AI LLM.

Além disso, o tráfego pela Internet pública e pela malha criptografada privada precisa ser observável e controlável pelas equipes de NetOps e SecOps para gerenciar o que é essencialmente uma infraestrutura multicloud complexa e heterogênea.

Figura 3: A rede multicloud e a observabilidade são essenciais em uma implantação de IA distribuída, que pode abranger data centers locais, nuvem privada, nuvem pública e edge.
Figura 3: A rede multicloud e a observabilidade são essenciais em uma implantação de IA distribuída, que pode abranger data centers locais, nuvem privada, nuvem pública e edge.

Quer saber mais?

À medida que a adoção da IA acelera, criar resiliência nos sistemas de IA é essencial para garantir o sucesso a longo prazo. O GPUaaS oferece uma solução escalável e eficiente, mas as organizações precisam enfrentar desafios como segurança de dados, variabilidade de desempenho e conformidade regulatória. Ao abordar essas preocupações e aproveitar a flexibilidade do GPUaaS, as empresas podem se posicionar melhor para atender às crescentes demandas de cargas de trabalho orientadas por IA.

Se você quiser explorar como a resiliência da IA pode fortalecer sua organização, visite-nos na próxima conferência GovWare no estande P06, de 15 a 17 de outubro, no Sands Expo and Convention Centre, onde discutiremos essas tendências e soluções com mais detalhes.