BLOG | ESCRITÓRIO DO DIRETOR DE TECNOLOGIA

A necessidade de soluções de infraestrutura de IA para focar na otimização de GPU

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 11 de julho de 2024

A IA generativa está acelerando o impacto da IA na infraestrutura. Já havíamos entrado em um renascimento da infraestrutura , com os tecnólogos reavivando o interesse e a admiração pelas camadas humildes de rede, computação e armazenamento do data center. Impulsionados principalmente pela “morte” da Lei de Moore e pelo surgimento da computação de ponta, já víamos o surgimento de unidades de processamento especializadas — xPUs — anos atrás.

Hoje, a IA generativa — e os videogames, para ser justo — fizeram das GPUs um termo familiar e da otimização de GPU uma nova necessidade. 

Isso ocorre porque as GPUs têm alta demanda e baixa oferta. As organizações já estão desembolsando — ou planejando desembolsar — porcentagens significativas de seu orçamento geral de TI neste poderoso hardware. E parte desse investimento é em sua própria infraestrutura, e parte vai para dar suporte à infraestrutura de nuvem pública.

Mas tudo isso serve para dar suporte à disponibilidade de recursos de GPU para operar aplicativos de IA .

Mas, quando olhamos ao redor, descobrimos que a introdução de um novo tipo de recurso na infraestrutura apresenta desafios. Durante anos, as organizações trataram a infraestrutura como uma mercadoria. Ou seja, é tudo a mesma coisa.

E em grande parte foi isso que aconteceu. Organizações padronizadas em caixas brancas ou servidores de marca, todos com a mesma memória e capacidades de computação. Isso facilitou as operações de infraestrutura, pois não havia necessidade de se preocupar, no gerenciamento de tráfego , se uma carga de trabalho era executada no servidor 8756 ou no servidor 4389. Eles tinham as mesmas capacidades.

Mas agora? Ah, as GPUs mudam tudo isso. Agora, as operações de infraestrutura precisam saber onde estão os recursos da GPU e como eles são utilizados. E há sinais de que as coisas podem não estar indo tão bem.

De acordo com o State of AI Infrastructure at Scale 2024, “15% relatam que menos de 50% de suas GPUs disponíveis e adquiridas estão em uso”.

Agora, é certamente possível que esses 15% das organizações simplesmente não tenham a carga necessária para usar mais de 50% de seus recursos de GPU. Também é possível que sim e não sejam.

Certamente, algumas organizações se encontrarão nessa última categoria; coçando a cabeça sobre o porquê de seus aplicativos de IA não terem o desempenho esperado pelos usuários quando eles têm bastante capacidade de GPU disponível.

Parte disso tem a ver com infraestrutura e garantir que as cargas de trabalho sejam adequadamente adequadas aos recursos necessários. Afinal, nem toda carga de trabalho em um aplicativo de IA precisa de capacidade de GPU. A carga de trabalho que se beneficiará disso é o servidor de inferência, e nada mais. Isso significa que há algum trabalho de arquitetura estratégica na camada de infraestrutura, garantindo que cargas de trabalho que exigem muita GPU sejam executadas em sistemas habilitados para GPU, enquanto outras cargas de trabalho de aplicativos sejam executadas em sistemas antigos comuns.

Isso significa provisionar políticas que entendam quais nós são habilitados para GPU e quais não. Essa é uma grande parte da otimização da GPU. Isso também significa que os serviços de aplicativos que distribuem solicitações para esses recursos também precisam ser mais inteligentes. Balanceamento de carga , controle de entrada e gateways que distribuem solicitações fazem parte da equação de eficiência quando se trata de utilização de infraestrutura. Se cada solicitação for para um ou dois sistemas habilitados para GPU, eles não só terão um desempenho ruim, mas também deixarão as organizações com capacidade de GPU "excedente", pela qual pagaram um bom dinheiro.

Isso também pode significar aproveitar esses recursos de GPU na nuvem pública. E fazer isso significa aproveitar serviços de rede para garantir que os dados compartilhados estejam seguros.

Em outras palavras, os aplicativos de IA terão um impacto significativo na infraestrutura em termos de distribuição e em como ela será provisionada e gerenciada em tempo real. Haverá uma necessidade crescente de telemetria para garantir que as operações tenham uma visão atualizada de quais recursos estão disponíveis e onde, e alguma boa automação para garantir que o provisionamento corresponda aos requisitos de carga de trabalho.

É por isso que as organizações precisam modernizar toda a sua arquitetura empresarial . Porque não se trata mais apenas de camadas ou níveis, mas sim de como essas camadas e níveis se interconectam e dão suporte umas às outras para facilitar as necessidades de um negócio digitalmente maduro que pode aproveitar o poder da IA .