BLOG | ESCRITÓRIO DO DIRETOR DE TECNOLOGIA

Na intersecção de dados operacionais e IA generativa

Miniatura de James Hendergart
James Hendergart
Publicado em 22 de outubro de 2024

A conversa sobre IA generativa (GenAI) vem de todos os lugares. A questão é: o que está pegando? Como isso está tornando o mundo um lugar melhor? Onde está o valor do negócio? Essas questões são igualmente relevantes quando você considera os desafios enfrentados pelas organizações que estão descobrindo se, e quando, implementar o GenAI em suas operações (AIOps). Com base em meus experimentos do ano passado com IA generativa e ampla exposição às tendências do setor durante minha pesquisa diária na F5, ofereço as cinco lições a seguir para ajudar a orientar as organizações que buscam entender o impacto da GenAI nas práticas de dados operacionais. Como resultado, essas organizações estarão melhor posicionadas para alinhar os cronogramas de adoção da tecnologia GenAI com seus orçamentos, práticas e culturas existentes.

1. Os modelos GenAI adoram dados semiestruturados e não estruturados

Dados operacionais são uma mistura de dados semiestruturados (objetos) e conjuntos de dados não estruturados. Grandes modelos de linguagem (LLMs) são bastante flexíveis e eficazes com essa variedade de formatos de dados. Isso faz dos LLMs uma tecnologia perfeita para empregar na análise de conjuntos de dados operacionais. As organizações podem conduzir uma série de experimentos e avaliações internamente para verificar a eficácia, a facilidade de uso e o custo de várias soluções habilitadas para GenAI. Usar a inferência LLM para detectar padrões de dados interessantes com menos falsos positivos alinha a velocidade e a escala das máquinas com os objetivos das equipes que consomem fluxos de dados operacionais.

2. As organizações não precisam construir modelos

Organizações que se concentram em saber quais técnicas são usadas por quais modelos para suas tarefas específicas não precisam construir seus próprios modelos. Por exemplo, o reconhecimento de entidades nomeadas (NER) é um ramo do processamento de linguagem natural (PLN) que está se mostrando uma técnica eficaz para estabelecer elementos-chave em dados semiestruturados. Um exemplo de NER poderia ser uma lista que compreende uma categoria como dias da semana ou uma descrição como números inteiros maiores que 1 e menores que 5. O resultado é uma maior precisão durante a inferência do que técnicas de correspondência de padrões baseadas em regras que não são habilitadas pelo GenAI. À medida que a pesquisa e a prática do uso de técnicas como NER continuam a avançar, as equipes de operações podem concentrar sua atenção em aproveitar as técnicas que se mostraram bem-sucedidas, em vez de criar modelos.

Exemplo de NER:
Entidade nomeada: Dias da semana
Lista: Domingo, segunda, terça, quarta, quinta, sexta, sábado
Figura 1. O reconhecimento de entidades nomeadas proporciona maior precisão durante a inferência do que a correspondência de padrões baseada em regras.

3. A gravidade dos dados é real

A gravidade dos dados é uma força subjacente que influencia as decisões sobre colocar a computação mais perto de onde os dados são criados ou mover os dados para mais perto de onde a computação já está implantada. Quanto maior o volume de dados, mais forte é a força gravitacional, resultando em maior capacidade de computação colocada mais próxima deles. Para treinamento (criação e ajuste de modelos), os dados são agregados e movidos para mais perto da computação. Para inferência (usando modelos), o modelo é movido para mais perto de onde o prompt é emitido.

Se um modelo for acessado trazendo uma cópia internamente — em vez de chamar a API de uma instância hospedada por terceiros — faz sentido mover o modelo para mais perto do prompt e/ou qualquer conjunto de dados privados adicional vetorizado como parte do prompt. Por outro lado, se o modelo for hospedado por um terceiros expondo sua API pela internet, então o modelo e as operações de inferência não estão se movendo. Nesses casos, os vetores de inferência e dados privados podem ser movidos para um local “próximo à rede” usando uma interconexão de colocation de data center ou tentando combinar os locais de hospedagem com o provedor do modelo, se possível.

A conscientização sobre as forças que unem os dados e a computação, bem como aquelas que os separam, ajuda a levar a escolhas informadas na busca pelo equilíbrio certo entre custo e desempenho.

Figura 2. Proximidade da rede como fator de gravidade dos dados
Figura 2. Proximidade da rede como fator de gravidade dos dados

4. Não ignore os silos de dados, lide com eles

Com o processamento GenAI, é mais importante do que nunca quebrar silos de dados para simplificar e acelerar a análise operacional de dados. Entretanto, no futuro próximo, parece que os silos de dados permanecerão, se não proliferarão.

A questão é mais sobre como lidar com silos de dados e quais escolhas tecnológicas fazer. Em termos de acesso a dados armazenados em vários locais, as opções são copiar e mover os dados ou implementar uma camada de dados lógica que usa consultas federadas sem mover os dados. Independentemente da escolha feita, reconhecer as fontes de dados de streaming existentes e avaliar os casos de uso operacional para restrições de tempo/atualização de dados ajudará você a selecionar os elementos necessários da sua pilha de tecnologia de dados, como mecanismos de streaming, mecanismos de consulta, formatos de dados e catálogos. A escolha da tecnologia dá às equipes de dados o poder de escolher as tecnologias mais eficazes e fáceis de usar, ao mesmo tempo em que equilibram desempenho e custo. O ideal é que a prática de dados de uma organização amadureça com o tempo, sempre dando à organização a flexibilidade de escolher o que funciona melhor para ela em um determinado estágio de maturidade.

5. A automação é uma amiga — não tenha medo dela

Quando as soluções adicionam automação, elas escalam ao transformar o conhecimento tácito de especialistas em privacidade de dados e SecOps em uma prática repetível habilitada para AIOps que pode ser executada por máquinas. Só então as equipes de dados, segurança e privacidade ficam livres para adicionar inteligência. A inteligência aumenta a eficácia das políticas ao definir com mais precisão como dados específicos podem ser usados por quem, por quanto tempo e para qual finalidade, tudo isso enquanto rastreia onde os dados estão, quais cópias estão sendo feitas e com quem estão sendo compartilhados. Isso libera tempo para planejamento estratégico, avaliação de novas tecnologias e comunicação com a empresa para refinar políticas de acesso a dados e aprovar exceções.

Velocidade, escala e automação são características de uma prática de AIOps madura, resultando em melhor resultado, decisões mais rápidas e capital humano otimizado. A GenAI está abrindo portas que a tecnologia não conseguiu abrir... até agora. Os cinco aprendizados acima fornecem alguns marcadores de trilha para operações de TI, operações de segurança e operações de privacidade a serem considerados à medida que essas equipes implementam o GenAI em seus AIOps. Modelos de IA, proximidade da computação com dados operacionais, dados e automação fornecem peças-chave da nova plataforma AIOps. Dentro desse rico ambiente de aprendizagem, as organizações podem construir a cultura e as práticas de operações de tecnologia para a geração atual e as futuras.

Para uma análise mais aprofundada do impacto da IA generativa nos dados, leia o último relatório do Digital Enterprise Maturity Index da F5.