BLOG

Içado por nossos próprios petardos: Grandes dados sujos

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 21 de agosto de 2017

Grandes volumes de dados. Petabytes gerados por hora para milhões de sensores e monitores incorporados em coisas em toda a cadeia de valor do negócio. Da fabricação à entrega, do PDV aos consumidores, os dados estão sendo gerados em quantidades sem precedentes.

Esses dados, por si só, não têm importância. Os dados em si são uma coleção de 1s e 0s em formações específicas que, quando interpretadas por um aplicativo, se tornam informações. A informação só se torna útil quando é analisada e só se torna valiosa quando é colocada em prática.

As pessoas não conseguem analisar efetivamente os dados gerados hoje, muito menos o que será gerado na próxima hora, dia ou semana. E, no entanto, cada vez mais é necessário tomar decisões empresariais quase em tempo real. Para conseguir isso, são necessários computadores e sistemas treinados para reconhecer os sinais em meio às pilhas de ruído coletadas todos os dias.

Isto não é mera conjectura. Em “ Aprendizado de Máquina: The New Proving Ground for Competitive Advantage ” – uma pesquisa conduzida pela MIT Technology Review Custom e Google Cloud – mais de 60% dos entrevistados “já implementaram estratégias de ML [Machine Learning] e quase um terço se considerou em um estágio maduro com suas iniciativas”. A razão por trás do investimento nada trivial nessa tecnologia emergente é a vantagem competitiva. “De acordo com os entrevistados, um benefício fundamental do ML é a capacidade de obter uma vantagem competitiva, e 26% dos atuais implementadores de ML sentiram que já haviam alcançado esse objetivo.”

Prevê-se que os benefícios sejam surpreendentes.

Para uma empresa típica da Fortune 1000, um aumento de apenas 10% na acessibilidade de dados resultará em mais de US$ 65 milhões em lucro líquido adicional.

Os varejistas que aproveitam todo o poder do big data podem aumentar suas margens operacionais em até 60%.

Tudo bem até agora. Estamos usando dados para orientar decisões que permitem que as empresas assumam a liderança e cresçam.

O perigo está em não reconhecer que qualquer dependência traz riscos. Se eu dependo de um carro para ir ao supermercado (porque não há transporte público onde eu moro), então há risco de algo acontecer com esse carro. Muito risco. Se meu negócio depende de big data para tomar decisões (potencialmente para mim, se as previsões dos especialistas forem levadas ao pé da letra), então há risco de algo acontecer com esses dados.

Agora, não estou falando sobre a perda óbvia de dados ou mesmo sobre a corrupção desses dados. Estou falando de uma ameaça mais insidiosa que vem da confiança que depositamos na veracidade desses dados.

Para tomar decisões sobre quaisquer dados – seja em nossa vida pessoal ou empresarial – precisamos primeiro confiar na precisão desses dados.

Grandes dados sujos

Dados sujos não são nenhuma novidade. Confesso que sou culpado de falsificar minhas informações pessoais de vez em quando quando elas são solicitadas para acessar um artigo ou recurso na Internet. Mas os novos fluxos de dados não estão necessariamente em risco devido a esse tipo de corrupção inócua. Eles correm o risco de corrupção proposital por parte de pessoas mal-intencionadas, determinadas a tirar o seu negócio do curso.

Como tomamos decisões com base em dados e só tendemos a questioná-los quando surgem discrepâncias óbvias, ficamos quase cegos à ameaça da corrupção gradual. Assim como o clichê de desviar centavos de transações bancárias, a mudança sutil nos dados pode passar despercebida. Aumentos graduais na demanda pelo produto X em um mercado podem ser vistos como sucesso de esforços de marketing ou promoção. A macroeconomia muitas vezes pode explicar uma queda repentina na demanda pelo produto Y em outros. Minha capacidade de impactar seu negócio será significativa se eu tiver paciência e determinação para sujar os dados com base nos quais você toma decisões de fabricação ou distribuição.

Quão significativo? A baixa qualidade dos dados resulta em uma perda de cerca de 30% da receita , de acordo com a Ovum Research . A Analytics Week compilou uma lista fascinante de fatos sobre big data com consequências semelhantes de dados ruins, incluindo:

Dados ruins podem custar às empresas de 20% a 35% de sua receita operacional.

Dados ruins ou de baixa qualidade custam às empresas dos EUA US$ 600 bilhões anualmente.

Parece improvável? A coleta de dados na web para coletar informações como parte de esforços de espionagem corporativa é uma realidade, e há equipes dedicadas a impedi-la. O uso de APIs torna esses esforços ainda mais fáceis e piores – às vezes em tempo real. Então, pensar que a possibilidade de alguém introduzir intencionalmente dados incorretos em seu fluxo não vai acontecer é o mesmo que ignorar deliberadamente a realidade de que os maus atores geralmente estão dois passos à nossa frente.

redlock-csi-dados

Nossas práticas de segurança — principalmente na nuvem, onde se espera que residam muitos big data — amplificam essa ameaça. Um white paper do TDWI patrocinado pela Information Builders tem muitos outros exemplos do custo de dados sujos. Embora a maioria esteja relacionada a problemas típicos de dados sujos decorrentes da integração de dados devido a aquisições ou às típicas informações adulteradas geradas pelo cliente, os modelos de custos são inestimáveis para entender a ameaça aos negócios com base na confiança em dados que podem estar corrompidos — e o que você pode fazer a respeito.

Depender de configurações padrão foi a causa de diversas violações somente neste ano. Lembra do desastre do MongoDB em janeiro ? Aquele em que as configurações padrão deixavam os bancos de dados totalmente abertos para qualquer pessoa na Internet que pudesse se interessar por eles? Ou que tal o estudo do RedLock CSI que encontrou 285 instâncias de consoles administrativos do Kubernetes completamente abertas. Não são necessárias credenciais. O mesmo relatório descobriu que 31% dos bancos de dados não criptografados na nuvem estavam aceitando conexões de entrada da Internet. Diretamente. Tipo, nada entre mim e seus dados.

Quando mais de 27.000 bancos de dados ficam expostos e acessíveis pela Internet devido à falha em fazer qualquer esforço para protegê-los, pode-se facilmente imaginar que os fluxos de dados podem ser facilmente contaminados. Quando temos organizações removendo deliberadamente controles de segurança padrão em serviços de armazenamento em nuvem para deixá-los vulneráveis à descoberta e corrupção, essa noção de agentes mal-intencionados inserindo dados sujos passa de possível para provável. É responsabilidade das organizações que dependem de dados — o que acontece com praticamente todo mundo hoje em dia — tomar cuidado não apenas com a forma como protegem esses dados, mas também com a forma como verificam sua precisão.

A segurança no futuro dos negócios baseados em dados significa mais do que apenas proteger contra exfiltração; ela também deve considerar a ameaça real de infiltração – e como combatê-la.