BLOG

O big data não mente, mas as pessoas que o inserem podem mentir

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 16 de julho de 2018

Existe um velho axioma empresarial que todos nós conhecemos que diz o seguinte: O cliente tem sempre razão.

Nesta economia digital, verifica-se que o axioma tem de mudar para: Os dados do cliente estão sempre certos.

Deixe-me ilustrar com uma pequena história.

Recentemente decidi comprar um carro novo e trocar o antigo. Eu tinha o antigo há cerca de seis anos e dirigia cerca de cinco mil quilômetros por ano. Eu sei que parece loucura, mas é verdade. Uma vez dirigi para fora do estado, em Ohio, para visitar a família. É isso. Caso contrário, ele ficava num raio de 48 quilômetros de casa. Gosto de brincar que sou aquela velhinha que só vai de carro à igreja no domingo.

Então imagine minha surpresa quando a concessionária me informou que a leitura do meu hodômetro estava incorreta – com uma diferença de mais de 30 mil – com base em uma única linha de dados contida no relatório de histórico do veículo acessado pela concessionária. Uma linha de dados que afirmava ainda que meu carro havia sido revisado em Dakota do Norte dois anos antes.

Essa discrepância não deve ser encarada levianamente. As leituras do hodômetro informam o valor do comércio e é ilegal adulterá-las (multas e prisão são possíveis). Considerando que o hodômetro real marcou um número muito menor do que o do relatório, bem, você pode imaginar que o revendedor ficou um pouco perturbado. Ele se deparou com a decisão indesejável de confiar em mim — que insistia que eu nunca tinha levado o carro para Dakota do Norte — ou nos dados que alegavam que eu tinha feito isso?

A questão rapidamente se resumiu a "o cliente está sempre certo" ou "os dados do cliente estão sempre certos"?

Acontece que esta não é a primeira vez que alguém é enganado por dados imprecisos em um relatório de histórico de veículo. A maioria dos dados ainda é inserida manualmente, então erros acontecem. Mas o processo de correção desses erros exige que a pessoa que os inseriu admita que cometeu um erro. O que significa que eles precisam se lembrar de que cometeram um erro há cinco, dez ou até quinze anos. Se o técnico que inseriu os dados estiver presente para admitir o erro. 

No final, saí com meu carro novo e a concessionária teve a tarefa de corrigir o relatório. Aposto que muitos de vocês têm uma história semelhante. É muito comum quando você opera em uma economia digital.

O Fator Humano (Erro)

À medida que continuamos a expandir nossa dependência de máquinas para resolver problemas, minerar dados e tomar decisões, precisamos estar cientes de que os dados que temos podem não ser precisos. Em algum ponto da cadeia de custódia desses dados houve um ser humano envolvido. E uma verdade axiomática do ser humano é que cometemos erros. Um único toque errado de tecla por um técnico de serviço em Dakota do Norte há seis anos e, de repente, você está sob luzes quentes e sendo interrogado sobre todas as viagens de carro que já fez.

Precisamos ter cuidado com o grau de confiança que depositamos nos dados que usamos para tomar decisões. Não são apenas os erros acidentais que devem nos preocupar, mas também os erros intencionais. Garanto que seus dados estão sujos. 

O design do DNS é bastante surpreendente na sua designação de fontes autoritativas versus não autoritativas. Porque você sabe que se houver uma discrepância, você pode ir até a única fonte verdadeira e encontrar a verdade. Com dados de clientes, não existe tal coisa. Isso é um sinal de alerta potencial porque os sistemas que usamos agora – e usaremos no futuro próximo – não conseguem necessariamente saber o que é preciso e o que não é. Afinal, não há lugar para verificar sua veracidade. Nenhuma autoridade de certificação, nenhuma fonte autorizada designada como DNS. E em muitos casos, não há como contestar os dados.

À medida que continuamos a construir imagens digitais de nossos clientes a partir de pedaços de dados, precisamos estar cientes do quão impactantes esses dados podem ser — tanto para nós, como tomadores de decisões de negócios, quanto para os clientes, como seres humanos que têm que viver com as consequências de qualquer conclusão alcançada com base nesses dados.

Como provedores de soluções de segurança de aplicativos , frequentemente insistimos na proteção de dados e identidade contra exfiltração e roubo. Mas não costumamos inverter a equação e falar sobre a possibilidade muito real de corrupção de dados , seja acidental ou vingativa.

Deveríamos – antes que se torne um assunto de tendência no Twitter.

Temos visto o aumento de ataques digitais retributivos contra pessoas de muitas formas. Como os despachantes do 911 não conseguem obter localizações e endereços precisos por meio de celulares, as vítimas sofreram incidentes fatais de tapas . Pornografia de vingança é algo comum, e a imitação de amigos e familiares nas redes sociais acontece o tempo todo. E já se passaram mais de 3 anos desde que o CEO da Kustodian, Chris Rock, demonstrou como fraudadores podem "matar" alguém artificialmente para obter lucro ou fazer uma brincadeira devido a vulnerabilidades nos processos de registro de óbito da maioria dos países no DEF CON (CS Monitor). Para quem estiver atento, esse foi um dos hacks usados no filme Hackers, de 1995, junto com o cancelamento do cartão de crédito de alguém e o envio de anúncios pessoais falsos como retribuição por alguma ofensa — percebida ou real. 

É apenas uma questão de tempo até que esse comportamento vingativo se espalhe e suje dados em outros lugares. 

Se você acha que estou sofrendo com um chapéu de papel alumínio na cabeça, lembre-se do relatório do RedLock CSI de 2017 , que observou que 31% dos bancos de dados tinham uma porta aberta para a Internet. Para qualquer um. Lembre-se do desastre do MongoDB , onde mais de 27.000 bancos de dados foram abertos ao acesso público. A pessoa errada com o banco de dados certo deixado aberto pode causar estragos em seus dados.

Isso é um problema porque chegamos ao ponto de inflexão em que os dados são frequentemente tratados como uma versão inviolável e infalível da verdade. Graças a um erro de entrada de dados, essa "verdade" poderia ter me levado para a prisão.

Diligência de Dados Digitais

À medida que continuamos a expandir a quantidade de nossos negócios — e vidas — armazenados no reino digital, devemos respirar fundo e lembrar que os bits e bytes em nossos data warehouses representam algum aspecto de seres humanos reais. A diligência com que tratamos esses dados reflete nossa atitude em relação ao ser humano real que é nosso cliente. Principalmente quando não podemos saber que informação que inserimos hoje pode ser interpretada de uma forma que prejudique o cliente mais tarde. Afinal, a entrada no meu histórico de veículos era simplesmente para registrar uma troca de óleo em Dakota do Norte. Não houve intenção de maldade, mas o resultado poderia ter sido desastroso para mim. 

Seja elaborando políticas de segurança com o objetivo de evitar corrupção de dados, controlar o acesso a aplicativos e bancos de dados ou dar mais atenção à entrada manual de dados, precisamos lembrar que, embora os dados não mintam, eles representam exatamente o que a pessoa inseriu, a pessoa que os inseriu pode ter.