Cientistas de dados têm que perguntar o “porquê” das coisas

Nestes dias, acontece um evento interessante sobre gestão de dados aqui, no MIT,  no Laboratório de Inteligência Artificial. Sempre que dá tempo, dou uma passada por lá.

Quem esteve no evento foi Amanda Cox, cientista de dados do NYTimes e integrante da premiada equipe de infografia do jornal.

Desde que começaram a trabalhar com infografia interativa, os sites de algumas publicações abriram um pequeno, mas novo campo de trabalho para os cientistas de dados.

Neste sentido, Cox é uma cientista de dados diferente, na medida em que o resultado de seu trabalho não é consumido nem desenvolvido para uma audiência científica e especializada, mas sim para o público diversificado e leigo do NYTimes.

Para analisar os dados e fazer os protótipos das visualizações que são exploradas pela publicação, a cientista utiliza a programação em R, o que, segundo ela, não é a maneira mais agradável, porém, é possível obter uma visão mais apurada de como ficará a infografia final (é interessante isso, a programação em R foi criada há uns 30 anos, porém para analisar dados biológicos).

Segundo Cox, sempre que um profissional olha para uma quantidade de dados deve perguntar o “porquê” e não “o que”, “onde” ou “quando” das coisas. “‘Por que as startups estão na moda?’ e ‘Por que o desemprego subiu de repente’ são questões muito mais relevantes do que ‘Qual é a distribuição dos dados?” ou “Onde estão localizados os votos de tal candidato?’”.

Da mesma maneira, Cox acredita que o tipo de visualização determina o que será perguntado a respeito dos dados. Como exemplo, a cientista exibiu dois infográficos desenvolvidos no NYTimes. Um mostra os dados das eleições americanas de 2008 plotados num mapa, o que força o leitor a pensar em estados e cidades, limitando, naturalmente, as perguntas. No outro constam os mesmos dados, mas em formato de blocos que podem ser livremente manipulados pelos leitores. Ou seja, neste caso, a experiência e as perguntas não estão mais limitadas a dados geográficos.

E aí está o ponto mais importante do bate-papo com a cientista. Como muitos especialistas que não estão de paraquedista na área de dados, Cox revela um certo desconforto com o termo “Big Data“.

Para ela, a grande questão atual sobre dados não é a quantidade, mas o que você faz com eles. O próprio NYTimes não trabalha com grandes volumes (não é “Big Data”), mas no pouco que trabalha consegue analisar e visualizar de uma maneira intuitiva e que faça sentido para as pessoas, criando assim um entendimento do que acontece a nossa volta.

A visão de Cox vai ao encontro da premissa de um professor daqui, do MIT Sloan, Alex Pentland, o qual acredita que a chamada Big Data não tem nada a ver com quantidade de dados ou velocidade de análise, mas sim com o relacionamento dos dados.

Em outras palavras, o que você faz com os dados é muito mais importante do que a quantidade deles.