Scraping ou “raspagem de dados” é o termo utilizado para descrever a atividade de extrair dados de sites e passá-los para um formato mais “amigável” e “buscável”, tornando-os, desse modo, mais maleáveis, para que outras pessoas possam mesclá-los com outros dados e informações ou simplesmente organizá-los de uma forma mais legível.
Não é algo novo, mas que começa a ganhar mais destaque. Durante o Yahoo! Hack Day, por exemplo, um dos projetos vencedores tinha a proposta de extrair dados do site da Infraero e passá-los para um formato mais maleável, permitindo assim organizar melhor as informações.
Guardian e NYTimes são algumas das publicações que estão realizando scraping, atividade que tem tudo a ver com jornalismo. Afinal de contas, é um trabalho de “curadoria de dados”, eles estão trazendo informações que estavam até então “escondidas” para as pessoas.
Sobre o assunto, por meio do Poynter, conheci a extensão do OutWit Hub para o navegador Firefox, que permite fazer scraping, extrair informações de alguns sites. É bem simples, permite, por exemplo, extrair um conjunto de links, imagens ou dados que estão em tabelas em HTML.
A extensão conta com diversos tutorials. Vale a pena para quem quer ter uma noção da dinâmica do scraping e não tem muito conhecimento de programação.
Veja também: O que aconteceu no 1º Transparência HackDay

Deixe um comentário