Plugin para fazer scraping

Scraping ou “raspagem de dados” é o termo utilizado para descrever a atividade de extrair dados de sites e passá-los para um formato mais “amigável” e “buscável”, tornando-os, desse modo, mais maleáveis, para que outras pessoas possam mesclá-los com outros dados e informações ou simplesmente organizá-los de uma forma mais legível.

Não é algo novo, mas que começa a ganhar mais destaque. Durante o Yahoo! Hack Day, por exemplo, um dos projetos vencedores tinha a proposta de extrair dados do site da Infraero e passá-los para um formato mais maleável, permitindo assim organizar melhor as informações.

Guardian e NYTimes são algumas das publicações que estão realizando scraping, atividade que tem tudo a ver com jornalismo. Afinal de contas, é um trabalho de “curadoria de dados”, eles estão trazendo informações que estavam até então “escondidas” para as pessoas.

Sobre o assunto, por meio do Poynter, conheci a extensão do OutWit Hub para o navegador Firefox, que permite fazer scraping, extrair informações de alguns sites. É bem simples, permite, por exemplo, extrair um conjunto de links, imagens ou dados que estão em tabelas em HTML.

A extensão conta com diversos tutorials. Vale a pena para quem quer ter uma noção da dinâmica do scraping e não tem muito conhecimento de programação.

Veja também: O que aconteceu no 1º Transparência HackDay

5 respostas para “Plugin para fazer scraping”.

  1. […] This post was mentioned on Twitter by Julio Valentim, diegogomes. diegogomes said: Plugin para fazer scraping http://bit.ly/a09srU […]

    Curtir

  2. Muito legal! As ferramentas de Data Scraping já existem a muito tempo mais apenas agora eslas estão se tornando mais simples ao ponto de profissionais não técnicos poderem utilizá-las. Eu escrevi um artigo sobre isso lá no iMasters:http://imasters.uol.com.br/artigo/15447/bancodeda

    Curtir

  3. bacana. em mais de um projeto que eu precisei utilizar data scraping eu usei o Dapper.net (http://www.dapper.net/open/). talvez você curta 😉

    Curtir

  4. […] Timetric agrega dados sobre diversos assuntos e fontes. Na realidade, faz scraping – extrai dados de diversos sites e passa os mesmos para um formato mais “amigável” e […]

    Curtir

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados *