Web scraping. Extracción inteligente de datos de un sitio web

Web scraping. Extracción inteligente de datos de un sitio web

on Domingo, 30 Noviembre 2014.

Web scraping. Extracción inteligente de datos de un sitio web

Dentro de alguno de los proyectos que desarrollamos desde PymesON nos interesa extraer datos de sitios web, datos que no están estructurados, y estructurarlos. Una vez tenemos los datos estructurados,  los guardamos en una base de datos. A partir de aquí ya podemos  explotarlos según nos convenga. 

Esta técnica de extracción de datos de un sitio web, con el propósito de disponer de datos estructurados, recibe el nombre de web scraping.

En esta entrada quiero compartir una herramienta que  busca este propósito y que me ha gustado.

A continuación os muestro un ejemplo sobre su funcionamiento. Imaginaros que quiero monitorizar los precios de televisores smart tv de una determinada tienda online:

PASO 1:

Voy a la página de la cual quiero extraer la información, y me quedo con la url

 

 

 

PASO 2:

Voy a IMPORT.IO, concretamente a la dirección  https://import.io/ y escribo la url 

 

 

 

PASO 3:

Como resultado, me ofrece los datos estructurados para que yo los guarde en una BD

 

 

 

Además esta utilidad cuenta con una API, de tal manera que podría usarla desde un programa informático y, por ejemplo, crear alertas cuando se modifica un precio, etc.