Cómo utilizar una herramienta de extracción de datos para extraer datos de páginas web

Si está copiando y pegando cosas de páginas web y poniéndolas manualmente en hojas de cálculo, o no sabe qué es el scraping de datos (o web scraping), o sabe lo que es, pero no está realmente interesado en la idea de aprender a codificar solo para ahorrarse unas horas de hacer clic.

De cualquier manera, hay muchas herramientas de extracción de datos sin código que pueden ayudarlo, y la extensión de Chrome de Data Miner es una de las opciones más intuitivas. Si tiene suerte, la tarea que está tratando de hacer ya estará incluida en el libro de recetas de la herramienta y ni siquiera tendrá que seguir los pasos de apuntar y hacer clic necesarios para crear la suya propia.

¿Cómo funciona Data Miner?

Data Miner lo ayuda a obtener datos de las páginas web y a archivos Excel / CSV con un formato agradable al mirar el texto de las páginas que ha cargado. Eso significa que deberá sentirse lo suficientemente cómodo con HTML para reconocer algunos patrones, pero nada demasiado extenso. Las habilidades avanzadas de HTML y / o JavaScript ciertamente ayudarán con algunas tareas, pero no son necesarias para la mayoría de las cosas. También debe tener al menos habilidades básicas de hoja de cálculo para que pueda estar seguro de que su salida está limpia y organizada.

1. Configurar Data Miner

Con Chrome u otro navegador Chromium, instale la extensión . El ícono del pico de la extensión aparecerá en su barra de herramientas, y al hacer clic en él, lo llevará a una página donde puede configurar una cuenta. La versión gratuita le ofrece 500 raspaduras al mes, lo que probablemente sea suficiente para usted a menos que sea algo que haga todos los días.

2. Cargue los datos

Primero, navegue hasta la página de la que desea extraer los datos. Si tiene varias páginas de datos o algunos de ellos están ocultos detrás de botones, está bien; hay formas de lidiar con eso. Por ahora, solo necesitará una muestra representativa para que el programa sepa qué buscar.

3. Busque una receta

A continuación, abra Data Miner y compruebe la pestaña «Público» para ver las recetas existentes. Si está en un sitio popular, es posible que otra persona ya haya creado un proceso para obtener los datos que está buscando, lo que le ahorraría bastante tiempo. Sitios como Google, Amazon y Twitter, por ejemplo, tienen muchas recetas disponibles para ayudarlo a descargar instantáneamente enlaces, precios, texto y otros datos. Puede probar las recetas haciendo clic en el botón «Ejecutar» para ver una vista previa de la hoja de cálculo que genera Data Miner. También puede modificar las recetas existentes para que se adapten a sus necesidades presionando el botón «Editar».

4. Tipo de página

Bien, entonces ninguna receta prefabricada funcionó para ti. Está bien, puedes hacer el tuyo propio. Simplemente haga clic en el botón «Nueva receta» para comenzar.

Su primera opción será «Página de lista» o «Página de detalles».

Seleccione «Página de lista» si está intentando obtener varias filas de datos de una sola página. Por ejemplo, es posible que desee descargar el enlace y el título de la página de cada resultado de búsqueda u obtener la fecha y el contenido de las publicaciones en un feed. Este es probablemente el tipo más común y el que usaremos aquí como demostración. (Los pasos para una página de detalles son esencialmente los mismos).

Seleccionar “Detail” si usted tiene una gran cantidad de información diferente sobre una cosa en una sola página  una página de producto, por ejemplo, donde tiene que agarrar su precio, descripción, enlace, y clasificación, y poner todo en una sola fila .

Paso 5: haz tus filas

Presione el botón «Buscar» y mueva el mouse hasta que el cuadro de selección amarillo cubra todos los datos que necesitaría para una sola entrada en su hoja de cálculo final. Por ejemplo, si está descargando resultados de búsqueda, deberá resaltar un área lo suficientemente grande para incluir el título, la URL y la descripción, cada uno de los cuales puede colocar en columnas separadas en el siguiente paso. Para hacer su selección, presione la Shifttecla. No se preocupe si hace clic accidentalmente; Data Miner guarda todo el progreso de su receta incluso si navega fuera de la página.

Luego, querrá marcar al menos una de las casillas en la sección «Clases de elementos» o «Tipo de elemento HTML». Idealmente, verá la selección replicada para cubrir todos los elementos de la página que están en la misma categoría que la que seleccionó.

Si encuentra que el selector no cubre todo lo que necesita, intente seleccionar solo uno de los elementos y presione «Seleccionar padre». Esto hará que la caja sea más grande y probablemente capturará todo lo que necesita. De lo contrario, es posible que deba profundizar un poco en el HTML e identificar las clases y tipos de elementos que necesita. En caso de duda, presione «Seleccionar padre» hasta que el cuadro sea lo más grande posible sin cubrir más de una entrada de la lista, ya que esto le dará más flexibilidad al seleccionar columnas.

Data Miner te ofrece la opción «Ver HTML del elemento» en la parte inferior y también te permite escribir selectores personalizados. Si quiere decir, tome todos los enlaces en una página con la clase «producto», simplemente puede escribir a.product. Aquí es donde algunos conocimientos básicos de HTML / CSS serán realmente útiles.

Una vez que esté de vuelta en el menú de la fila principal, debería ver un «Recuento de filas» con el número de entradas que creará su receta en una hoja de cálculo. Si no capta todo, deberá volver a verificar su selección de fila.

6. Divida sus datos en columnas

Una vez que haya seleccionado todos los datos para sus filas, es hora de que se vea bien subdividiéndolos en diferentes categorías de columnas. Cada selección que haga aquí debe ser una subsección del cuadro que seleccionó para sus filas.

Para hacer una columna, simplemente escriba un nombre y use el botón Buscar para seleccionar lo que desea extraer, al igual que hizo para las filas. Los datos más comunes probablemente serán texto, URL o URL de imagen. Obtener URL colocando el cursor sobre enlaces de texto puede ser un poco complicado; es posible que tenga que presionar «seleccionar padre» hasta que alcance un nivel en el que se encuentra el Tipo de elemento <a>, que es la etiqueta HTML para los enlaces.

Para asegurarse de que tiene el tipo correcto de datos en su columna, simplemente presione el icono del ojo en el lado derecho del nombre de cada columna, junto al número que muestra cuántas columnas se han seleccionado. Esto le mostrará una vista previa de cada entrada de fila para esa columna. Si algo está mal, regrese y modifique las etiquetas y los tipos que eligió para identificar las filas. No tenga miedo de abrir el visor HTML y buscar patrones asociados con los datos que está intentando capturar.

7. Indique a Data Miner cómo ir a la página siguiente.

Si tiene varias páginas de datos para extraer, probablemente no quiera hacer clic en cada una y ejecutar su receta una y otra vez. Para evitar eso, simplemente dígale a Data Miner dónde encontrar el botón de navegación en el que debe hacer clic para ir a la página siguiente. Tenga cuidado de no decirle que haga clic en algo como «Página 2», ya que entonces irá a, bueno, Página 2. Nuevamente, asegúrese de que está seleccionando un <a>elemento y use el botón Probar navegación para asegurarse esta funcionando.

8. Indique a Data Miner dónde hacer clic o desplazarse para cargar datos

Algunas páginas no cargan datos hasta que haces clic en algo o te desplazas hacia abajo. ¡Afortunadamente, Data Miner también puede hacer estas cosas! Use la herramienta «Buscar» en la parte superior (ya debería ser bastante bueno en eso) para seleccionar el elemento que necesita manipular, luego coloque el selector en el cuadro apropiado y pruébelo para asegurarse de que funcione.

Averiguar exactamente qué selector activará el elemento o la barra de desplazamiento infinita puede ser complicado, pero el conocimiento básico de HTML y algo de prueba y error lo llevarán bastante lejos aquí. La mayoría de las cosas que necesitará manipular aquí están basadas en JavaScript, pero Data Miner solo necesita conocer el selector de CSS asociado con la acción para activarlo, por lo que no debería tener que jugar con ningún código en la mayoría de los casos.

El siguiente paso también le permite agregar JS personalizado para hacer prácticamente lo que quiera, pero eso es bastante avanzado y va más allá de lo que necesitamos para el raspado básico.

9. Guarde y ejecute la receta

¡Felicidades! Ahora es el momento de ver si todo salió bien. Ejecute la receta en la página en la que se encuentra y verifique la vista previa para ver si sus filas y columnas están haciendo lo que se supone que deben hacer. Si no es así, puede volver atrás y editar la receta.

Si todo se está comportando como debería, puede usar el botón «Página siguiente» para decirle al raspador cuántas páginas debe rastrear y qué tan rápido debe ir / (Ir demasiado rápido puede hacer que el sistema lo marque como un bot).

Una vez que tenga todos los datos que necesita, puede elegir qué formato de archivo le gustaría usar para descargarlo.

Tengo problemas; ¿hay una manera mas facil?

Si el programa Data Miner no le está funcionando, hay muchas otras herramientas de extracción de datos disponibles: ParseHub, Scraper, Octoparse, Import.io, VisualScraper, etc. Algunas de ellas pueden tener interfaces más intuitivas y más automatización. pero aún necesitará saber al menos un poco sobre HTML y cómo está organizada la web. Lo que hace que Data Miner sea especialmente bueno para los principiantes es su biblioteca de recetas de colaboración colectiva, que podría ayudarlo a evitar incluso el encuentro más pequeño con el código. Eso, combinado con su generoso paquete de raspaduras mensuales gratuitas, lo convierte en una herramienta muy decente para la mayoría de las necesidades.

¡Si te ha gustado vota con 5 Estrellas!
(Votos: 0 Promedio: 0)

Escribe Aquí Tu Comentario