← Todos los artículos

Web scraping en n8n con el nodo de ScrapeUnblocker

Si alguna vez has intentado añadir web scraping a un flujo de trabajo de n8n, sabes dónde se rompe todo. El nodo HTTP Request funciona perfectamente hasta que lo apuntas a un objetivo real. Entonces Cloudflare devuelve una página de desafío, DataDome muestra un CAPTCHA, o el sitio renderiza todo del lado del cliente y tus selectores no encuentran nada. De repente, tu automatización limpia se convierte en un montón de reintentos, configuraciones de proxy y soluciones improvisadas frágiles.

Construimos el nodo de ScrapeUnblocker para hacer desaparecer ese problema. Ahora está disponible directamente dentro de n8n, así que puedes obtener cualquier página a través de nuestro motor de evasión anti-bot sin salir de tu flujo de trabajo.

Qué hace el nodo

ScrapeUnblocker recibe una URL y devuelve la página. La parte difícil -averiguar cómo superar la protección- ocurre de nuestro lado. Para cada solicitud elegimos la ruta más económica que realmente funciona para ese dominio: una petición directa, un proxy residencial en el país correcto, un navegador stealth con una huella aleatorizada, o un plugin personalizado creado para sitios como Mobile.de, Zillow y Amazon. Tú nunca configuras nada de eso. Pasas una URL y obtienes la página.

Dentro de n8n eso se traduce en un único nodo con unos pocos campos. Las tres cosas que la mayoría de los flujos de trabajo necesitan:

  • Get Page Source (HTML) - devuelve el HTML completamente renderizado de la página, después de que el JavaScript se haya ejecutado y se haya superado cualquier desafío. Esta es la opción por defecto y cubre la mayoría de las tareas de scraping.
  • Parsed data (JSON) - en lugar de HTML en bruto, obtén una carga útil JSON estructurada. ScrapeUnblocker extrae el contenido relevante usando marcado Schema.org, datos embebidos en la página y reglas generadas por IA, así que puedes conectar los campos directamente al resto de tu flujo de trabajo sin escribir un parser.
  • Country targeting - fuerza la solicitud a través del pool de proxies de un país específico con un código ISO de dos letras (por ejemplo US, DE, GB). Hay más de 150 países disponibles, así que el contenido restringido por geografía y los precios localizados están a un solo campo de distancia.

Cómo empezar

El nodo está verificado en n8n, así que no hay nada que instalar desde npm ni compilar por tu cuenta.

  1. Abre cualquier flujo de trabajo y haz clic para añadir un nodo.
  2. Busca ScrapeUnblocker en el panel de nodos.
  3. Añádelo y luego crea una credencial con tu API key. Puedes obtener una clave desde tu panel de ScrapeUnblocker - las cuentas nuevas reciben 500 solicitudes gratuitas, sin necesidad de tarjeta.

Esa es toda la configuración. La credencial se almacena una vez y la reutiliza cada nodo de ScrapeUnblocker en tu instancia.

Un primer flujo de trabajo

Esta es la forma de un flujo de trabajo típico de scrapear y procesar:

  1. Trigger - un nodo Schedule que se dispara cada mañana, o un Webhook, o una ejecución manual.
  2. Nodo de ScrapeUnblocker - configura la operación como Get Page Source, pega la URL objetivo (o mapéala desde un nodo anterior) y elige un país de proxy si lo necesitas.
  3. Procesar - pasa la salida a lo que venga después. El HTML en bruto va a un nodo HTML Extract; el JSON parseado va directamente a un nodo Set, Filter o Code.
  4. Almacenar o notificar - añade filas a Google Sheets, inserta en una base de datos, publica en Slack, o envía a tu propia API.

Como el nodo devuelve elementos normales de n8n, todo lo que viene después se comporta exactamente igual que con cualquier otra fuente de datos. Obtienes reintentos, ramas de error, procesamiento por lotes y expresiones de forma gratuita.

Dónde resulta útil

La combinación de la programación y la ramificación de n8n con un scraper que no se bloquea abre la puerta a muchas tareas recurrentes que antes necesitaban un script dedicado y un servidor para ejecutarlo:

  • Monitoreo de precios y stock - scrapea las páginas de productos de la competencia de forma programada, compara con el día anterior y avisa cuando algo cambia.
  • Recopilación de leads y anuncios - extrae anuncios de marketplaces o directorios hacia una hoja de cálculo o CRM sin mantener proxies.
  • Seguimiento de contenido y SEO - vigila páginas de ranking, sitios de noticias o portales de empleo y dirige las nuevas entradas a tu pipeline.
  • Alimentar LLMs - obtén contenido limpio de la página o JSON parseado y pásalo a un nodo de IA para resumir, clasificar o extraer.

Todo ello vive en un único lienzo de n8n, de forma programada, sin infraestructura de scraping que mantener.

Por qué dirigir el scraping a través de ScrapeUnblocker

El nodo HTTP Request es excelente para APIs que quieren ser llamadas. El scraping es el problema opuesto: el objetivo está intentando activamente distinguir a los bots de las personas. Rotar proxies, renderizar JavaScript, hacer coincidir el orden de las cookies y las cabeceras, y resolver desafíos es un trabajo de tiempo completo, y cambia cada vez que un sitio actualiza sus defensas.

Delegar eso en ScrapeUnblocker significa que tu flujo de trabajo deja de preocuparse por cómo está protegida una página. El nodo pide una URL y recibe la página de vuelta, ya sea que esa página esté detrás de Cloudflare, DataDome, PerimeterX o Akamai. Tu automatización se mantiene simple y sigue funcionando cuando el objetivo refuerza su protección.

Pruébalo

Si ya usas n8n, busca ScrapeUnblocker en el panel de nodos y conéctalo a una clave gratuita. Si eres nuevo en ScrapeUnblocker, crea una cuenta y empieza con 500 solicitudes gratuitas - apunta el nodo a un sitio que normalmente te bloquea y observa cómo el HTML regresa limpio.

Prueba ScrapeUnblocker gratis

Tasa de éxito del 99%+ · desde 0,55 € por cada 1000 llamadas · 500 solicitudes gratis al registrarte.

Pruébalo gratis → Ver precios