Web scraping dans n8n avec le node ScrapeUnblocker
Si vous avez déjà essayé d’ajouter du web scraping à un workflow n8n, vous savez à quel moment ça déraille. Le node HTTP Request fonctionne très bien jusqu’à ce que vous le pointiez vers une vraie cible. Alors Cloudflare renvoie une page de challenge, DataDome sert un CAPTCHA, ou le site rend tout côté client et vos sélecteurs ne trouvent rien. D’un coup, votre belle automatisation devient un tas de retries, de configurations de proxy et de contournements fragiles.
Nous avons conçu le node ScrapeUnblocker pour faire disparaître ce problème. Il est désormais disponible directement dans n8n, ce qui vous permet de récupérer n’importe quelle page via notre moteur de contournement anti-bot sans quitter votre workflow.
Ce que fait le node
ScrapeUnblocker prend une URL et renvoie la page. La partie difficile - trouver comment franchir la protection - se passe de notre côté. Pour chaque requête, nous choisissons la route la moins coûteuse qui fonctionne réellement pour ce domaine : un fetch direct, un proxy résidentiel dans le bon pays, un navigateur furtif avec une empreinte aléatoire, ou un plugin sur mesure conçu pour des sites comme Mobile.de, Zillow et Amazon. Vous ne configurez rien de tout cela. Vous passez une URL, vous obtenez la page.
Dans n8n, cela se traduit par un seul node avec quelques champs. Les trois choses dont la plupart des workflows ont besoin :
- Get Page Source (HTML) - renvoie le HTML entièrement rendu de la page, après l’exécution du JavaScript et la résolution de tout challenge. C’est l’option par défaut et elle couvre la plupart des tâches de scraping.
- Parsed data (JSON) - au lieu du HTML brut, obtenez une charge utile JSON structurée. ScrapeUnblocker extrait le contenu pertinent à l’aide du balisage Schema.org, des données intégrées à la page et de règles générées par IA, afin que vous puissiez brancher des champs directement dans le reste de votre workflow sans écrire de parser.
- Country targeting - forcez la requête à passer par le pool de proxies d’un pays précis avec un code ISO à deux lettres (par exemple
US,DE,GB). Plus de 150 pays sont disponibles, donc le contenu géo-restreint et les prix localisés sont à un champ de distance.
Pour commencer
Le node est vérifié sur n8n, il n’y a donc rien à installer depuis npm ni à compiler soi-même.
- Ouvrez n’importe quel workflow et cliquez pour ajouter un node.
- Recherchez ScrapeUnblocker dans le panneau des nodes.
- Ajoutez-le, puis créez une credential avec votre clé API. Vous pouvez récupérer une clé depuis votre tableau de bord ScrapeUnblocker - les nouveaux comptes reçoivent 500 requêtes gratuites, sans carte bancaire.
C’est toute la configuration. La credential est stockée une seule fois et réutilisée par chaque node ScrapeUnblocker de votre instance.
Un premier workflow
Voici la forme d’un workflow typique de scrape-et-traitement :
- Trigger - un node Schedule qui se déclenche chaque matin, ou un Webhook, ou une exécution manuelle.
- Node ScrapeUnblocker - réglez l’opération sur Get Page Source, collez l’URL cible (ou mappez-la depuis un node précédent), et choisissez un pays de proxy si nécessaire.
- Process - injectez la sortie dans l’étape suivante. Le HTML brut va vers un node HTML Extract ; le JSON parsé va directement vers un node Set, Filter ou Code.
- Store or notify - ajoutez des lignes à Google Sheets, insérez dans une base de données, postez sur Slack, ou envoyez vers votre propre API.
Comme le node renvoie des items n8n classiques, tout ce qui se trouve en aval se comporte exactement comme avec n’importe quelle autre source de données. Vous bénéficiez gratuitement des retries, des branches d’erreur, du batching et des expressions.
Là où ça devient utile
La combinaison de la planification et du branchement de n8n avec un scraper qui ne se fait pas bloquer ouvre la voie à de nombreuses tâches récurrentes qui nécessitaient auparavant un script dédié et un serveur pour le faire tourner :
- Surveillance des prix et des stocks - scrapez les pages produits de vos concurrents selon une planification, comparez avec la veille, et alertez dès qu’un changement survient.
- Collecte de leads et d’annonces - récupérez des annonces de marketplaces ou d’annuaires dans une feuille ou un CRM sans maintenir de proxies.
- Suivi de contenu et SEO - surveillez les pages de classement, les sites d’actualités ou les sites d’offres d’emploi et acheminez les nouvelles entrées dans votre pipeline.
- Alimenter des LLMs - récupérez le contenu propre d’une page ou du JSON parsé et transmettez-le à un node IA pour résumer, classifier ou extraire.
Tout cela vit sur un seul canvas n8n, selon une planification, sans aucune infrastructure de scraping à maintenir.
Pourquoi faire passer le scraping par ScrapeUnblocker
Le node HTTP Request est excellent pour les API qui veulent être appelées. Le scraping est le problème inverse : la cible essaie activement de distinguer les bots des humains. Faire tourner des proxies, rendre le JavaScript, respecter l’ordre des cookies et des headers, et résoudre les challenges est un travail à plein temps, et cela change à chaque fois qu’un site met à jour ses défenses.
Déléguer cela à ScrapeUnblocker signifie que votre workflow cesse de se soucier de la façon dont une page est protégée. Le node demande une URL et reçoit la page en retour, que cette page soit derrière Cloudflare, DataDome, PerimeterX ou Akamai. Votre automatisation reste simple, et elle continue de fonctionner lorsque la cible renforce sa protection.
Essayez-le
Si vous utilisez déjà n8n, recherchez ScrapeUnblocker dans le panneau des nodes et connectez-le à une clé gratuite. Si vous découvrez ScrapeUnblocker, créez un compte et démarrez avec 500 requêtes gratuites - pointez le node vers un site qui vous bloque habituellement et regardez le HTML revenir propre.
Essayez ScrapeUnblocker gratuitement
Taux de réussite de plus de 99 % · à partir de 0,55 € pour 1 000 appels · 500 requêtes gratuites à l'inscription.