Le web scraping est une technique informatique qui consiste à extraire automatiquement des données structurées depuis des pages web, via des scripts ou des outils spécialisés qui analysent le code HTML des pages. En marketing, il sert à collecter des données concurrentielles (prix, positionnement, offres), à enrichir des bases de données (emails publics, offres d'emploi, avis clients), à surveiller les mentions de marque ou à constituer des listes de prospects depuis des annuaires publics (LinkedIn, Pages Jaunes, sites sectoriels).
Les outils de scraping vont des solutions techniques (Python + BeautifulSoup/Scrapy, Puppeteer) aux plateformes no-code accessibles aux marketeurs (Octoparse, ParseHub, PhantomBuster, Apify). Clay, l'outil de data enrichissement populaire en RevOps, intègre des capacités de scraping pour construire des listes de prospects enrichies en combinant plusieurs sources. Les proxies rotatifs et les solutions de gestion des captchas permettent de contourner les mesures anti-scraping des sites cibles.
Pour un CMO, le scraping présente des opportunités réelles de veille et d'enrichissement de données, mais aussi des risques légaux et éthiques à ne pas négliger. Le RGPD encadre strictement la collecte et l'utilisation de données personnelles, même publiques — les emails scrapés ne peuvent pas être utilisés pour du marketing direct sans consentement. Les Conditions Générales d'Utilisation de nombreux sites (LinkedIn, notamment) interdisent explicitement le scraping automatisé. Il est recommandé de consulter le service juridique avant tout projet de scraping à grande échelle et de privilégier les données de première main ou les fournisseurs de données conformes.