Le Data Cleaning (ou nettoyage de données) regroupe l'ensemble des opérations visant à détecter, corriger ou supprimer les données erronées, incomplètes, mal formatées ou dupliquées dans un dataset. C'est une étape préalable indispensable à toute analyse fiable, qu'il s'agisse de segmentation client, de scoring de leads ou de modélisation prédictive.
En marketing, les problèmes les plus fréquents incluent les adresses e-mail invalides, les doublons de contacts dans le CRM, les champs géographiques incohérents (pays/région qui ne concordent pas), les valeurs aberrantes dans les données comportementales et les enregistrements fragmentés issus de multiples points de capture. Un CRM non nettoyé peut dégrader significativement les taux de délivrabilité e-mail et fausser les modèles de scoring.
Les outils dédiés (OpenRefine, Trifacta, ou les fonctions ETL des plateformes BI) automatisent une grande partie de ce travail, mais la dimension humaine reste irremplaçable pour définir les règles métier (qu'est-ce qu'un "bon" numéro de téléphone ? quand deux contacts sont-ils vraiment identiques ?). Un processus de data cleaning régulier — idéalement intégré dans les pipelines de données — est un prérequis pour tout programme de marketing data-driven mature.