Le Multi-Armed Bandit (MAB) est une approche d'optimisation inspirée de la théorie des probabilités qui, contrairement à l'A/B testing classique, n'attend pas la fin d'un test pour exploiter les résultats. L'algorithme alloue dynamiquement le trafic entre plusieurs variantes (bras du bandit) en temps réel : les variantes qui performent mieux reçoivent progressivement plus de trafic, tandis que celles moins performantes en reçoivent moins, tout en continuant à être testées à faible allocation pour détecter d'éventuels renversements de performance.
L'analogie du bandit manchot (slot machine) illustre le dilemme exploitation-exploration : faut-il continuer à jouer la machine qui a le plus rapporté (exploitation) ou essayer les autres pour découvrir si elles sont meilleures (exploration) ? L'algorithme MAB résout ce dilemme de manière mathématiquement optimale, minimisant les pertes de conversion pendant la phase de test. Les variantes les plus connues incluent Epsilon-Greedy (pourcentage fixe d'exploration aléatoire), Thompson Sampling et UCB (Upper Confidence Bound).
Pour les équipes marketing, le MAB est particulièrement adapté aux situations à fort enjeu de coût d'opportunité : optimisation des enchères publicitaires, tests d'objets d'email sur de grandes listes, personnalisation temps réel des pages d'accueil. Il est moins adapté aux tests nécessitant une séparation nette entre groupes (tests de prix, tests d'UX long terme) ou aux tests où l'effet d'apprentissage est important. Des plateformes comme Optimizely, VWO et certains systèmes de marketing automation intègrent désormais des fonctionnalités MAB nativement.