Le Bagging en Machine learning, de quoi s’agit-il ?

Le bagging est une méthode de Machine Learning permettant d’améliorer la performance et la stabilité des algorithmes. On peut utiliser le bagging en régression comme en classification. Il permet de réduire la variance du modèle et de limiter son surapprentissage. La prédiction finale prend en effet en considération l’ensemble des modèles entraînés pour réaliser sa prédiction finale. En classification, on parle d’un “vote des modèles”.
Bagging en machine learning - Illustration
Sommaire

Le bagging est une méthode de Machine Learning permettant d’améliorer la performance et la stabilité des algorithmes. On peut utiliser le bagging en régression comme en classification. Il permet de réduire la variance du modèle et de limiter son surapprentissage. La prédiction finale prend en effet en considération l’ensemble des modèles entraînés pour réaliser sa prédiction finale. En classification, on parle d’un “vote des modèles”.

Définition du Bagging 

Le bagging est un méta-algorithme faisant partie des méthodes ensemblistes : partant d’un algorithme de Machine Learning, il utilise de multiples fois cet algorithme pour obtenir un résultat plus fiable. Concrètement, le bagging réalise un échantillonnage des données et entraîne l’algorithme de façon séparée sur chacun de ces échantillons. Il assemble ensuite les résultats des modèles obtenus.

Définition bagging

 

Combiner les prédictions

Le mot bagging est la contraction de « Bootstrap Aggregating ». C’est un concept qui est appliqué dans le domaine du Machine Learning ou du data mining prédictif. Il permet de combiner les prédictions  réalisées à partir de plusieurs modèles, en utilisant le même algorithme pour différents échantillons des données d’apprentissage. On utilise également le bagging pour apporter des solutions aux problèmes liés à l’instabilité des résultats quand des modèles complexes sont appliqués à des jeux de données de faible volume.

Weak and strong learner

Technique de l’intelligence artificielle, le bagging consiste en l’assemblage d’un grand nombre d’algorithmes ayant de faibles performances individuelles. Le but est de créer une performance plus efficace. On utilise le terme « weak learners » pour évoquer les algorithmes de faible performance qui permettent un seul grand algorithme appelé « strong learner ».

Le bagging est donc une méthode particulièrement mise en pratique pour améliorer l’apprentissage  des arbres de décision, considérés comme des « classifieurs faibles » car ils ont des performances limitées et sont assez instables (de faibles changements dans les données peuvent fortement modifier l’apprentissage du modèle). 

Méthode du bagging détaillée

Grâce aux méthodes de type bagging, il est possible de construire plusieurs instances d’estimateurs qui sont calculées sur des échantillons aléatoires découlant de la base d’apprentissage. Celle-ci combine ensuite les prédictions individuelles en calculant leur moyenne afin de réduire la variance de l’estimateur. Cela favorise la construction d’une meilleure version de l’algorithme de base sans passer par la modification de l’algorithme en question. Les méthodes bagging connaissent aussi un bon fonctionnement avec des prédicteurs « forts ».

Bagging et  arbres de décision : la random forest ou forêt aléatoire

C’est le caractère aléatoire du bagging qui donne son nom à la forêt aléatoire, ou random forest. L’algorithme de Random Forest est simplement le bagging d’arbres de décisions (arbres de régression ou de classification). 

Chaque arbre est entraîné sur un sous-ensemble du dataset et donne un résultat. Tous les arbres de décision aboutissent à des résultats qui sont combinés afin de donner une réponse finale. Pour faciliter la compréhension, on peut dire que chaque arbre « vote » oui ou non. Et c’est la réponse finale qui obtient la majorité de votes.

 

Crédit image : Gytis Jonaitis – Dribbble

Sommaire

Voir aussi

Voir aussi

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *