Le Bagging en Machine learning, de quoi s’agit-il ?

Le bagging est une méthode de Machine Learning permettant d’améliorer la performance et la stabilité des algorithmes. On peut utiliser le bagging en régression comme en classification. Il permet de réduire la variance du modèle et de limiter son surapprentissage. La prédiction finale prend en effet en considération l’ensemble des modèles entraînés pour réaliser sa prédiction finale. En classification, on parle d’un “vote des modèles”.

19 janvier 2022

Le bagging est une méthode de Machine Learning permettant d’améliorer la performance et la stabilité des algorithmes. On peut utiliser le bagging en régression comme en classification. Il permet de réduire la variance du modèle et de limiter son surapprentissage. La prédiction finale prend en effet en considération l’ensemble des modèles entraînés pour réaliser sa prédiction finale. En classification, on parle d’un “vote des modèles”.

Définition du Bagging

Le bagging est un méta-algorithme faisant partie des méthodes ensemblistes : partant d’un algorithme de Machine Learning, il utilise de multiples fois cet algorithme pour obtenir un résultat plus fiable. Concrètement, le bagging réalise un échantillonnage des données et entraîne l’algorithme de façon séparée sur chacun de ces échantillons. Il assemble ensuite les résultats des modèles obtenus.

Combiner les prédictions

Le mot bagging est la contraction de « Bootstrap Aggregating ». C’est un concept qui est appliqué dans le domaine du Machine Learning ou du data mining prédictif. Il permet de combiner les prédictions réalisées à partir de plusieurs modèles, en utilisant le même algorithme pour différents échantillons des données d’apprentissage. On utilise également le bagging pour apporter des solutions aux problèmes liés à l’instabilité des résultats quand des modèles complexes sont appliqués à des jeux de données de faible volume.

Weak and strong learner

Technique de l’intelligence artificielle, le bagging consiste en l’assemblage d’un grand nombre d’algorithmes ayant de faibles performances individuelles. Le but est de créer une performance plus efficace. On utilise le terme « weak learners » pour évoquer les algorithmes de faible performance qui permettent un seul grand algorithme appelé « strong learner ».

Le bagging est donc une méthode particulièrement mise en pratique pour améliorer l’apprentissage des arbres de décision, considérés comme des « classifieurs faibles » car ils ont des performances limitées et sont assez instables (de faibles changements dans les données peuvent fortement modifier l’apprentissage du modèle).

Méthode du bagging détaillée

Grâce aux méthodes de type bagging, il est possible de construire plusieurs instances d’estimateurs qui sont calculées sur des échantillons aléatoires découlant de la base d’apprentissage. Celle-ci combine ensuite les prédictions individuelles en calculant leur moyenne afin de réduire la variance de l’estimateur. Cela favorise la construction d’une meilleure version de l’algorithme de base sans passer par la modification de l’algorithme en question. Les méthodes bagging connaissent aussi un bon fonctionnement avec des prédicteurs « forts ».

Bagging et arbres de décision : la random forest ou forêt aléatoire

C’est le caractère aléatoire du bagging qui donne son nom à la forêt aléatoire, ou random forest. L’algorithme de Random Forest est simplement le bagging d’arbres de décisions (arbres de régression ou de classification).

Chaque arbre est entraîné sur un sous-ensemble du dataset et donne un résultat. Tous les arbres de décision aboutissent à des résultats qui sont combinés afin de donner une réponse finale. Pour faciliter la compréhension, on peut dire que chaque arbre « vote » oui ou non. Et c’est la réponse finale qui obtient la majorité de votes.

Crédit image : Gytis Jonaitis – Dribbble

Voir aussi

Introduction au Machine Learning

Voir aussi

Introduction au Machine Learning

Qu’est-ce que le MLOps ?

Comment déployer en production des modèles de Machine Learning de façon fiable, efficace et...

Machine Learning Avancé

Coefficient de détermination, R2 score

Le R2 score, également appelé R-squared, R-carré ou Coefficient de détermination, est une...

Le Bagging en Machine learning, de quoi s’agit-il ?

Définition du Bagging

Combiner les prédictions

Weak and strong learner

Méthode du bagging détaillée

Bagging et arbres de décision : la random forest ou forêt aléatoire

Qu’est-ce que le MLOps ?

Que sont les réseaux de neurones ?

Qu’est-ce qu’une régression linéaire ?

Qu’est-ce que le Machine Learning ?

Voir aussi

Qu’est-ce que le MLOps ?

Coefficient de détermination, R2 score

Laisser un commentaire Annuler la réponse