Ensemble method¶
Nous venons de voir que les arbres de régression sont très intuitifs. Les graphiques illustrant les arbres de décision tels que présentés précédement rendent cette méthode facile à comprendre. Cette méthode est basée sur une séquence récursive de règles de division (split).
On a vu que les prédictions sont acceptables lorsque les données sont homogènes. Cette méthode est très sensible aux données, surtout en présence de valeurs aberrantes. Cependant, en agrégeant de nombreux arbres de décision ensemble la performance de prédiction des arbres peut être considérablement améliorée.
L’idée est de créer plusieurs arbres de décision et faire ensuite de l’échantillonnage et ré-échantillonnage de ces arbres. De cette manière, en moyenne, les prédictions deviendront de moins en moins sensibles aux données et donneront de meilleures prédictions.
En effet, supposons que vous posiez une question complexe à des milliers de personnes prises au hasard, puis que vous agrégiez leurs réponses. Dans de nombreux cas, vous constaterez que cette réponse agrégée est meilleure que celle d’un expert.
C’est ce qu’on appelle la sagesse de la foule. De même, si vous regroupez les prédictions d’un groupe de prédicteurs (tels que des classificateurs ou des régresseurs), vous obtiendrez souvent de meilleures prédictions qu’avec le meilleur prédicteur individuel. Un groupe de prédicteurs est appelé un ensemble ; ainsi, cette technique est appelée apprentissage d’ensemble (ensemble Learning), et un algorithme d’apprentissage d’ensemble est appelé méthode d’ensemble (ensemble method).
Par exemple, vous pouvez former un groupe de classificateurs de type arbre de décision, chacun sur un sous-ensemble aléatoire différent de l’ensemble de formation. Pour faire des prédictions, il suffit d’obtenir les prédictions de tous les arbres individuels, puis de prédire la classe qui obtient le plus de votes (voir le dernier exercice du chapitre 6). Un tel ensemble d’arbres de décision s’appelle une forêt aléatoire et, malgré sa simplicité, c’est l’un des algo- rithmes d’apprentissage automatique les plus puissants disponibles aujourd’hui.