Bagging¶

L’algorithme bagging pour bootstrap aggregating a été introduit par \cite{Breiman1996}. Il permet d’abord de réduire la variance, et donc réduire l’erreur de prédiction. Ces principes s’appliquent à toutes les méthodes de modélisation telles que la régression ou la classification. Toutefois, ils sont plutôt associés aux arbres de décision comme modèle de base.

Rappelons-nous que si nous avons un ensemble de observations indépendantes, chacune avec une variance , alors la variance de la moyenne des observations est donné par . Cette nouvelle variance est réduite de . Or, si nous appliquons ce concept aux arbres de décision, nous créons plusieurs arbres de décision appliqués sur plusieurs données d’entraînement. Ainsi le résultat de prédiction devient beaucoup moins variable. Toutefois, ce n’est pas très pratique, car nous ne pouvons pas disposer de parties de données d’entraînement.

Nous pouvons toutefois appliquer la méthode bootsrap que nous avons vue dans les sections précédentes, nous faisons un échantillonnage avec remise sur la partie des données d’entraînement afin de créer pseudo-parties de données d’entraînement, nous appliquons un arbre de régression sur chaque échantillon afin d’avoir qui est la prédiction au point .

Soit une variable réponse qui peut prendre des valeurs numérique ou qualitative, des variables explicatives et un modèle de fonction , on note le nombre d’observations et

un échantillon de loi . Si nous tirons échantillons indépendants notés , la prédiction par agrégation de modèles est alors définie comme

Dans le cas où la variable réponse est quantitative. Cette méthode est alors appelée bagging \cite{wuthrich2017data}. Ainsi, elle réduit la variance et donc l’erreur de prédiction. Toutefois, considérer échantillons indépendants est irréaliste, il faudrait alors un très grand nombre de données. L’algorithme bagging est présenté ci-dessous;

Exemple;¶

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(random_state=42), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1, random_state=42)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)

      
    

from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred))

0.904

tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
y_pred_tree = tree_clf.predict(X_test)
print(accuracy_score(y_test, y_pred_tree))

0.856

ACT6100

Bagging¶

Exemple;¶