La simulation par Bootstrap

Parmi les techniques de ré-échantillonnage les plus utilisées, on trouve le bootstrapping, le jackknif et les tests de permutation.

Ces méthodes permettent d’estimer la précision d’un échantillon statistique (médiane, variance, quantile) en utilisant des sous-ensembles des données disponibles (jackknife) ou en effectuant un tirage aléatoire avec remise, à partir de ce même ensemble de données (bootstrap).

La méthode bootstrap a été introduite dans les années 1970 lorsque les calculs informatiques commençaient à être de plus en plus accessibles. Avec cette méthode, les statisticiens pouvaient alors mesurer la sensibilité des estimations des mesures de dispersions (variance, écart-type) aux particularités de l’échantillon étudié. Cette méthode de simulation crée de nouveaux échantillons à partir de l’échantillon de base.

Bootstrap non paramétrique

Supposons que nous ayons les observations \(Y_{1},Y_{2},\ldots ,Y_{n}\) i.i.d tirées d’une fonction de distribution inconnue. On peut alors construire un estimateur:

\[\hat{\theta}_n=g(Y_{1},Y_{2},\ldots ,Y_{n}).\]

On voudrait alors analyser les propriétés de \(\hat{\theta}_n\) pour un quelconque ensemble \(A\);

(10)\[\mathbb{P}\left[\widehat{\theta}_{n} \in A\right]=\mathbb{P}\left[g\left(Y_{1}, \ldots, Y_{n}\right) \in A\right]=\int \mathbb{1}_{\left\{g\left(y_{1}, \ldots, y_{n}\right) \in A\right\}} d F_{\mathbf{Y}}\left(y_{1}, \ldots, y_{n}\right)\]

Puisque nous ne connaissons pas \(F\), nous ignorons complètement ses propriétés, nous choisissons alors une approximation empirique de la fonction de distribution des observations par,

\[ \hat{F}_n\left(x \right)= \frac{1}{n} \sum_{i=1}^{n}\mathbb{1}_{\left\{ Y_i \leq x \right\}} \]

On simule alors directement de la distribution empirique \(\hat{F}_n\) au lieu de \(F\). Cette simulation donne lieu à l’algorithme suivant \cite{wuthrich2017data};

On peut alors utiliser la distribution \(F_{\hat{\theta}_n}^{\ast}\) comme une estimation de la distribution de \(\hat{\theta}_n\) que nous avons définie à l’équation (10). Nous estimons alors,

(11)\[ \mathbb{P}\left[\hat{\theta}_n \in A \right]=\mathbb{P^\ast}\left[\hat{\theta}_n \in A \right]=\frac{1}{M} \sum_{m=1}^{M}\mathbb{1}_{\left\{ \hat{\theta}_n^{m^{\ast}} \right\}}.\]

Bootstrap paramétrique

Avec la méthode bootstrap paramétrique, nous faisons une hypothèse sur la fonction de distribution paramétrique \(F=F_{\theta}\) avec le paramètre inconnu \(\theta\) pour les observations iid, \(Y_{1},Y_{2},\ldots ,Y_{n}\) . On peut construire notre estimateur,

\[ \hat{\theta}_n=g(Y_{1},Y_{2},\ldots ,Y_{n}) \]

L’algorithme devient alors,

On estime ainsi la distribution de \(\hat{\theta}_n\) de manière analogue à l’équation (11).

À partir des années 1990, l’idée d’appliquer le bootstraping sur les arbres de décision a commencé à faire son apparition. Cette idée permet de tirer plusieurs avantages tels que la réduction de la variance (loi des grands nombre) ainsi que d’obtenir d’autres estimations statistiques.