Les données

Avant même qu’on pense à n’importe quelle techinique d’apprentissage statistique, il nous faut d’abord la matière première, les données. Le sujet de l’exploration des données a été très formellement introduit par John W. Tukey il y a près de quatre décennies avec son livre intitulé Exploratory Data Analysis (EDA). Les méthodes abordées dans le livre étaient approfondies et il n’existe pas beaucoup de logiciels qui incluent tout cela. Tukey a proposé certaines méthodes très efficaces d’exploration des données qui pourraient s’avérer très intéressantes pour comprendre les données avant de construire les modèles d’apprentissage machine. Il existe une grande variété de livres, d’articles et de codes logiciels qui expliquent l’exploration des données, mais nous allons nous concentrer sur les techniques qui nous aident à regarder les données avec plus de granularité et qui apportent des informations utiles pour nous aider à construire des modèles.

Procedures for analyzing data, techniques for interpreting the results of such procedures, ways of planning the gathering of data to make its analysis easier, more precise or more accurate, and all the machinery and results of (mathematical) statistics which apply to analyzing data.

—Tukey, The Future of Data Analysis [tuk]

tuk

John Tukey - Wikipedia. URL: https://en.wikipedia.org/wiki/John{\_}Tukey (visited on 2021-01-20).