La modélisation

Dans cette section, nous examinerons les classes de modèle. Commençons par les principales questions techniques qui se posent pour distinguer chaque classe.

Modèles linéaires vs non-linéaires

Les modèles linéaires sont régis par des équations qui pondèrent chaque variable de variable par un coefficient \(\beta\) reflétant son importance, et qui additionnent ces valeurs pour produire une valeur. Des techniques d’apprentissage machine, tel que la régression linéaire peut être utilisée pour identifier les meilleurs coefficients possibles afin d’ajuster les données d’entrainement, ce qui donne des modèles assez impressionnants.

Mais en général, le monde n’est pas linéaire. Des descriptions mathématiques plus riches incluent des polynômes d’ordre supérieur, des logarithmes et des exponentielles. Elles permettent des modèles qui s’adaptent aux données d’entraînement beaucoup plus étroitement que les fonctions linéaires ne le peuvent.

D’une manière générale, il est beaucoup plus difficile de trouver les meilleurs coefficients possibles pour adapter les modèles non linéaires. Mais nous n’avons pas à trouver le meilleur ajustement possible : les méthodes d’apprentissage approfondi, basées sur les réseaux de neurones, offrent d’excellentes performances malgré les difficultés inhérentes à l’optimisation.

Certaines nouveaux data scientist rient souvent au mépris de la simplicité des modèles linéaires. Mais les modèles linéaires offrent des avantages que les autres modèles n’offrent pas. Ils sont facilement compréhensibles, généralement défendables, faciles à construire et avec des résultats interprétables.

Modèles Blackbox vs descriptifs

Les modèles Blackbox donnent des résultats impressionnants, mais d’une manière un peu obscure. Des données entrent à gauche, des résultats sortent à droite sans comprendre vraiment le pourquoi de la mesure du résultat.

En revanche, les modèles descriptifs sont plus préférables, c’est-à-dire qu’ils donnent un aperçu des raisons pour lesquelles ils prennent leurs décisions. Les modèles axés sur la théorie sont généralement descriptifs, car ils sont des mises en œuvre explicites d’une théorie particulière bien développée. Si vous croyez à la théorie, vous avez une raison de faire confiance au modèle sous-jacent et aux prédictions qui en résultent.

Certains modèles d’apprentissage machine s’avèrent moins opaques que d’autres. Les modèles de régression linéaire sont descriptifs, car on peut voir exactement quelles variables reçoivent le plus de poids, et mesurer combien elles contribuent à la prédiction qui en résulte. Les modèles d’arbre de décision permettent de suivre le cheminement exact de la décision utilisée pour effectuer une classification.

Mais malheureusement, les techniques de modélisation de type blackbox telles que l’apprentissage profond peuvent être extrêmement efficaces sans vraiment comprendre pourquoi.

Modèles plats vs non-hiérarchiques

Des problèmes intéressants existent souvent à plusieurs niveaux différents, chacun d’eux pouvant nécessiter des sous-modèles indépendants. La prédiction du prix futur d’une action particulière devrait en fait faire appel à des sous-modèles pour analyser des questions distinctes telles que (a) l’état général de l’économie (b) le bilan de l’entreprise et (c) les performances des autres entreprises de son secteur industriel.

Imposer une structure hiérarchique à un modèle permet de le construire et de l’évaluer de manière logique et transparente, plutôt que comme une boîte noire. Certains sous-problèmes se prêtent à des modèles théoriques de premier ordre, qui peuvent ensuite être utilisés comme caractéristiques d’un modèle général axé sur les données. Les modèles explicitement hiérarchiques sont descriptifs : on peut remonter jusqu’au sous-problème de premier niveau approprié pour prendre une décision finale et indiquer dans quelle mesure il a contribué à l’obtention du résultat observé.

La première étape pour construire un modèle hiérarchique consiste à décomposer explicitement notre problème en sous-problèmes. Ceux-ci représentent généralement les mécanismes régissant le processus sous-jacent modélisé. De quoi le modèle doit-il dépendre? Existe-t-il des données et des ressources permettant de créer un sous-modèle? Sinon, on peut le laisser comme modèle nul ou comme base de référence, et décrire explicitement l’omission lors de la documentation des résultats.

Les modèles d’apprentissage profond peuvent être considérés comme étant à la fois plats et hiérarchiques. Ils sont généralement formés sur de grands ensembles de données non lavées, de sorte qu’il n’y a pas de définition explicite des sous-problèmes pour guider le sous-processus. Considéré dans son ensemble, le réseau ne fait qu’une chose. Mais parce qu’ils sont construits à partir de plusieurs couches imbriquées (les plus profondes dans l’apprentissage profond), ces modèles supposent qu’il y a des caractéristiques complexes à apprendre des entrées de niveau inférieur.

Modèles data-driven vs de base

Les modèles de base sont conçus sur la connaissance du domaine. Il peut s’agir d’une explication théorique. De tels modèles peuvent utiliser tout le poids des mathématiques classiques.

En revanche, les modèles basés sur des données sont basés sur les corrélations observées entre les variables explicatives et la variable réponse. Les méthodes d’apprentissage machine permettent de construire un modèle efficace dans un domaine dont on ne sait rien, à condition d’avoir les données nécessaires.

La vérité est que les meilleurs modèles sont un mélange de théorie et de données. Il est important de comprendre votre domaine aussi profondément que possible, tout en utilisant les meilleures données possibles afin d’adapter et d’évaluer vos modèles.