Collecte de données

La question la plus cruciale dans tout projet de science des données est de trouver le bon ensemble de données. Identifier des sources de données viables est un art, qui s’articule autour de trois questions fondamentales :

  • Qui pourrait réellement avoir les données dont j’ai besoin ?

  • As-t-on le droit d’y accèder? (pensons à nos données hébergées chez GAFAM, ou même) les données du gouvernement.

  • Comment puis-je y avoior accèes ?

Dans cette section, nous examinons les sources communes de données.

Propriétés des données

Dans ce cours, nous allons voir plusieurs techniques d’analyse des données. Mais commençons tout d’abord avec quelques propriétés des données, afin que nous puissions mieux apprécier et comprendre ce sur quoi nous allons travailler.

Données structurées et non structurées

Certains ensembles de données sont bien structurés, comme les tables d’une base de données ou d’un tableur Excel. D’autres part, il existe autour de nous beaucoup de données plus hétérogène. Par exemple textes des pages webs avec des images et des liens comme Wikipédia, ou un mélange compliqué de notes et de résultats de tests figurant dans les dossiers médicaux personnels.

Lorsque nous sommes confrontés à une source de données non structurée, comme une collection de tweets de Twitter, notre première étape consiste généralement à construire une matrice pour la structurer. Un modèle avec un groupe de mots construira une matrice avec une ligne pour chaque tweet, et une colonne pour chaque mot fréquemment utilisé. L’entrée de matrice \(M[i, j]\) indique ensuite le nombre de fois où le tweet \(i\) contient le mot \(j\). De telles formulations de matrice motiveront notre discussion sur l’algèbre linéaire que nous verrons un peu plus loin.

Données quantitatives et données catégorielles

Les données quantitatives consistent en des valeurs numériques, comme la taille et le poids. Ces données peuvent être incorporées directement dans des formules algébriques et des modèles mathématiques, ou affichées dans des graphiques et des tableaux conventionnels.

En revanche, les données catégorielles consistent en des étiquettes décrivant les propriétés des objets étudiés, comme le sexe, la couleur des cheveux et la profession. Ces informations descriptives peuvent être tout aussi précises et significatives que les données numériques, mais elles ne peuvent pas être utilisées avec les mêmes techniques.

Les données catégorielles peuvent généralement être codées numériquement. Par exemple, le sexe peut être représenté comme homme = 0 ou femme = 1. Mais les choses deviennent plus complexes lorsqu’il y a plus de deux catégories, surtout lorsqu’il n’y a pas d’ordre implicite entre eux. Il est possible d’encoder les couleurs de cheveux sous forme de nombres en attribuant à chaque nuance une valeur distincte, comme cheveux gris = 0, cheveux roux = 1 et cheveux blonds = 2. Cependant, nous ne pouvons pas vraiment traiter ces valeurs comme des nombres, pour autre chose que le simple test d’identité. Est-il logique de parler de la couleur maximale ou minimale des cheveux ? Quelle est l’interprétation de ma couleur de cheveux moins votre couleur de cheveux ?

Big data vs petites données

La science des données est devenue, aux yeux du public, un amalgame de big data et l’analyse d’ensembles de données massifs résultant capteurs avec la montée en popularité des objets connectés IoT. En principe, il est toujours préférable d’avoir plus de données que d’en avoir moins, car on peut toujours en garder une partie par échantillonnage pour obtenir un ensemble plus petit si nécessaire.

Le Big data sont un phénomène passionnant mais qui peut devenir complexe. Dans ce cours, il est difficile de travailler avec de grands ensembles de données car cela nécessiterait un des connaissances plus approfondies des techniques de manipulation et d’analyse de big data.

Supposons que l’on veut analyser les préférences des électeurs parmi les candidats à une élection données. L’approche du big data pourrait analyser les données massifs de Twitter ou de Facebook, en interprétant leurs tweets. L’approche classique pourrait consister à mener un sondage, à poser une question spécifique à quelques centaines de personnes et à en présenter les résultats sous forme de tableau. Selon vous, quelle procédure s’avérera la plus précise ? Le bon ensemble de données est celui qui se rapporte le plus directement aux tâches à accomplir, et pas nécessairement le plus important.

NLP Natural Language processing

Le NLP est un type particulier de données non structurées ; il est difficile à traiter car il nécessite la connaissance de linguistiques spécifiques. Même les techniques de pointe ne sont pas capables de déchiffrer le sens de chaque morceau de texte. Cela ne devrait pas être une surprise : les humains sont également aux prises avec le langage naturel. Le concept même de signification est ici discutable. Demandez à deux personnes d’écouter la même conversation. Auront-elles la même signification ? La signification des mêmes mots peut varier lorsqu’ils proviennent d’une personne bouleversée ou joyeuse.

Audio, image et vidéo

L’audio, l’image et la vidéo sont des types de données qui posent des problèmes spécifiques à un spécialiste des données. Des tâches insignifiantes pour l’homme, comme la reconnaissance d’objets dans des images, s’avèrent difficiles pour les ordinateurs. Pensez seulement à la conduite autonome, ou encore à l’exploit qu’a réussi DeepMind dans le jeux populaire Alpha Go.

Les données en continu

Bien que la diffusion de données en continu puisse prendre presque toutes les formes précédentes, elle a une propriété supplémentaire. Les données circulent dans le système lorsqu’un événement se produit au lieu d’être chargées dans une base de données par lots. Bien que ce ne soit pas vraiment un type de données différent, nous le traitons ici comme tel car vous devez adapter votre processus pour traiter ce type d’informations. Citons par exemple les “tendances” sur Twitter, les événements sportifs ou la conduite autonome.