Clustering

Les tendances (ou patterns) d’un graphique bidimensionnel sont généralement assez faciles à voir. mais nous avons souvent affaire à des données en plus haute dimension. Nous avons donc besoin d’algorithmes pour trouver ces modèles à notre place. Le clustering est peut-être la première chose à faire avec tout ensemble de données intéressant.

Le clustering est le problème du groupement de points par similarité. Les éléments proviennent souvent d’un petit nombre de “sources” ou d‘“explications” logiques, et le regroupement est un bon moyen de révéler ces dernières. Parmi ses applications, citons :

Développement d’une hypothèse :

Si vous apprenez qu’il semble y avoir (disons) quatre populations distinctes représentées dans votre ensemble de données, vous devriez vous demander pourquoi elles sont là. Si ces cluster sont suffisamment compactes et bien séparées, il doit y avoir une raison. Une fois que vous avez attribué à chaque élément une étiquette de cluster, vous pouvez étudier plusieurs représentants du même cluster pour déterminer ce qu’ils ont en commun, ou regarder des paires d’éléments provenant de différents clusters et identifier pourquoi ils sont différents.

Modélisation sur des sous-ensembles de données plus petits :

Les ensembles de données contiennent souvent un très grand nombre d’observations \((n)\) par rapport au nombre de colonnes de caractéristiques \((m)\). Le clusteringfournit un moyen logique de partitionner un grand ensemble unique d’observations en une centaine de sous-ensembles distincts, chacun étant ordonné par similarité. Chacun de ces groupes contient encore plus d’observations qu’il n’en faut pour ajuster un modèle de prédiction, et le modèle résultant peut être plus précis sur cette classe restreinte d’éléments qu’un modèle général formé sur tous les éléments.

Réduction des données :

Le traitement de millions ou de milliards d’d’observation peut être un vrai casse-tête, que ce soit pour le traitement ou la visualisation. Considérez le coût de calcul pour identifier le voisin le plus proche d’un point d’un point donné. Une technique consiste à regrouper les points par similarité, puis à désigner le centroïde de chaque groupe pour représenter l’ensemble du groupe.

La détection des outliers:

On peut débarrasser un ensemble de données des éléments discordants par le clustering, afin que le reste reflète mieux la population souhaitée. Cette technique peut être une première étape utile pour trouver les valeurs aberrantes. Les éléments du cluster les plus éloignés du centre qui leur a été assigné ne s’y adaptent pas vraiment, mais ne s’adaptent pas mieux ailleurs non plus. Ils sont donc candidats pour être des éléments aberrants.