User:ROMAN Damon/sandbox

Méthode de l'Elbow (Clustering)

Variance expliquée. Le "coude" est indiqué par le cercle rouge. Le nombre de clusters choisi devrait donc être 4.

Dans l'analyse des clusters (en), la méthode de l'Elbow est une heuristique (en) utilisée pour déterminer le nombre de clusters (en) dans un ensemble de données. La méthode consiste à tracer la variance expliquée (en) en fonction du nombre de clusters et à choisir le coude de la courbe (en) comme le nombre de clusters à utiliser. La même méthode peut être utilisée pour choisir le nombre de paramètres dans d'autres modèles basés sur les données, tels que le nombre de composantes principales (en) pour décrire un ensemble de données.

La méthode peut être attribuée à Robert L. Thorndike, qui l'a proposée en 1953.

Intuition

Utiliser le "coude" ou le "genou d'une courbe" (genou d'une courbe (en)) comme point de coupure est une heuristique courante en optimisation mathématique (en) pour choisir un point où les rendements décroissants (en) ne justifient plus le coût supplémentaire. En clustering (en), cela signifie qu'il faut choisir un nombre de clusters tel qu'ajouter un autre cluster n'améliore pas significativement la modélisation des données.

L'intuition est que l'augmentation du nombre de clusters améliore naturellement l'ajustement (explique une plus grande part de la variance expliquée (en)), car il y a plus de paramètres (en). Cependant, à un certain point, cela devient du sur-ajustement (en), et le coude reflète ce phénomène.

L'idée est que les premiers clusters ajoutent beaucoup d'information, mais dès que le nombre de clusters dépasse le nombre réel de groupes, l'information ajoutée diminue fortement. Cela crée un coude net dans le graphique de la variance expliquée (en), montrant une augmentation rapide jusqu'à k (région de sous-ajustement (en)) puis une augmentation lente au-delà de k (région de sur-ajustement (en)).

Critiques

La méthode de l'Elbow est souvent jugée subjective et peu fiable. Dans de nombreuses applications pratiques, le choix d'un "coude" est très ambigu, car le graphique ne contient pas toujours un coude net. Cela peut même se produire lorsque toutes les autres méthodes pour déterminer le nombre de clusters (en) s'accordent sur le nombre optimal.

Exemple du motif typique de "coude" utilisé pour choisir le nombre de clusters, même sur des données uniformes.

Même sur des données aléatoires uniformes (sans clusters significatifs), la courbe suit approximativement une relation de ratio 1/k, où k est le paramètre du nombre de clusters, ce qui peut induire les utilisateurs en erreur et les amener à voir un "coude" à tort et à choisir un nombre "optimal" de clusters.

En raison de l'absence de relation sémantique entre les deux axes (le nombre de clusters et la variance restante), diverses tentatives pour capturer le coude par la "pente" sont mal définies et sensibles à l'échelle des paramètres. L'augmentation du nombre maximum de clusters peut changer l'emplacement du coude perçu. Dans de nombreux cas, des heuristiques alternatives comme le critère de ratio de variance (en) ou la largeur moyenne de silhouette (en) sont considérées comme plus fiables.

Cependant, même avec ces mesures, les résultats peuvent dépendre fortement du pré-traitement des données (sélection des caractéristiques et mise à l'échelle), et il est possible que les utilisateurs obtiennent des résultats de clustering très différents pour les mêmes données.

Mesures de variation

Il existe plusieurs mesures de la variance expliquée (en) utilisées dans la méthode de l'Elbow. Le plus souvent, la variation est quantifiée par la variance (en), et le ratio utilisé est celui de la variance inter-groupe par rapport à la variance totale. Alternativement, on peut utiliser le ratio de la variance inter-groupe à la variance intra-groupe, ce qui correspond à la statistique de test F de l'ANOVA (en).

Voir aussi

Références

1. Robert L. Thorndike (Décembre 1953). "Who Belongs in the Family?". *Psychometrika*. 18 (4): 267–276.

2. Ketchen, Jr., David J.; Shook, Christopher L. (1996). "The application of cluster analysis in Strategic Management Research". *Strategic Management Journal*. 17 (6): 441–458.

3. Schubert, Erich (2023). "Stop using the elbow criterion for k-means". *ACM SIGKDD Explorations Newsletter*. 25 (1): 36–42.

4. Goutte, Cyril et al. (1999). "On Clustering fMRI Time Series". *NeuroImage*. 9 (3): 298–310.