L’intérêt pour cette technologie part d’un constat simple : la classification des entreprises dans des secteurs d’activité, lors de leur enregistrement sur les marchés, est loin d’être suffisante pour appréhender la diffusion des informations et s’assurer d’être correctement diversifié à tout instant.
Si cette classification n’est pas optimale, c’est parce que le compromis entre stabilité des classes (qui permet de suivre facilement sa diversification intersectorielle) et pertinence de celles-ci n’est pas bien équilibré.
La proposition de valeur est donc la suivante : réorganisons les entreprises en groupements (clusters) au sein desquels les titres semblent exposés aux mêmes facteurs, et faisons en sorte que chacun de ces clusters se ressemble le moins possible.
---
Le saviez-vous ? Ces articles existent aussi au format vidéo ! C'est le cas pour l'ensemble des articles de la playlist Big Data, écrit par Etienne Monceau.
Algorithmiquement, ce travail est relativement simple. Les modèles de clustering sont nombreux et conduisent à des résultats très satisfaisants. En particulier, le clustering ascendant hiérarchique, associé à la méthode de Ward, regroupe les titres de manière itérative en veillant à minimiser l’inertie intra-groupe et maximiser l’inertie inter-groupe.
Il reste cependant à définir la donnée utilisée et la mesure de similarité servant à quantifier la ressemblance entre deux éléments. On pourrait débattre longtemps des choix les plus judicieux à faire, mais pour cette introduction, restons simples et proches de ce qui vous parlera le plus.
Nous partirons donc de la matrice de corrélation calculée sur la base des rendements historiques. Chaque entreprise sera représentée par un vecteur dont les valeurs sont les coefficients de corrélation de cette entreprise avec toutes les autres. La mesure de similarité utilisée sera la distance euclidienne entre ces différents vecteurs.
Le clustering ascendant hiérarchique présente deux grands avantages :
- Il n’est pas nécessaire de définir un nombre de groupements avant de lancer l’algorithme.
- Il permet de visualiser le regroupement progressif à l’aide d’un dendrogramme, offrant ainsi une compréhension intuitive de la structure du marché à un instant t et la possibilité de déterminer le nombre optimal de clusters à partir de cette structure.

Dendrogramme Clustering Ascendant Hierarchique avec la méthode de Ward. Données : matrice de corrélation. Mesure de similarité : Distance euclidienne. Source : Zonebourse.
Dans l’exemple ci-dessus, on réalise un clustering ascendant hiérarchique sur l’échantillon des entreprises du CAC 40. Le dendrogramme montre que le premier groupe formé est [ACA.PA – BNP.PA], soit Crédit Agricole SA et BNP Paribas. Suivent ensuite LVMH et Hermès, Legrand et Schneider, etc.
En suivant l’arborescence depuis la base, on peut observer ces regroupements progressifs. Choisir un nombre de clusters revient à tracer une ligne horizontale sur le dendrogramme.
Si l’on décide de former deux groupes, la ligne horizontale correspondante serait placée ainsi :
Pour quatre groupes, voici le résultat :

Avec cet outil open source que j'ai crée, vous pouvez conduire cette analyse sur l’échantillon de votre choix : renseignez simplement vos tickers Yahoo Finance et la période d’analyse. Vous pouvez aussi sélectionner un nombre de clusters ; ce paramètre ne changera pas le dendrogramme affiché, seulement la couleur des entreprises (leur appartenance clusterielle) dans le graphique dynamique.
Notre introduction s’arrête là. Revenons à notre recherche et à la critique de cette solution en tant que prétendante pour remplacer la classification sectorielle.
Dans le cadre de cet article, notre champ d’étude se restreint aux entreprises composant le S&P 500 sur l’année 2021. Pour simplifier, nous partirons sur un nombre de groupements équivalent au nombre de secteurs de niveau 1 dans la classification Reuters, soit 10.
Un simple regard sur les heatmap de corrélation pré-clustering (organisée par secteur d'activité) et post-clustering suivants permet d’appréhender l’efficacité de l’algorithme.

Matrice de corrélation (présentée sous forme de Heatmap) des entreprises du S&P500 sur l’année 2021. Les entreprises sont triées par secteur d’activité TBRC niveau 1. Source : Zonebourse.

Matrice de corrélation (présentée sous forme de Heatmap) des entreprises du S&P500 sur l’année 2021. Les entreprises sont triées par appartenance aux différents clusters (les clusters 8 et 9 étant trop petits pour être visualisés).
Cela fonctionne relativement bien ! En revanche, ce travail ne suffit pas à démontrer la pertinence d’un tel outil dans la pratique. Nous réorganisons ici les titres sur la base de leurs rendements historiques, or les corrélations sont loin d’être constantes dans le temps. Que se passerait-il si l’on reconduisait exactement la même démarche sur l’année 2022 ? Comment les groupes se redéfiniraient-ils ? Observerait-on beaucoup de migrations ?
C’est là que les choses deviennent intéressantes. Contrairement aux modèles de classification, qui définissent des règles fixes pour déterminer une classe, les modèles de clustering produisent des groupements sans véritable identité stable : celle-ci dépend des titres composant les clusters à un instant t. Le problème, c’est que ces clusters se redéfinissent en permanence.
Ainsi, à l’inverse de la classification sectorielle, on obtient ici une solution pertinente mais instable, difficilement exploitable dans la gestion moyen-long terme. Il faudrait recalculer chaque jour ou chaque semaine son exposition aux différents groupements.
Il faut donc rajouter de la stabilité.
Mon intuition était la suivante : découper la période d’analyse en plusieurs sous-périodes légèrement chevauchantes (overlap). Sur chacune d’elles, j’applique le même algorithme de clustering, puis j’associe les clusters des différentes sous-périodes afin de créer des lignées de clusters dont on peut suivre l’évolution.

Exemple d'association de clusters calculés sur différentes sous-périodes. On prend ici le CAC40 et 5 clusters pour une question de visualisation (ce schéma date de 2021 à l'inverse des dendrogrammes récents en haut de cet article). Source : Zonebourse.
Pour relier ces clusters, j’ai utilisé la distance de Jaccard, qui mesure la proportion d’éléments communs entre deux groupes.
Nous pouvons ainsi compter le nombre d’occurrences de chaque entreprise dans chaque lignée. Cela permet de distinguer les entreprises “cœurs”, formant l’identité d’une lignée, des entreprises satellites, plus instables, qui migrent d’un cluster à l’autre.
Chaque cluster statistique peut donc être structuré en strates : cœur et satellites.

Représentation des clusters avec leurs strates. Schéma pédagogique avec entreprises coeurs et satellites. Source : Zonebourse.
Pour démontrer l’intérêt pratique de cette procédure, il faut l’évaluer. La méthode retenue ici est simple : chaque année est découpée en sous-périodes de 90 jours avec un chevauchement de 30. Ces paramètres servent à créer les lignées et donc les clusters statistiques de l’année n. On enregistre leurs compositions, puis, une année plus tard, on compare les corrélations intra-cluster et inter-cluster à celles intra-secteur et inter-secteur, sur la base des rendements de l’année n+1.
Le processus est répété pour chaque année entre 2010 et 2022, et les médianes des corrélations sont comparées à l’aide d’un test de Mood afin de vérifier la significativité statistique. En gros, la rigueur scientifique nous amène à considérer uniquement les années encadrées en noir dans le tableau ci-dessous.
Ce qu’il faut observer, ce sont les ratios d’organisation (médiane intra / médiane inter). Si le ratio des clusters est supérieur à celui des secteurs, cela signifie qu’il est plus pertinent de raisonner en termes de clusters qu’en termes de secteurs.

Résultats, avec contrainte sur le nombre de clusters (10). Source : Zonebourse.
Bon, on est d’accord, ce n’est pas terrible ! 3 points pour la méthode, 2 pour la classification sectorielle. Mieux vaut éviter de s’embêter et utiliser les secteurs !
Mais pas si vite.
Jusqu’ici, nous avons fixé le nombre de clusters à 10, par commodité. Or, faire cela revient à ignorer la dynamique des marchés. Si notre objectif est de réorganiser ces marchés, pourquoi se contraindre sur le nombre de groupements créés ? On peut très bien accepter de réajuster cette organisation chaque année.
Voici donc les résultats lorsque l’on optimise le nombre de clusters sur la base des ratios d'organisation de l'année de construction des clusters.

Résultats, sans contrainte sur le nombre de clusters. Source : Zonebourse.
Bingo ! Sur les 9 années où les tests statistiques valident les médianes, 8 donnent raison à la découpe en clusters.
Bon maintenant, comment une équipe de gestion peut-elle utiliser ce genre d’outil ?
Concrètement, à la fin de chaque année, une nouvelle découpe du marché est donnée par l’outil, avec la composition de chacun des groupes et les différentes strates (on aurait pu d’ailleurs réaliser les mêmes tests, mais qu’avec les cœurs de clusters, plus stables). Le gérant peut donc calculer son exposition clusterielle et l’a monitorer en temps réel, en la comparant par exemple à l’exposition de l’indice de référence qu’il doit battre.
Le hedge fund peut quant à lui mettre en place une stratégie de pair trading de volatilité, en jouant le retour à la normale quand un titre qui fait partie d’un cœur de cluster statistique se met à migrer.
Je laisse libre cours à votre imagination…
Dans le futur, je reviendrai surement vers vous pour vous en dire plus sur ce qui se fait de mieux dans le domaine du market partitionning qui me passionne tant. Aujourd’hui on aura planté des bases. Et j’espère que ça vous a plu !























