Le développement des réseaux sociaux tels que Facebook, Twitter, Linkedin a favorisé le développement d’outils pour l’analyse automatique des graphes de grandes tailles. Le principe non supervisé consiste à analyser les interactions entre individus (topologie) afin d’extraire des informations pertinentes permettant de synthétiser l’information. Les informations résumées prennent alors la plupart du temps la forme de clusters d’individus ayant des profils de connexion similaires. Les physiciens ont depuis les années 90 développé des outils permettant de chercher des clusters à l’aide d’un critère appelé modularité. Maximiser ce critère conduit à construire des structures particulières appelées communautés où le nombre de connexions entre individus d’un même cluster est plus élevé qu’entre des individus de clusters différents. Les réseaux connus sont souvent construits à partir de communautés, mais également à partir de clusters d’autres types, tels que des hubs ou des étoiles. Pour répondre à ce problème, de nombreux modèles de graphes aléatoires ont été proposés ainsi que des méthodes d’inférence associées. Malheureusement ces modèles ne caractérisent que la construction d’arêtes simples (binaires, discrètes, catégorielles, réelles) permettant de représenter les relations entre individus. Nous proposons ici d’étendre les modèles existants de manière à pouvoir intégrer et analyser l’intégralité des documents échangés entre des individus. Ces échanges peuvent correspondre à des messages sur des réseaux sociaux, mais également à des emails envoyés. L’objectif reste le même : trouver des clusters d’individus ayant des profils de connexion similaires. En revanche, nous considérons le terme « profil » au sens plus large. La présence d’arêtes, ainsi que les contenus en mots associés, jouent un rôle dans l’extraction automatique des clusters. L’inférence du modèle proposé est réalisée à l’aide d’un algorithme de type Classification-Variational Expectation Maximisation (C-VEM). Nous illustrons dans cette présentation la méthodologie développée. En particulier, nous considérons le réseau d’emails de l’entreprise Enron. Ce réseau contient l’intégralité des emails échangés entre 149 employés de l’entreprise, entre 1999 et 2002. En septembre 2001, l’entreprise est décrite dans un rapport comme étant dans une situation parfaite, sous tous les aspects. En octobre 2001, une enquête est ouverte suite à des soupçons de fraudes. Finalement, en décembre 2001, l’entreprise fait faillite. Notre méthodologie, en intégrant l’intégralité des emails échangés, met en évidence de nombreux aspects connus de la crise Enron. Il met également en avant des aspects moins évidents. En particulier, nous montrons qu’un groupe d’employés évoquent en des termes particuliers, ses activités en Afghanistan.
Nous proposons de présenter ce travail à l’aide de notre prototype. Notre méthode est développée en C++ / R et nous avons également une interface permettant de manipuler très facilement les résultats d’une analyse. L’idée est de montrer directement aux entreprises comment analyser leur données avec ce logiciel. Il n’existe pas d’approches concurrentes actuellement, ni dans le domaine académique, ni dans le privé.