La valorisation des gigantesques quantités de données numériques (Big Data) est un des défis majeurs de l’économie actuelle. Celles-ci sont produites à un rythme effréné par notre société et leur stockage pose d’importants problèmes économiques et environnementaux. A défaut de pouvoir résoudre ces problèmes dans l’immédiat, il est plus que judicieux d’essayer de transformer ces Big Data en une manne économique. Cette valorisation ne peut se faire qu’en classant/triant ces énormes quantités d’information afin d’en extraire des informations pertinentes à destination de la recherche et des entreprises privées. Les travaux issus de l’étude de la matrice de Google participent à cette valorisation dans divers domaines comme par exemple la santé, le commerce international et les sciences humaines et sociales.
Un ensemble de mégadonnées peut être vu comme un réseau complexe auquel on peut associer une matrice de Google. De celle-ci, il est possible d’extraire des informations pertinentes concernant ces mégadonnées. Les auteurs de ce poster, participants du projet ApliGoogle lauréat 2016 du défi MASTODONS du CNRS (http://www.quantware.ups-tlse.fr/apligoogle/), ont participé au développement des outils statistiques d’analyse des données issus de la matrice de Google. Parmi ceux-ci, des algorithmes de classement, le CheiRank et le 2DRank (https://en.wikipedia.org/wiki/CheiRank) ont été élaborés, partageant les mêmes fondements théoriques que le PageRank proposé par Brin et Page initialement chercheurs à Stanford puis cofondateurs de l’entreprise Google. Très récemment, les auteurs de ce poster ont proposé et étudié la matrice de Google réduite associée aux mégadonnées. Cette matrice de Google réduite permet de déceler les communautés cachées d’entités dans les mégadonnées. En effet, elle permet de s’intéresser à un sous ensemble d’entités parmi toutes les mégadonnées et permet d’établir des liens cachés (liens à « longues portées ») entre deux entités a priori non directement liées.
De nombreux résultats ont été produits montrant l’efficacité de la matrice de Google pour l’analyse statistique de mégadonnées aussi variées que le Word Wide Web, Wikipédia, l’architecture logicielle du noyau linux, le commerce international, les réseaux sociaux, les réseaux de citations académiques, les réseaux neuronaux, les séquences d’ADN, et les réseaux d’Ulam. Une revue de ces résultats a été publiée dans Ermann, Frahm, Shepelyansky, Rev. Mod. Phys. 87, 1261 (2015). Fin 2015, l’analyse de la matrice de Google associée à 24 éditions linguistiques de Wikipédia a permis d’établir un classement mondial des universités (Lages, Patt, Shepelyansky, Eur. Phys. J. B (2016) 89:69) similaire au classement de l’Université Jiao Tong de Shanghai sans faire appel aux traditionnels critères comptables (prix internationaux, publications dans revues de premier plan, …). Ce classement des universités les plus influentes selon Wikipédia a été remarqué par la presse internationale dont Le Monde, MIT Technology Review, Times Higher Education, L’Etudiant, … (la page http://perso.utinam.cnrs.fr/~lages/datasets/WRWU/press/Press.html recense 99 articles de presse dans 21 pays différents). Enfin très récemment, l’étude de la matrice de Google réduite de réseaux d’interaction de protéines a permis d’identifier des interactions cachées entre protéines, qui pourraient jouer un rôle important dans le développement de certains cancers (Lages, Zinovyev, Shepelyansky, article soumis à PLoS Comput. Biol.).
La recherche de communautés cachées/d’interactions cachées dans les Big Data est une des perspectives les plus importantes et intéressantes du travail que nous développons. Nous envisageons de poursuivre l’application de la matrice de Google réduite en oncologie et projetons de l’appliquer aux sciences humaines, aux sciences sociales, et à l’étude de la stabilité du commerce international.