Site institutionnel du CNRS|attribut_html
Le rendez-vous de l’innovation

Les Partenaires
des Innovatives

Ministère de l'éducation nationale de l'enseignement supérieur et de la recherche ABG - L'intelli'agence Fist SA

Rechercher




Accueil > Big Data > Innovatives Big Data > Espace Exposition - Posters > Valeurs des données

Matrice de Google pour la valorisation des Big Data

par Benjamin LEVAUX - WEBMASTER FREELANCE - publié le , mis à jour le

Matrice de Google pour la valorisation des Big Data

José Lages - Maître de conférences, Institut UTINAM UMR 6213 CNRS, Université de Franche-Comté, jose.lages chez utinam.cnrs.fr, http://perso.utinam.cnrs.fr/~lages/, 0652436082
Dima Shepelyansky - Directeur de recherche 1 CNRS, Laboratoire de Physique Théorique de Toulouse UMR 5152 CNRS, Université de Toulouse, dima chez irsamc.ups-tlse.fr, http://www.quantware.ups-tlse.fr/dima/, 0561556068
Klaus Frahm - Professeur, Laboratoire de Physique Théorique de Toulouse UMR 5152 CNRS, Université de Toulouse, frahm chez irsamc.ups-tlse.fr, 0561557663
Katia Jaffrès-Runser - Maître de conférences, Institut de Recherche en Informatique de Toulouse UMR 5055 CNRS, Université de Toulouse, kjr chez enseeiht.fr, https://www.irit.fr/~Katia.Jaffres/, 0534322190
Andrei Zinovyev - Ingénieur de recherche, Cancer et génome : bioinformatique, biostatistiques et épidémiologie, U900 INSERM, Institut Curie, Paris, Andrei.Zinovyev chez curie.fr, http://www.ihes.fr/~zinovyev/, 0156246989

UMR 6213 CNRS - Institut UTINAM
UMR 5152 CNRS - Laboratoire de Physique Théorique de Toulouse
UMR 5055 CNRS - Institut de Recherche en Informatique de Toulouse
U900 INSERM - Cancer et génome : bioinformatique, biostatistiques et épidémiologie

Matrice de Google pour la valorisation des Big Data

La valorisation des gigantesques quantités de données numériques (Big Data) est un des défis majeurs de l’économie actuelle. Celles-ci sont produites à un rythme effréné par notre société et leur stockage pose d’importants problèmes économiques et environnementaux. A défaut de pouvoir résoudre ces problèmes dans l’immédiat, il est plus que judicieux d’essayer de transformer ces Big Data en une manne économique. Cette valorisation ne peut se faire qu’en classant/triant ces énormes quantités d’information afin d’en extraire des informations pertinentes à destination de la recherche et des entreprises privées. Les travaux issus de l’étude de la matrice de Google participent à cette valorisation dans divers domaines comme par exemple la santé, le commerce international et les sciences humaines et sociales.

Un ensemble de mégadonnées peut être vu comme un réseau complexe auquel on peut associer une matrice de Google. De celle-ci, il est possible d’extraire des informations pertinentes concernant ces mégadonnées. Les auteurs de ce poster, participants du projet ApliGoogle lauréat 2016 du défi MASTODONS du CNRS (http://www.quantware.ups-tlse.fr/apligoogle/), ont participé au développement des outils statistiques d’analyse des données issus de la matrice de Google. Parmi ceux-ci, des algorithmes de classement, le CheiRank et le 2DRank (https://en.wikipedia.org/wiki/CheiRank) ont été élaborés, partageant les mêmes fondements théoriques que le PageRank proposé par Brin et Page initialement chercheurs à Stanford puis cofondateurs de l’entreprise Google. Très récemment, les auteurs de ce poster ont proposé et étudié la matrice de Google réduite associée aux mégadonnées. Cette matrice de Google réduite permet de déceler les communautés cachées d’entités dans les mégadonnées. En effet, elle permet de s’intéresser à un sous ensemble d’entités parmi toutes les mégadonnées et permet d’établir des liens cachés (liens à « longues portées ») entre deux entités a priori non directement liées.

De nombreux résultats ont été produits montrant l’efficacité de la matrice de Google pour l’analyse statistique de mégadonnées aussi variées que le Word Wide Web, Wikipédia, l’architecture logicielle du noyau linux, le commerce international, les réseaux sociaux, les réseaux de citations académiques, les réseaux neuronaux, les séquences d’ADN, et les réseaux d’Ulam. Une revue de ces résultats a été publiée dans Ermann, Frahm, Shepelyansky, Rev. Mod. Phys. 87, 1261 (2015). Fin 2015, l’analyse de la matrice de Google associée à 24 éditions linguistiques de Wikipédia a permis d’établir un classement mondial des universités (Lages, Patt, Shepelyansky, Eur. Phys. J. B (2016) 89:69) similaire au classement de l’Université Jiao Tong de Shanghai sans faire appel aux traditionnels critères comptables (prix internationaux, publications dans revues de premier plan, …). Ce classement des universités les plus influentes selon Wikipédia a été remarqué par la presse internationale dont Le Monde, MIT Technology Review, Times Higher Education, L’Etudiant, … (la page http://perso.utinam.cnrs.fr/~lages/datasets/WRWU/press/Press.html recense 99 articles de presse dans 21 pays différents). Enfin très récemment, l’étude de la matrice de Google réduite de réseaux d’interaction de protéines a permis d’identifier des interactions cachées entre protéines, qui pourraient jouer un rôle important dans le développement de certains cancers (Lages, Zinovyev, Shepelyansky, article soumis à PLoS Comput. Biol.).

La recherche de communautés cachées/d’interactions cachées dans les Big Data est une des perspectives les plus importantes et intéressantes du travail que nous développons. Nous envisageons de poursuivre l’application de la matrice de Google réduite en oncologie et projetons de l’appliquer aux sciences humaines, aux sciences sociales, et à l’étude de la stabilité du commerce international.

Téléchargez le poster