Site institutionnel du CNRS|attribut_html
Le rendez-vous de l’innovation

Les Partenaires
des Innovatives

Ministère de l'éducation nationale de l'enseignement supérieur et de la recherche ABG - L'intelli'agence Fist SA

Rechercher




Accueil > Big Data > Innovatives Big Data > Espace Exposition - Posters > Traitement - visualisation des données

L@ME – Logiciel d’@nalyse de messages électroniques

par Benjamin LEVAUX - WEBMASTER FREELANCE - publié le , mis à jour le

L@ME – Logiciel d'@nalyse de messages électroniques

Frédéric Vergnaud - Ingénieur d’études, Mines Paristech, PSL Research University, Centre de Sociologie de l’Innovation, i3 CNRS UMR 9217, frederic.vergnaud chez mines-paristech.fr, 01.40.51.92.83

I3 UMR 9217

L@ME – Logiciel d’@nalyse de messages électroniques

La collecte automatique de données (CAD), qui vise à utiliser des techniques informatiques en vue de faciliter la constitution de bases de données (Hobelka & Oilion, 2012) connaît depuis une vingtaine d’années un développement très important dans les Sciences Humaines et Sociales. Elle est devenue un enjeu majeur dans l’exploration de nouveaux terrains de recherche : listes de discussion, forums en ligne, billets de blogs, commentaires ou réseaux sociaux.

La plupart de ces données conversationnelles sont disponibles publiquement en ligne, directement visibles par les internautes, et de nombreux algorithmes de repérage et d’extraction de ces données ont été développés depuis le début des années 2000 : VIPS Algorithm (Cai et al., 2003), l’élimination du bruit dans les pages web (Yi & Li, 2003), Block Importance Model (Song et al., 2004), IESS Algorithm (Li et al., 2009), Web Page analysis Based on HTML DOM(Györödi et al., 2010), Block-o-Matic (Sanoja & Gançarski, 2013).

Le développement d’un outil unique, générique, pour les extraire se heurte cependant à un obstacle majeur : la diversité des techniques de programmation sous-jacentes qui structurent ces données à l’aide des balises HTML. En effet, aux balises conventionnelles <table> (tableau), se sont ajoutées les balises <div> (division), <li> (listes à puce), qui se trouvent être des balises très employées et souvent pour beaucoup d’autres emplois que la structuration de données.

L@ME se propose d’intégrer nativement ces structures, puisqu’elles sont directement implémentées dans le logiciel. Actuellement, celui-ci permet l’extraction de données issues des messages électroniques (formats eml, emlx, mbx, mbox et mboxrd), ainsi que de forums en ligne reposant sur les plateformes PhpBB et SMF (Quality Posts, 2010). La conception (pattern MVC) de L@ME et son langage de programmation objet (Java) lui permettent une souplesse d’intégration de nouveaux modèles de structure, au fur et à mesure des demandes des chercheurs. Il propose en outre une première vision statistique des données, ainsi qu’une fonction d’export au format csv compatible avec tous les tableurs.

L@ME a déjà été intégré avec succès à plusieurs projets de recherche, et son développement futur permettra une semi-automatisation du repérage des balises de structuration des données, par l’adjonction d’un plugin intégré au navigateur de l’utilisateur.

Téléchargez le poster

Références :

D. Cai, S. Yu, J.-R. Wen, W.-Y. Ma, « VIPS : a Vision-based Page Segmentation Algorithm », Microsoft Technical Report, MSR-TR-2003-79, 2003.
R. Györödi, C. Györödi, G. Pecherle, G. Mihai Cornea, « Web page analysis based on HTML DOM and its usage for forum statistics, alerts and geo targeted data retrieval », WSEAS Transactions on Computers, Volume 9 Issue 8, August 2010, Pages 822-831.
A. Hobelka et E. Oilion, « Vers une "data-sociologie" », 2012, billet du blog Quanti / sciences sociales, http://quanti.hypotheses.org/647/#_ftn3
W. Li, Y. Dong, R. Wang, H. Tian, « Information Extraction from Semi-structured WEB Page Based on DOM Tree and its Application in Scientific Literature Statistical Analysis System », SSME, 2009, Services Science, Management and Engineering, IITA International Conference on, Services Science, Management and Engineering, IITA International Conference on 2009, pp. 124-127, 2009.
Quality Posts, Etude de marché, 2010 : PhpBB représente 77% des forums en ligne, SMF en représentant 2%. http://www.qualityposts.com/ForumMarketShare.php.
A. Sanoja, S. Gançarski, « Block-o-Matic : a web Page Segmentation Tool and its Evaluation ». Short article, demo, poster. 2013. <hal-00881693>
R. Song, H. Liu, J.-R. Wen, W.-Y. Ma, « Learning block importance models for web pages », Proceedings of the 13th international conference on World Wide Web, Pages 203-211, 2004.
L. Yi, B. Liu, X. Li, « Eliminating Noisy Information in Web Pages for Data Mining. », Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-2003), Washington, DC, USA, August 24 - 27, 2003.

Partenaires Innovatives Big Data

EDF Thalès Cap Digital

Avec le soutien du GDR

Madics