Search Concordia

Exploiter les ressources de la blogosphère

English version

Des chercheuses élaborent un outil qui synthétise le contenu de médias sociaux

Montréal, le 6 septembre 2012 – Un ordinateur pourrait-il « lire » un blogue et le comprendre? La réponse pourrait bientôt s’avérer positive grâce à des informaticiennes de l’Université Concordia.
 
Leila Kosseim, professeure agrégée à la Faculté de génie et d’informatique de Concordia, et Shamima Mithun, récemment diplômée d’un doctorat, ont en effet conçu BlogSum, un système doté d’applications potentiellement vastes.
 
Leila Kosseim, associate professor in Concordia’s Faculty of Engineering and Computer Science, and recently graduated doctoral student, Shamima Mithun
Leila Kosseim, professeure agrégée à la Faculté de génie et d’informatique de Concordia, et Shamima Mithun, récemment diplômée d’un doctorat  | Photo de l'Université Concordia 
Cet outil permet à une organisation de poser une question et de savoir comment y répondrait un grand nombre de blogueurs. Il peut en outre évaluer différents paramètres, comme les préférences des consommateurs et les intentions de vote. Pour ce faire, il analyse des sites Web contenant des réflexions personnelles et des conversations réelles, et en tire des synthèses portant exclusivement sur la question principale.
 
« Il est désormais facile d’accéder à d’énormes quantités de textes électroniques sur Internet; il y en a cependant tellement qu’on a besoin d’aide pour extraire le contenu réel caché dans la masse d’information », explique la professeure Kosseim, qui est également l’une des principales chercheuses du Laboratoire de linguistique computationnelle de Concordia. 
 
L’analyse de textes rédigés dans un contexte informel pose des défis uniques – comparativement, par exemple, aux articles de presse. Les blogues, forums et autres sites comparables contiennent en effet des opinions, des émotions et des conjectures, sans mentionner des fautes d’orthographe et des erreurs de grammaire. Un outil de synthèse doit donc tenir compte de deux problèmes précis : l’absence de rapport avec la question posée (phrases non pertinentes) et l’incohérence du discours (phrases où l’intention de l’auteur n’est pas claire).
 
BlogSum relève ces défis avec une efficacité démontrée. Les chercheuses ont créé et testé leur outil en examinant plusieurs blogues et sites d’opinion, dont elles ont traité le contenu au moyen de « relations du discours » – c.-à-d. en filtrant et en triant les phrases pour en tirer des synthèses cohérentes.
 
Le système a obtenu des résultats généralement supérieurs non seulement par rapport à des classements computationnels antérieurs, mais aussi dans le cadre d’évaluations par des utilisateurs témoins. BlogSum a produit des résumés qui réduisaient le contenu non pertinent ou incohérent et condensaient de grandes quantités de textes en comptes rendus très faciles à lire.
 
Cette étude relève du traitement du langage naturel (TLN), domaine où Concordia s’inscrit comme chef de file grâce à son Laboratoire de linguistique computationnelle. Situé au croisement de l’intelligence artificielle et de la linguistique, le TLN vise à permettre aux ordinateurs de dégager un sens à partir du langage humain.
 
« Le traitement du langage naturel est de plus en plus essentiel en informatique en raison de ses nombreuses applications au quotidien. Il permet par exemple l’élaboration de moteurs de recherche capables de trouver des documents plus pertinents ou la conception des téléphones intelligents plus ingénieux », conclut la professeure Kosseim.
 
Liens connexes :

 


Source :

Cléa Desjardins
Conseiller principal, relations avec les médias
Service de communications de l'Université Concordia
Université Concordia
Téléphone : 514 848-2424, ext. 5068
Courriel : clea.desjardins@concordia.ca
Web : concordia.ca/now/media-relations
Twitter : twitter.com/CleaDesjardins


Feedback Form