Pouvez-vous imaginer qu’il soit possible de combiner des données provenant de satellites et radars avec les millions d'informations issues des flux Twitter ou messages Facebook dans le but d'obtenir des cartes de prévisions météorologiques plus précises?
C’est l’objectif de l’une des récentes «success stories» du LIST: le projet PUBLIMAPE, financé par le Fonds National de la Recherche (FNR).
Pierrick Bruneau, du département IT for Innovative Services du LIST, explique le raisonnement à l’origine de l'idée de PUBLIMAPE: "Nous savons comment obtenir des images radar visibles par satellite pour analyser les informations sur les inondations, les feux de forêt, et tous ces types de phénomènes. Cependant, mon domaine est très différent. Je travaille principalement sur le Machine Learning (ou apprentissage automatique) et la science des données via des contenus générés par les utilisateurs, c’est-à-dire l'analyse de données textuelles et multimédia".
Il est encore difficile de fournir des prévisions fiables, en particulier dans les zones urbaines à forte population, à partir de simples images satellites en raison de limitations inhérentes à la télédétection. Cette technologie peut, par exemple, faire face à des problèmes tels que les réflexions des signaux radar. Du point de vue des réseaux sociaux, le constat est opposé: plus une zone est urbaine, plus la population est importante, et plus il y a de contenu et d'informations disponibles.
"A un moment donné, l'idée est venue en pensant que bien que ce type d'analyse puisse être fait depuis l'espace, il existe aussi une autre voie avec des contenus provenant de Twitter ou Facebook, où les gens publient des choses sur ce qui leur arrive. Une partie pourrait ainsi être liée à des événements catastrophiques ou similaires, donc pourquoi ne pas combiner ces sources? Vous avez d’un côté la télédétection et les mesures de divers types de sources de données, et de l’autre l'ajout de données sociales qui pourraient améliorer la prévision et caractérisation de ce type d'événements," explique Pierrick.
Si la télédétection traite de faits et de chiffres, les réseaux sociaux ne sont-ils cependant pas un "chaos" d'informations pouvant être correctes comme erronées? "L'une des principales difficultés est de savoir comment isoler ce qui est pertinent pour les événements que nous avons mentionnés, et ce, en supposant que nous ayons suffisamment de contenu car ces informations ne fonctionnent que pour les zones urbaines. C'était d’ailleurs l'une des raisons d'être du projet", déclare Pierrick. "Mais surtout - et nous l'avons découvert au cours du projet à travers un cas réel qui s'est produit en 2017 – il s’agit vraiment de trouver une, voire quelques aiguilles, dans une immense botte de foin !", déclare Pierrick.
Le cas étudié était l'ouragan Harvey qui s'est produit entre mi-août et mi-septembre 2017. La région américaine du fleuve Colorado, entre Columbus et le golfe du Mexique, a été ainsi analysée. Le projet pilote a utilisé cette approche novatrice à deux facettes pour l’analyse de cette catastrophe naturelle responsable d’inondations majeures.
"Une grande partie de notre travail, du point de vue de la science des données, consiste à obtenir ces aiguilles. La question étant: Comment isoler le contenu non pertinent de ma grande base de données de Tweets, en sachant que lors de la collecte je ne peux savoir ce qui est pertinent ou non?" déclare Pierrick.
Le projet PUBLIMAPE se focalise actuellement sur cette problématique. Les chercheurs s’intéressent notamment aux moyens d'ajuster les variables et de passer au crible les informations pour localiser les informations pertinentes, avant de les introduire à la télédétection.
Cependant, Pierrick explique que le système ne se contente pas de traiter du texte, mais aussi des images: "Nous utilisons également les images que nous collectons. Vous avez en effet des liens à partir de Twitter qui renvoient vers Instagram, un endroit où il est possible de retrouver beaucoup d'images. Nous mettons donc en place des modèles qui peuvent détecter si une image peut être utilisée ou non, et proposer quelque chose de multimodal".
Qu'en est-il des questions linguistiques lorsque nous travaillons avec des plateformes mondiales de réseaux sociaux? "Dans le cas pilote, nous nous sommes concentrés sur l'anglais. Etant donné que la catastrophe a eu lieu au Texas, nous avons aussi découvert un petit peu d'espagnol. Le marqueur de langue de Twitter permet toutefois d’exclure ces éléments. Au départ, le problème du multilinguisme n'a pas été pris en compte dans le projet, il est donc important de prévoir, en quelque sorte, une extension pour y remédier", précise Pierrick.
"En termes de contribution, le LIST gère la quasi-totalité du projet, environ 90%. Dans le domaine de la télédétection, Patrick Matgen, Marco Chini et Renaud Hostache, spécialistes de ce type de données, sont impliqués. Il était aussi important que je m’intéresse à cette branche pour avoir une vue d’ensemble. Des personnes issues du groupe Data Processing travaillent également avec moi sur le projet, dont Thomas Tamisier, qui est le responsable du projet, et Etienne Brangbour, qui est doctorant au LIST.
Les contributions extérieures se portent sur la supervision des doctorants ainsi que sur les cartes d'inondation simulées, qui permettent l’établissement de prévisions grâce aux données de télédétection. Le directeur de thèse est un professeur de l'Université de Genève spécialisé en Machine Learning. Les cartes d'inondation pour le cas pilote ont été fournies par des solutions de télédétection. Enfin, le comité de pilotage comprend des personnes représentatives des parties prenantes. Ces dernières ne sont cependant pas impliquées dans le projet en tant que tel."
"En ce qui concerne la production, nous avons pu publier quelques articles. À un moment donné, nous avons mis en œuvre une vaste action de gestion des données Twitter, c'est-à-dire de collecte de données et de stockage dans des bases de données adaptées, ainsi que de construction de certains modèles linguistiques", souligne Pierrick avant de préciser que "toutes les fonctionnalités que nous avons mises en place dans le logiciel nous permettent de gérer et digérer ces données Twitter afin qu'elles aient plus de sens par rapport à leur forme originale, mais aussi pour construire des cartes et d'autres résultats exploitables".
Pierrick explique ensuite que les réseaux sociaux se comportent et réagissent différemment. A titre d’exemple, l’absence d’accès à un flux d’informations général et ouvert sur Facebook rend ce réseau social compliqué d’un point de vue technique. "L'avantage de Twitter est qu'il est assez public, donc nous avons la possibilité de faire des recherches et d’avoir accès à tout ce qui est publié, tandis que cela n’est pas possible avec Facebook. Cela était possible avant que Facebook ne change son modèle économique, désormais basé sur le maintien du secret de l'information," explique-t-il.
La philosophie de Twitter est en effet différente. Bien qu'ils gagnent toujours de l'argent grâce à la publicité comme Facebook - notamment avec des publicités qui apparaissent dans les flux - Pierrick indique que la gestion reste plus facile. "Si vous voulez récupérer les détails des Tweets actuellement envoyés, vous avez la possibilité de le faire gratuitement, mais si vous voulez une requête dans le passé, vous devez payer. C'est particulièrement intéressant pour les grandes entreprises, comme dans l'industrie alimentaire par exemple. Nous avons donc aussi dû payer pour cela. Cependant, nous avons toujours la possibilité d'obtenir des données brutes, et c'est d’ailleurs ce qui nous intéressait", conclut Pierrick.
Pierrick Bruneau travaille au sein de l'unité "Data Science and Analytics" du département ITIS du LIST. Il est titulaire d’un master en sciences informatiques, obtenue à Polytech Nantes (France) en 2007. Il a également obtenu un doctorat de l'Université de Nantes en 2010, et a mené des recherches postdoctorales au CEA LIST (Saclay, France). Au LIST depuis près de 8 ans, il a contribué à plusieurs projets financés sur l'annotation et l'analyse de données multimédia, ainsi que sur le Machine Learning en lien avec des applications environnementales, telles que celles préconisées dans Publimape. Ses intérêts de recherche vont de l'estimation bayésienne à l'analyse visuelle, en passant par l'ingénierie des réseaux neuronaux (dite "IA"), ainsi que la mise à l'échelle des algorithmes de Machine Learning à l'aide d'Ordinateurs à Haute Performance (de l’anglais : High Performance Computers) et de matériel GPU.