L'infrastructure technologique du LIST en matière d'Intelligence Artificielle (IA), d'analyse et de visualisation des données
Après une longue période de tests, le Luxembourg Institute of Science and Technology (LIST) s'apprête à lancer son infrastructure technologique en matière d'IA, d'analyse et de visualisation des données, qui regroupe plusieurs éléments : les plateformes d'IA et de Data Analytics, et le Viswall (mur de visualisation).
Anne Hendrick, chef de projet, explique : « Le nom initial DAP (pour Data Analytics Platform) regroupe plusieurs choses. Au départ, c'était le nom du projet financé par le Fonds Feder [Fonds européen pour le développement régional]. Dans ce projet, il y a trois composantes en termes d'équipement ; l'extension du HPC existant que nous allons laisser arriver à son terme mais qui fonctionnera encore pendant quelques années. Il y a le mur de visualisation, et la plateforme d'IA et d'analyse de données ».
Tous les équipements de la plateforme sont à la disposition des communautés de chercheurs mais aussi des entreprises. Cela correspond clairement au terme « infrastructure technologique » qui est un concept européen axé sur l'accélération de l'innovation, la mise à disposition de plateformes qui peuvent être génériques ou spécialisées et qui peuvent être transférées à l'industrie.
« Cette infrastructure technologique doit encore avoir un nom propre, car AI data analytics and visualisation - est trop long et nécessite un joli acronyme », a déclaré Anne. « Nous allons travailler avec LuxProvide pour proposer une offre commune qui associe l'IA, le Viswall et MeluXina [le nouveau superordinateur du Luxembourg] ».
« Cette infrastructure permet de soutenir à la fois les chercheurs du LIST et les partenaires industriels », ajoute Anne. « Elle est maintenant progressivement mise en production avec tous les services de soutien à l'écosystème et sera pleinement disponible le 1er janvier 2022. »
La technologie qui sous-tend l'infrastructure technologique d'IA, d'analyse et de visualisation des données est en fait constituée de deux éléments : l'installation de la technologie dans les locaux du LIST, avec deux clusters de calcul, et l'accès à des services de cloud fournis par des prestataires externes comme IBM et Azure.
Samuel Renault, chef de produit, a déclaré : « Lorsqu'on utilise le système, on peut le décrire comme une énorme boîte à outils pour tout ce qui nécessite des analyses de données et de l'IA. Nous avons des cas d'utilisation assez diversifiés, par exemple, un projet de collaboration industrielle où nous utilisons la force des calculs pour accélérer les opérations, ce qui nous permet d'interagir plus fréquemment avec les partenaires. Nous avons pu réduire les calculs de deux heures et demie à trois minutes et demie, ce qui constitue un véritable gain de temps ».
Samuel a donné un autre exemple d'un collègue travaillant sur les deux composants installés, pour utiliser l'IA qui produit des images de galaxies normalement prises par un télescope spatial, permettant de les produire artificiellement. « Il les a faits surtout à titre de test, pour essayer la plateforme et voir jusqu'où il était capable d'aller. Comme les résultats se sont avérés très intéressants, il a parlé à un partenaire français qui fabrique des télescopes avec des logiciels intégrés, et la société était intéressée par la mise en œuvre de ce qu'il avait développé en termes d'IA pour l'intégrer dans les télescopes qu'elle vend. Cela a débouché sur un projet FNR Bridges avec cette société française », a-t-il déclaré.
Une équipe de base d'une dizaine de personnes travaille à la mise en œuvre de cette infrastructure technologique. Il y a deux administrateurs techniques, Raynald Jadoul et Jean-Francois Merche. Un certain nombre d'utilisateurs testent la plateforme dans différents domaines, tels que l'IA, le traitement des données et l'optimisation des décisions, et résument les connaissances acquises pour les futurs utilisateurs.
De nombreux experts travaillent sur cette infrastructure technologique avec une grande expérience, et sont donc en mesure d'aider et de collaborer avec des partenaires externes et des projets européens. Une série de modules de formation sera bientôt disponible pour les futurs utilisateurs de l'infrastructure. « Nous avons donc la technologie d'un côté, la boîte à outils de l'autre, et aussi la formation à tous les niveaux, qu'il s'agisse d'information ou de sensibilisation afin d'apprendre ce que l'on peut faire avec les données, ainsi que le data scientist externe qui souhaite avoir une formation spécifique sur un outil ou un autre », a souligné Prune Gautier de l'équipe du projet.
« L'objectif de la plateforme est maintenant que tous les data scientists et toutes les personnes qui utilisent des données dans le centre de recherche utilisent cette infrastructure technologique pour leurs projets avec d'autres partenaires. Par exemple, notre plateforme peut être proposée dans des projets européens en tant qu'outil technologique central », explique Prune, avant de préciser : « ou bien elle peut être utilisée pour lancer un projet Bridges ou une collaboration avec des partenaires externes. Nous essayons maintenant de trouver tous les utilisateurs et bénéficiaires potentiels de cette plateforme. Dans les semaines à venir, nous rencontrerons les utilisateurs potentiels et leur présenterons les avantages de la plateforme, tout en écoutant leurs besoins détaillés ».
Anne a souligné qu'il existe également différents types de services proposés avec la plateforme DAP, tels que des zones de sandbox où les chercheurs peuvent tester leurs données avant de les utiliser sur le système en direct, ou un projet ayant des besoins particuliers et nécessitant un ensemble spécifique d'outils ou de composants de la plateforme. Cela signifie que l'on peut donner un accès direct à un environnement spécial dédié. « Nous pourrions avoir un chercheur qui vient parce qu'il est en train de soumettre un projet et qu'il aimerait utiliser la plateforme et là, nous pouvons l'aider à élaborer le budget pour l'utiliser ».
Comment la plateforme DAP fonctionnera-t-elle en dehors du LIST ? Samuel explique. « Nous avons deux composants installés au LIST, l'un 'open source' qui est très ouvert mais qui nécessite de bonnes connaissances techniques pour être utilisé, l'autre, 'propriétaire' qui est une technologie IBM que nous avons également installée en interne et qui est beaucoup plus accessible surtout pour les personnes qui ne sont pas trop techniques, avec des détails et des outils d'analyse de données et d'IA. C'est plutôt cette composante propriétaire que nous ouvrirons en externe sur demande, afin que les partenaires puissent développer leurs projets d'analyse de données et d'IA avec le soutien des ingénieurs et des chercheurs du LIST ».
Bien que la plateforme soit également utilisée par des partenaires externes dans un avenir proche, sa portée sera limitée au prototypage. Alors que le LIST aidera à développer des prototypes et des preuves de concept, une fois développés, les partenaires devront passer à une autre plateforme, en dehors du LIST, pour une utilisation effective en production.
En conclusion, Anne a expliqué qu'au sein de l'infrastructure, une sorte de modèle squelette de traitement des données a été créé, qui peut être adapté en fonction des besoins de chaque projet. « Par exemple, dans la boîte à outils, nous avons créé des outils spécifiquement destinés aux chercheurs et aux partenaires. Donc, disons que dans cette boîte à outils, il y a un tournevis. Nous pouvons alors fabriquer un tournevis spécifique, spécialisé, pour chaque projet ». Cela aiderait les partenaires industriels à construire plus rapidement leurs propres prototypes dans le cadre d'un test avant d'investir le principe pour transformer leurs idées en solutions viables.