Mission

Objectifs

L'objectif principal de Datalift est l'élévation sémantique des données brutes sur le Web. Plusieurs sous-objectifs permettent d'atteindre cet objectif principal. 1- Il est tout d'abord nécessaire de fournir les ontologies qui permettront aux fournisseurs de données de décrire leurs données. Pour cela, nous avons recherché puis développé des méthodes et des outils pour sélectionner les ontologies utiles à la description des données. 2- Cela permet alors de convertir les jeux de données brutes en RDF en conformité avec les ontologies sélectionnées. Le consortium Datalift a recherché et développé une suite d'outils intégrés qui facilite ce processus de conversion pour un très large éventail de formats de données sources (relationnel, XML, RDF, feuilles de calcul, microformats, formats géographiques, et autres formats de métadonnées). 3- Après conversion, les jeux de données deviennent des graphes : il est maintenant possible de publier les graphes dans le triple store interne constitue donc l’étape suivante pour permettre de traiter toutes les données au seul format RDF. Il faut noter que nous avons ouvert la plateforme Datalift à plusieurs triple stores open source pour ne pas en imposer un unique. 4- La puissance du web de données vient de la quantité et de la qualité, mais aussi des liens entre les ressources qu'il contient. Datalift a recherché sur ce sujet des liens entre données avec pour but d'automatiser le processus d'interconnexion. 5- Les données produites sont, in fine, publiées dans le triple store interne de Datalift, les utilisateurs terminer le processus d’élévation et exploiter les données liées résultantes. Cette exploitation peut prendre plusieurs formes : API, requêtes, exports, data visualisation.

Datalift a aussi recherché des méthodes nouvelles pour attacher des licences aux données liées. Enfin, les droits et habilitations sont gérés.

En intégrant toutes ces technologies, la plateforme Datalift fournit ainsi une chaîne complète pour le processus d'élévation et d'interconnexion de données avec pour objectif de devenir la plateforme de référence pour ce processus.

Un réseau de fournisseurs de données utilise Datalift avec pour objectif de constituer sur le Web une base de données suffisante pour la création d'applications innovantes et ainsi amener d'autres fournisseurs à élever leurs données.

Verrous techniques et scientifiques

Pour voir le Web de données émerger, il est nécessaire de fournir des méthodes et outils sur toute la chaine du processus d'élévation sémantique. Si des outils existent à différents niveaux de ce processus, une plateforme complète permettant l'automatisation du processus restait à développer. La recherche d'ontologies, les métriques de qualité d'une ontologie et les mesures de similarité entre ontologies sont trois domaines de recherches déconnectés. Datalift s'est attaqué au problème de connecter ces trois domaines dans le but de développer une méthode efficace de sélection d'ontologies.

Afin de parvenir à interconnecter les données, Datalift s’est donné pour cible l'automatisation complète du processus avec validation des résultats par un expert. L'analyse des méthodes semi-automatiques utilisées actuellement montre trois problèmes majeurs à dépasser : permettre d'aligner les ontologies dans le cas où l'on a des ontologies hétérogènes, déterminer les propriétés clefs permettant d'identifier de manière unique les ressources à aligner, et finalement de sélectionner les mesures de similarité appropriées pour comparer les valeurs de ces propriétés.

Le traitement des licences et des informations sur la provenance des données RDF rend nécessaire d'étendre à la fois la syntaxe et la sémantique de ce formalisme. Il est aussi nécessaire d'étendre les mécanismes de requête pour pouvoir retrouver et suivre ces informations.

Résultats attendus

Datalift va construire un catalogue d'ontologies facilitant la tâche des fournisseurs de données consistant à sélectionner les ontologies nécessaires pour décrire leurs données. Ce catalogue inclura des fonctionnalités de recherche de concept, qualité d'ontologie et similarité d'ontologies. Datalift va de plus fournir une suite d'outils de conversion des données qui permettra la conversion semi-automatique des données brutes en RDF. Cette suite d'outils intègrera intelligemment plusieurs outils de conversion et sera capable de sélectionner automatiquement l'outil correspondant à la source de données à convertir. Datalift va aussi développer une suite d'outils pour l'interconnexion automatique de jeux de données. Utilisant ces outils, une expérimentation d'interconnexion de jeux de données à grande échelle sera conduite sur les données de la plateforme et d'autres jeux de données. Une infrastructure pour stocker et accéder aux données sera mise en place, incluant une suite d'outils permettant de naviguer dans les données et d'interagir avec elles. En étendant les formalismes de description et de requête du web sémantique pour la gestion des licences et des informations de provenance, nous nous attendons à surmonter l'un des principaux obstacles pour que les fournisseurs de données publient leurs données. Avoir des informations sur les licenses leur permettra de garder les droits sur leurs données.