Mission

Objectifs

L'objectif principal de Datalift est d'amorcer l'élévation sémantique des données brutes sur le Web. Plusieurs sous-objectifs permettent d'atteindre cet objectif principal: il est tout d'abord nécessaire de fournir les ontologies qui permettront aux fournisseurs de données de décrire leurs données. Nous avons recherché puis développé des méthodes et des outils permettant aux fournisseurs de données de sélectionner les ontologies utiles à la description de leurs données. Cela permet de convertir les données brutes en RDF en conformité avec les ontologies sélectionnées. Le consortium de Datalift a recherché et développé une suite d'outils intégrés qui facilite le processus de conversion pour un large éventail de formats de données sources (relationnel, XML, RDF, feuilles de calcul, microformats, formats géographiques, et autres formats de métadonnées). La puissance du web de données venant de la quantité et de la qualité, des liens entre les ressources qu'il contient, Datalift va rechercher sur ce sujet avec pour but d'automatiser le processus d'interconnexion. Datalift a aussi recherché des méthodes nouvelles pour attacher des licenses aux données liées. En intégrant toutes ces technologies, la plateforme Datalift fournit une chaîne complète pour le processus d'élévation et d'interconnexion des données avec pour objectif de devenir la plateforme de référence pour ce processus. En final, Datalift publie les données à travers un réseau de fournisseurs de données, et avec pour objectif de constituer une base de données sur le Web suffisante pour la création d'applications innovantes et ainsi d'amener d'autres fournisseurs à élever leurs données.

Verrous techniques et scientifiques

Pour voir le Web de données émerger, il est nécessaire de fournir des méthodes et outils sur toute la chaine du processus d'élévation sémantique. Si des outils existent à différents niveaux de ce processus, un plateforme complète permettant l'automatisation du processus reste à développer. Recherche d'ontologies, métriques de qualité d'une ontologie et mesures de similarité entre ontologies sont trois domaines de recherches déconnectés. Datalift va s'attaquer au problème de connecter ces trois domaines dans le but de développer une méthode efficace de sélection d'ontologies. Pour ce qui est d'interconnecter les données, Datalift a pour cible l'automatisation complète du processus avec validation des résultats par un expert. L'analyse des méthodes semi-automatiques utilisées actuellement montre trois problèmes majeurs à dépasser: permettre d'aligner les ontologies dans le cas où l'on a des ontologies hétérogènes, déterminer les propriétés clefs permettant d'identifier de manière unique les ressources à aligner, et finalement de selectionner les mesures de similarité appropriées pour comparer les valeurs de ces propriétés. Du coté des licences et des informations sur la provenance des données RDF, il est nécessaire d'étendre à la fois la syntaxe et la sémantique de ce formalisme. Il est aussi nécessaire d'étendre les mécanismes de requête pour pouvoir retrouver et suivre ces informations.

Résultats attendus

Datalift va construire un catalogue d'ontologies facilitant la tâche des fournisseurs de données consistant à sélectionner les ontologies nécessaires pour décrire leurs données. Ce catalogue inclura des fonctionnalités de recherche de concept, qualité d'ontologie et similarité d'ontologies. Datalift va de plus fournir une suite d'outils de conversion des données qui permettra la conversion semi-automatique des données brutes en RDF. Cette suite d'outils intègrera intelligemment plusieurs outils de conversion et sera capable de sélectionner automatiquement l'outil correspondant à la source de données à convertir. Datalift va aussi développer une suite d'outils pour l'interconnexion automatique de jeux de données. Utilisant ces outils, une expérimentation d'interconnexion de jeux de données à grande échelle sera conduite sur les données de la plateforme et d'autres jeux de données. Une infrastructure pour stocker et accéder aux données sera mise en place, incluant une suite d'outils permettant de naviguer dans les données et d'interagir avec elles. En étendant les formalismes de description et de requête du web sémantique pour la gestion des licences et des informations de provenance, nous nous attendons à surmonter l'un des principaux obstacles pour que les fournisseurs de données publient leurs données. Avoir des informations sur les licenses leur permettra de garder les droits sur leurs données.