Mission

Objectifs

L'objectif principal de Datalift est d'amorcer l'élévation sémantique des données brutes sur le Web. Plusieurs sous-objectifs permettent d'atteindre cet objectif principal: il est tout d'abord nécessaire de fournir les ontologies qui permettront aux fournisseurs de données de décrire celles-ci. Nous recherchons et développons des méthodes et outils permettant aux fournisseurs de données de sélectionner les ontologies permettant de décrire leurs données. Il est aussi nécessaire de convertir les données brutes en RDF en conformité avec les ontologies sélectionnées. Le consortium de Datalift recherche et développe une suite d'outils intégrés qui facilitera le processus de conversion pour un large éventail de formats de données sources (relationel, XML, feuilles de calcul, microformats, et autres formats de métadonnées). La puissance du web de données venant de la quantité et de la qualité des liens entre les resources qu'il contient, Datalift va rechercher sur ce sujet avec pour but d'automatiser le processus d'interconnexion. Datalift va aussi rechercher des méthodes nouvelles pour attacher des licenses aux données liées. En intégrant toutes ces technologies, la plateforme Datalift va fournir une chaine complète pour le processus d'élévation sémantique des données avec pour objectif de devenir la plateforme de référence pour ce processus. Datlift va finalement publier les données à travers un réseau de fournisseurs de données, et avec pour objectif de constituer une base de données sur le Web suffisante pour la création d'applications innovantes et ainsi d'amener d'autres fournisseurs à élever leurs données.

Verrous techniques et scientifiques

Pour voir le Web de données émerger, il est nécessaire de fournir des méthodes et outils sur toute la chaine du processus d'élévation sémantique. Si des outils existent à différents niveaux de ce processus, un plateforme complète permettant l'automatisation du processus reste à développer. Recherche d'ontologies, métriques de qualité d'une ontologie et mesures de similarité entre ontologies sont trois domaines de recherches déconnectés. Datalift va s'attaquer au problème de connecter ces trois domaines dans le but de développer une méthode efficace de sélection d'ontologies. Pour ce qui est d'interconnecter les données, Datalift a pour cible l'automatisation complète du processus avec validation des résultats par un expert. L'analyse des méthodes semi-automatiques utilisées actuellement montre trois problèmes majeurs à dépasser: permettre d'aligner les ontologies dans le cas où l'on a des ontologies hétérogènes, déterminer les propriétés clefs permettant d'identifier de manière unique les ressources à aligner, et finalement de selectionner les mesures de similarité appropriées pour comparer les valeurs de ces propriétés. Du coté des licences et des informations sur la provenance des données RDF, il est nécessaire d'étendre à la fois la syntaxe et la sémantique de ce formalisme. Il est aussi nécessaire d'étendre les mécanismes de requête pour pouvoir retrouver et suivre ces informations.

Résultats attendus

Datalift va construire un catalogue d'ontologies facilitant la tâche des fournisseurs de données consistant à sélectionner les ontologies nécessaires pour décrire leurs données. Ce catalogue inclura des fonctionnalités de recherche de concept, qualité d'ontologie et similarité d'ontologies. Datalift va de plus fournir une suite d'outils de conversion des données qui permettra la conversion semi-automatique des données brutes en RDF. Cette suite d'outils intègrera intelligemment plusieurs outils de conversion et sera capable de sélectionner automatiquement l'outil correspondant à la source de données à convertir. Datalift va aussi développer une suite d'outils pour l'interconnexion automatique de jeux de données. Utilisant ces outils, une expérimentation d'interconnexion de jeux de données à grande échelle sera conduite sur les données de la plateforme et d'autres jeux de données. Une infrastructure pour stocker et accéder aux données sera mise en place, incluant une suite d'outils permettant de naviguer dans les données et d'interagir avec elles. En étendant les formalismes de description et de requête du web sémantique pour la gestion des licences et des informations de provenance, nous nous attendons à surmonter l'un des principaux obstacles pour que les fournisseurs de données publient leurs données. Avoir des informations sur les licenses leur permettra de garder les droits sur leurs données.