Accès direct au contenu

Dans :

DAVID

Imprimer la page
impression pdf

Laboratoire DAVID > Équipes > ADAM > Thématiques scientifiques

ADAM - Thématiques et objectifs scientifiques

   Les recherches de l'équipe ADAM se concentrent sur la gestion de données massives, caractérisées par une distribution à grande échelle, une forte hétérogénéité et une grande dynamicité. Qu'elles soient produites par des capteurs ou des équipements mobiles ou qu'elles soient disponibles sur le Web ou dans des bases spécialisées, la valorisation de ces données nécessite un ensemble de services à forte valeur ajoutée, comme la modélisation de données imparfaites ou incomplètes, l'intégration et la fusion de données, la définition et l'exécution de requêtes complexes et la fouille de données. Les principaux verrous associés à ces services sont (i) d'ordre sémantique (interpréter les données malgré leur hétérogénéité, leur imperfection ou l'absence de schémas pour certaines d entre elles), (ii) d'ordre calculatoire (exécuter des requêtes complexes sur des architectures distribuées à grande échelle) et (iii) d'ordre contextuel (adapter les résultats au contexte et aux préférences de l'utilisateur). L'équipe ADAM adresse les problématiques liées à ces verrous selon trois principaux axes de recherche :
La modélisation des données :
Nous nous focalisons sur la représentation de données spatio-temporelles (délivrées par des moyens de localisation et des satellites ou contenues dans des référentiels spécialisés), la représentation en flux de données de capteurs (capteurs corporels tels que montres ou bracelets, ou ambiants tels que capteurs de pollution ou d'allergènes), la nature exacte ou imparfaite de ces données ainsi que leurs liens potentiels avec les données du Web (Open Data, Linked Data, grands graphes) ou avec celles des bases spécialisées. Il s'agit, à un premier niveau, de proposer des modéles abstraits permettant d'expliciter les propriétés sémantiques de ces données et leur qualité, les conditions et les contextes éventuels de leurs usages. Dans un second niveau, d'associer à ces modèles abstraits des modèles physiques permettant l'optimisation des algorithmes et leur passage à l'échelle.
L'intégration de données et de services :
Le caractère distribué et hétérogène des données nécessite des architecture d'intégration capables de réaliser des rapprochements et des corrélations complexes entre les données. L'accès aux sources de données se fait aujourd'hui soit à travers des requêtes soit à travers des services Web, souvent interchangeables. En particulier, les problèmes de sélection de sources/services, de compréhension de leurs sémantiques respectives (qu'on dispose ou non de schémas ou de descripteurs) et de génération de patterns d'accès à leurs contenus restent des défis majeurs, exacerbés par le nombre important de sources/services. Dans le cas particulier des données ambiantes, les capteurs qui les produisent sont souvent virtualisés par des services qu il faut indexer, composer avec d'autres services et explorer par des techniques de fouille pour en extraire des connaissances et des prédictions. Nous nous intéressons aux architectures d'intégration (faible ou forte), à l'identification de sources/services de données pertinentes et à leur appariement, avec des problèmes à la fois d'efficacité (métriques de qualité et de couverture du résultat) et de performances.
Les requêtes complexes et la fouille de données :
Nous nous intéressons à la recherche agrégative d'information permettant de produire des indicateurs analytiques, des entités nommées ou des résumés de documents ou de graphes à partir de données hétérogènes. C'est une approche alternative à la recherche d'information classique, visant à produire des résultats synthétiques, composés de fragments d'informations assemblés de façon pertinente, plutôt qu'une liste classée de documents. L'interprétation, l'exécution et le choix des résultats rendus par de telles requêtes est un nouveau défi dans les «datamasses». Les requêtes analytiques comme les Top-k et Skyline, sont des précurseurs de ces requêtes, elles restent un enjeu important dans notre contexte lorsqu'on les exécute sur des flux, avec des dimensions spatio-temporelles et des préférences utilisateurs. L'analyse de masses de données complexes (graphes, trajectoires d'objets mobiles, flux de capteurs, processus) passe par des algorithmes particuliers de fouille de données. Ceux-ci permettent, par exemple, de détecter des structures fréquentes, des chemins denses ou des évènements imprévisibles ou rares, ce qui permet de déclencher des alertes ou des actions plus ou moins automatisées. Pour cela, les algorithmes de fouille doivent prendre en compte la sémantique du domaine, dont des mesures de similarité spécifiques et les sémantiques spatiales et temporelles.
 

Dernière mise à jour de cette page : 10 octobre 2015



Direction : Dominique Barth
                   +33 1 39 25 43 11
Administration : Chantal Ducoin
                             +33 1 39 25 40 56
Contactcontact.david@uvsq.fr

Adresse :
     
Laboratoire DAVID
      Bâtiment Descartes — Campus des Sciences
      Université de Versailles Saint-Quentin-en-Yvelines
      45 avenue des États-Unis
      78035 Versailles

Venir nous voir
:
    Plan d'accès
    Google map

Liens utiles :
Université Paris-Saclay

    INRIA
 
http://www.uvsq.fr