DAC : Données, Apprentissage, Connaissances

Dernière mise à jour : 
Dec 1, 2015
Master II
Scolarité : 
256
 € par an
La spécialité DAC a vocation à former des acteurs armés pour concevoir, développer, mais aussi exploiter des solutions innovantes et intelligentes dans le domaine du Big Data et des Sciences de Données.

L’objectif pédagogique de la spécialité DAC est de donner des connaissances fondamentales concernant :

  • Les bases de données et le traitement, la collecte, la manipulation, la gestion de grandes quantités de données
  • La recherche d’information, et la fouille de données
  • L’intelligence artificielle, l’intelligence computationnelle
  • L’apprentissage automatique : statistique, symbolique, à partir de données imparfaites

A l’obtention du diplôme, le diplômé devra maîtriser :

  • les enjeux, les problématiques et le contexte du traitement de l’information à grande échelle
  • les outils de base de l’intelligence artificielle
  • les technologies symboliques et numériques pour l’apprentissage automatique à partir de données
  • les outils de base pour la recherche d’information
  • les différents constituants d’un outil opérationnel de fouille de données
  • le fonctionnement des moteurs de recherche, texte, image, parole, vidéo

Il sera également capable de mettre en œuvre et d’apporter de l’innovation pour la conception :

  • de systèmes de gestion, de collecte et d’analyse de données à grande échelle
  • d’outils de fouille de données, de recherche d’information, de veille technologique
  • d’algorithmes d’apprentissage automatique et de reconnaissance des formes

Du point de vue industriel, les métiers visés par la spécialité DAC sont des métiers de concepteurs, de développeurs, d'utilisateurs d'outils intelligents dans tous les domaines importants nécessitant des compétences fortes en traitement, analyse, enrichissement des données. Il peut s'agir de départements de Recherche ou de R&D. On peut citer :

  • Gestion du Web, Web advertising, Conception de plateformes sociales
  • Business Intelligence, Customer Relationship Management
  • Recherche d'informations et moteurs de recherche sur le web et dans des plateformes sociales
  • Database tuning (administrateur de BD), Data analyst, Data architect, Data manager on distributed architectures (cloud, data grid, data center), Scientific data manager, technology watch, Web architect

Les entreprises typiquement intéressées par le profil des étudiants de cette spécialité sont des acteurs du traitement de l'information industriels (OpenData, Etalab, Internet memory, Google, Yahoo !) ou acadé- miques (BNF, INA), des grandes entreprises exploitant des solutions complexes telles que SAP (Accenture, Total), de la recherche d'information et de la fouille de données (Exalead, BlogSpirit, KXEN), ainsi que des grands groupes dans des domaines divers tels que la finance... Du point du vue académique, la spécialité ouvre naturellement vers des postes d'enseignant-chercheur et de chercheur. Le but est de conserver un taux de poursuite en thèse de l'ordre de 50 %, ce qui est une spécificité de la spécialité IAD dont est issue la spécialité MLIA que nous souhaitons conserver.

Apprentissage Statistique

Ce module dresse un panorama de l’apprentissage statistique aujourd’hui. Il aborde successivement les grandes problématiques du domaine et en présente les avancées majeures des dix dernières années, en les illustrant sur des grands champs applicatifs : traitement de données textuelles et multimédia, extraction d’information à partir de données collaboratives (médias sociaux), etc. Le cours aborde successivement:

Théorie de l’apprentissage statistique, capacité de généralisation, dilemme biais-variance, etcApprentissage Supervisé : Classification, Réseaux de Neurones et Deep Learning, Machines à vecteurs de support, Méthodes à noyaux, Ranking, Problématique du passage à l’échelleApprentissage non supervisé : Partitionnement, Modèles à variables latentesAutre paradigmes d’apprentissage : Apprentissage par renforcement, Apprentissage faiblement supervisé, Apprentissage semi-supervisé et transductif, Apprentissage actif, Transfer LearningMéthodes d’ensembles: bagging, boosting, etcApprentissage et données structurées : Séquences et arbres, Graphes et données inter-dépendantes.

Apprentissage symbolique

Nous présenterons la construction d’arbres de décision, la construction de règles d’association, l’analyse formelle de concepts (Formal Concepts Analysis), les approches formelles de l’apprentissage, les fondements philosophique de l’induction et de l’abduction, la généralisation de termes et de clauses, la programmation logique inductive et la programmation logique abductive. Nous aborderons ensuite la découverte sous l’angle de la reconstruction rationnelle et sous l’angle de la fouille de données. Nous décrirons enfin des applications de l’apprentissage à l’acquisition des connaissances, à l’anticipation de comportements et à la créativité. Enfin, on traitera de l’extraction de motifs récurrents, qu’il s’agisse de motifs syntaxiques ou lexicaux, et d’alignement de textes monolingues et multilingues.

Web Sémantique

Ce cours aborde le problème de la modélisation et l’interrogation du Web Sémantique. On étudiera les fondements théoriques des standards du Web Sémantique (RDF, OWL) et leur utilisation pour l’interrogation de données. On abordera également des langages d’interrogation déductive plus récents de type Bloom et WebDamLog qui permettent la description logique de systèmes distribuées à large échelle. On présentera à la fois les propriétés formelles de ces langages (expressivité, complexité) ainsi que les problèmes de leur mise en oeuvre.

Fouille de Données et Médias Sociaux

Cette UE est partiellement enseignée par des industriels du data mining (Dataiku, Talend, …). Le module aborde diverses problématiques dans les domaines de la Business Intelligence et les données dans l’entreprise (chaînes de traitement pour l’alimentation et le contrôle de la qualité des données, ETL), la Fouille et analyse de données (industrialisation, passage à l’échelle des méthodes) , les Systèmes de recommandation (modélisation des préférences de l’utilisateur, à l’élicitation, sélection ou le rangement d’items) et les Médias sociaux (analyse, mesure, et modélisation de réseaux sociaux, fouille de données, prédiction de liens, l’inférence de classes des individus).

Modélisation et raisonnement à base de connaissances imparfaites

Les données à manipuler pour l’extraction de connaissances et l’apprentissage sont le plus souvent entachées d’imperfections, qu’elles soient imprécises, incertaines ou incomplètes. Cette UE dresse un panorama des méthodes formelles et de leur mise en oeuvre permettant d’exploiter de telles données. La première partie du cours est consacrée à diverses théories de représentation des connaissances et de raisonnement étendues pour les données imparfaites : les théories des sous-ensembles flous, des possibilités et de l’évidence sont présentées, ainsi que les extensions de la logique classique (logique floue, logique possibiliste, logique modale, logique non monotone). D’autres types de raisonnement (par analogie, interpolatif ou abductif) sont décrits. La mise en oeuvre de ces méthodes formelles constitue la seconde partie du cours. Elle traite en particulier de méthodes d’apprentissage adaptées (arbres de décision flous, clustering flou, construction de prototypes, construction de résumés…), et de techniques d’agrégation et de fusion d’informations hétérogènes.

Recherche d’Information et Moteurs de Recherche

Ce module propose d’aborder le problème de la recherche d’informations dans sa généralité en introduisant les grandes problématiques, les notions de base du domaine, les principaux modèles théoriques, les spécificités de la recherche d’information sur le texte, le multimédia (images, vidéos), le web, etc. La première partie sera consacrée aux notions de base : pré-traitements, indexation et représentation des données à contenu sémantique, modèles théoriques de recherche, filtrage, classification, bouclage de pertinence, etc, qui seront déclinées sur les différents médias. On introduira ensuite des notions plus avancées concernant les problèmes liés aux très grandes masses de données, à l’utilisation des méthodes d’apprentissage automatique qui sont aujourd’hui largement employées pour les différents problèmes de RI, et des problématiques plus récentes comme l’analyse de sentiments, l’analyse de média sociaux vue sous l’angle de la RI, l’analyse des flux d’information, l’extraction d’information à partir des données hétérogènes du web, le résumé automatique. Enfin le cours présentera les moteurs de recherche et abordera successivement les problématiques d’indexation (indexes inversés, etc), de crawling (robots sur le web, problème de scalabilité), de recherche d’information pertinente (ranking) basée sur le contenu et la structure (pagerank,…), d’évaluation de moteurs. Il aborde également la conception de moteurs de recherche spécialisés pour des domaines tels que la recherche d’articles scientifiques (CiteSeer), de formules chimiques etc. Le cours sera complété par des TD et des TP portant sur la représentation et le codage des documents texte ou multi-média, le développement de systèmes interactifs pour l’interrogation de bases de contenu, la réalisation d’un moteur de recherche qui pourra être réalisé suivant les années sur différents types de media (texte, images, vidéo) en employant des technologies récentes du domaine.

Bases de Données Large-Echelle

L’augmentation rapide de la capacité de stockage des ordinateurs a permis une véritable explosion des volumes de données stockées par les applications informatiques. Ces données sont accessibles à travers des réseaux performants pratiquement de n’importe quel point du monde. Néanmoins, l’augmentation de la capacité de stockage et de la bande passante réseau est insuffisante pour développer des applications nécessitant des interfaces d’accès et d’analyse efficaces à ces données. Le cours suivra les évolutions technologiques récentes en matières d’architectures (cloud, P2P), de modèles de stockage (BigTable, ColumnStore) et de langages (MDX,BLOOM, . . .) pour la gestion et l’analyse de données volumineuses et qcomplexes (arbres, graphes) et la programmation d’applications modernes. En même temps on abordera les principes fondamentaux et transverses autour de l’optimisation et l’administration dans les différentes infrastructures. Ces technologies pourront être mises en oeuvre dans le cadre de projets et de travaux pratiques.

Reconnaissance des formes pour l’analyse et l’interprétation d’images

L'objectif de cette UE est de présenter les théories et les algorithmes de classification et d'interprétation d'images. Outre les fondements mathématiques de la théorie de la décision bayésienne et de l'apprentissage statistique, les méthodologies de l'apprentissage supervisé, non supervisé, des théories de l'incertain et de la fusion d'informations seront présentées. Le deuxième aspect méthodologique porte sur les modèles de représentation de l'information visuelle pour la classification, depuis l'extraction des primitives visuelles jusqu'à l'interprétation finale. Enfin, des approfondissements traitant de représentations structurelles, hiérarchiques, par graphes, sémantiques, etc., seront étudiées conjointement avec des mesures de similarités avancées. Elles seront complétées avec des méthodes d'apprentissage associées (méthodes à noyaux, apprentissage profond, optimisation stochastique …). De nombreux exemples viendront illustrer les parties fondamentales de ce cours, ainsi que plusieurs applications visant à la classification de bases d'images naturelles, médicales, satellitaires ...

Lieux d'enseignement