Data Science option Apprentissage Statistique

Dernière mise à jour : 
Dec 1, 2015
Diplôme Grande École
Scolarité : 
2300
 € par an
La filière Sciences des Données couvre l'ensemble des domaines liés à l'exploitation, la gestion et l'analyse de grands volumes de données, structurées et non structurées.

Le Cycle Master du Campus Paris se compose de 4 semestres dont un est dédié au stage d’ingénieur.

Les enseignements du Cycle Master sont organisés en unités d’enseignement (UE) structurées en 13 filières qui couvrent l’ensemble des domaines de compétence de l’École, par exemple : Intelligence Artificielle et Sciences Cognitives - Ingénierie financière – Image - Nouvelles Technologies de l'IP, Réseaux Multiservices – Management de projet – Photonique – Signal - Communications aérospatiales. Les étudiants doivent choisir une filière obligatoire en 2e année et des UE équivalentes en volume ainsi que des options en 3e année.

À ces enseignements scientifiques s’ajoutent des obligations en languesformation humaine, culture générale et droit.

Des exemples de débouchés naturels sont les métiers de data scientist ou analyste des données, d'ingénieur statisticien, d'administrateur de bases de données, ou les domaines de recherche et R&D en apprentissage statistique, gestion de données, extraction de données, fouille de données, mathématiques de l'apprentissage.

Premier semestre, période 1

SD 201 Exploration des grands volumes de données (24 heures)

Le cours présentera des algorithmes pour l'analyse et l'exploration des données, en se focalisant sur les aspects pratiques et théoriques de l'exploration des grands volumes de données. Pendant le cours, les élèves se familiariseront avec les algorithmes les plus efficaces pour le partitionnement de données, ranking, règles d'association, systèmes de recommandation, ainsi que les algorithmes pour la détection des communautés et des événements intéressants dans les réseaux sociaux. Les élèves travailleront dans un projet où ils implémenteront certains algorithmes précédemment mentionnées dans un cluster Hadoop (l'un des systèmes les plus efficaces pour traiter des grands volumes de données), et analyseront des données du monde réel.

SD 202 Bases de données (24 heures)

Les bases de données sont depuis plusieurs années le noyau central de tout système d'informations. Apparus dans les années 80, les systèmes relationnels n'ont pas cessé d'évoluer. L'objectif de ce cours est de faire comprendre le fondement des Bases de Données, leur conception et leur exploitation. Il est centré sur les systèmes relationnels qui représentent aujourd'hui la technologie la plus aboutie dans ce domaine. Les techniques qui sont présentées mettent en évidence des concepts importants, tels que : Les modèles de données L’algèbre relationnelle et le langage SQL La théorie de la normalisation et la structuration des données L'intégrité et la cohérence des données. etc.

Premier semestre, période 2

SD 203 Développement Web (24 heures)

L'objectif de cette unité d'enseignement est d'être capable de développer des sites Web dynamiques, modernes, robustes, sûrs. Les thèmes abordés sont: Internet et le Web, les langages de base du Web (HTML, CSS, JavaScript), les contenus dynamiques riches, la programmation côté serveur et les frameworks, les frameworks côté client et AJAX, le lien avec les bases de données (MySQL), la sécurité des sites Web et l’ergonomie du Web. Le cours sera évalué sur la base de travaux pratiques.

SD 204 Statistique : modèles linéaires (24 heures)

Nous commencerons dans ce cours par traiter le modèle linéaire simple (des moindres carrés) avant de présenter le cadre général qui englobe entre autre la régression logistique. Par la suite, nous considérerons les problèmes d'estimation et de tests dans ces modèles. Enfin dans une dernière partie nous présenterons la problématique de la sélection de variables dans un tel contexte, en s'appuyant principalement sur la régularisation/pénalisation L1 (Lasso) et sur les méthodes de sélection gloutonnes (ou « greedy » en anglais).

Deuxième semestre, période 3

SD 210 Bases de l'apprentissage statistique (classification, prédiction) (24 heures)

L’apprentissage statistique s’intéresse à l’inférence de modèles pour la reconnaissance de formes, la prédiction et le diagnostic, dans un cadre probabiliste et statistique. Dans ce cours, l’étudiant apprendra d’abord à poser un problème d’apprentissage supervisé (classification et régression) en le formulant comme un problème d’optimisation de critères statistiques, à développer un algorithme d’apprentissage approprié et à évaluer la fonction de classification ou de régression ainsi construite. Les principaux modèles et algorithmes de l’apprentissage supervisé tels que le perceptron, SVM/SVR, arbre, méthodes d’ensemble) seront étudiés ainsi que quelques approches génératives. Une courte introduction à l’apprentissage non supervisé sera également proposée.

SD 206 Logique et représentation des connaissances (24 heures)

Ce module introduit des concepts et des techniques qui sont à la base des systèmes intelligents et de la représentation des connaissances : langage Prolog, logique formelle (propositions et prédicats), complexité, apprentissage symbolique automatique, traitement du langage naturel, formalismes de représentation des connaissances.

Deuxième semestre, période 4

SD 211 Optimisation pour l'apprentissage statistique (24 heures)

Un grand nombre de problèmes d'apprentissage statistique (calcul d'un estimateur, d'un classifieur, etc.) se ramène à la minimisation d'une fonctionnelle, typiquement un risque empirique. Les méthodes d'optimisation sont donc au centre du volet « pratique » de l'apprentissage statistique. Dans ce module, l'étudiant découvrira non seulement les fondements théoriques qui s'inscrivent dans le prolongement du cours d'optimisation suivi au P2, mais également différentes techniques permettant de traiter spécifiquement le cas des données massives.

SD 208 Bases de données avancées (24 heures)

Ce cours propose un enseignement approfondi des systèmes de gestion de bases de données, de leurs architectures, leur fonctionnement et leur évolution. Il présente les composantes essentielles des systèmes de gestion de bases de données (stockage, indexation, transactions, évaluation de requêtes, optimisation, répartition, etc.). Il présente également des technologies BD émergentes dans le domaine de la gestion de données hétérogènes, complexes ou semi-structurées (BD XML, XPath, XQuery).

UE du créneau partagé

MDI 210 Optimisation (24 heures) en P1 (obligatoire)

MDI 220 Statistiques (24 heures) en P1 (obligatoire)

INF 224 Paradigmes de programmation (24 heures) (recommandé)

Options de 3e année

S'inscrire dans un Master M2 de l'Université de Paris-Saclay :

- Parcours DataScale : Gestion de données dans un monde numérique (mention Informatique)

- Parcours D&K : Data & Knowledge - Données et Connaissances (mention Informatique)

Option à Télécom ParisTech composée d'un projet PRIM et d'un sou- ensemble des cours de ces Masters M2.

Lieux d'enseignement