Life Long Learning for Lebanon

Portail informatique formation d'ingénieur Liban

Supports, informations et actualités informatique ISSAE Cnam Liban et centres du Cnam Liban

Société et technologie

Fondateur et activiste Free (libre) Open Source Software Lebanese Movement OSLM

lundi 7 mars 2016

Ingénierie de la fouille et de la visualisation de données massives (RCP216)

Lien vers le cours  Ingénierie de la fouille et de la visualisation de données massives : http://cours.cofares.net/cours-du-cnam/ingenierie-de-la-fouille-et-de-la-visualisation-de-donnees-massives-rcp216

Public et conditions d'accès

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation linux, connaissance d'au moins un langage de programmation.

Compétences visées

Capacité à mettre en oeuvre des techniques de fouille de données et de visualisation sur des données massives. Maîtrise de techniques adaptées à quelques problèmes fréquents.

Contenu

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
            a. Recherche par similarité, jointure par similarité
            b. Classification automatique
            c. Fouille de données textuelles
            d. Fouille de flux de données
            e. Apprentissage statistique à large échelle
            f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
 
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante.
Pour la partie visualisation, les TP seront effectués avec le logiciel Processing (gratuit) ; une séance d'introduction est réservée à son apprentissage.