Pratique de l’ETL

15
Pratique de l’ETL M2 Economie Appliquée - Informatique décisionnelle [email protected]

Transcript of Pratique de l’ETL

Pratique de l’ETLM2 Economie Appliquée - Informatique décisionnelle

[email protected]

Organisation- 26/10 : ETL- 4/11 : ETL + tableaux de bord- 8/11 : présentation des projets d’évaluation- 21/11 : suivi des projets- 26/11 : soutenances + rendu rapports

Définition et contexte- ETL = Extract Transform Load

Outil- ETL Talend :

- traitement = job- graphique- 900+ composants- code Java- version de base (Open Studio) gratuite- on va utiliser : Talend Open Studio for Big Data

Interface

Vue “Designer” : interconnecter des composantsMenu “jobs” : organiser ses traitements

Menu “composants” : chercher les connecteurs et traitements requis

Menu “paramètres/console” : paramétrer ses composants, visualiser des informations sur la console

Démos / exercices- Exercice 1 : afficher le contenu d’un fichier CSV sur la console- Exercice 2 : supprimer une colonne d’un fichier CSV et écrire le résultat dans

un nouveau fichier CSV- Exercice 3 : créer les métadonnées d’un fichier CSV, le trier puis enregistrer le

résultat dans un nouveau fichier- Exercice 4 : créer les métadonnées d’une base de données MySQL et afficher

les lignes d’une table sur la console- Exercice 5 : insérer les données d’un fichier CSV dans une table MySQL (à

vous !)- Exercice 6 : ajouter une colonne par défaut à un fichier CSV à l’aide d’un

composant tMap- Exercice 7 : croiser 2 fichiers avec un composant tMap

Démos / exercices- Exercice 8 : calculer l’âge avec un composant tMap- Exercice 9 : créer un job en standalone à partir de l’exo 5 et le tester- Exercice 10 : interroger un Web Service :

- http://footballpool.dataaccess.eu/data/info.wso?wsdl- http://www.webservicex.net/globalweather.asmx?WSDL

- Exercice 11 : agréger les valeurs d’une colonne- Exercice 12 : générer un fichier avec l’âge moyen par région à partir des

fichiers de l’exercice 7 (à vous !)

Prompto- Documentation :

- https://datarocks.io/fr/documentation/Prise_en_main/- http://www.mysqltutorial.org/mysql-sample-database.aspx

- Exercices :- Créer des graphiques permettant de visualiser :

- la liste des produits avec leurs coûts, du plus cher au moins cher- la liste des produits avec la quantité vendue, du plus vendu au moins vendu

- la liste des produits avec les recettes générées, de celui rapportant le plus à celui rapportant le moins (créer un nouveau champ !)

- la liste des pays avec le nombre de clients y résidant (utiliser un treemap)

Projets évalués- Le principe :

- équipes de 2 ou 3 personnes

- 5 thématiques avec des questions (indicateurs à produire) OU thématique de votre choix validée par les enseignants

- méthodologie :

- recueillir des données en Open Data (http://www.bdm.insee.fr/bdm2/index.action?request_locale=fr) ou étudier les données fournies avec la thématique

- concevoir un modèle de données simple permettant de calculer les indicateurs (MySQL)

- créer le traitement permettant d’alimenter votre base de données à partir des fichiers sources (Talend)

- créer le tableau de bord permettant de présenter les indicateurs (Prompto : m’envoyer le fichier SQL de votre base)

Projets évalués- Le principe :

- rendu :

- mini rapport (maximum 10 pages) expliquant la démarche et les résultats : avant le 24/11 à minuit

- soutenance orale le 26/11 : 15 minutes + 5 minutes de questions par équipe :- présentation de la thématique- répartition du travail au sein de l’équipe- modèle de données adopté- traitements créés- démonstration tableau de bord et résultats obtenus

- critères :- pertinence et intérêt des indicateurs produits (minimum = entre 10/20 et 12/20)- niveau de difficulté (complexité base de données, traitements, etc.)- lisibilité et intérêt du tableau de bord- présentation du travail et supports

Projets évalués- Thématique 1 : niveau de formation et revenu en France

- nombre de titulaires du baccalauréat par département ?- nombre de titulaires d’un diplôme de l’enseignement supérieur par département ?- évolution dans le temps ?- ratio nombre de diplômés / nombre d’habitants ?- comparatif proportion de diplômés / revenu annuel moyen ?- comparatif hommes / femmes ?

Projets évalués- Thématique 2 : démographie des entreprises et emploi en France

- nombre d’entreprises par secteur d’activité et par département ?- taux de chômage par département ?- évolution dans le temps ?- comparatif secteur d’activité principale / taux de chômage ?- comparatif secteur d’activité principale / nombre de cadres ?- comparatif hommes / femmes ?- comparatif classes d’âge ?

Projets évalués- Thématique 3 : logement et revenus en France

- proportion de logements sociaux par département ?- loyer moyen par département ?- évolution dans le temps ?- comparatif loyer moyen / revenu moyen ?- comparatif proportion de logements sociaux / revenus moyens ?

Projets évalués- Thématique 4 : capacité et fréquentation touristique en France

- nombre d’hôtels par classement et par département ?- nombre de terrains de camping par département ?- nombre de nuitées en hôtel ?- nombre de nuitées en camping ?- comparatif fréquentation / nombre d’habitants par département ?- comparatif capacité / fréquentation par département ?

Projets évalués- Thématique 5 : DataZen : historique des ventes d’un fournisseur de matériel

informatique (données fournies)- quel est le produit le plus vendu ?- quelle est la catégorie la plus vendue ?- comment évoluent les ventes au cours du temps ?- quels sont les pays générant le plus de bénéfices ?- quels sont les types d’offres promotionnelles générant le plus de ventes et de bénéfices ?