Pratique de l’ETL
Transcript of Pratique de l’ETL
Organisation- 26/10 : ETL- 4/11 : ETL + tableaux de bord- 8/11 : présentation des projets d’évaluation- 21/11 : suivi des projets- 26/11 : soutenances + rendu rapports
Outil- ETL Talend :
- traitement = job- graphique- 900+ composants- code Java- version de base (Open Studio) gratuite- on va utiliser : Talend Open Studio for Big Data
Interface
Vue “Designer” : interconnecter des composantsMenu “jobs” : organiser ses traitements
Menu “composants” : chercher les connecteurs et traitements requis
Menu “paramètres/console” : paramétrer ses composants, visualiser des informations sur la console
Démos / exercices- Exercice 1 : afficher le contenu d’un fichier CSV sur la console- Exercice 2 : supprimer une colonne d’un fichier CSV et écrire le résultat dans
un nouveau fichier CSV- Exercice 3 : créer les métadonnées d’un fichier CSV, le trier puis enregistrer le
résultat dans un nouveau fichier- Exercice 4 : créer les métadonnées d’une base de données MySQL et afficher
les lignes d’une table sur la console- Exercice 5 : insérer les données d’un fichier CSV dans une table MySQL (à
vous !)- Exercice 6 : ajouter une colonne par défaut à un fichier CSV à l’aide d’un
composant tMap- Exercice 7 : croiser 2 fichiers avec un composant tMap
Démos / exercices- Exercice 8 : calculer l’âge avec un composant tMap- Exercice 9 : créer un job en standalone à partir de l’exo 5 et le tester- Exercice 10 : interroger un Web Service :
- http://footballpool.dataaccess.eu/data/info.wso?wsdl- http://www.webservicex.net/globalweather.asmx?WSDL
- Exercice 11 : agréger les valeurs d’une colonne- Exercice 12 : générer un fichier avec l’âge moyen par région à partir des
fichiers de l’exercice 7 (à vous !)
Prompto- Documentation :
- https://datarocks.io/fr/documentation/Prise_en_main/- http://www.mysqltutorial.org/mysql-sample-database.aspx
- Exercices :- Créer des graphiques permettant de visualiser :
- la liste des produits avec leurs coûts, du plus cher au moins cher- la liste des produits avec la quantité vendue, du plus vendu au moins vendu
- la liste des produits avec les recettes générées, de celui rapportant le plus à celui rapportant le moins (créer un nouveau champ !)
- la liste des pays avec le nombre de clients y résidant (utiliser un treemap)
Projets évalués- Le principe :
- équipes de 2 ou 3 personnes
- 5 thématiques avec des questions (indicateurs à produire) OU thématique de votre choix validée par les enseignants
- méthodologie :
- recueillir des données en Open Data (http://www.bdm.insee.fr/bdm2/index.action?request_locale=fr) ou étudier les données fournies avec la thématique
- concevoir un modèle de données simple permettant de calculer les indicateurs (MySQL)
- créer le traitement permettant d’alimenter votre base de données à partir des fichiers sources (Talend)
- créer le tableau de bord permettant de présenter les indicateurs (Prompto : m’envoyer le fichier SQL de votre base)
Projets évalués- Le principe :
- rendu :
- mini rapport (maximum 10 pages) expliquant la démarche et les résultats : avant le 24/11 à minuit
- soutenance orale le 26/11 : 15 minutes + 5 minutes de questions par équipe :- présentation de la thématique- répartition du travail au sein de l’équipe- modèle de données adopté- traitements créés- démonstration tableau de bord et résultats obtenus
- critères :- pertinence et intérêt des indicateurs produits (minimum = entre 10/20 et 12/20)- niveau de difficulté (complexité base de données, traitements, etc.)- lisibilité et intérêt du tableau de bord- présentation du travail et supports
Projets évalués- Thématique 1 : niveau de formation et revenu en France
- nombre de titulaires du baccalauréat par département ?- nombre de titulaires d’un diplôme de l’enseignement supérieur par département ?- évolution dans le temps ?- ratio nombre de diplômés / nombre d’habitants ?- comparatif proportion de diplômés / revenu annuel moyen ?- comparatif hommes / femmes ?
Projets évalués- Thématique 2 : démographie des entreprises et emploi en France
- nombre d’entreprises par secteur d’activité et par département ?- taux de chômage par département ?- évolution dans le temps ?- comparatif secteur d’activité principale / taux de chômage ?- comparatif secteur d’activité principale / nombre de cadres ?- comparatif hommes / femmes ?- comparatif classes d’âge ?
Projets évalués- Thématique 3 : logement et revenus en France
- proportion de logements sociaux par département ?- loyer moyen par département ?- évolution dans le temps ?- comparatif loyer moyen / revenu moyen ?- comparatif proportion de logements sociaux / revenus moyens ?
Projets évalués- Thématique 4 : capacité et fréquentation touristique en France
- nombre d’hôtels par classement et par département ?- nombre de terrains de camping par département ?- nombre de nuitées en hôtel ?- nombre de nuitées en camping ?- comparatif fréquentation / nombre d’habitants par département ?- comparatif capacité / fréquentation par département ?
Projets évalués- Thématique 5 : DataZen : historique des ventes d’un fournisseur de matériel
informatique (données fournies)- quel est le produit le plus vendu ?- quelle est la catégorie la plus vendue ?- comment évoluent les ventes au cours du temps ?- quels sont les pays générant le plus de bénéfices ?- quels sont les types d’offres promotionnelles générant le plus de ventes et de bénéfices ?