TEMARIO BIG DATA - pentahoperu.com

19
PentaDemy www.pentademy.com C U R S O Único curso en español con triple certificación en Big Data & Machine Learning Big Data y Machine Learning & AWS & PENTAHO

Transcript of TEMARIO BIG DATA - pentahoperu.com

Page 1: TEMARIO BIG DATA - pentahoperu.com

PentaDemywww.pentademy.com

C

U

R

S

O

Único curso en español con triple certificación en Big Data& Machine Learning

Big Data yMachine Learning& AWS & PENTAHO

Page 2: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

Inicio:02 DE AGOSTO

Finalización:06 DE SEPTIEMBRE

60 HORASacadémicas

Lunes y viernesDe 07:00 pm a11:00 pm (GMT-5)

PlataformaDIGITAL

AplicativoGoogle Meet

SoporteTÉCNICO

CERTIFICACIÓN POR NIVEL

DIPLOMASDIGITALES DELPROGRAMA

INGENIERÍA DE DATOS

BIG DATA & MACHINE LEARNING

PentaDemy

Page 3: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

✓ BIG DATA ARCHITEC ENGINEER PROFESIONAL✓ CLOUD AWD BIG DATA ANALYTICS PROFESIONAL

✓ MACHINE LEARNING IN THE CLOUD PROFESIONAL

CERTIFICACIONES:

EL ENTRENAMIENTO ABARCA 3 CERTICIACIONES

Nuestros certificados tiene validez en todos los países de Latinoamérica (a excepción de Brasil), código QR y validez en Linkedin con lo cual podrás compartir tu certificado en

Certificado validez internacionalTriple Certificación

PentaDemy

Page 4: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

R ES UM ENAprenderás a implementar soluciones de Big Data & Machine Learning de manera profesional

y práctica, integraras y orquestarás con Pentaho tus soluciones, en las principales nubes

disponibles (Azure, AWS y GCP), desde la ingesta hasta su explotación analítica sobre

arquitecturas batch y en tiempo real para procesamiento estructurado, semi-estructurado y

no estructurado, sobre un clúster real de Big Data y aprendiendo los patrones y arquetipos

existentes Arquitectura, Infraestructura, Datalake y Gobierno sobre Big Data.

R EQ UIS ITOSConocimientos básicos de SQL

Portar una laptop personal para las clases de

mínimo 1GB de RAM para el uso de Clúster de

128 GB en la nube

M ETODOLOG ÍA

Exposición teórica de los temas

Desarrollo de casos prácticos

Acceso a las clases grabadas

Acceso al material exclusivo

Acceso a una Maquina Virtual con

Clusters reales de Big Data

T EC N O L OG Í A S

AWS – Amazon Web ServicesGCP –Google Gloud PartformMicrosoft AzureApache Hadoop: HDFS, MapreduceApache Ambari, Cloudera CDHKafka, MQTT Broker (Mosquito)Apache SparkHbase y HiveSqoop. Linux.Impala, Python

OB J ET IV OFormar profesionales que deseen aumentar sus oportunidades laborales y enriquecer su

perfil profesional con un elemento diferenciador y de gran demanda actualmente, como

lo es el uso de los servicios Cloudy su aplicaciónal Machine Learning.

PentaDemy

Page 5: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

PL AT AFOR M A M ODER N A DE APR EN DIZ AJ E | E - L EAR N IN G

PentaDemy

Page 6: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

ACERCA DEL EXPOSITOR:

Ingeniero peruano. Realizó sus estudios en la UNAC, complementando con estudiosen administración empresarial en la PUCP. Pablo es un ejecutivo Senior enTecnologías de la Información, con más de 20 años de experiencia como consultornacional e internacional, en Business Analytics, proyectos de Big Data, así como enla Dirección de Proyectos & Gerencia en tecnologías de la Información, asesorempresarial y especialista en Gobierno Electrónico, con dominio de tecnologíasemergentes como Pentaho, Power BI, Microstrategy, Tableau, IDempiere, Odoo,SuiteCRM, R, Python, Java, Linux, Unix y posee diversas especializaciones enseguridad informática, Big Data, DevOps, Pentaho y AWS. Es un activista delSoftware Libre desde 1993 en proyectos como Pentaho, IDempiere, Odoo, entreotros, actualmente se desempeña como Chief Data Architect at GIS y ChiefExecutive Officer in EGS GROUP

▪ Ex-Director de Tecnologías TIC en la empresa transnacional CarvajalS.A.▪ Ex-Director de Tecnologías TIC en el Instituto del Mar del Perú – IMARPE▪ Fue asesor en la hoy Secretaría de Gobierno Digital de la Presidencia del Consejo

de Ministros (ex-ONGEI)– Perú.▪ Ha brindado consultorías a diversas empresas nacionales e internacionales,

entre las cuales destacan: El Grupo El Comercio, AJE Group, Premier Motors,Rural Telecom, Ministerio de Crédito y Hacienda en Nicaragua, entre otras.

Page 7: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

BIG DATA & FUNDAMENTOSDE AWS CON PENTAHO

ProcesamientoAWS Arquitectura desarrollada durante el entrenamiento

PentaDemy

Page 8: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

M Ó D U L O 01

LA SUITE PENTAHO, ARQUITECTURA, PIPELINE BIG DATA & DATA VIZ AWS, BIG DATA, FUNDAMENTOS, TÉCNICAS Y CONCEPTOS, PREPARANDO NUESTRO AMBIENTE DE TRABAJO

www.pentahoperu.com

CLOUD COMPUTINGBIG DATA & AWS

¿Qué es el Cloud Computing?

Creando nuestra cuenta en AWS

Conceptos de Big Data o Macro Datos

Big Data en el mundo empresarial

Las 5 V’s del Big Data

¿Qué es la Alta paralelización?

Fuentes de datos y su recolección

Clúster computacional y alta

paralelización.

Arquitectura de soluciones.

Pipeline de arquitectura tradicional

Pipeline de Arquitectura de Big Data

Almacenamiento y Cloud Computing

Distribución de carga de trabajo

Escalabilidad, Alta disponibilidad,

Seguridad & Gobierno

¿Qué es Hadoop?

Componenentes de Hadoop

HDFS

Map Reduce

YARM

Common Utilities

Distribuciones Hadoop

Patrones de diseño

Capas conceptuales

Arquitectura conceptual

Componentes tecnológicos disponibles

Arquitectura tecnológica

Arquetipo de una arquitectura Big Data

genérica

Definición de un Datalake Productivo

PentaDemy

Page 9: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

BIG DATA – FUNDAMENTOSDESPLIEGUE CLOUDERA / HORTONWORKSDESPLIEGUE LOCAL Y DOCKER DE PENTAHO

Page 10: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

M Ó D U L O 02

BIG DATA: INGENIERÍA DE DATOS

BIG DATA, FUNDAMENTOS Y TÓPICOS AVANZADOS

www.pentademy.com

PUC EN EL CLOUD CON DOCKER, VIRTUALIZANDO CLOUDERA CDH

Despliegue de la VM de Cloudera CDH

Despliegue de Pentaho User Console con

Docker

Buenas prácticas de despliegue de la VM de

Cloudera CDH

Buenas prácticas de despliegue del PUC

Primera revisión del entorno de Cloudera

CDH

Material audio visual y digital de apoyo

para el despliegue de tecnologías

complementarias: MySQL, PostgreSQL,

PostMan y MongoDB.

ARQUITECTURA Y DESPLIEGUE LOCAL PENTAHO BA

Visión general de Pentaho BA

Desplegando Pentaho User Console (PUC)

Desplegando Pentaho Data Integration

Introducción al uso del PUC.

Seguridad en PUC y automatización de

envío de correos.

Primera interacción con el generador de

Cuadros de mando (dashboards) de

Pentaho.

Principios de los Dashboards responsivos

(multi-dispositivo)

PentaDemy

Page 11: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

PROCESAMIENTO DISTRIBUIDO Y PARALELIZADO ORQUESTACIÓN DEL CLUSTER CON PENTAHO

PentaDemy

Page 12: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

M Ó D U L O 03

BIG DATA: INGENIERÍA DE DATOS

PROCESAMIENTO DISTRIBUIDO PARALELIZADO

www.pentademy.com

ORQUESTANDO CLUSTER BIG DATA

CON PENTAHO BA

Archivos de HDFS como tablas Hive

Particionamiento estático y dinámico

Formatos binarios de archivos: Parquet,

ORC y Avro

Compresión optimizada de datos

Configuración y tuneo de procesos en Hive

Sqoop como motor de ingesta de datos

Importando datos a Hadoop a bases de

datos relacionales

Arquetipo de ingesta de datos batch

Arquetipo de modelamiento de datos

Arquetipo de procesamiento de datos

Hue como interfaz gráfica para los procesos

PROCESAMIENTO DISTRIBUIDO PARALELIZADO ON-PREMISE

Tecnologías batch sobre Big Data

Hadoop como ecosistema de almacenamiento

Kafka en Cloudera CDH

HDFS como motor de almacenamiento

YARN como gestor de recursos

MapReduce como motor de procesamiento

Replicación controlada de datos

Asegurando el tamaño de bloque

Capacidad física de un clúster

Administración de archivos y recursos sobre

Hadoop

Hive como infraestructura de almacenamiento

SQL sobre MapReduce

PentaDemy

Page 13: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

REAL TIME CON KAFKAARQUETIPOS REAL TIMEORQUESTACIÓN CON PENTAHODESPLIEGUE EN AWS

API GATEWAY

KINESIS FIREHOSE

RDS S3

DYNAMODB REDSHIFT

LAMBDA

EMR

GLUE

SNS

EC2 QUICKSIGTH

ELASTIC SEARCH SAGAMAKER

KINESIS ANALYTICS ATHENA

AWS LOT

IAM KMS CLOUD HSM CLOUD WATCH CLOUD TRAIL VPC

KINESIS DATA

STREAMDMS SNOWBALL DATA SYNC

ACCESO Y USODEINTER

F

AZ COLECCI

Ó

N DEDATOS

MI

E

STIÓALMACENA NTOY GE N DEDATOS

URIDSEGAD

PROCESA NTOMI

E

ANÁLISIS VI

S

ALIZ CIÓY U A N DE DATOS

AWS IDENTITY AND ACCESS MANAGEMENT

AMAZON COGNITO

CLOUD FORMATION

PentaDemy

Page 14: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

M Ó D U L O 04

PROCESAMIENTO DISTRIBUIDO & PARALELIZADOON PREMISE & ON CLOUD

www.pentademy.com

DATA INGESTION EN AWS

IN REAL TIMEIntroducción a AWS

Entendiendo que es un Data Lake

Creando un Data Lake en Hadoop

Creando un Data Lake usando AWS

Métodos de recolección de datos

Kinesis Firehose (diseño y despliegue de flujo

de datos near realtime desde redes sociales I)

Kinesis Data Stream Firehose (diseño y

despliegue de flujo de datos near realtime

desde redes sociales II)

DMS (Migrando BBDD en AWS)

Pipeline (construyendo nuestro primer pipeline)

API GATEWAY

KINESIS FIREHOSE

RDS S3

DYNAMODB REDSHIFT

LAMBDA

EMR

GLUE

SNS

EC2 QUICKSIGTH

ELASTIC SEARCH SAGAMAKER

KINESIS ANALYTICS ATHENA

AWS LOT

IAM KMS CLOUD HSM CLOUD WATCH CLOUD TRAIL VPC

KINESIS DATA

STREAMDMS SNOWBALL DATA SYNC

ACCESO Y USODEINTER

F

AZ COLECCI

Ó

N DEDATOS

MI

E

STIÓALMACENA NTOY GE N DEDATOS

URIDSEGAD

PROCESA NTOMI

E

ANÁLISIS VI

S

ALIZ CIÓY U A N DE DATOS

AWS IDENTITY AND ACCESS MANAGEMENT

AMAZON COGNITO

CLOUD FORMATION

PROCESAMIENTO REAL-TIMEProcesamiento de datos real time

¿Streaming, real time, near real time o micro

batch?

Arquitectura general para proyectos real time

Captura de datos desde fuentes real time:

torenta de datos

La importancia de los microservicios

Almacenamiento de baja latencia: HBase

ARQUETIPOS DE INGESTAArquetipo de ingesta de datos batch

Arquetipo de modelamiento de datos

Arquetipo de procesamiento de datos

Tecnologías batch sobre Big Data

Region Servers y metadata

NoSQL: Familias de columnas

Modelamiento de baja latencia basado en keys

Integrando HBase y Hive

SQL sobre HBase: Phoenix

Procesamiento real time con Spark Streaming

Arquetipo de procesamiento real time

Arquetipo enriquecimiento real time

Limitaciones y cómo superarlas

PentaDemy

Page 15: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

EJECUCIÓN DE PROCESOS IN-MEMORY

REAL TIME CON APACHE KAFKA & ANALYTICS CON ELASTICSEARCH Y KIBANA

www.pentademy.com

APACHE KAFKA, PENTAHO Y DEMO DE PROCESAMIENTO EN TIEMPO REAL

¿Qué es Apache Kakfa?

Arquitectura y Despliegue local

Preparando Pentaho Data Integration (PDI)

Proyecto Bancario Demo con Kafka

Acceso a los logs de sitio web bancario

Productores y consumidores de logs con PDI

Consumidores Kafka de múltiples Topics

Demo de procesamiento en tiempo real

extremo a extremo

AWS – AMAZON WEB SERVICES Y KAFKACLÚSTER ELASTICSEARCH Y DASHBOARD CON KIBANA

Analytics en Amazon Web Services

Seguridad y Usuarios en AWS

Clúster Kafka en AWS

Conectando un EC2 para Kafka

Demo de envío y recepción de mensajes con

Pentaho de Orquestador.

Clúster de ElasticSearch en AWS

Dashboard con Kibana

Limpiando recursos en AWS

ON PREMISE –LOCALMENTE KAFKA CLÚSTER ELASTICSEARCH Y DASHBOARD CON KIBANA

Despliegue de ElasticSearch localmente

Despliegue de Kibana localmente

Clúster Kafka localmente

Demo de envío y recepción de mensajes con

Pentaho de Orquestador.

Dashboard con Kibana

Kafka como repositorio temporal de

baja latencia

Tópico, producers y consumers

PentaDemy

Page 16: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

EJECUCIÓN DE PROCESOS IN-MEMORY

IoT CON MOSQUITO / MQTT, SPARK EN AWS

www.pentademy.com

ECLIPSE MOSQUITO - MQTT BROKERDEMO IoT CON PENTAHO BA

¿Qué es Mosquito – MQTT Broker?

Arquitectura y Despliegue local

Preparando Pentaho Data Integration (PDI)

Proyecto de Internet de las cosas IOT

Orquestando datos con Pentaho

DASHBOARD IoT, REAL-TIME

CON PENTAHO CDE

Construyendo Dashboard en tiempo

real con Pentaho

Leyendo datos en tiempo real desde el

Dashboard con Pentaho

Demo completa extremo a extremo

M Ó D U L O 05

PentaDemy

Page 17: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

MACHINE LEARNING SOBRE BIG DATA E INTELIGENCIA ARTIFICIALREDES NEURONALES

PentaDemy

Page 18: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

M Ó D U L O 06

BIG DATA: INGENIERÍA DE DATOS

MACHINE LEARNING SOBRE BIG DATA

www.pentademy.com

MACHINE LEARNING SOBRE BIG DATA

Analítica en el mundo empresarial

Analítica exploratoria

Creando consultas ad_hoc con impala

Compartiendo la metadata del clúster entre

herramientas

Métodos descriptivos sobre Big data

Algoritmos descriptivos disponibles sobre Spark

MLlib

Implementación de KMeans con Spark

Métodos predictivos sobre Big Data

Implementación de un modelo predictivo

Algoritmos predictivos disponibles sobre Spark

MLlib

M Ó D U L O 07REDES NEURONALES & INTELIGENCIA ARTIFICIAL SOBRE BIG DATA

Neuronas y Perceptrones

Keras y Tensorflow

Redes Neuronales para predicción numérica

Funciones de activación

Redes Neuronales para predicción categórica

Procesamiento de procesos matriciales

Extendiendo los recursos computacionales del

clúster: La GPU

PentaDemy

Page 19: TEMARIO BIG DATA - pentahoperu.com

PentaDemy

BIG DATA: INGENIERÍA DE DATOS

REDES NEURONALES & INTELIGENCIA ARTIFICIAL SOBRE BIG DATA - BIG DATA ON CLOUD AZURE | GCP | AWS

www.pentademy.com

BIG DATA ON CLOUD AZURE | GOOGLE CLOUD PLATFORM | AWS

Infraestructura Cloud vs Onpremise

Patrones Big Data Multi-Cloud

Arquitectura Big Data on Hybrid Multi-Cloud

Estrategia de instalación de un clúster

Instalación de un clúster de Big Data

Herramientas de Big Data on Azure

Despliegue de infraestructura Azure

Herramientas de Big Data on AWS

Despliegue de infraestructura sobre AWS

Herramientas de Big Data on GCP

Despliegue de infraestructura sobre GCP

Cálculo y ahorro de presupuesto on Cloud

M Ó D U L O 08 M Ó D U L O 09PROYECTO INTEGRADOR

PentaDemy