Big Data IoT - notasdeclase.files.wordpress.com · ¿Que é Big Data? ¿Que é IoT? ......
Transcript of Big Data IoT - notasdeclase.files.wordpress.com · ¿Que é Big Data? ¿Que é IoT? ......
Big Data
IoT
Os novos retos da era dixital
Presentación
Imatia Innovations 2
Carlos Fernández Villar
Director de Proxectos
Imatia Innovations S.L.
Imatia Innovations 3
Introducción
¿Que é Big Data? ¿Que é IoT?
Imatia Innovations 4
¿Que é IoT?
¿Que é Big Data?
Imatia Innovations 5
• Un pouco de historia: As tres plataformas
• A Transformación da Era Dixital
• Big Data
• Exemplos
• IoT
• Os retos do novo escenario
Imatia Innovations 6
Introducción
Un pouco de historia
¿Como chegamos aquí?
Imatia Innovations 7
A Primeira Plataforma
Imatia Innovations 8
Imatia Innovations 9
A Primeira Plataforma
A Segunda Plataforma
Imatia Innovations 10
Imatia Innovations 11
A Segunda Plataforma
A Terceira Plataforma
Imatia Innovations 12
Imatia Innovations 13
A Terceira Plataforma
A Transformación da Era Dixital
¿Que nos agarda?
Imatia Innovations 14
Imatia Innovations 15
Volume de datos
Producto Datos asociados ó producto
Imatia Innovations 16
Volume de datos
Imatia Innovations 17
Volume de datos
Cada minuto xenérase no mundo
Imatia Innovations 18
Volume de datos
Imatia Innovations 19
Volume de datos
Imatia Innovations 20
O problema dos océanos e as illas
O “Data Lake”
¿Cómo atopo a isla Xno océano de datos?
https://blogs.ca.com/2015/01/21/finding-islands-of-value-in-the-vast-ocean-of-data/
Imatia Innovations 21
Arquitecturas escalables
Imatia Innovations 22
Arquitecturas escalables
EscaladoVertical
Imatia Innovations 23
Arquitecturas escalables
EscaladoHorizontal
Imatia Innovations 24
Arquitecturas escalables Dockers
Máquinas Virtuales[Plataforma 2]
Contenedores[Plataforma 3]
Imatia Innovations 25
Arquitecturas escalables Microservicios
Imatia Innovations 26
Arquitecturas escalables Dockers vs Microservicios
Imatia Innovations 27
Arquitecturas escalables Hardware
Imatia Innovations 28
Arquitecturas escalables
Fontes: IDC, Gartner, AWS Workload Estimates
Imatia Innovations 29
Cloud
Imatia Innovations 30
CloudNube privada
Construída dentro do data center da corporación
Nube públicaProporcionada por proveedores de
servicio a coste menor que as tradicionais dos departamentos TI
Nube híbridaPrivada + Pública
Imatia Innovations 31
Desenrolo Open Source
Propietario[Plataforma 2]
Open Source[Plataforma 3]
• Empresa xeolocalización e enrutamento: • Actualmente: Calculo de rutas actuáis baseado en datos sobre estado de
tráfico• Seguinte paso: Coñecer se, por exemplo, se está programando unha
manifestación a través das redes sociais
• Empresa de venta ó consumidor: • Actualmente: Recomendacións en función do perfil do consumidor• Seguinte paso: Análise do estado de ánimo, coñecer se o consumidor acaba
de iniciar unha relación para recomendar un regalo.
• Empresa financieira:• Estudio de prediccións efectivas sobre datos directos e indirectos en tempo
real.
Imatia Innovations 32
Utilidade
• Empresa do sector do entretenemento:• Análise na evolución dos gustos dos consumidores
• Empresa do sector da saúde:• O análise das búsquedas realizadas por usuarios en Internet pode
proporcionar datos cruciales de cara a avisos e evolución de pandemias. Por exemplo, a pandemia de Gripe A, no 2008, predecida por Google Flue Trends.
• Mundo online:• Os sitios web terán no futuro un aspecto totalmente distinto dependendo da
persoa que o esté mirando.
Imatia Innovations 33
Utilidade
• Empresa aeronáutica:• Un avión despega 4 veces ó día e voa una media de 10 horas.
• Para unha flota de 120 avións, aforrar un minuto de tempo de espera equivale a un beneficio de máis de $8M en fuel e máis de $2M en persoal ó ano.
• ¿Que se necesita para obter isto?• Preve-los incidentes
• Axusta-la loxística
• Axusta-lo voo
• Ademáis do beneficio económico Mellora na experiencia do cliente
Imatia Innovations 34
Utilidade
Big Data
Información vs Dato
Imatia Innovations 35
• Volume
Imatia Innovations 36
Definición
As 3 V’s:
A 4ª V:
• Veracidade
Valor• Variedade
• Velocidade
Imatia Innovations 37
Definición
Imatia Innovations 39
Ferramentas
• HDFS: Hadoop Distributed File System• Almacén para calquera tipo de ficheiro
• Os datos pártensen en fragmentos e replícanse tan pronto son escritos• Estabilidade e alta disponibilidade
• Xestión automática por parte de Hadoop
• YARN: Yet Another Resource Negotiator• Xestiona os recursos asociados ós procesos do cluster Hadoop
• Executa os frameworks de procesamento
• Map/Reduce• Framework de procesamento distribuído
Imatia Innovations 40
Compoñentes principales
• Escalable• Engadir máis nodos ó cluster engade capacidade de procesamento
• O incremento de carga penaliza rendemento pero non xenera erro de sistema.
• Tolerante a erros:• Cando un nodo do cluster falla:
• O sistema segue funcionando
• O Master reasigna o traballo a outros
• Ó esta-los datos replicados non hai perda de datos
• Ó recupera-lo nodo, este volverá ó clúster automáticamente.
Imatia Innovations 41
Características
Imatia Innovations 42
Ecosistema Hadoop
Proxecto Descrición
Spark Framework de procesamento en memoria e streaming
Hbase Base de datos NoSQL construída sobre HDFS
Hive Motor de procesamento SQL deseñado para cargas de traballo batch
Sqoop Framework para movemento de datos entre HDFS e RBDMSs
Flume / Kafka Proxectos para inxesta de datos en streaming
Solr Funcionalidade para búsqueda de texto
Hue Interfaz de usuario web para Hadoop
Sentry Ferramenta de autorización para securizar Hadoop
…
Imatia Innovations 43
Ecosistema HadoopOs datos distribúense no cluster cando son cargados
O procesamento lévase a onde están os datos almacenados
Os nodos son pezas hardware estándar (“commodityhardware”)
A capacidade ampliase mediante escalado horizontal (máisservidores) en lugar de vertical (máis potencia no servidor)
Simplifica a programación distribuída de forma que o programador se centre nos requerimentos funcionais
Imatia Innovations 44
Ecosistema Hadoop
Imatia Innovations 45
Ecosistema Hadoop
Imatia Innovations 46
Ecosistema Hadoop
ArquitecturaTípica
Business Intelligence
Imatia Innovations 47
Ecosistema Hadoop
ArquitecturaHadoop
Business Intelligence
Imatia Innovations 48
Ecosistema Hadoop
Trabajo colaborativoArquitectura
tradicional
Imatia Innovations 49
Ecosistema Hadoop
Trabajo colaborativoHadoop como EDH
Enterprise Data Hub
A resposta é…
Imatia Innovations 50
A resposta definitiva
42
Para poder ter una resposta satisfactoria é imprescincible pregunta-la cuestión adecuada
Imatia Innovations 51
A importancia da pregunta
• “Necesitamos bos desarrolladores” Non, necesitamos expertos en Hadoop.
• Infraestímase a complexidade de Hadoop. Hadoop é un sistema complexo que require “amor e afecto”.
• “Commodity hardware” non significa hardware barato.
• Hadoop non é “remedio de santo”.
• Por regla xeral, será necesario extende-las utilidades de Hadoop e os componentes do seu ecosistema para adaptalo ás necesidades concretas.
Imatia Innovations 52
Axiomas sobre Hadoop
Hortonworks: http://es.hortonworks.com/
Cloudera: http://es.cloudera.com/
MapR: https://www.mapr.com/
Imatia Innovations 53
Para cacharrear
Exemplos
Big Data aplicado
Imatia Innovations 54
Imatia Innovations 55
A nova empresa:Google como modelo de paralelización
1.000.000.000 consultas diarias
900 ms de tempo de resposta medio
Imatia Innovations 56
A nova empresa: Facebook como exemplo colaborativo
1.200.000.000 usuarios activos
900.000.000 obxectos interactivos
250.000.000 fotos novas ó día
Imatia Innovations 57
A nova empresa: Amazon como exemplo predictivo
137.000.000 clientes
895.000.000 productos
Recomendacións en tempo real
Imatia Innovations 58
A nova empresa: Spotify - Números
600 GB de datos comprimidos de usuarios por día
150 GB de datos de servicios por día
4 TB de datos xenerados en Hadoop cada día
190 nodos no cluster Hadoop(en breve 690)
4 PB de capacidade de almacenamento(28 PB en breve)
Imatia Innovations 59
A nova empresa: Spotify – Arquitectura Big Data
Hadoop: Ecosistema Big Data
http://hadoop.apache.org
Kafka: Data collection
https://kafka.apache.org
Sqoop: Data dumping
https://sqoop.apache.org
Hive: Data management
https://hive.apache.org
Pig: Task scheduler
Luigi scheduler: Task scheduler
http://luigi.readthedocs.io/en/stable/index.html
Kafka
Sqoop
Imatia Innovations 60
A nova empresa: Spotify – Enfoque Open Source
https://github.com/Spotify/
https://labs.spotify.com/
Imatia Innovations 61
A nova empresa: Netflix – Enfoque Open Source
https://github.com/Netflix/
Imatia Innovations 62
Smart Government• Obxectivos:
• Visión holística da cidade• Coñecemento global dos activos administrados.• Tomas de decisión basada en información obxectiva.
• Solución:• Converxencia entre:
• Administración Electrónica• Smart City• Terceira plataforma
• Centralización da información• Fomento da colaboración interdepartamental• Garante da integridade entre os datos procedentes de distintas fontes. • Coherencia e calidade.• Establecemento do territorio e o cidadán como centro neurálxico da
información.
Imatia Innovations 63
Smart Government
Imatia Innovations 64
Smart Government
ArquitecturaOrientada
aMicroservicios
Imatia Innovations 65
Smart Government
InfraestructuraBasada
enDocker
Imatia Innovations 66
Smart Government
Imatia Innovations 67
Smart GovernmentHadoop: Ecosistema Big Data
http://hadoop.apache.org
Sqoop: Captura datos BBDD externas
https://sqoop.apache.org
Flume: Captura streams externos
https://flume.apache.org
Kafka: Captura de eventos
https://kafka.apache.org
Spark: Análise datos
https://spark.apache.org
Hive: Consulta contra HDFS
https://hive.apache.org
Pig: Organizador de tareas
https://pig.apache.org
Imatia Innovations 68
Smart Government
Sqoop:
Captura datos BBDD externashttps://sqoop.apache.org
Imatia Innovations 69
Smart Government
http://193.144.33.111:8087/cycloanalytics
Spark:
Análise datoshttps://spark.apache.org
Imatia Innovations 70
Smart Government¿Que resultado queremos obter?
¿Que datos de partida necesitamos? ¿Témolos todos?
¿Cómo os conseguimos?
¿Como relacionamos os datos de partida?
¿Que ferramentas utilizamos?
¿Como imos presenta-lo resultado?
Detección de picos de consumo eléctrico
Se existen e en que momentos existen picos de consumoque se saen da media
1) Datos de consumo eléctrico2) Mapa de poboación
1) Relación entre a densidade de poboación e o consumo
Flume > CapturaSpark / Hive > Cruces + Detección de anomalíashttp://techblog.netflix.com/2015/02/rad-outlier-detection-on-big-data.html
Mapa de calorGráfica
Imatia Innovations 71
Smart Government Detección de picos de consumo eléctrico
Imatia Innovations 72
Smart Government¿Que resultado queremos obter?
¿Que datos de partida necesitamos? ¿Témolos todos?
¿Cómo os conseguimos?
¿Como relacionamos os datos de partida?
¿Que ferramentas utilizamos?
¿Como imos presenta-lo resultado?
Ubicación óptima dun novo colexio
A necesidade ou non dun novo colexioe a súa ubicación.
1) Ubicación dos colexios actuais2) Mapa de poboación por idades3) Ubicación de lugares de interés cercanos:
colexios, pabellóns deportivos, lugares de recreo, etc4) Mapa de densidade de tráfico5) …
1) Proximidade na ubicación2) Homoxeneidade na cobertura3) Ponderación por cercanía4) Ponderación por densidade
Sqoop > CapturaSpark > CrucesVoronoi > Áreas de influencia
Simulación de posibles ubicacións sobre mapa
Imatia Innovations 73
Smart Government Ubicación óptima dun novo colexio
Imatia Innovations 74
Smart Government
https://developers.google.com/analytics/
Relación electrónica co cidadán
¿Que resultado queremos obter?
¿Que datos de partida necesitamos? ¿Témolos todos?
¿Cómo os conseguimos?
¿Como relacionamos os datos de partida?
¿Que ferramentas utilizamos?
¿Como imos presenta-lo resultado?
Personalización da páxina de acceso ó Concello
Imatia Innovations 75
Smart Government Outros casos de uso
• Prediccións de tráfico• Prediccións de accidentes de tráfico / intervencións de bombeiros• Predicción actividade comercial• Predicción intervencións policiais• Detección do “estado de ánimo da cidadanía” en función do perfil social• Rutas óptimas para servicios sociais a domicilio• Rutas óptimas para inspeccións técnicas• Detección de zonas conflictivas• Cálculo do momento óptimo para a realización de obras de mantenemento• Optimización de procesos administrativos• Xestión e reserva de recursos públicos: Piscinas, Pabellóns deportivos• Recomendacións de eventos personalizadas• Cálculo máis obxectivo sobre o valor dos inmuebles• Detección de activos susceptibles de cobro de taxas
Imatia Innovations 76
Smart Government
É máis importante a pregunta que a ferramenta
Creación dun equipo experto baixo a coordinación dun
“científico do dato”:
Imatia Innovations 77
Thinking outside the box: O uso de Big Data na campaña de Obama 2012
https://enga.ge/dl/Inside_the_Cave.pdf
The “Cave”
O Data Lake:1. Rexistro de votantes:
• Datos non normalizados• Diferentes estructuras e requerimentos en cada estado• Algúns con información de afiliación política e outros non• Non centralizada
2. Rexistro de voluntarios3. Lista de contactos dos votantes
• Quen foi visitado• Quen respondeu ás enquisas e como
Imatia Innovations 78
Thinking outside the box: O uso de Big Data na campaña de Obama 2012
“The Life of Julia”
• Video que se envía ás contas de Facebook de potenciales votantes
• Mentras se ve o video, recopílase información dos contactos, asociando os seus nomes con rexistros de votantes, xénero e estado de residencia.
• Ó finaliza-lo video propónse compartilo con 4 persoas…
¿Que información nos da isto?
Imatia Innovations 79
Thinking outside the box: O uso de Big Data na campaña de Obama 2012
Coñecemento personalizado dos targets
• O target neste caso é o votante
• Búscase sobre todo o votante indeciso
• Convencelo nos medios nos que habitualmente se moven• Anuncios nas pausas publicitarias de The Walking Dead
• Encontros online con lectores da revista Reddit
Imatia Innovations 80
Thinking outside the box: O uso de Big Data na campaña de Obama 2012
E ata George Clooney entra en xogo…
• Información detectada: • George Clooney desperta un alto interés na poboación femenina entre 40 e 49
anos dos estados da Costa Oeste. • ¿Qué ten de especial ese grupo? • Que é o máis probable para entregar diñeiro en efectivo.
• Acción: • Organizar un concurso entre os donantes no que o premió é unha cea con
Obama e… George Clooney
• Resultado: • Importante incremento nas donacións da Costa Oeste
• Seguinte acción: • Repeti-lo proceso na Costa Leste. • ¿Con quen? Análise Big Data Sarah Jessica Parker
Imatia Innovations 81
Thinking outside the box: O uso de Big Data na campaña de Obama 2012
• Premisa: • É moi difícil atopar taxi en Singapur cando chove• ¿Por que? Resposta obvia: Porque hai máis demanda
• Caso de estudio Singapore-MIT Alliance for Research and Technology:
• Comparación / Análise: • 2 meses de tempo atmosférico • 830 millóns de rexistros GPS • 80 millóns de viaxes en taxi • Flota de 16.000 taxis
• Resultado: • Cando chove a maior parte dos conductores non collen a ningún pasaxeiro
• Conclusión: • A compañía propietaria quita $800 do salario do conductor despois dun accidente ata
que se determine o causante (o que pode levar meses)• A probabilidade de accidente medra nos días de choiva• O conductor entón decide que non vale a pena saca-lo taxi á rúa.
Imatia Innovations 82
Thinking outside the box: ¿Por que é tan difícil atopar taxi en Singapur cando chove?
O Internet das Cousas
O todo conectado
Imatia Innovations 83
Imatia Innovations 84
IoT: Definición
Interconexión de calquera producto con calquera outro do seu
redor
Protocolo HTTP
Imatia Innovations 85
IoT: Aplicación• Na vida cotidiana:
• Domótica: O electrodoméstico conectado
• Automoción: O coche intelixente
• Wearables
• A Smart City:• Cidades máis eficiente
• O mundo empresarial
• Saúde:• O ser humano como “thing”
Imatia Innovations 86
IoT: Consideracións• Volume:
• Poderíanse chegar a trazar de 50 a 100 trillóns de obxectos.
• Un ser humano pode estar rodeado de 1000 a 5000 obxectos trazables.
• Arquitectura escalable
• Variabilidade:• Complexidade de datos• Fontes diversas
• Velocidade:• A información do obxecto debe ser
transmitida e procesada en tempo real
• Xeoposicionamento:• A información de “onde” é crucial
¿Big Data?
Imatia Innovations 87
IoT: PlataformasPlataforma Enlace
Kaa https://www.kaaproject.org/
Predix https://www.ge.com/digital/predix
Oracle Integrated Cloud https://cloud.oracle.com/integration
Carriots https://www.carriots.com/
Salesforce https://www.salesforce.com
Cisco IoT Cloud http://www.cisco.com/c/en/us/solutions/service-provider/iot-cloud-connect/index.html
Watson IoT http://www.ibm.com/internet-of-things/
Thingworx https://www.thingworx.com/
Microsoft Azure IoT Services https://azure.microsoft.com/en-us/suites/iot-suite/
AWS IoT https://aws.amazon.com/es/iot/
Imatia Innovations 88
IoT: DispositivosDispositivo Enlace
Arduino https://create.arduino.cc/iot/
http://www.survivingwithandroid.com/2015/06/internet-of-things-with-android-and-arduino.html
https://www.youtube.com/watch?v=9znRbMTimvc
Raspberry Pi https://diyhacking.com/best-raspberry-pi-iot-project
https://www.youtube.com/watch?v=wkABFP3I96c
Imatia Innovations 89
IoT Open Sourcehttp://www.postscapes.com/internet-of-things-award/open-source/
Learning Internet of Things:http://it-ebooks.info/book/4918/
Documentación
Imatia Innovations 90
Libelium:• Empresa que fabrica sensores:
• Calidade da auga na que se crían as lubinasnunha piscifactoría
• Actividade dos volcáns• Nivel de osíxeno en sangue nun humano• Plazas de parking libres en Dubai ou
Santander• MySignals
• “Maletín” de medición de constantes vitales• Ecosistema eHealth
Exemplo
http://www.libelium.com/http://www.my-signals.com/
Os retos do novo escenario
…E daquí en diante, ¿que?
Imatia Innovations 91
Imatia Innovations 92
Transformación de roles e perfiles
Autosuficiente
Móvil
Esixente
Non espera polo departamento TI
Compite con outros proveedores de servicios externos
Conversión a Service Provider
Intermediario de Servicios
O novo usuario TI O novo departamento TI
Imatia Innovations 93
Transformación de roles e perfiles
Novos roles:
• Big Data
• Business Intelligence
• Data visualization
• Data scientist
Imatia Innovations 94
O valor da información vs o valor do dato
O dato por si mesmo NON ten valor
A información obtida do dato é o que ten valor
Imatia Innovations 95
Riscos e ética
• O problema do “Gran Hermano”
• Máquina vs Humano: O emprego do futuro
Gracias!