Big data lead colmex
-
Upload
abel-alejandro-coronado-iruegas -
Category
Technology
-
view
1.163 -
download
2
Transcript of Big data lead colmex
@abxda
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
@abxda
Según Gartner:Big data is high-volume, high-velocity and high-variety information assets
that demand cost-effective, innovative forms of information
processing for enhanced insight and decision making.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
¿Qué es Big Data?
Diciembre 2004
Octubre 2003
@abxda
¿Qué es Big Data?
2006> 100,000 Artículos
2007@abxda
Hadoop (2006 - 2008)
@abxda
Hadoop (2006 - 2008)
@abxda
¿Qué es Big Data? (2009 – 2016…)
@abxda
Matei Zaharia Ion Stoica
(2009 – 2016…)
@abxda
(2013)
@abxda
Big Data en las Oficinas Nacionales de Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
Comisión Económica de las Naciones Unidas para Europa
@abxda
• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.
Big Data en las Oficinas Nacionales de Estadística
@abxda
• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills)
Big Data en las Oficinas Nacionales de Estadística
@abxda
@abxda
Experto encomputación ydesarrollo avanzados(Big Data)
Experto enModelado
Estadístico
Experto enel dominio de
datos
Unicornio
Zonapeligrosa!
Investigacióntradicional
Machinelearning
CIENCIADE
DATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html @abxda
Equipo Big Data• Expertos en el Dominio de los Datos, Especialistas en el área de
interés.(Economistas, Expertos en percepción remota, Psiquiatras, etc…)• Científicos de Datos, expertos en integracion de soluciones Big
Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística).• Estadisticos, expertos en modelado estadistico, enfoque en
aprendizaje estadístico (R).• Desarrolladores de Software, expertos en desarrollo de software
(JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST).• Diseñadores Gráficos, expertos en presentación de información
(HTML5, CSS3, JavaScript, Twitter Bootstrap).• Administradores de Sistemas, expertos en arquitecturas de
computo, infraestructura. Desde redes a clusters de computadoras (Linux).
#sgvirtual
@abxda
Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos Crudoshdfs://
Información(Significado)
TomarDecisiones
Actuar
¿quién?¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de DatosEstadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…Análisis de Redes (Grafos)
Minería de Datos
Velocidad
Varie
dad
VolumenCiencia de Datos
(Transforma/Modela)Cómputo Distribuido y Paralelo
ArquitecturaBig Data/Ciencia de Datos
@abxda
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil
En la misma Pc de 4 Procesadores:(2013)
Software Tiempo Manzanas
Big Data (Spark)
8 Seg. 1’221,180
Tradicional (R)
8 Seg. 2,666
https://spark.apache.org/
2013
@abxda
Twitter como fuente de Big Data (Primer Proyecto Piloto)Para medir el pulso emotivo de México …y mucho más …
@abxda
Hydra
Octubre 2013INEGI
@abxda
Visualización de la Base de Datos
200 Millones de Tuits400 Gb800 Mb Diarios
@abxda
Visualización de la Base de Datos
~100 Millones de Tuits
@abxda
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
~1,000,000 Tuiteros generaron ~ 100 Millones de Tuits
Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros
@abxda
Equipo de Trabajo
Dr. Oscar S. Siordia [email protected]
Dr. Mario [email protected] Dra. Daniela Moctezuma
Dr. Elio Villaseñorelio.villaseñ[email protected]
Dr. Eric [email protected]
Dr. Sabino [email protected]
Dr. Gerardo [email protected]
Dr. Alfredo [email protected]
Mtro. Abel [email protected]
Ing. Silvia [email protected] Y el apoyo de:
Dr. Juan Muñoz Ló[email protected]
Ing. Ricardo [email protected]
Y en la parte de visualización:Lic. Marco [email protected]
@abxda
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
Horarios de Tuiteo cerca de algún sector
@abxda
4.9 M de Polígonos de Voronoi (DENUE)
@abxda
Big Spatial Join (4.9 M DENUE +60 M Tweets)
@abxda
SpatialSpark (Nov. 2015)
@abxda
SpatialSpark: Open Source
@abxda
DENUE - Twitter
@abxda
Siguientes Pasos
• Colaboraciones Internacionales con ONU, para explorar el uso de Big Data en el calculo de los Indicadores de Desarrollo Sostenible.• Ampliar los trabajos a mas Fuentes de Big Data:
Datos de Telefonía Móvil, Imágenes de Satélite, etc.• Salud Mental en Adolescentes con Data2x y
Instituto Nacional de Psiquiatría• Producto del Ánimo Tuitero en Tiempo Real
@abxda
Preguntas
@abxda
[email protected]@abxda