SanchezPro 5.0

8/16/2019 SanchezPro 5.0

http://slidepdf.com/reader/full/sanchezpro-50 1/27

Isaac Sánchez Sánchez

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

UNIDAD ACADÉMICA PROFESIONAL TIANGUISTENCO

INGENIERÍA EN SOFTWARE

Comparación del desempeño entre Bases de datos orientadasa columnas contra Bases de datos lineales

Protocolo de investigación

Q U E P R E S E N T A


Asesor: Julieta Garcilazo Reyez

TIANGUISTENCO, MÉX. Mayo 2016




Contenido

Resumen ............................................................................................................................................... 3

Introducción ........................................................................................................................................... 4

Planteamiento del problema. .............................................................................................................. 5

Hipótesis ................................................................................................................................................ 5

Objetivos: ............................................................................................................................................... 5

Marco Teórico ....................................................................................................................................... 6

Estado del Arte ..................................................................................................................................... 6

Marco Metodológico ............................................................................................................................. 7

Cronograma de Actividades ............................................................................................................... 8

Anexo 1 .................................................................................................................................................. 9

Anexo 2 ................................................................................................................................................ 12

Anexo 3 ................................................................................................................................................ 15

Referencias ......................................................................................................................................... 17




Introducción

Big Data es una combinación de tecnologías de manejo de información que evolucionaa través del tiempo, la cual permite almacenar, manejar y manipular enormescantidades de datos de manera veloz y en poco tiempo para generar conocimiento[Hurwitz 2012] Gracias al avance tan rápido de la tecnología se ha creado un nuevoenfoque de entendimiento y toma de decisiones sobre los datos, que hoy en día, sonde todo tipo: estructurados, semi-estructurados y no estructurados, tomaría muchotiempo analizarlos de manera conjunta, y además, sería muy costoso cargarlos a unabase de datos tradicional [IBM 2012]. Para [Schroeck 2012] Big Data tiene mucho usoen el ámbito empresarial, dada su capacidad para influir directamente en el comerciode una economía integrada de manera global, además de que proporciona soluciones

a antiguos retos empresariales.

Hoy en día, según [IBM 2012], se genera y almacena gran cantidad de informacióndiariamente, y esa información se vuelve cada vez más y más grande, principalmentecontribuyen las compañías que tienen grandes cantidades de datos transaccionales,los cuales reúnen información de clientes, proveedores, operaciones, etcétera. Y[Hurwitz 2013] dice que parte de esta información es estructurada y se almacena enbases de datos relacionales, pero la otra parte, que es mucho más grande, que hasido generada en los últimos años, tales como documentos, reportes, imágenes,sonidos, videos, sensores, etc… son de tipo no estructurado. Además, la creación de

nuevos dispositivos y tecnologías impulsarán la creación de nuevas fuentes de datos.

Dentro del Big Data, nos encontramos con algo llamado Bases de datos No SQL. Eltérmino NoSQL (Not Only SQL) hace referencia a amplias clases de bases de datosque se diseñan para manejar datos semiestructurados. No utilizan el lenguaje deconsultas o SQL. [Jiménez 2014]. Las bases de datos Nosql surgieron según[Telemática 2012], a partir de la necesidad de gestionar volúmenes masivos deinformación, este término fue acuñado a finales de los años 90, esta engloba todaslas tecnologías de almacenamiento estructurado que no cumplen con el esquemarelacional, [De la Cruz 2012] menciona que, NoSql es un conjunto de tecnologías las

cuales se contraponen a los modelos relacionales, y que estos buscan solucionar losproblemas de eficiencia, escalabilidad y mantenimiento de datos masivos.

[Infobright 2012] nos menciona que las bases de datos orientadas a columnas estánorganizadas de columna por columna en lugar de la fila: es decir, todos los casos deun solo elemento de datos se almacenan de modo que se puede acceder como unaunidad. Esto las hace especialmente eficaces en las consultas analíticas, como la listade selecciones, que a menudo lee unos pocos elementos de datos.

Por su parte, [Abadi 2012] nos dice que los sistemas de almacenamiento orientado a

columnas parte de manera verticalmente una base de datos, y la convierte en una




colección individual de columnas que es almacenada de manera separada, estopermite que las consultas se realicen solo en los atributos que son requeridos y nodeben leer toda la fila y descartar uno a uno los atributos que no son necesarios. Porsu parte, [De la Cruz 2012] concuerda con [Abadi 2012] en que las Bases de datosorientadas a columnas, permiten que la información sea almacenada de formaefectiva, se evitan los valores nulos, los datos ya no son insertadas como filas, sinoconvertidas en pares de “llaves” y valores dando la definición a cada una de las

columnas.

Planteamiento del problema.Se comparará el rendimiento en costos de tiempo en una base de datos lineal, contrauna base de datos orientada a columnas, cuando los datos son masivos.

HipótesisAl comparar los tiempos de carga, consulta y manejo de los datos dentro de las basesde datos, se podrá conocer, cuál de las dos es más eficiente al utilizar gran cantidadde datos.

Objetivos:Objetivo general:

El objetivo general de este trabajo es comparar la eficiencia y el desempeño de las

bases de datos orientadas a columnas con respecto a las bases de datos lineares.

Objetivos específicos:

Especificar el entorno en el que se van a probar las bases de datos

Especificar la base de datos o las bases de datos a utilizar

Conocer las plataformas en las que se harán las pruebas

Especificar el modelo del equipo de cómputo en el que se correrán las consultas

Instalar los gestores de Bases de datos

Cargar los datos en la base de datos

Hace las pruebas de rendimiento. Hacer las comparaciones

Crear el reporte de resultados

Generar conclusiones





Marco TeóricoEl avance realizado hasta ahora, se encuentra en el anexo 1

Big data [Hurwitz 2012] [IBM 2012] [Schroeck 2012] [Shroeck 2013] [Barlow 2013][Revilla 2013]

Datos estructurados y no Estructurados [IBM 2012] [Hurwitz 2013] [Barranco 2013][Barlow 2013]

Hadoop [IBM 2012] [Barlow 2013] [Hurwitz 2013] [Warren 2011] [Hurwitz 2013][Schneider 2012]

Cloud computing [Sosinsky 2011]

Mineria de datos [jiawei 99] [Kambar 2002] [Witten 2006] [Rajamaran 2010]

Internet de las cosas [GSM 2014] [Santucci 2013] [Underdahl 2014]

Business Intelligence [Scheps 2011] [Zorrilla 2011] [Revilla 2013]

Estado del ArteEl avance realizado hasta ahora, se encuentra en el anexo 2

Introducción: Big Data. Pasado, presente y futuro [Tascon 2013]

Big data". Un nuevo paradigma de análisis de datos [Jimenez 2014]

Big data: The next frontier for innovation, competition, and productivity. [Manyika 2011]

Big data. The management revolution [McAfee 2012]

Business Intelligence and Analytics: From Big Data to Big Impact. [Chen 2012]

The age of big data. [Lohr, S. 2012].

Data science and its relationship to big data and data-driven decision making [Provost2013]

Big data: How do your data grow? [Lynch 2008]

Big data: The future of biocuration. Nature [Howe 2008]

Big data: la revolución de los datos masivos [Mayer-Schönberger 2013]




The pathologies of big data [Jacobs 2009]

The digital universe in 2020: Big data, bigger digital shadows, and biggest growth inthe far east. [Gantz 2012]

Column-Oriented Databases, an Alternative for Analytical Environment [MATEI 2010]

Column-Oriented Database Systems [VLDB 2009]

Enhancements to SQL Server Column Stores [Larson 2013]

An Approach for Hybrid-Memory Scaling Columnar In-Memory Databases [Höppner2014]

Query Execution in Column-Oriented Database Systems [Abadi 2008]

The Design and Implementation of Modern Column-Oriented Database Systems[Abadi 2013]

Processing a Trillion Cells per Mouse Click [Hall 2012]

Marco Metodológico

Bases de datos orientadas a columnas: un análisis corporativo frente a los modelos de bases de datosrelacional, orientado a objetos y objeto relacional [Azcaráte 2011]

MonetDB: Two Decades of Research in Column-oriented Database Architectures [Idreos 2012]

Column-oriented Database Systems [Abadi 2009]

Pruebas de rendimiento bases de datos columnares vs bases de datos orientadas a filas. [Infobright

2012]




Cronograma de Actividades

Actividad

ju

ni

o

ju

li

o

ag

ost

o

septi

embr

e

oct

ubr

e

novie

mbre

dicie

mbr

e

en

er

o

feb

rer

o

Especificar el entorno en el que se

van a probar las bases de datos

Especificar la base de datos o las

bases de datos a utilizar

Conocer las plataformas en las que

se harán las pruebas

Especificar el modelo del equipo de

cómputo en el que se correrán las consultas

Instalar los gestores de Bases de

datos

Cargar los datos en la base de datos

Hace las pruebas de rendimiento.

Hacer las comparaciones

Crear el reporte de resultados





Anexo 1Para [Hurwitz 2012], Big Data es una combinación de tecnologías de manejo deinformación que evoluciona a través del tiempo, la cual permite almacenar, manejary manipular enormes cantidades de datos de manera veloz y en poco tiempo para

generar conocimiento. Gracias al avance tan rápido de la tecnología se han abiertolas puertas hacia un nuevo enfoque de entendimiento y toma de decisiones sobrelos datos, que, ya son de cualquier tipo, tales como estructurados, semi-estructurados, y no estructurados, a los cuales tomaría demasiado tiempoanalizarlos y, además, sería demasiado costoso cargarlos a una base de datostradicional.[IBM 2012]. Tiene mucho uso en el ámbito empresarial, dada sucapacidad para influir directamente en el comercio de una economía integrada demanera global, además de que proporciona soluciones a antiguos retosempresariales [Schroeck 2012].

Actualmente, generamos y almacenamos información diariamente, y estainformación se hace cada vez más y más grande, esta contribución la podemosencontrar en diversas industrias, compañías que tienen grandes cantidades dedatos transaccionales, reuniendo información acerca de clientes proveedores,operaciones, etc… de la misma manera sucede con el sector público, ya que enmuchos países se administran enormes bases de datos, con datos como censos depoblación, registros médicos, impuestos, etcétera. Y por si fuera poco, al añadirtransacciones financieras en línea, o por dispositivos móviles, análisis de redessociales, ubicaciones geográficas, en otras palabras, todas aquellas actividades quela mayoría de las personas realiza varias veces al día, genera alrededor de 2.5

quintillones de bytes diariamente en el mundo [IBM 2012]. Parte de toda estainformación es estructurada, y almacenada en bases de datos relacionales, de lamanera tradicional, pero otros datos, la mayoría de los generados en los últimosaños, tales como documentos, reportes, imágenes, sonidos, videos, sensores,datos generados por redes sociales, son de tipo no estructurado, además, laposibilidad de la creación de nuevos dispositivos y tecnologías impulsará la creaciónde nuevas fuentes de datos [Hurwitz 2013].

Pero, al hablar de los tipos de datos, estructurados y no estructurados, cabe definircomo son estos tipos de datos. Los datos estructurados, para [Hurwitz 2013]

generalmente son los datos a los que se les ha definido formato y tamaño, ejemplosde estos datos estructurados incluyen números, fechas y grupos de palabras yletras, llamados cadenas, Muchos expertos están de acuerdo, en que este tipo dedatos conforman el 20% de todos los datos que se encuentran actualmente, loscuales se encuentran en bases de datos relacionales, y se pueden manipularusando SQL. Por otra parte, los datos no estructurados, para [Barranco 2013] sonlos datos que carecen de un formato específico, los cuales, no encajarían en una




base de datos tradicional, [Marketing 2005], y realmente ocupan el 80% de todoslos datos que existen y que son generados actualmente [Hurwitz 2013]

Para considerarse Big Data es necesario que el procesamiento de nuestros datostenga 3 características importantes, las cuales son Volumen, que es la gran cantidad

de datos, Variedad que es todos los tipos de datos al mismo tiempo y Velocidadque indica el tratarlos en tiempo real, o de la manera más rápida posible, [Barlow2013], aunque estas 3 dimensiones engloban de forma característica todo elconcepto de Big Data, [Shroeck 2013] y varios especialistas creen que debe existiruna 4ta dimensión, que se llama Veracidad, esto debido a la importancia de abordary gestionar la incertidumbre de ciertos datos.

Al no descubrir el valor asociado a todos esos datos generados, las empresaspierden dinero, pero se ha atacado esa problemática desde varios ángulos, escuando surge la plataforma de código abierto Hadoop. Está inspirado en el proyectode Google File System (GFS) y en el paradigma de programación MapReduce, elcual consiste en dividir en dos tareas, (mapper - reducer) para manipular los datosdistribuidos a nodos de un clúster, logrando un alto paralelismo en el procesamiento,Hadoop está compuesto por tres partes fundamentales, Hadoop Distributed FileSystem (HDFS), Hadoop MapReduce y Hadoop Common. [IBM 2012]. [Barlow2013] dice que Hadoop soporta aplicaciones de procesamiento distribuidas a travésde una infraestructura barata, haciendo posible mezclar y combinar datos queprovienen de muchas fuentes distintas. El proceso de desarrollo de este tipo deherramientas es incremental, ya que los nuevos escenarios o modos de manejo deinformación son construidos usando sus predecesores. El manejo de información

tiene que incluir avances tecnológicos en Hardware, almacenamiento,comunicaciones y modelos computacionales como virtualización y cloud computing.La convergencia de las tecnologías emergentes y la reducción de los costos en todoel proceso computacional, han transformado el panorama de los datos y han creadonuevas oportunidades posibles, así como todos estos factores tecnológicosconvergen, la transformación es la manera de manejar y acumular la información[Hurwitz 2013].

Una característica principal del Big Data es la gran capacidad que ofrece al recopilaruna gran cantidad de datos en tan corto tiempo, y realizar análisis, pero hoy en día,con las nuevas tecnologías en desarrollo, estos datos se recopilan de manera másrápida y en cantidades más grandes, tal es el caso de Internet de las cosas y elCloud computing, pero, ¿en qué consisten?

Actualmente, se puede confundir el concepto de Big Data con Business Intelligence(BI), aunque los dos ayudan a tomar decisiones, son distintos uno del otro.

Por una parte Busines intelligence, es definido por [Scheps 2011] como el uso delos datos del ayer y hoy para tomar mejores decisiones acerca del mañana, si es




seleccionado el criterio correcto para determinar el éxito, ubicando y transformandolos datos apropiados para dibujar conclusiones, o arreglando información de unamanera que mejor guie hacia adelante, BI hace a las compañías más inteligentes,permite ver las cosas de una manera más clara y real como serán las cosas en elfuturo de la organización. BI es lograr que los gerentes y directivos de las

organizaciones tomen las mejores decisiones cada día accediendo de forma directaa la información “clave” de su negocio de manera ágil y sencilla [Zorrilla 2011].

Las bases de datos Nosql surgieron según [Telemática 2012], a partir de lanecesidad de gestionar volúmenes masivos de información, este término fueacuñado a finales de los años 90, esta engloba todas las tecnologías dealmacenamiento estructurado que no cumplen con el esquema relacional, [De laCruz 2012] menciona que, NoSql es un conjunto de tecnologías las cuales secontraponen a los modelos relacionales, y que estos buscan solucionar losproblemas de eficiencia, escalabilidad y mantenimiento de datos masivos.

Para [Whitepaper 2014]. Las bases de datos NoSql son sistemas dealmacenamiento de información que no cumplen con el esquema entidad –relación.Tampoco utilizan una estructura de datos en forma de tabla donde se vanalmacenando los datos, sino que para el almacenamiento hacen uso de otrosformatos como clave –valor, mapeo de columnas o grafos

[Infobright 2012] nos menciona que las bases de datos orientadas a columnas estánorganizadas de columna por columna en lugar de la fila: es decir, todos los casosde un solo elemento de datos se almacenan de modo que se puede acceder como

una unidad. Esto las hace especialmente eficaces en las consultas analíticas, comola lista de selecciones, que a menudo lee unos pocos elementos de datos.

Por su parte, [Abadi 2012] nos dice que los sistemas de almacenamiento orientadoa columnas parte de manera verticalmente una base de datos, y la convierte en unacolección individual de columnas que es almacenada de manera separada, estopermite que las consultas se realicen solo en los atributos que son requeridos y nodeben leer toda la fila y descartar uno a uno los atributos que no son necesarios.Por su parte, [De la Cruz 2012] concuerda con [Abadi 2012] en que las Bases dedatos orientadas a columnas, permiten que la información sea almacenada de forma

efectiva, se evitan los valores nulos, los datos ya no son insertadas como filas, sinoconvertidas en pares de “llaves” y valores dando la definición a cada una de lascolumnas.




Anexo 2

La definición que proporciona el diccionario de inglés de Oxford es “datos de tamaño

muy grande, típicamente hasta el extremo de que su gestión presenta retoslogísticos significativos”. [Jiménez 2014] Pero, según el estudio publicado porMcKinsey Global Institute (MGI) en junio de 2011: iluminó el sentido de la definiciónanterior al definir big data como “conjuntos de datos cuyo tamaño va más allá de la

capacidad de captura, almacenado, gestión y análisis de las herramientas de base

de datos, pero Gartner definió big data como “activos de información caracterizados

por su volumen elevado, velocidad elevada y alta variedad, que demandan

soluciones innovadoras y eficientes de procesado para la mejora del conocimiento

y la toma de decisiones en las organizaciones. [Jiménez 2014]

Las redes sociales como Facebook, Twitter, LinkedIn, etc., son uno de los másreconocidos caladeros para obtener datos masivos, habiendo dado lugar a una líneade investigación importante, que es el análisis del sentimiento. Una de susramificaciones es la incidencia que tiene en las finanzas, [Jiménez 2014] aunqueotra fuente de información que en un futuro muy cercano generara muchísimosdatos va a ser el IoT o Internet de las cosas [Jiménez 2014] que Se trata de todoslos datos que se generan entre persona y máquina o entre máquina y máquina[Jiménez 2014]

El procesar la información asociada a conjuntos de datos cuyo tamaño es del orden

de 10 TB plantea utilizar sistemas distribuidos en nodos en lugar de sistemas conun único nodo, La razón principal es la rapidez. Si un nodo procesa 50 MB/srequerirá 2,3 días para procesar la información anterior. Sin embargo, con un clústerde 1.000 nodos sólo necesitaremos 3,3 minutos. [Jiménez 2014] A sí mismo, unaparte importante de los inicios de desarrollo de plataformas informáticas para eltratamiento de big data se encuentra en dos artículos que escribieron losinvestigadores de Google. Ghemawat et al. (2003) diseñaron e implantaron elsistema de ficheros de Google (GFS) como un sistema de ficheros distribuido yescalable para aplicaciones intensivas en datos. Aunque no todo comenzó ahí,puesto que, Dean y Ghemawat (2008) crearon la herramienta MapReduce y en 2004

(primera versión de su artículo) solicitaron la patente del sistema y método para elprocesado eficiente de datos a gran escala, que fue concedida seis años después.

Estas tecnologías están incorporadas en Hadoop. El proyecto Apache™ Hadoop®

(http://hadoop.apache.org/) desarrolla software libre para el cálculo distribuido,fiable y escalable. Conocido popularmente por Hadoop y representado por unelefante amarillo. Se trata de una plataforma de software que permite escribir con




facilidad y ejecutar aplicaciones que procesan ingentes cantidades de datos.Incluye:•MapReduce(motor de cálculo offline).• HDFS (sistema de ficheros distribuidos de Hadoop). • HBase (acceso de datos online). El mayor contribuyente a los desarrollos de

Hadoop es por el momento Yahoo[Jiménez 2014]

Al hacer Big Data, nos encontramos con algo llamado Bases de datos No SQL. Eltérmino NoSQL (Not Only SQL) hace referencia a amplias clases de bases de datosque se diseñan para manejar datos semiestructurados. No utilizan el lenguaje deconsultas o SQL. [Jiménez 2014] Se relacionan porque, Hadoop y NoSQL sonsistemas abiertos o libres, poseen alta velocidad y muestran un elevado grado detolerancia al fallo. Son eficientes en costes porque almacenan los datos enpequeños trozos a través de varios servidores. Pueden procesar consultas conrapidez al enviar varias consultas a múltiples máquinas al mismo tiempo. [Jiménez

2014]

Dentro del Big Data hay un término llamado Cloud Computing o Cómputo en laNube. El término computación en la nube (cloud computing) es una solución de lastecnologías de la información (IT) para ofrecer recursos y servicios sobre Internet.[Jiménez 2014]. Según la definición del NIST (National Institute of Standard andTechnology), el cloud computing es un modelo tecnológico que permite el accesoubicuo, adaptado y bajo demanda en red a un conjunto de recursos de computaciónconfigurables compartidos (por ejemplo, redes, servidores, equipos dealmacenamiento, aplicaciones y servicios) que pueden ser rápidamente

aprovisionados y liberados con un esfuerzo de gestión reducido o interacciónmínima con el proveedor del servicio. [Jiménez 2014]. Dicho esto, la idea básica esque toda la información se almacena de forma distribuida en servidores, siendoaccesible en cualquier momento por el usuario sin que éste se preocupe de nada,el propio sistema de “cloud” es el que se encarga de mantener siempre informacióndisponible. En el caso de que se esté almacenando una aplicación en la nube, elpropio sistema es el que se encarga de subir la capacidad de computo, memoria,etc., en función del uso que se le está dando a la aplicación, con lo cual en la nubeno sólo se delega la capacidad de almacenamiento, sino que también se distribuye

en los servidores el procesamiento de datos. Esto hace que en un sistema en lanube las capacidades de cálculo y almacenamiento sean muy elevadas [Jiménez2014]

Los Macrodatos son todo aquello que tiene que ver con grandes Volúmenes deinformación que se mueven o analizan a alta Velocidad y que pueden presentaruna compleja Variabilidad en cuanto a la estructura de su composición




Al utilizar estos datos se requiere de las 3 “v” aunque pueden tomarse 4 las cualesson: Volumen, variabilidad, velocidad y actualmente se ha adoptado la 4 “v” quesería Visualización ya que no solo forma también parte de ello, sino que muchas delas imágenes que nos traen a la memoria el trabajo con Big Data tienen que ver conestas nuevas formas de ‘ver' estos datos.

En Big Data Además de los datos estructurados, aquellos otros que provienen defuentes de información conocidas y que, por tanto, son fáciles de medir y analizara través de los sistemas tradicionales, empezamos a poder y querer manejar datosno estructurados: los que llegan de la Web, de las cámaras de los móviles y vídeos,redes sociales, sensores de las ciudades y edificios

Hoy día, las herramientas y conceptos que hoy se agrupan bajo la denominaciónBig Data, el cambio de etiqueta pueda obedecer a una mera fórmula comercial enla que el marketing de empresas y consultoras re-empaqueta y cobra de nuevo porun concepto que resucita al amparo de las modas

Lo que antes eran unos números al alcance de un simple PC y una hoja de cálculohan pasado a ser ingentes cantidades que están almacenadas en ‘la nube' a lolargo de granjas enteras de computadoras y que necesitan ser procesadas conprogramas especiales que permitan manejarlos con rapidez. Esta nube (CloudComputing) es un nuevo modelo de prestación de servicios de computación,información y aplicaciones a través de Internet donde la mayoría del software seejecuta en la propia Red. Cada vez con más frecuencia, las aplicaciones y softwareen la nube y el Big Data se dan la mano para poder desarrollarse juntos.

Debido al incremento en el tamaño de los datos, de la hoja Excel hemos pasado a

Hadoop, un software que permite trabajar con miles de nodos distribuidos y conpetabytes de información.

El crecimiento del volumen de datos que podemos manejar es exponencial, lavelocidad también: esa es la principal diferencia con relación a las disciplinaspredecesoras. Igual que las versiones del software van avanzando en unidades(1.0, 2.0...) las versiones del Big Data, si las hubiera, parecen avanzar a golpe depotencias, de exponentes (Big Data², Big Data³), con todo lo que ello significa.

Existe un riesgo que a muchos preocupa al manejar gran cantidad de datos, Elacceso a los datos críticos de las empresas es cada vez más una necesidad para

poder integrar la información de múltiples fuentes de datos, a menudo de terceros,y poder analizarla, pero ese acceso raya en muchas ocasiones la frontera de loprivado. «Hay que tener en cuenta los límites de las normativas. Ver si el usuarioha habilitado el permiso para obtener esa información o no. Asimismo, hay quetrabajar mucho las condiciones y términos de uso, ya que si no después nosencontraremos con un problema con el usuario»




Dados los problemas de seguridad, se proponen ciertas medidas para lograr laaceptación del Big Data «se necesita un sistema que permita determinar los nivelesde acceso dependiendo incluso de las edades». Además, también se necesita unmecanismo que «deje una huella para que se pueda disponer de esos datos y queal mismo tiempo esté todo relacionado con el cumplimiento de normativas, tanto

internas como legales».

Como se usarían estos datos enfocados a algún objetivo específico, en concretopara la mejora de las ciudades gracias a un uso más inteligente de los datos en elentorno conocido como Smart Cities (ciudades inteligentes gracias al manejo dedatos aplicados a una mejor gestión de sus infraestructuras) «se utilizarán paramejorar la 'inteligencia de la ciudad' y no tanto para determinar oportunidades deventa a personas concretas, a no ser que esas personas accedan a ello»

Pero actualmente, dada la necesidad, de seguir explorando el mundo del BigData,surge la necesidad de que las empresas, pero sobre todo la Administración

Pública y las universidades abran sus bases de datos y permitan su manejo deforma abierta a los ciudadanos o compañías que quieran hacer uso de esosnúmeros. Si los datos son el petróleo del siglo XXI, ese combustible no sirve denada si no podemos extraerlo. Hoy sabemos de miles de bolsas ‘subterráneas' dedatos a los que no hay forma de acceder; y cuando esto puede hacerse, la formade lo que nos encontramos no es la adecuada [Tascón 2013]

Anexo 3[Infobright 2012] realizo una prueba para medir la eficiencia de dos gestores, uno

de la manera tradicional, y el otro orientado a columnas. La prueba se realizó conun esquema estrella con una tabla de hechos (H_RRHH) la cual contiene4.300.000 registros, que cuentan con 12 dimensiones asociadas, la dimensiónpersonas, que cuenta con 27000 registros, las características del hardware delsistema son:

Procesador: Intel Core i3-2330M CPU @ 2,20 GHz @ 2,20 GHz, Memoria RAMinstalada: 4,00 GB Operativo: Windows 7 Home Premium 64 bits (Service Pack 1)

Se instaló LucidDB como gestor de Base de datos para la base de datos

columnar, luego se creó la conexión con kettle y se cargaron los datos al gestor, yse notó la primera desventaja, puesto que fue tardado el tiempo de carga de losdatos, aproximadamente unos 50 registros por segundo, considerando que son4300000 registros, esto demora mucho y se tardó un dia en cargar, pero unaventaja que mencionan es que permite cargas incrementales.

Por su parte, para la base de datos linear, se utilizó el gestor infobright communityedition, que comparte sintaxis con MySql. Al realizar la carga de datos, se hizo con




un comando de Mysql: “Load data infile” que lee los registros desde un fichero de

texto a una tabla a muy alta velocidad, a comparación de kettle, cargar los datoscon este comando resultó muy rápido, solo 1 minuto, aunque la desventaja es queno se pueden hacer cargas incrementales, lo cual es importante para cargargrandes cantidades de datos.

Al realizarse las pruebas de rendimiento, se hicieron 5 consultas, que el servidorOLAP Mondrian generó automáticamente, tras hacer drill a través de tres cubosidénticos que apuntan a diferentes motores de bases de datos. Dos cubos tienencomo origen de sistemas de base de datos columnares (InfoBright CE y LucidDB)mientras que el otro tiene como fuente un servidor de bases de datos Oracle 11 gtradicional.

Y según sus resultados, infobright es la que salio mejor posicionada en cuanto alos tiempos de consulta de los querys pero con la enorme desventaja de que no sepermiten cargas incrementales.




Referencias

[Abadi 2008] Abadi, D. J. (2008). Query execution in

column-oriented database systems(Doctoral dissertation, MassachusettsInstitute of Technology).https://scholar.google.com/scholar_url?url=http://paperhub.s3.amazonaws.com/14d147739ca381a610b8eea771ab0c84.pdf&hl=es&sa=T&oi=gsb-ggp&ct=res&cd=0&ei=z8I6V4mQG460mAHx-oqgCA&scisig=AAGBfm0bBL6ABgTPxhm-

Quzh2G95wmllrA

[Abadi 2009] Idreos, S., Groffen, F., Nes, N., Manegold,S., Mullender, S., & Kersten, M. (2012).MonetDB: Two decades of research incolumn-oriented database architectures.Bulletin of the IEEE Computer SocietyTechnical Committee on Data Engineering,35(1), 40-45.https://scholar.google.com/scholar_url?url=http://dare.uva.nl/record/1/380005&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=asA6V9KaG5PumAGH4qaIAQ&scisig=AAGBfm1aarX7SIISPwBzLJVgOyv1-22Fvg

[Abadi 2013] Abadi, D., Boncz, P., Harizopoulos, S.,Idreos, S., & Madden, S. (2013). The designand implementation of modern column-oriented database systems. Now.https://scholar.google.com/scholar_url?url=http://www.cs.yale.edu/homes/dna/papers/abadi-column-stores.pdf&hl=es&sa=T&oi=gsb-ggp&ct=res&cd=0&ei=esI6V8WcOoXOmAG5_p-




ICA&scisig=AAGBfm1vq3GiBbdPGjE7cvStqXL72_UEMg

[Apache Software Foundation 2014] The Apache Software Foundation. 2014http://hadoop.apache.org/index.pdf

[Azcarate 2011] Azcarate Toro, M. D. P., & CárdenasOrozco, Á. (2011). Bases de datosorientadas a columnas: Un análisiscomparativo frente a los modelos de basesde datos relacional, orientado a objetos yobjeto relacional. Url:https://scholar.google.com/scholar_url?url=http://repositorio.utp.edu.co/dspace/handle/11059/2473&hl=es&sa=T&oi=gsb&ct=res

&cd=0&ei=CcA6V_u-HtCjmAHkiZGYCQ&scisig=AAGBfm12ATNNQovUkLooO0QyEFlmrM8QKQ

[Barlow 2013] Real Time Big Data Analytics, Emerging Architecture, Mike Barlow, O’Reilly Oct 28 – 30, 2013 New York, NY Url:https://scholar.google.com/scholar_url?url=https://books.google.com/books%3Fhl%3Des%26lr%3D%26id%3D64Uba0n38R4C%26oi%3Dfnd%26pg%3DPP2%26dq%3DReal%2BTime%2BBig%2BData%2BAnalytics,%2BEmerging%2BArchitecture,%2BMike%2BBarlow,%2BO%25E2%2580%2599Reilly%2BOct%2B28%2B%25E2%2580%2593%2B30,%2B2013%2BNew%2BYork,%2BNY%2B%2B%26ots%3DvYcIXRQMy3%26sig%3DPmQpU721jAub1SO7yaOjAV6FwpQ&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=

ccY6V43-GdCTmgHw64OoCQ&scisig=AAGBfm1r_uldIijsNFdFDLAj6odkT0Gbow

[Chen 2012] Chen, H., Chiang, R. H., & Storey, V. C.(2012). Business Intelligence and Analytics:From Big Data to Big Impact. MIS quarterly,

http://hadoop.apache.org/index.pdf

http://hadoop.apache.org/index.pdf




36(4), 1165-1188.Url: https://scholar.google.com/scholar_url?url=http://hmchen.shidler.hawaii.edu/Chen_big

_data_MISQ_2012.pdf&hl=es&sa=T&oi=gsb-

ggp&ct=res&cd=0&ei=XsY6V76jCcuymAHv5Kb4AQ&scisig=AAGBfm1bAlzGRqZ1UStSt8xX5JUtj7GzUA

[Gantz 2012] Gantz, J., & Reinsel, D. (2012). The digitaluniverse in 2020: Big data, bigger digitalshadows, and biggest growth in the far east.IDC iView: IDC Analyze the future, 2007, 1-16.: https://scholar.google.com/scholar_url?url=https://www.emc-technology.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf&hl=es&sa=T&oi=gsb-ggp&ct=res&cd=0&ei=SsY6V6XrB9CjmAHkiZGYCQ&scisig=AAGBfm2Fnkn5JJmNrgnQ2DN6M8zxZe8o9w

[Gsm 2014] Understanding

the IoT GSMA Head Office Seventh Floor,5 New Street Square, New Fetter Lane,London EC4A 3BF UK Url:http://www.gsma.com/connectedliving/wpcontent/uploads/2014/08/cl_iot_wp_07_14.pdf

[Hall 2012 ] Hall, A., Bachmann, O., Büssow, R.,Gănceanu, S., & Nunkesser, M. (2012).

Processing a trillion cells per mouse click.

Proceedings of the VLDB Endowment,5(11), 1436-1446.https://scholar.google.com/scholar_url?url=http://dl.acm.org/citation.cfm%3Fid%3D2350259&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=7sE6V8XdKsuymAHv5Kb4AQ&scisig

http://www.gsma.com/connectedliving/wpcontent/uploads/2014/08/cl_iot_wp_07_14.pdf









=AAGBfm1VOwharourXejaljH6p8mI_6m_3w

[Höppner 2014] Höppner, B., Waizy, A., & Rauhe, H. (2014).An approach for hybrid-memory scaling

columnar in-memory databases. ADMS’14.https://scholar.google.com/scholar_url?url=https://www.researchgate.net/profile/Bernhard_Hoeppner/publication/265466322_An_Approach_for_Hybrid-Memory_Scaling_Columnar_In-Memory_Databases/links/540f2a8d0cf2df04e75a2788.pdf&hl=es&sa=T&oi=gsb-ggp&ct=res&cd=0&ei=HcM6V82DB5TxjAGnq4uIDw&scisig=AAGBfm2taE1gDAnlD0rto5N87mKWEfUgGQ

[Howe 2008] Howe, D., Costanzo, M., Fey, P., Gojobori,T., Hannick, L., Hide, W., ... & Twigger, S.(2008). Big data: The future of biocuration.Nature, 455(7209), 47-50.

[Hurwitz 2013] Big Data for dummies Judith Hurwitz 2013John Wiley & Sons, Inc. New Jersey Url:https://scholar.google.com/scholar_url?url=https://books.google.com/books%3Fhl%3Des%26lr%3D%26id%3DXPkAEFXo7VgC%26oi%3Dfnd%26pg%3DPT24%26dq%3DBig%2BData%2Bfor%2Bdummies%2BJudith%2BHurwitz%2B2013%2BJohn%2BWiley%2B%2526%2BSons,%2BInc.%2BNew%2BJersey%2B%26ots%3DKNEkv_tclp%26sig%3D4-wPCQDq4wDohj1eilCCCkUwCuM&hl=es&

sa=T&oi=gsb&ct=res&cd=0&ei=M8Y6V_qKK4XOmAG5_p-ICA&scisig=AAGBfm1htvSJwvTIG-

_Otf4PD_omlKdZog




[IBM 2012] https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data

[Idreos 2012] Idreos, S., Groffen, F., Nes, N., Manegold,

S., Mullender, S., & Kersten, M. (2012).MonetDB: Two decades of research incolumn-oriented database architectures.Bulletin of the IEEE Computer SocietyTechnical Committee on Data Engineering,35(1), 40-45. Urlhttps://scholar.google.com/scholar_url?url=http://dare.uva.nl/record/1/380005&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=asA6V9KaG5PumAGH4qaIAQ&scisig=AAGBfm1aar X7SIISPwBzLJVgOyv1-22Fvg

[Infobright 2012] Infobright, Pruebas de rendimiento basesde datos columnares vs bases de datosorientadas a filas. Url:http://www.stratebi.es/todobi/abr12/DBColumn_OpenSource.pdf

[Jacobs 2009] Jacobs, A. (2009). The pathologies of bigdata. Communications of the ACM,52(8),36-44.Url:https://scholar.google.com/scholar_url?url=http://dl.acm.org/citation.cfm%3Fid%3D1536632&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=FcY6V7vEC460mAHx-oqgCA&scisig=AAGBfm3xUb2lLyHGjDl0QHLQfnnMBnoVKw

[Jimenez 2014] Jiménez, C. M. (2014). " Bid data". Un

nuevo paradigma de análisis de datos. InAnales de mecánica y electricidad (Vol. 91,No. 6, pp. 10-16). Asociacion de Ingenierosdel ICAI.Url:https://scholar.google.com/scholar_url?url=http://dialnet.unirioja.es/servlet/articulo%3Fcodigo%3D4951704&hl=es&sa=T&oi=gsb

https://www.ibm.com/

https://www.ibm.com/




&ct=res&cd=0&ei=_MU6V75BwZKYAbz9stAB&scisig=AAGBfm0mikUae9URJmQ8jvKvtaXcFv4w0w

[Larson 2013] Larson, P. A., Clinciu, C., Fraser, C.,

Hanson, E. N., Mokhtar, M., Nowakiewicz,M., ... & Saubhasik, M. (2013, June).Enhancements to SQL server columnstores. In Proceedings of the 2013 ACMSIGMOD International Conference onManagement of Data(pp. 1159-1168).ACM.https://scholar.google.com/scholar_url?url=http://dl.acm.org/citation.cfm%3Fid%3D2463708&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=V8M6V9mZKMG2mQGMirzICQ&scisig=AAGBfm2DHkT7fmqaMDPrIgvtJQH13aE6ow

[Lohr, S. 2012]. Lohr, S. (2012). The age of big data. NewYork Times, 11.Url:https://scholar.google.com/scholar_url?url=http://wolfweb.unr.edu/homepage/ania/NYTFeb12.pdf&hl=es&sa=T&oi=gsb-

ggp&ct=res&cd=0&ei=08U6V-vLD5PumAGH4qaIAQ&scisig=AAGBfm2_XR9W-iPrzQBkftKhXd9XDWrN7w

[Lurie 2013] Big data de código abierto para elimpaciente, Parte 1: Tutorial Hadoop: HelloWorld con Java, Pig, Hive, Flume, Fuse,Oozie, y Sqoop con Informix, DB2, yMySQL Cómo iniciar con Hadoop y susbases de datos favoritas, IBM Corporation

2013 Url:https://www.ibm.com/developerworks/ssa/data/library/techarticle/dm-1209hadoopbigdata/dm-1209hadoopbigdata-pdf.pdf

https://www.ibm.com/developerworks/ssa/data/library/techarticle/dm-1209hadoopbigdata/dm-1209hadoopbigdata-pdf.pdf











[Lynch 2008] Lynch, C. (2008). Big data: How do yourdata grow?. Nature, 455(7209), 28-29.Url:https://scholar.google.com/scholar_url?url=http://www.nature.com/nature/journal/v455/n7209/full/455028a.html&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=vMU6V5TyCpOPjAGCjo_QDA&scisig=AAGBfm3vqHxnnen8VPTfwlgrneCB-GwBSw

[Manyika 2011] Manyika, J., Chui, M., Brown, B., Bughin, J.,Dobbs, R., Roxburgh, C., & Byers, A. H.(2011). Big data: The next frontier forinnovation, competition, and productivity.Url:https://scholar.google.com/scholar_url?url=http://www.citeulike.org/group/18242/article/9341321&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=o8U6V8q1E8G2mQGMirzICQ&scisig=AAGBfm3mJqkFtagF3r_MG9Rez8QuE1i6XA

[Marketing 2005] DATOS SIMPLESSEMIESTRUCTURADOS Marketingdirecto 2005 URL:

http://www.marketingdirecto.com/actualidad/marketing/datos-simples-semiestructurados/print/

[MATEI 2010] Matei, G., & Bank, R. C. (2010). Column-oriented databases, an alternative foranalytical environment.Database SystemsJournal, 1(2), 3-16.https://scholar.google.com/scholar_url?url=http://dbjournal.ro/archive/2/1_Gheorghe_

Matei.pdf&hl=es&sa=T&oi=gsb-ggp&ct=res&cd=0&ei=68M6V5KsKZPumAGH4qaIAQ&scisig=AAGBfm0BTYXpJ6XHMD8L4SH--A1pbTYNYg

[Mayer-Schönberger 2013] Mayer-Schönberger, V., & Cukier, K.(2013). Big data: la revolución de los datos










masivos. Turner. Url: https://scholar.google.com/scholar_url?url=https://books.google.com/books%3Fhl%3Des%26lr%3D%26id%3DKEZi9Bgjm-kC%26oi%3Dfnd%26pg%3DPT39%26dq

%3DMayer-Sch%25C3%25B6nberger,%2BV.,%2B%2526%2BCukier,%2BK.%2B(2013).%2BBig%2Bdata:%2Bla%2Brevoluci%25C3%25B3n%2Bde%2Blos%2Bdatos%2Bmasivos.%2BTurner.%26ots%3DOc8gNfv1Tv%26sig%3DKyANU_Lkn9mSiR6gMajdOcqD_Qg&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=icU6V_ztNNCTmgHw64OoCQ&scisig=AAG

Bfm3FyIp3wQtd3GrPtJMKy546GxfNYw[McAfee 2012] McAfee, A., Brynjolfsson, E., Davenport, T.

H., Patil, D. J., & Barton, D. (2012). Bigdata. The management revolution. HarvardBus Rev, 90(10), 61-67.: https://scholar.google.com/scholar_url?url=http://www.rosebt.com/uploads/8/1/8/1/8181762/big_data_the_management_revolution.pdf&hl=es&sa=T&oi=gsb-

ggp&ct=res&cd=0&ei=QsU6V7eGJcuymAHv5Kb4AQ&scisig=AAGBfm13A8wQcSfjUSPSkkrREHySvOCyrg

[Provost 2013] Provost, F., & Fawcett, T. (2013). Datascience and its relationship to big data anddata-driven decision making. Big Data, 1(1),51-59. Url:https://scholar.google.com/scholar_url?url=http://online.liebertpub.com/doi/abs/10.108

9/big.2013.1508&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=HsU6V4KrLsGSmAG8_bLQAQ&scisig=AAGBfm0TWsH0pgEJAu_WZEMhds_F0QB_lQ

[Revilla 2013] La diferencia entre Big Data y BusinessIntelligence Ángel Leo-Revilla 2013




http://momentotic.com/2013/12/23/la-diferencia-entre-bigdata-y-business-intelligence/

[Santucci 2013] Inspiring the Internet of Things, Santucci

Gerald 2013 Alexandra Institute andpartially fundedhttps://iotcomicbook.files.wordpress.com/2013/10/iot_comic_book_original.pdf

[Scheps 2011] Bi for dummies Swain Scheps,2011Published by Wiley Publishing, Inc.,Indianapolis, Indianahttps://www.academia.edu/5150674/Gwxfe

_Business_Intelligence_For_Dummies

[Schroeck 2012] Analytics: el uso de big data en el mundoreal Cómo las empresas más innovadorasextraen valor de datos inciertos MichaelSchroeck 2012, IBM

[Sosinsky 2011] Cloud computing bible , Barrie Sosinsky,Published by Wiley Publishing, Inc.,Indianapolis, Indiana 2011http://cs.ecust.edu.cn/~yhq/course_files/clo

ud/Cloud%20Computing%20Bible.pdf

[Tascon 2013] Tascón, M. (2013). Introducción: Big Data.Pasado, presente y futuro. Telos:Cuadernos de comunicación e innovación,(95), 47-50.

[Ticout 2013] Introducción a Hadoop y su ecosistema,abril 2013,http://www.ticout.com/blog/2013/04/02/intr

oduccion-a-hadoop-y-su-ecosistema/

[Underdahl 2014] IoT for Dummies, BrianUnderdahl, John Wiley & Sons, Inc. 111River St.Hoboken,http://cdn2.hubspot.net/hubfs/35




https://iotcomicbook.files.wordpress.com/2013/10/iot_comic_book_original.pdf


https://www.academia.edu/5150674/Gwxfe_Business_Intelligence_For_Dummies


http://cs.ecust.edu.cn/~yhq/course_files/cloud/Cloud%20Computing%20Bible.pdf


http://cdn2.hubspot.net/hubfs/351564/docs/IoT_for_Dummies_KORE_Wireless_edition.pdf?t=1440384139742














1564/docs/IoT_for_Dummies_KORE_Wireless_edition.pdf?t=1440384139742

[VLDB 2009] Abadi, D. J., Boncz, P. A., & Harizopoulos,S. (2009). Column-oriented database

systems.Proceedings of the VLDBEndowment, 2(2), 1664-1665.https://scholar.google.com/scholar_url?url=http://dl.acm.org/citation.cfm%3Fid%3D1687625&hl=es&sa=T&oi=gsb&ct=res&cd=0&ei=msM6V5T0O9CjmAHkiZGYCQ&scisig=AAGBfm1wyUIe8ZdD9JSJB5_jCKcSrNIo1w

[Zorrilla 2011] Introducción al Business Intelligence Marta

Zorrilla 2011http://personales.unican.es/ZORRILLM/Miner%C3%ADa%20de%20Datos/Business%20Intelligence-%20DW%20-%20OLAP%20-%20MD.pdf



http://personales.unican.es/ZORRILLM/Miner%C3%ADa%20de%20Datos/Business%20Intelligence-%20DW%20-%20OLAP%20-%20MD.pdf










SanchezPro 5.0

Documents

Transcript of SanchezPro 5.0