Smile Iberia Libro Blanco Business Intelligence CAST

download Smile Iberia Libro Blanco Business Intelligence CAST

of 75

Transcript of Smile Iberia Libro Blanco Business Intelligence CAST

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    1/75

    C/ Sancho de vila, 52, 6. 3. 08018 - Barcelona

    Tel. 902 88 77 71 | www.cometatech.com

    Libro blanco:

    Business Intelligence

    Soluciones Open source

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    2/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    NDICE1 SMILEPREMBULO ____________________________________________________________________ 5

    1.1 Algunas referencias de Smile en Espaa ___________________________________________________________________________ 6

    1.2 Referencias de Smile en el mundo ________________________________________________________________________________ 8

    1.2.1 Gestin documental ________________________________________________________________________________________ 8

    1.2.2 Pginas web _____________________________________________________________________________________________ 8

    1.2.3 Portales, Intranets y Sistemas de informacin____________________________________________________________________ 8

    1.2.4 Comercio electrnico _______________________________________________________________________________________ 8

    1.2.5 ERP & Sistema de apoyo a las decisiones ______________________________________________________________________ 8

    1.2.6 Infraestructura y Alojamiento _________________________________________________________________________________ 8

    1.3 Este libro blanco ______________________________________________________________________________________________ 9

    1.4 Versin 2011 _________________________________________________________________________________________________ 9

    2 PRINCIPIOS ____________________________________________________________________________ 10

    2.1 Ayuda para la toma de decisiones _______________________________________________________________________________ 10

    2.2 Generador de informes o Reporting ______________________________________________________________________________ 10

    2.3 Anlisis de la demanda o Ad hoc ________________________________________________________________________________ 11

    2.4 El anlisis multidimensional u OLAP ______________________________________________________________________________ 12

    2.5 La consolidacin de los datos ___________________________________________________________________________________ 16

    2.5.1 Principios _______________________________________________________________________________________________ 16

    2.5.2 Organizacin ____________________________________________________________________________________________ 17

    2.6 Los principios del ETL _________________________________________________________________________________________ 18

    2.7 La tabla de tendencias ________________________________________________________________________________________ 19

    2.8 El data mining _______________________________________________________________________________________________ 20

    2.9 Tendencias _________________________________________________________________________________________________ 20

    3 LOS ELEMENTOS DEL BUSINESS INTELLIGENCE ___________________________________________ 22

    3.1 Pentaho Data Integration: PDI (Ex Kettle) __________________________________________________________________________ 22

    3.1.1 Presentacin ____________________________________________________________________________________________ 22

    3.1.2 Caractersticas ___________________________________________________________________________________________ 23

    3.1.3 Las aplicaciones _________________________________________________________________________________________ 24

    3.1.4 Planificacin _____________________________________________________________________________________________ 25

    3.1.5 Utilizacin _______________________________________________________________________________________________ 25

    3.1.6 Ejemplo ________________________________________________________________________________________________ 25

    3.1.7 Conclusin ______________________________________________________________________________________________ 26

    3.2 Talend _____________________________________________________________________________________________________ 27

    3.2.1 Presentacin ____________________________________________________________________________________________ 27

    3.2.2 Definicin de los procesos __________________________________________________________________________________ 27

    3.2.3 Modelos de empresa ______________________________________________________________________________________ 29

    3.2.4 Gestin de contextos ______________________________________________________________________________________ 29

    3.2.5 Aplicacin de los procesos _________________________________________________________________________________ 29

    3.2.6 Conclusin ______________________________________________________________________________________________ 30

    3.3 BIRT ______________________________________________________________________________________________________ 30

    3.3.1 Presentacin ____________________________________________________________________________________________ 30

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    3/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.3.2 Generador de informes ____________________________________________________________________________________ 31

    3.3.3 Diseo de informes _______________________________________________________________________________________ 32

    3.3.4 Pblico de destino ________________________________________________________________________________________ 33

    3.3.5 Tablas cruzadas __________________________________________________________________________________________ 33

    3.3.6 Conclusin ______________________________________________________________________________________________ 34

    3.4 Jasper Reports ______________________________________________________________________________________________ 34

    3.4.1 Presentacin ____________________________________________________________________________________________ 34

    3.4.2 Generador de informes ____________________________________________________________________________________ 34

    3.4.3 Diseo de informes _______________________________________________________________________________________ 35

    3.4.4 Interfaz grfica: iReport ____________________________________________________________________________________ 36

    3.4.5 Conclusin ______________________________________________________________________________________________ 37

    3.5 Pentaho Report Designer ______________________________________________________________________________________ 38

    3.5.1 Presentacin ____________________________________________________________________________________________ 38

    3.5.2 Realizacin de informes ____________________________________________________________________________________ 38

    3.5.3 Conclusin ______________________________________________________________________________________________ 41

    3.6 Pentaho Analysis o Mondrian ___________________________________________________________________________________ 41

    3.7 JPivot ______________________________________________________________________________________________________ 42

    3.8 Palo _______________________________________________________________________________________________________ 44

    3.9 JPalo ______________________________________________________________________________________________________ 46

    3.10 Weka _____________________________________________________________________________________________________ 48

    3.10.1 Presentacin ___________________________________________________________________________________________ 48

    4 LAS SUITES DE BUSINESS INTELLIGENCE _________________________________________________ 50

    4.1 Pentaho BI Suite _____________________________________________________________________________________________ 50

    4.1.1 Presentacin ____________________________________________________________________________________________ 50

    4.1.2 Caractersticas ___________________________________________________________________________________________ 51

    4.1.3 Interfaz usuario __________________________________________________________________________________________ 51

    4.1.4 Motor de workflow ________________________________________________________________________________________ 53

    4.1.5 Planificador _____________________________________________________________________________________________ 55

    4.1.6 Metadata _______________________________________________________________________________________________ 56

    4.1.7 Analyzer ________________________________________________________________________________________________ 56

    4.1.8 Dashboard designer _______________________________________________________________________________________ 57

    4.1.9 Comunidad______________________________________________________________________________________________ 59

    4.1.10 Conclusin _____________________________________________________________________________________________ 59

    4.2 SpagoBI ____________________________________________________________________________________________________ 60

    4.2.1 Presentacin ____________________________________________________________________________________________ 60

    4.2.2 Caractersticas ___________________________________________________________________________________________ 60

    4.2.3 Interfaz usuario __________________________________________________________________________________________ 61

    4.2.4 Workflow de publicacin ___________________________________________________________________________________ 62

    4.2.5 Componentes utilizados ____________________________________________________________________________________ 63

    4.2.6 Integracin de los datos ____________________________________________________________________________________ 63

    4.2.7 SpagoBI Studio y Meta ____________________________________________________________________________________ 63

    4.2.8 SpagoBI Meta ___________________________________________________________________________________________ 64

    4.2.9 Comunidad______________________________________________________________________________________________ 65

    4.2.10 Conclusin _____________________________________________________________________________________________ 65

    4.3 JasperSoft BI Suite ___________________________________________________________________________________________ 65

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    4/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    4.3.1 Presentacin ____________________________________________________________________________________________ 65

    4.3.2 Caractersticas ___________________________________________________________________________________________ 65

    4.3.3 Componentes utilizados ____________________________________________________________________________________ 67

    4.3.4 Dominios _______________________________________________________________________________________________ 67

    4.3.5 Anlisis ad hoc para los usuarios finales _______________________________________________________________________ 68

    4.3.6 Creacin de tablas de tendencias ____________________________________________________________________________ 69

    4.3.7 Jasper WorkBench ________________________________________________________________________________________ 70

    4.3.8 Conclusin ______________________________________________________________________________________________ 71

    4.4 Palo BI Suite ________________________________________________________________________________________________ 71

    4.4.1 Palo para XL ____________________________________________________________________________________________ 71

    4.4.2 Palo Web _______________________________________________________________________________________________ 72

    4.4.3 Conclusin ______________________________________________________________________________________________ 73

    5 SERVICIOS PROPUESTOS POR LOS FABRICANTES _________________________________________ 74

    6 CONCLUSIN __________________________________________________________________________ 75

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    5/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    1 SMILEPREMBULO

    Nacido en 1991, Smile es el primer integrador europeo en soluciones Open Source. Especialista en mltiples

    tecnologas y ofreciendo una gama de 18 lneas de servicios, Smile explora las mejores soluciones del mercado

    en reas tales como: Gestin de Contenidos (CMS), portales, ERP, Business Intelligence, CRM, Gestin

    Documental, eCommerce, monitorizacin y sistemas, todas ellas desarrolladas con una gran variedad de

    herramientas Open Source.

    Smile ha generado una cifra de negocio de 25.5 millones de euros en 2010, con un crecimiento anual de ms del

    30%. Smile emplea a ms de 500 personas en 6 pases y 15 ciudades (Barcelona, Pars, Lyon, Grenoble,

    Montpellier, Poitiers, Bordeaux, Lille, Aix, Nantes, Amsterdam, Ginebra, Casablanca, Kiev, Kharkov).

    Nuestros expertos integran ms de 50 soluciones Open Source. Por ello, Smile est asociada con una treintena

    de partners tecnolgicos y comerciales para ofrecer a sus clientes los mejores productos as como desarrollar

    sinergias constructivas. Smile fomenta una excelencia operacional que le permite frecuentemente ser reconocido

    y destacado (Partner europeo del ao de Magento, Partner del ao de eZ Publish, Gold Partner de Jahia, Liferay,

    Alfresco, Nuxeo, Partner Platinum de Talend, etc).

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    6/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    1.1 ALGUNAS REFERENCIAS DE SMILE EN ESPAA

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    7/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    8/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    1.2 REFERENCIAS DE SMILE EN EL MUNDO

    1.2.1 Gestin documental

    Serimax, Goservices, Pierre Audoin Consultant, Alstom Power services, NetasQ, Packetis, CS informatique,

    Corep, SNCF - Direccin del material, Mazars, EDF R&D y nuclear, Consejo Regional de Picardie, Leroy

    Merlin, Primagaz, Renault F1, INRIA, Centro de informacin de la juventud (CIDJ), Unin de la Cooperacin

    Forestal Francesa, Ministerio belga de la Comunidad Francesa, INRIA, APAVE Sur de Europa, UCFF, Volia

    Propret, Ecureuil Gestion.

    1.2.2 Pginas web

    EMI Music, Saln de la Agricultura, Mazars, Areva, Socit Gnrale, Gtes de France, Patrice Pichet,

    Groupama, Eco-Emballage, CFnews, CEA, Prisma Pub, Volia, NRJ, JCDecaux, 01-Informatique, Spie, PSA,

    Boiron, Larousse, Dassault-Systmes, Accin contra el Hambre, BNP Paribas, Air Pays de Loire, Forum des

    Images, IFP, BHV, ZeMedical, Gallimard, Cheval Mag, Afssaps, CNIL

    1.2.3 Portales, Intranets y Sistemas de informacin

    HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge, Eurosport, Invivo, Faceo,

    Castillo de Versailles, Eurosport, Ipsos, VSC Technologies, Sanef, Explorimmo, Bureau Veritas, Rgion

    Centre, Dassault Systmes, Fondation dAuteuil, PagesJaunes Annonces

    1.2.4 Comercio electrnico

    De Dietrich, Adenclassifieds, Macif, Furet du Nord, Gtes de France, Camif Collectivit, GPdis, Longchamp,

    Projectif, ETS, Bain & Spa, Yves Rocher, Bouygues Immobilier, Nestl, Stanhome, AVF Primdical, CCI,

    Pompiers de France, Comisara para la Energa Atmica

    1.2.5 ERP & Sistema de apoyo a las decisiones

    Groupe Accueil, Anevia, Projectif, Xinek, Companeo, Advans, Point P, Le Figaro, Bureau Veritas, Mindscape,

    Loyalty Experts, Cecim, Espace Loggia, Nouvelles Frontires, La Poste, HomeCineSolutions, Vocatis,

    Skyrock, Lafarge, France Domicile, Polyexpert, Cadremploi, Cmonjob, Meilleurmobile.com

    1.2.6 Infraestructura y Alojamiento

    Agencia Nacional de Cheques de Vacaciones, Pierre Audoin Consultants, Rexel, Motor Presse, OSEO,

    Sport24, Eco-EmBallage, Institut Mutualiste Montsouris, ETS, Ionis, Osmoz, SIDEL, Cadremploi, SETRAG,

    Instituto Francs del Petrleo, Mutualit Franaise...

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    9/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    1.3 ESTE LIBRO BLANCO

    Despus de tomar la delantera en mercados como el de la gestin de contenidos, los portales o los frameworks de

    desarrollo, el open source est ganando cuota de mercado en las soluciones para la toma de decisiones, gracias

    a aplicaciones que resultan muy competitivas hoy en da.

    En lnea con los otros libros publicados por Smile, esta obra ofrece:

    Un enfoque general sobre el Business Intelligence, sus conceptos, sus campos de aplicacin y sus

    necesidades especficas.

    Una lista de las mejores herramientas de open source en el campo del Business Intelligence.Una presentacin completa de las herramientas, sus puntos fuertes, sus limitaciones, su madurez y su

    capacidad para satisfacer las necesidades operativas.

    Una presentacin que ofrece a los profesionales los medios de comunicacin como apoyo a estas

    herramientas ya existentes.

    Este estudio se basa en aos de trabajo de investigacin, en un desarrollo y se optimiza de forma permanente

    gracias a los proyectos que vamos realizando con nuestros clientes.

    1.4 VERSIN 2011

    La primera versin de este libro blanco se remonta a junio de 2006.

    Desde entonces, cada ao ha aparecido una nueva versin, fruto del trabajo en los proyectos y del seguimiento

    de las herramientas.

    Esta versin de 2011 permite conocer las novedades en las soluciones open source actuales. De este modo,

    contamos con una versin 2.4 de SpagoBI, una versin 3.5.2 del conjunto Pentaho y una versin 3.7 de

    JasperSoft.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    10/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    2 PRINCIPIOS

    2.1 AYUDA PARA LA TOMA DE DECISIONES

    La cifra de ventas ha descendido durante el mes de octubre. Para remediar esta situacin, es necesario tomar

    una serie de decisiones. Pero para tomar la decisin adecuada, es necesario saber por qu ha bajado la cifra de

    ventas y, en primer lugar, cmo ha disminuido. En qu gama de productos? En qu pas o regiones? En el

    portafolio de clientes, de qu comerciales? En qu segmento de distribucin? Existe un descenso similar cada

    ao en octubre? Las preguntas que se plantean son muchas y es necesario saber responder a todas ellas antes

    de tomar una decisin adecuada.

    Es lo que denominamos ayuda para la toma de decisiones, la Business Intelligence, cuyo sinnimo en ingls

    Business intelligence es el trmino ms usado, se trata de un conjunto de soluciones informticas que permiten

    analizar los datos de la empresa con el fin de extraer informacin nueva de calidad sobre la que fundamentar las

    decisiones, ya sean de carcter tctico o estratgico.

    Una empresa moderna gestiona en su sistema informtico grandes volmenes de datos, pero a menudo, por

    culpa de esta gran cantidad de datos, resulta muy complicado dar un sentido a la informacin, comprender lo que

    expresa: tendencias subyacentes, puntos dbiles o puntos fuertes ocultos, todos aquellos aspectos que debemosconocer para tomar buenas decisiones.

    De este modo, las herramientas de ayuda para la toma de decisiones, facilitan el anlisis de los datos con el fin de

    identificar las informaciones macroscpicas pertinentes que se encuentran ocultas entre los grandes volmenes

    de datos.

    2.2 GENERADOR DE INFORMES O REPORTING

    Un informe (report en ingls) es la presentacin de datos de forma sintetizada y legible, normalmente para su

    impresin.

    En el informe aparecen tablas de cifras que gestionan encabezados, pies de pgina, subtotales, etc.

    Un generador de informes es un programa que permite definir un informe en funcin de las necesidades con una

    programacin mnima, simplemente a travs de una interfaz interactiva. Una vez definido, el informe puede

    generarse de forma regular.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    11/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Un informe puede depender de los siguientes parmetros: el ao, el mes, la regin, la rama de actividad, etc. De

    este modo, un mismo informe que haya sido definido una vez, podr ser generado con distintas variantes segnlos valores tomados por determinados parmetros.

    Los parmetros del informe podrn ser establecidos por el usuario segn desee y tambin los podrn variar para

    afinar la bsqueda.

    En otros casos, los parmetros vienen definidos automticamente por reglas de gestin; por ejemplo, para enviar

    a cada comercial la relacin de sus ventas del mes. En este caso, hablamos de informes en rfaga o bursting.

    De este modo, podemos distinguir dos fases en la generacin de un informe:

    Una fase de concepcin inicial que, a menudo, exige una experiencia especfica y que no est en manos

    del usuario final.

    Una fase de configuracin y de produccin que ya no exige una experiencia determinada y a la que puede

    acceder el usuario final.

    Es cierto que sera ideal limitar la primera fase, que es la ms costosa, y poner directamente a disposicin de los

    usuarios finales las herramientas de creacin. Pero la experiencia demuestra que normalmente no resulta posible:

    si bien es posible aprender, los usuarios tienen en realidad otras prioridades.

    En 2007, aparecieron en el campo del Business Intelligence de open source herramientas de reporting destinadas

    a los usuarios finales y denominadas ad hoc. Permiten a los usuarios finales realizar de forma rpida y simple

    informes sencillos sin que sea necesario disponer de conocimientos tcnicos.

    2.3 ANLISIS DE LA DEMANDA O AD HOC

    Se pueden distinguir dos modos de trabajo en Business intelligence: el modo informe esttico y el modo

    interactivo, con un anlisisque responde interactivamente a las solicitudes de los usuarios.

    Corresponden a distintas necesidades y, en ocasiones, son complementarias:

    Obtener informacin recurrente que corresponde a un anlisis predefinido; por ejemplo, la descomposicin

    de las ventas por regin.

    Buscar una informacin realizando distintos anlisis sucesivos; los resultados de uno conllevan nuevas

    consultas que solicitan una nueva restitucin de datos.

    En parte, las herramientas pueden ser iguales, pero existen diferencias de fondo:

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    12/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Los anlisis recurrentes se preparan ms arriba. Su ajuste puede necesitar la intervencin de expertos.

    Una vez preparados, se pueden realizar de forma regular de un modo casi automtico.Por el contrario, los anlisis interactivos deben estar bajo control del usuario final; este ya no es

    simplemente un consumidor de anlisis, sino que se convierte en el actor principal sin que

    necesariamente sea un experto en herramientas de Business Intelligence. Esto implica que las

    herramientas que intervienen en estos anlisis deben ser muy sencillas de utilizar, tanto en los conceptos

    funcionales como en la configuracin tcnica. Deben permitir, sobre todo, abstraerse totalmente de la

    tcnica y, en particular, del lenguaje SQL de consulta de las bases de datos que no podemos suponer que

    los usuarios no conocen.

    Por ltimo, el anlisis interactivo o ad hoc exige, asimismo, unos tiempos de respuesta excelentes para

    permitir al usuario tantear en tiempo real afinando su anlisis.

    2.4 EL ANLISIS MULTIDIMENSIONAL U OLAP

    El anlisis multidimensional es una de las formas de anlisis ms habituales en el campo de el Business

    Intelligence.

    Vamos a intentar ofrecer los principios fundamentales de esta modalidad.

    Se dispone de unos conjuntos bsicos de informacin, generalmente en grandes volmenes, siendo cada lnea de

    informacin un evento caracterizado por:

    Un identificador nico

    Atributos que caracterizan la informacin

    Magnitudes que conllevan una informacin cuantitativa

    De forma ms concreta, analicemos el ejemplo siguiente, muy clsico incluso si est muy simplificado.

    Consideremos la entidad bsica que es la lnea de factura. Normalmente, se trata de una entidad clave en una

    empresa: la informacin ms precisa de la que disponemos con respecto a los procesos de venta.

    La lnea de factura pertenece a una factura y se refiere a la venta de un producto, en una cantidad determinada,

    por un precio determinado y a un cliente determinado.

    Presenta distintos atributos: una indicacin de producto, una cantidad, un precio unitario, un precio total.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    13/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    A travs de la factura a la que la lnea pertenece, disponemos de otro tipo de informacin: una referencia del

    cliente, una fecha (ao, mes, da).

    Sobre el propio cliente, disponemos tambin de otro tipo de informacin: pas, regin, tipo de cliente, sector de la

    profesin, etc. Adems, el cliente posiblemente es asignado a un colaborador comercial.

    Nos detendremos aqu para este ejemplo, pero est claro que podemos extraer muchos datos de esta

    recopilacin de informacin que gira en torno a la entidad ms bsica, que es la lnea de factura.

    Por lo tanto, la primera etapa consiste en reunir toda la informacin necesaria para nuestros anlisis. Por ejemplo,

    en este caso, la informacin es:

    Fecha (ao, mes, da)

    Producto

    Familia de productos

    Cliente

    Pas del cliente

    Comercial

    Cantidad

    CA

    Los primeros datos constituyen los ejes de anlisis potenciales; los dos ltimos constituyen las magnitudes.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    14/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    En el anlisis multidimensional, la modelizacin de las relaciones de partida no es la ms pertinente ni la ms

    eficaz. Normalmente, preferimos desnormalizar la base, es decir, trabajar sobre una tabla nica en la que hemosreunido toda la informacin considerada til.

    En nuestro caso, obtenemos la siguiente informacin:

    Fecha Producto Segmento Familia Cliente Pas Ccal Cantidad Importe

    31/03/2007 12030991 Cortacsped Jardinera Castorama Francia Lepaul 50 50.000

    31/03/2007 14030952 Taladradora Herramientas Castorama Francia Lepaul 120 11.000

    31/04/2007 12030993 Cortacsped Jardinera LeroyMerlin Italia Legrand 250 230.000

    Etc.

    Sin duda, se advierte que existe una gran redundancia en esta tabla, pero al final resulta ms til aqu gestionar la

    informacin redundante pero simple. De este modo, no nos ocupamos de problemas de coherencia y de

    integridad, que son del dominio de los sistemas de informacin.

    La siguiente etapa consiste en crear un primer nivel de agregacin, es decir, reunir determinadas lneas.

    En nuestro caso, por ejemplo, podemos establecer la hiptesis de que los datos no se utilizarn en el mbito de la

    referencia del producto, sino solamente por segmento. En este caso, reuniremos todas las lneas idnticas por la

    clave (fecha, segmento, familia, cliente, pas, comercial) y acumularemos tambin las magnitudes cantidad y

    importe.

    La ltima etapa es la del anlisis multidimensional propiamente dicho, que consiste en seleccionar los ejes deanlisis.

    Entre estos ejes, podemos distinguir los siguientes:

    Ejes de valores discretos o discontinuos, es decir, que llevan un nmero determinado de valores; por

    ejemplo, un cdigo postal, un segmento CSP (categoras socio-profesionales).

    Ejes de valores continuos; normalmente, una fecha, un precio. Podemos reducirlos a un nmero discreto

    de valores, definiendo tramos: tramos de precio, tramos de edades.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    15/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Asimismo, distinguimos tambin:

    Magnitudes acumulables; por ejemplo, un importe, un nmero de artculos.Magnitudes no acumulables; por ejemplo, la edad o la fecha.

    Las magnitudes acumulables son aquellas magnitudes a las que se les puede agregar, es decir, de las que se

    puede calcular la suma (o la media u otras funciones matemticas) para un subconjunto de lneas; por ejemplo,

    para cada temtica.

    Por lo tanto, el anlisis multidimensional consiste en:

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    16/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Definir los ejes de anlisis que vamos a utilizar y el orden en el que los vamos a utilizar. Por ejemplo, por

    regin, despus por ao, despus por vendedor, despus por gama de productos. No siempreutilizaremos todos los ejes posibles.

    Definir las magnitudes que se van a estudiar y, posteriormente, la funcin que se aplica a estas

    magnitudes.

    Cada jerarquizacin de los ejes de los anlisis corresponde a una pregunta que planteamos.

    Por ejemplo, un anlisis por ao, por vendedor pretende representar la evolucin de la cifra de ventas y, a

    continuacin, comparar la labor de los vendedores cada ao transcurrido. Un anlisis por vendedor, por ao

    pretende, sobre todo, comparar a los vendedores ().

    2.5 LA CONSOLIDACIN DE LOS DATOS

    2.5.1 Principios

    La informacin y los datos que constituirn la base del sistema de Business Intelligence provienen

    normalmente de varios sistemas de informacin de la empresa. Una aplicacin de Business Intelligence

    normalmente constituye un almacn de datos, un datawarehouse, y extrae los datos de varias fuentes de la

    empresa.

    En esta etapa de consolidacin existen numerosas razones:

    La centralizacin: resultara muy difcil y, en ocasiones, imposible acceder en tiempo real a los datos

    en los distintos sistemas donde se encuentran: problemas de interconexin entre las redes, de

    rendimiento, pero tambin de discordancias entre protocolos e interfaces.

    La unificacin: el datawarehouserene los datos en un sistema nico con un referente comn, una

    modelizacin unificada y con interfaces de acceso idnticas. Permite crear vnculos entre los datos

    que, en principio, resultaban heterogneos.

    Los recursos informticos: las aplicaciones de Business Intelligence pueden necesitar mucha CPU,

    disco, memoria, y los sistemas instalados pueden no estar preparados para soportar estos nuevos

    procesamientos.

    La especializacin: las aplicaciones de Business Intelligence tienen necesidades especficas que no

    podrn ser satisfechas por los sistemas instalados en la empresa.

    El datawarehouse es una base de datos de consolidacin, normalmente con una base relacional

    relativamente estndar, pero que debe albergar y manipular grandes volmenes de informacin.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    17/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Puede ser una base de datos de open source (MySql, PostgreSql, etc.) o privativo (Oracle, SQL-

    Server).

    El datawarehouseconcentra la informacin de Business Intelligence emitida por diferentes sistemas de

    informacin de la empresa.

    2.5.2 Organizacin

    Como hemos abordado anteriormente, esta nueva base de datos de la empresa no ha sido creada para

    beneficio de una aplicacin operativa directamente vinculada a la actividad de la empresa (p. ej.: sistema

    contable, base de datos RR.HH., base de datos de los comerciales, etc.). El datawarehouse solo va a

    almacenar la informacin clave de la empresa y se utilizar nicamente para consultas de anlisis y dereporting.

    Adems, la empresa podr analizar sus datos sin reducir el rendimiento de las herramientas de produccin

    corrientes.

    Se establecer un modelo para la base de datos de Business Intelligence, con el fin de facilitar las

    consultas. Se habla de modelo de Business Intelligence en copo o en estrella.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    18/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Las tablas solo van a estar relacionadas por un nico campo clave para ayudar al rendimiento de las

    consultas; adems, determinadas informaciones del tipo lista de valores se repetirn varias veces en lastablas de dimensin.

    Como cualquier modelo de base de datos, esta etapa resulta crucial en la consecucin del proyecto. El

    modelo debe ser evolutivo para recibir de forma sencilla los nuevos datamartsen lo sucesivo y garantizar una

    sostenibilidad real a la empresa, creando un historial de un gran nmero de datos.

    El datawarehousedebe tener una duracin de vida ms larga que las herramientas de produccin. De hecho,

    estas pueden evolucionar, incluso ser reemplazadas. En este caso, el datawarehousegarantiza la memoria

    de la empresa y solo se actualizarn las interfaces de carga de este datawarehouse.

    2.6 LOS PRINCIPIOS DEL ETL

    Para alimentar el datawarehouse de las distintas aplicaciones de la empresa, utilizamos una gama de

    herramientas denominadas ETL, es decir, Extract, Transform, Load. Tal y como indica el nombre, estas

    herramientas permiten extraer datos a partir de distintas fuentes, transformarlos (formato, denominacin) y

    cargarlos en la base de datos meta; en este caso, el datawarehouse.

    Las transformaciones que normalmente son destinadas a un ETL son sencillas, pero en algunos casos pueden

    incluir tratamientos de procedimiento, verdaderos programas especficos.

    Un ETL permite evitar la creacin de programas batch repetitivos normalmente similaresde los que habr que

    garantizar, asimismo, el mantenimiento. El principio es que la integracin de un nuevo flujo de datos no requiere

    ningn desarrollo y se produce por una simple configuracin interactiva: se eligen los elementos de los datos del

    referencial fuente, se indican las transformaciones simples que deben experimentar y se precisa el destino del

    dato en el datawarehouse.

    El ETL puede manejar distintos tipos de fuentes de datos, tanto de entrada como de salida; los principios es el

    SGBD relacionales y los flujos XML, pero tambin puede tratarse de archivos de formatos fijos o con separadores

    (CSV).

    Una vez que un flujo de extraccin-transformacin-carga ha sido definido, normalmente se activa de forma regular

    bajo el control de una herramienta de planificacin de tareas o a travs de una programacin. ()

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    19/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Un ETL trata normalmente flujos de punto a punto, es decir, entre una fuente nica y un destino nico.

    El ETL suele trabajar en diferido, normalmente por la noche. Un datawarehouse registra por origen una serie de

    fotografas de la actividad de la empresa; el ETL permitir alimentar el datawarehouse con una fotografa

    adicional. Una vez que se ha aadido, los datos cargados de esta forma se convierten en datos estticos y estn

    a disposicin de los usuarios.

    2.7 LA TABLA DE TENDENCIAS

    Una tabla de tendencias no es otra cosa que una forma determinada de informe.

    Denominamos tabla de tendencias a un informe que es:

    Especialmente sinttico: todo debe caber en una hoja A4 o sobre una pantalla de ordenador.

    Muy a menudo, heterogneo, es decir, presenta distintos indicadores que, en conjunto, ofrecen una

    representacin completa de la actividad de la empresa.

    A menudo, tambin personalizado, es decir, cada usuario consulta una tabla de tendencias relativa a su

    actividad.

    Hablamos de Key Performance Indicators (KPI), indicadores clave de rendimiento. Son los indicadores que estn

    presentes a partir de la pgina de inicio de un portal de Business Intelligence.

    Segn el caso, la tabla de tendencias puede bastarse por s misma o ser el punto de entrada para conseguir

    anlisis ms afinados, tablas de tendencias secundarias o incluso accesos en drill-down.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    20/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    En ocasiones, tambin utilizamos el trmino Executive Information System, o EIS, para hacer referencia a un

    sistema de Business Intelligence, destinado especficamente a la Direccin General y que, por lo tanto, presentainformacin estratgica muy consolidada.

    2.8 EL DATA MINING

    El data mining consiste en buscar informacin esttica til, oculta en grandes volmenes de datos.

    En el reporting del anlisis multidimensional, el usuario sabe lo que est buscando: busca, por ejemplo, la

    descomposicin de la cifra de ventas por regin. Todava no sabe cmo es esta descomposicin, pero sabe de

    cuntos meses est compuesta y que es un dato pertinente para su trabajo.

    En el data mining, el usuario busca informacin esttica oculta que todava no est identificada: tendencia,

    correlacin, similitud, etc. Normalmente, un anlisis de los tiques de caja de un hipermercado puede hacer

    aparecer correlaciones entre las distintas compras de productos. Algunas tendrn una explicacin sencilla

    (maquinillas de afeitar y espuma de afeitar), pero otras resultarn insospechadas.

    Resulta muy conveniente validar estos resultados, puesto que la correlacin observada puede no traducirse en

    una relacin de causa y efecto, sino ser fortuita o resultar de una causa oculta, contando uno y otro confenmenos como consecuencias conjuntas.

    Por lo tanto, las herramientas de data mining buscan, de forma semiautomatizada, correlaciones, reglas estticas

    a travs de grandes volmenes de datos. Se ayudan en ocasiones de una restitucin grfica de estas reglas, que

    har aparecer, por ejemplo, nubes de puntos en una representacin axial de los datos.

    2.9 TENDENCIAS

    Hasta 2006, los programas de Business Intelligence de open source estaban constituidos por elementos creados

    en Java, dedicados a funciones especficas: edicin de informes, anlisis OLAP, ETL, etc. Estos elementos de

    open source estaban escritos y mantenidos por comunidades que se han ido profesionalizando progresivamente.

    Hoy en da, la tendencia se dirige claramente a la profesionalizacin del Business Intelligence open source.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    21/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    El enfoque open source se ha convertido en un business modelya instalado y, adems, prometedor; por l, los

    inversores apuestan con la posibilidad, gracias al open source, de crear rpidamente actores de carcterinternacional.

    Resulta cuanto menos notable observar que en 2008 y 2009 aos econmicamente afectados en los que las

    finanzas se han convertido en un asunto extrao y exigente, tanto Pentaho como Jaspersoft han sido capaces de

    obtener importantes ingresos.

    Estos fabricantes proponen suites de Business Intelligence completos sobre los que tienen un control absoluto de

    la tecnologa: el merdaco de los programas de Business Intelligence de open source est compuesto por grandes

    conjuntos que analizamos a continuacin.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    22/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3 LOS ELEMENTOS DEL BUSINESS INTELLIGENCE

    Antes de pasar a la creacin de soluciones completas de Business Intelligence, los proyectos de open source se

    concentran cada uno sobre un mbito concreto del Business Intelligence.

    De este modo, los proyectos BIRT o JasperReports permiten generar informes, y los proyectos Mondrian y JPivot

    permiten presentar los datos de forma multidimensional. Estos proyectos estaban y estn todava destinados a ser

    integrados como elementos dentro de desarrollos especficos.

    Determinadas plataformas de Business Intelligence de open source se basan en elementos ya experimentados y

    los integran para crear una solucin homognea, en la que todas las funcionalidades estn disponibles en un

    marco nico y se vuelven interoperables.

    En esta seccin, vamos a presentar los principales elementos del Business Intelligence disponibles en el open

    source y que podemos reagruparlos en las siguientes categoras:

    ETL: Pentaho Data Integration (Kettle), Talend Open Studio

    Generador de informes: BIRT, JasperReports y Pentaho Report Designer.

    Anlisis: Mondrian, JPivot, Palo y JPalo.

    Data mining: Weka.

    3.1 PENTAHO DATA INTEGRATION: PDI (EX KETTLE)

    3.1.1 Presentacin

    PDI es un ETL de open source que permite concebir y ejecutar operaciones de manipulacin y

    transformacin de datos.

    Gracias a un modelo grfico basado en etapas, es posible crear sin programacin procesos compuestos por

    importaciones y exportaciones de datos, adems de las distintas operaciones de transformacin como las

    conversiones, uniones, aplicaciones de filtros o incluso la ejecucin de funciones JavaScript.

    El PDI con el nombre de Kettle ha convertido en open source a partir de la versin 2.2 y se ha integrado

    rpidamente en el proyecto de plataforma de Business Intelligence Pentaho (consultar ms adelante en este

    libro blanco) que, desde entonces, lo ha renombrado como Pentaho Data Integration.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    23/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    A da de hoy, el Pentaho Data Integration est disponible en la versin 3.1. Se ha mejorado en gran medidala ergonoma y han aparecido nuevas etapas.

    3.1.2 Caractersticas

    PDI permite crear dos tipos de procesos:

    Las transformaciones: tratamientos realizados en el mbito de una o varias bases de datos que

    comprenden operaciones de lectura, manipulacin y escritura.

    Las tareas: tratamientos en un mbito ms alto, que combinan acciones como la ejecucin de unatransformacin PDI, el envo de un correo electrnico, la descarga de un archivo o el lanzamiento de

    una aplicacin. Es posible realizar acciones diferentes en funcin del xito o fracaso de cada etapa.

    PDI tambin se puede utilizar con un referencial compartido. De este modo, varios desarrolladores pueden

    utilizar objetos comunes. Este referencial est almacenado en una base de datos relacionada y el

    desarrollador puede conectarse de forma regular a varios referenciales sucesivamente.

    PDI puede conectarse a un gran nmero de bases de datos, entre las que se incluyen Oracle, Sybase,

    MySQL, PostgreSQL, Informix, SQLServer y otras; tambin puede utilizar datos procedentes de archivos de

    texto, XML y Excel.

    PDI dispone de:

    Un detector de presencia de archivos y lectura de directorio.

    Conector en lectura y escritura con cubos Molap PALO.

    Conector LDAP y lectura de archivos LDIF

    Conector SalesForce (lectura)

    Lista de plug-in disponibles enhttp://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins

    Las transformaciones y las tareas se crean a travs de la accin de arrastrar-soltar de las distintas etapas de

    los procesos. En cada etapa hay diferentes asistentes disponibles que permiten, por ejemplo, generar

    automticamente las consultas de lectura y de creacin de tablas.

    http://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Inshttp://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Inshttp://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    24/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Ejemplo de transformacin

    3.1.3 Las aplicaciones

    PDI se compone de 3 aplicaciones:

    Spoon: entorno grfico de creacin y ejecucin de transformaciones y tareas.

    Pan: aplicacin de lnea de comando que permite poner en marcha la ejecucin de una

    transformacin determinada.

    Kitchen: aplicacin de lnea de comando que permite poner en marcha la ejecucin de una tarea

    determinada.

    Pan y Kitchen se utilizan para planificar la ejecucin de las transformaciones y tareas.

    Si se instala nicamente la herramienta Pan es muy ligera en varios servidores, las interfaces que se

    lanzan a travs de PDI podrn ejecutarse en varios servidores de forma simultnea. En este caso, hablamos

    de ejecucin en modo racimo. De este modo, se dispone del medio para controlar el tiempo de

    funcionamiento de las interfaces cuando las ventanas de noche se reducen.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    25/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.1.4 Planificacin

    Normalmente, resulta aconsejable que las transformaciones o las tareas creadas con PDI se ejecuten de

    forma peridica. Principalmente, es el caso de las tareas de sincronizacin o de creacin de almacenes de

    datos.

    PDI no integra directamente un planificador de tareas. Por lo tanto, la ejecucin se basa en un sistema

    externo, como los planificadores de tareas de Windows o Unix.

    En asociacin con la plataforma Pentaho y a travs de la consola de gestin de Pentaho, resulta posible

    planificar y seguir la ejecucin de tratamientos PDI.

    3.1.5 Utilizacin

    En el contexto del soporte para la toma de decisiones, PDI se utiliza para crear un datawarehouse, realizando

    la importacin de los datos desde distintas fuentes, su consolidacin y edicin.

    El uso de PDI presenta varias ventajas con respecto a las soluciones basadas en scripts:

    La creacin de flujos de datos complejos es muy sencilla.

    El mantenimiento es mucho ms fcil porque todos los flujos de datos son visibles de una sola vez en

    una interfaz nica y centralizada.

    PDI tambin encontrar su sitio en todos aquellos proyectos que no estn relacionados con el Business

    Intelligence y que tengan la necesidad de realizar de forma peridica tratamientos sobre determinados datos

    y sincronizaciones entre distintas bases.

    3.1.6 Ejemplo

    Analicemos las etapas necesarias para la creacin y lanzamiento de una sincronizacin entre dos tablas

    contenidas en bases diferentes:

    1. Soltar un objeto extraccin desde tabla en el espacio de trabajo.

    2. Editar el objeto extraccin desde tabla, elegir la fuente de datos y la tabla pertinentes. Se genera

    automticamente una consulta SQL, pero puede ser modificada con total libertad.

    3. Soltar un objeto insercin en tabla en el espacio de trabajo.

    4. Unir estos dos objetos.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    26/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    5. Editar el objeto insercin en tabla, elegir la fuente de datos y el nombre de la tabla. Kettle se encarga de

    la creacin de una tabla nueva o de la modificacin de una tabla existente utilizando la informacintransmitida a travs de las etapas anteriores.

    6. Iniciar la sincronizacin.

    ***traduir*** EXECUTION D'UNE TRANSFORMATION DANS SPOOL

    3.1.7 Conclusin

    PDI es una herramienta eficaz para realizar de forma rpida todo tipo de tratamientos sobre las bases de

    datos. Necesario en la mayora de los proyectos de Business Intelligence, tambin resultar til en todos los

    proyectos que utilicen bases de datos y que necesiten operaciones de sincronizacin o de exportacin.

    PDI tiene la ventaja de que es competente, fcil de utilizar, completamente de open source y est conectado

    con la suite de Business Intelligence Pentaho, que se presentar ms adelante.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    27/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.2 TALEND

    3.2.1 Presentacin

    Talend 1es un ETL de open source, desarrollado por la empresa Talend con sede en Francia.

    Talend es un ETL de tipo generador de cdigo, es decir, que permite crear de forma grfica procesos de

    manipulacin y transformacin de datos y, despus, generar el ejecutable correspondiente en forma de

    programa Java o Perl. Este programa Java o Perl debe abrirse en el servidor de ejecucin y ejecutarse.

    Talend es el ETL utilizado por las soluciones SpagoBI y JasperSoft (donde cambia de nombre y pasa a ser

    JasperETL).

    3.2.2 Definicin de los procesos

    Los procesos de manipulacin de datos se crean utilizando un modelo grfico basado en la accin arrastrar-

    soltar. Existen numerosos tipos de etapas para conectarse a las principales bases de datos, as como para

    tratar distintos tipos de archivos (CSV, Excel, XML).

    Talend dispone de funcionalidades nicas para un ETL de open source:

    Las etapas ETL (Extract Transform Load ), que sacan partido de la base de datos meta para las

    distintas operaciones, lo que mejora enormemente el rendimiento a costa de las posibilidades ms

    limitadas.

    Conectores para determinadas aplicaciones de CRM (SugarCRM, SalesForces y CentricCRM), lo

    que evita manipular los modelos relacionales de estas herramientas.

    Hay que tener en cuenta que Talend facilita la creacin de consultas en las bases de datos, detectando las

    relaciones entre las tablas gracias a las claves exteriores y proponiendo una interfaz al acceso.

    Tambin es posible aadir simplemente nuevas funciones y elementos para realizar procesos mscomplejos.

    1http://www.talend.com/

    http://www.talend.com/http://www.talend.com/http://www.talend.com/http://www.talend.com/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    28/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    PROCESO

    MODIFICACIN DE VALORES

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    29/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.2.3 Modelos de empresa

    Talend tambin permite crear un modelo de empresa (Business Model) para mejorar las interacciones entre

    los distintos sistemas y bases de datos. La informacin de conexin, los metadatos y los documentos pueden

    estar asociados a cada elemento. Por lo tanto, el modelo constituye una verdadera documentacin del

    sistema de informacin.

    MODELO DE EMPRESA

    A partir de aqu, este modo es completado con un generador de documentacin tcnica que permite a los

    desarrolladores ganar tiempo en la etapa de las especificaciones tcnicas a menudo olvidada.

    3.2.4 Gestin de contextos

    Talend permite gestionar los contextos y aplicarlos a las transformaciones. Por lo tanto, se puede ejecutar el

    mismo proceso en el entorno de desarrollo, de prueba o de produccin, cada vez con el uso de buenas

    conexiones a las bases de datos y metadatos correctos.

    3.2.5 Aplicacin de los procesos

    Se produce una vez que se ha generado el programa, es instalado por un administrador en la mquina y su

    ejecucin se planifica utilizando el servicio cron de Unix o las tareas planificadas de Windows, segn sea el

    caso.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    30/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Con la versin TIS (Talend Integration Suite), se propone una funcin Distant Run y CPU Balancer que

    permite a Talend integrarse perfectamente en entornos profesionales industrializados.

    A travs de su consola de supervisin en modo cliente Java o en modo Web, las personas encargadas de la

    explotacin de las interfaces cuentan con tablas de tendencias que sintetizan la buena o mala ejecucin de

    los tratamientos.

    3.2.6 Conclusin

    Talend es un producto completo. Talend ha colaborado con numerosas empresas fabricantes de soluciones

    de Business Intelligence o de bases de datos, lo que refuerza su posicin en el mercado.

    En 2008, Talend complet su oferta con una nueva herramienta Talend Open Profiler que permite completar

    la actividad ETL con una gestin de la calidad de los datos entrantes. Esto permite, por ejemplo, controlar de

    forma ms sencilla la unificacin de los datos y reconocer automticamente los datos pertenecientes a la

    misma familia.

    Observamos que Talend propone un conjunto Talend Integration Suite (TIS) de acuerdo a una suscripcin

    anual, que comprende funcionalidades muy avanzadas como la gestin de aplicaciones complejas, la

    supervisin de ejecuciones y la gestin de referenciales compartidos.

    Al igual que PDI, Talend ser utilizado de forma favorable en los proyectos de Business Intelligence; aunque

    encontrar un lugar ms oportuno en los proyectos de urbanizacin de los sistemas de informacin,

    permitindole unificar los modos de intercambio entre las distintas aplicaciones de la empresa.

    3.3 BIRT

    3.3.1 Presentacin

    BIRT 2(The Business Intelligence and Reporting Tool) es un proyecto de la comunidad Eclipse que rene un

    generador de grficos, un generador de informes y un entorno de diseo.

    2 http://www.eclipse.org/birt

    http://www.eclipse.org/birthttp://www.eclipse.org/birthttp://www.eclipse.org/birt
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    31/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    El proyecto fue iniciado por la empresa Actuate 3que comercializa una oferta de Business Intelligence que

    integra BIRT y que ha adoptado la licencia de open source para BIRT.

    3.3.2 Generador de informes

    El motor de BIRT es una biblioteca que permite generar informes (con parmetros o no) en formato HTML,

    PDF, XLS, DOC o PPT.

    Estos informes pueden ser complejos y contener varias tablas, grficos e imgenes. Los datos que se

    muestran pueden proceder de bases y de consultas diferentes.

    El motor de BIRT puede estar integrado en cualquier aplicacin desarrollada con lenguaje Java, tanto si se

    trata de una aplicacin web como si es una aplicacin de tipo cliente servidor.

    EJEMPLO DE INFORME DE BIRT

    3http://www.actuate.com

    http://www.actuate.com/http://www.actuate.com/http://www.actuate.com/http://www.actuate.com/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    32/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.3.3 Diseo de informes

    CREACIN DE INFORME DE BIRT

    BIRT dispone de una herramienta de diseo de informes que permite crear y modificar los informes de forma

    grfica, colocando elementos (tablas, grficos) en un informe vaco. Esta herramienta se integra en forma de

    plug-in en la herramienta de desarrollo Eclipse 4 pero tambin se puede utilizar como una aplicacin

    autnoma.

    Tambin es posible la definicin de un informe que sea simplemente un archivo XML, pero resulta mucho

    ms largo y poco aconsejable, pudindose crear informes sin pasar con esta herramienta.

    La creacin de un informe comprende varias etapas:

    La definicin de las fuentes de datos: se pueden aadir una o varias fuentes de datos (bases de

    datos compatibles JDBC o archivos de texto) al informe.

    La definicin de los juegos de datos: un juego de datos es un conjunto de informacin destinado a

    ser editado por una tabla o grfico. Se trata del resultado de una consulta SQL ms o menos

    compleja sobre una fuente de datos. El usuario dispone de un asistente para facilitar la creacin de

    4http://www.eclipse.org

    http://www.eclipse.org/http://www.eclipse.org/http://www.eclipse.org/http://www.eclipse.org/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    33/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    esta consulta y, adems, puede combinar diferentes fuentes de datos heterogneas vinculndolas a

    travs de una clave comn.La colocacin de los elementos: los elementos bsicos (tablas, listas, grficos, imgenes, etc.) se

    insertan en el informe a travs de la accin arrastrar-soltar.

    La configuracin: un juego de datos se asocia a cada elemento y los parmetros del proyecto grfico

    se modifican.

    La previsualizacin: la opcin de previsualizacin permite iniciar la generacin del informe.

    3.3.4 Pblico de destino

    La herramienta de diseo de informes de BIRT se destina en primer lugar a los desarrolladores, puesto que

    resulta necesario crear juegos de datos utilizando consultas SQL.

    Sin embargo, resulta posible hacer accesible BIRT a los usuarios finales que tengan un perfil menos

    tcnico, utilizando determinadas funcionalidades que permitan evitar las etapas ms complejas:

    En un primer lugar, es posible crear bibliotecas de recursos que contengan elementos bsicos para crear un

    nuevo informe: las fuentes de datos, la hoja de estilo de la empresa y un conjunto de juegos de datos. Estos

    elementos pueden incorporarse en un nuevo informe a travs, simplemente, de una accin de arrastrar-

    soltar.

    Adems, el usuario podr crear sus propios juegos de datos realizando uniones de juegos de datos

    existentes. Por ejemplo, si la biblioteca contiene los juegos de datos clientes (lista detallada de clientes) y

    ventas (lista de ventas que incluye una referencia del cliente, el producto, etc.), el usuario podr crear

    fcilmente un juego de datos ventas por cliente (lista detallada de las ventas de cada cliente). A

    continuacin, podr aadir columnas con clculos y filtrar los resultados a travs de un asistente.

    3.3.5 Tablas cruzadas

    Hace ya unos meses, se le poda reprochar a BIRT que no pudiese soportar determinados tipos de grficos y

    tablas cruzadas; hoy en da, ya se ha subsanado este defecto. No solamente estn disponibles los diagramas

    de Gantt, de burbujas o diferencias, sino que BIRT permite actualmente crear de forma intuitiva y sencilla

    cubos y tablas cruzadas a partir de cualquier juego de datos.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    34/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.3.6 Conclusin

    BIRT es una herramienta de reporting muy completa que permite crear de forma rpida informes complejos y

    controlar su maquetacin. Se beneficia del apoyo de la comunidad Eclipse, que es muy activa.

    3.4 JASPER REPORTS

    3.4.1 Presentacin

    JasperReports 5 es un motor de informes desarrollado por JasperSoft 6 y distribuido con licencia de open

    source.

    Los informes que se generan son archivos XML y pueden ser creados y modificados tambin de forma

    manual.

    Este tipo de informes existe desde el ao 2001 y ya son muy utilizados por numerosas aplicaciones

    profesionales como parte de su funcin de reporting.

    3.4.2 Generador de informes

    El motor JasperReports permite la creacin de informes en formato PDF, HTML, XML, CSV, RTF, XLS y

    TXT. Utiliza JFreeChart para crear los grficos y puede ser integrado en cualquier aplicacin desarrollada con

    lenguaje Java.

    Adems de las bases de datos clsicas, soporta servidores de anlisis multidimensional, lo que le permite

    aprovechar las posibilidades que ofrece el servidor Mondrian directamente en un informe JasperReport.

    5 http://jasperreports.sourceforge.net6 http://www.jaspersoft.com

    http://jasperreports.sourceforge.net/http://jasperreports.sourceforge.net/http://www.jaspersoft.com/http://www.jaspersoft.com/http://www.jaspersoft.com/http://jasperreports.sourceforge.net/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    35/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Informe realizado con Jasper Report

    3.4.3 Diseo de informes

    El diseo de los estados se realiza tanto por descripcin XML como a travs de una herramienta grfica. En

    nuestro caso, recomendamos el uso de la interfaz grfica.

    Los informes se descomponen en franjas, en las que se colocan los elementos grficos. Cada franja tiene un

    comportamiento determinado y aparece una o varias veces.

    Un informe realiza una iteracin sobre un juego de datos principal. Determinadas franjas se muestran antes o

    despus del conjunto de datos del informe, mientras se muestran una vez para cada elemento del juego de

    datos.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    36/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Las diferentes franjas disponibles son:

    Ttulo del informe, mostrado al inicio de la primera pgina.

    Encabezado de la pgina, mostrado al inicio de cada pgina.

    Encabezado de las columnas, mostrado antes de los datos.

    Detalles, repetidos para cada elemento de los datos.

    Fin de las columnas, mostrado despus del conjunto de datos.

    Pie de pgina, mostrado al final de cada pgina.

    ltima pgina, mostrado en la ltima pgina.

    Pgina de resumen, cierre del informe.

    Para crear informes ms ricos, es posible utilizar juegos de datos secundarios en determinados elementos,

    como los grficos o las tablas o introducir informes secundarios.

    3.4.4 Interfaz grfica: iReport

    Anteriormente, existan varias herramientas de diseo grfico para los informes JasperReports; no obstante,

    despus de que el fabricante JasperSoft desarrollase la suite de Business Intelligence, la herramienta del

    fabricante iReport ha sustituido al resto de las herramientas, que eran Jasper Assistant y JasperPal.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    37/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    iReport 7es, por lo tanto, la herramienta oficial de diseo de informes de JasperReports y se presenta en

    forma de aplicacin Java dedicada.

    Soporta la totalidad de funcionalidades de JasperReports y cuenta tambin con una extensin dedicada a la

    administracin de la plataforma de Business Intelligence de JasperSoft.

    La interfaz y el modo de funcionamiento de los informes de JasperReports le hace una herramienta indicada

    principalmente para especialistas.

    IREPORT

    3.4.5 Conclusin

    JasperReports es el motor de diseo de informes ms extendido en el mundo del open source.

    Hay que observar que todas las plataformas de Business Intelligence permiten el uso de esta herramienta.

    Su principal defecto es la falta de intuicin en los distintos fabricantes grficos, lo que limita su uso por parte

    de los usuarios finales.

    7 http://ireport.sourceforge.net

    http://ireport.sourceforge.net/http://ireport.sourceforge.net/http://ireport.sourceforge.net/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    38/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.5 PENTAHO REPORT DESIGNER

    3.5.1 Presentacin

    JFreeReport se uni al proyecto Pentaho a comienzos de 2006. El nombre de JFreeReport se ha ido

    abandonando en beneficio del Pentaho Report Designer (PRD).

    PRD permite desarrollar informes complejos y, en colaboracin con la plataforma Pentaho, publicarlos

    directamente en el servidor de Business Intelligence.

    3.5.2 Realizacin de informes

    PRD soporta los formatos PDF, HTML, CSV, Excel y Texto.

    Hay que tener en cuenta que los informes tan solo se difunden y ejecutan en modo web, mostrando

    necesariamente datos actualizados. Los usuarios finales nunca ejecutan ni publican los informes con el

    cliente pesado; por lo tanto, no puede existir ningn problema de actualizacin de datos, como podra

    observar en otras soluciones propietarias.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    39/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Los informes son definidos en XML, legibles y pueden ser incluso manipulados por una programacin simple.

    Informe realizado con Pentaho Report Designer

    Pentaho Report Designer es una herramienta de diseo grfico de un estilo similar a iReport o incluso a

    Crystal Reports, con el concepto de franjas para las zonas repetidas de la pgina (encabezado,

    encabezado de grupo, lnea, fin de pgina, etc.).

    Desde la versin 1.7, PRDactualmente, est en la versin 3.8 se ha enriquecido considerablemente y

    se integra de forma simple en la suite con una publicacin simplificada en la web de los informes creados.

    Desde que se abre el programa, una pgina de inicio gua al usuario a travs de las etapas necesarias

    para la creacin del informe:

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    40/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Un asistente permite establecer una nueva conexin, pero, sobre todo, conectarse tambin a un

    metamodelo (diccionarios de datos) de Pentaho.

    Se trata de un importante avance en las herramientas de reporting de open source. PRD ha sido la

    primera, a finales de 2007, en permitir a un usuario crear un informe sin que sea necesario disponer deconocimientos de SQL.

    Tambin estn disponibles varias funciones para realizar operaciones corrientes, como el recuento de

    ocurrencias en una reagrupacin o funciones de conversin de formato. Estas funciones se presentan en

    una biblioteca por temas.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    41/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.5.3 Conclusin

    Pentaho Report Designer es una herramienta fcil de manipular, bien integrada en la suite de

    Business Intelligence Pentaho para la gestin de parmetros o la publicacin en la plataforma web.

    Sin embargo, lamentamos algunas limitaciones por parte de PRD a la hora de gestionar tablas cruzadas,

    salvo las que existen en un esquema Mondrian ya concebido. Una posible alternativa para resolver esta

    problemtica pasa por integrar informes generados con BIRT (vase apartado3.3).

    3.6 PENTAHO ANALYSIS O MONDRIAN

    Mondrian 8es un servidor OLAP (On Line Analytical Processing) o motor OLAP disponible con licencia de open

    source EPL (Eclipse Public Licence).

    Forma parte de la categora de servidores R-OLAP, es decir, de los que acceden a los datos contenidos en una

    base relacional.

    Mondrian realiza consultas utilizando el lenguaje MDX, tambin utilizado por otros motores OLAP como el de

    Microsoft SQL Server. Este lenguaje permite crear consultas cuyo equivalente en lenguaje SQL necesitara un

    gran nmero de consultas y tiempos de ejecucin mucho ms largos.

    8 http://mondrian.sourceforge.net/

    http://mondrian.sourceforge.net/http://mondrian.sourceforge.net/http://mondrian.sourceforge.net/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    42/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Mondrian es especialmente potente y permite optimizar el tiempo de respuesta utilizando tablas agregadas,

    creadas de antemano; no obstante, tambin permite realizar clculos complejos, comparando elementos sobreuna dimensin temporal o gestionando jerarquas de recursos asimtricas.

    Mondrian es utilizado con los clientes JPivot, JPalo o Pentaho Analyzer (presentados a continuacin),

    herramientas que proponen una interfaz grfica web de consulta y manipulacin de datos.

    El proyecto Mondrian, as como su fundador Julian Hyde se han unido al proyecto Pentaho con el nombre de

    Pentaho Analysis. Mondrian es utilizado por Pentaho y JasperSoft, y est mantenido principalmente por Pentaho

    con la participacin de JasperSoft.

    Hay que tener en cuenta que Pentaho ha adquirido recientemente una nueva interfaz de navegacin OLAP en

    Mondrian denominado Analyzer, desmarcndose claramente del punto de ergonoma de la antigua interfaz

    JPivot utilizada todava por JasperSoft y SpagoBI.

    3.7 JPIVOT

    JPivot 9es un cliente OLAP que dispone de una interfaz web. Permite representar un cubo OLAP en forma de

    tabla cruzada multidimensional y realizar las operaciones clsicas de anlisis (drill down, drill up, rotaciones,

    filtros, etc.) de forma interactiva.

    JPivot permite tambin mostrar un grfico que corresponda a los datos presentados en la tabla, que se actualiza

    conforme se va explorando.

    Permite exportar la tabla y el grfico en forma de archivo PDF o de documento Excel para imprimir con el fin de

    volver a utilizar los datos obtenidos.

    La interfaz del usuario puede modificarse fcilmente a travs del uso de hojas de estilo (CSS y XSL).

    9 http://jpivot.sourceforge.net/

    http://jpivot.sourceforge.net/http://jpivot.sourceforge.net/http://jpivot.sourceforge.net/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    43/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Tabla JPivot (web)

    JPivot permite a los usuarios explorar los cubos, pero tambin realizar un drill-through, es decir, mostrar las lneas

    de datos al inicio de una cifra consolidada (por ejemplo, las N lneas de facturas de enero del producto A en la

    regin R, etc.).

    Drill through en JPivot

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    44/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    JPivot es una interfaz eficaz, fcil de utilizar y que no necesita ningn ajuste determinado.

    El grupo Mondrian/JPivot est disponible en as suites Pentaho Community Edition, JasperSoft y SpagoBI.

    3.8 PALO

    Palo 10es una base de datos multidimensional y en memoria desarrollada en C y distribuida con licencia GPL.

    Palo pertenece a la categora M-OLAP: todos los datos se cargan en la memoriay se calculan sobre la marcha,

    lo que le permite disponer de un buen tiempo de respuesta.

    Se puede acceder a la base Palo desde la hoja de clculo Microsoft Excelu OpenOffice Calc mediante un plug-

    in, lo que permite navegar en los datos multidimensionales directamente en las hojas de clculo, muy apreciadas

    entre nuestros usuarios.

    NAVEGACIN EN UN CUBO PALO EN EXCEL

    Esta integracin permite sacar partido a las funcionalidades nativas de la hoja de clculo y los grficos de Excel

    para la capa de presentacin, mostrndose los datos almacenados siempre en la base Palo y nunca en Excel.

    1010http://www.palo.net

    http://www.palo.net/http://www.palo.net/http://www.palo.net/http://www.palo.net/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    45/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Tabla de tendencias en MsExcel, creada con Palo

    Sin embargo, Palo no se limita a Excel y dispone de API hacia los lenguajes Java y PHP. Tambin puede ser

    interrogado desde otras aplicaciones como Palo Eclipse Client (JPalo prrafo siguiente) o, por supuesto, otros

    elementos del conjunto Palo, como Palo Web, una hoja de clculo en modo web.

    En el marco de un proyecto de Business Intelligence, Palo deber utilizar los datos de la empresa. A diferencia de

    Mondrian, que trabaja directamente sobre una base relacional, los datos deben importarse en la base de datos de

    Palo. Se proporcionan API y permiten escribir en el cubo M-OLAP desde los lenguajes C, Java, PHP y .NET.

    Adems, se proporciona un ETL por parte de Jedox para alimentar esta base y los ETL de open source Pentaho

    Data Integration y Talend disponen de conectores hacia PALO.

    Hay que tener en cuenta que tambin es posible desde Excel importar datos a partir de un archivo de texto o de

    una conexin ODBC. No obstante, esta solucin no est adaptada, evidentemente, a la importacin automatizadade un gran nmero de datos.

    Palo propone, adems, una funcionalidad diferenciada y muy interesante: la posibilidad de modificar los

    valores de un cubo. Los valores pueden gestionarse segn distintos estados: valor presupuestado, valor real,

    valor revisado, etc., lo que permite crear una aplicacin de introduccin de datos descentralizada y consolidar todo

    al final; o a la inversa: introducir datos globales y clasificarlos posteriormente.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    46/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    En su versin empresarial, Palo permite, adems, cambiar a modo web en tres clics una plantilla de

    introduccin o de restitucin MsExcel.Esta funcionalidad, gestionada por el Worksheet Server, est basada enun motor de conversin Excel/.Net hacia PHP, una funcionalidad nica en el mercado.

    Presenta en lneas/columnas (como en Excel) una plantilla de introduccin sin que exista la posibilidad de

    realizar una rotacin o drill.

    Adems, permite gestionar originalmente el modo Read Only en determinados indicadores y el modo

    Read-Write en otros.

    Por lo tanto, esta funcionalidad permite administrar en modo web un workflow de introduccin controlado:

    muy til no solamente para la elaboracin de presupuestos, sino tambin para centralizar de forma controlada

    todo tipo de informacin de Business Intelligence a travs de la web.

    Palo no es una herramienta profesional off the shelf de elaboracin de presupuestos, pero estn presentes todas

    las funciones para ello. Hemos tenido la oportunidad de comprobarlo realizando varias aplicaciones de este tipo.

    3.9 JPALO

    El proyecto JPalo 11propone herramientas para el servidor Palo, desarrolladas en Java y especialmente el cliente

    OLAP Palo Eclipse Client.

    Palo Eclipse Client es una aplicacin de tipo cliente complejo que se integra en el entorno de desarrollo Eclipse.

    Permite presentar los datos en un cubo Palo en forma de tabla cruzada. El usuario puede entonces realizar las

    operaciones clsicas del anlisis multidimensional.

    11http://www.jpalo.net/

    http://www.jpalo.net/http://www.jpalo.net/http://www.jpalo.net/http://www.jpalo.net/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    47/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Cliente Palo Eclipse

    En la versin actual, Palo Eclipse Client no propone la representacin de datos en forma de grficos.

    JPalo dispone de una interfaz web relativamente sencilla de utilizar, pudiendo interactuar con distintos servidores

    OLAP, entre los se incluye Mondrian.

    JPALOINTERFAZ WEB

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    48/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    3.10 WEKA

    3.10.1 Presentacin

    Weka 12 es una herramienta que permite ejecutar algoritmos de data-mining sobre un conjunto de datos.

    Tambin es posible, de este modo, aislar poblaciones o extraer reglas a partir de los datos contenidos en el

    datawarehouse.

    Se presenta en forma de una aplicacin independiente que dispone de una interfaz de usuario grfica y otra

    en lnea de comando.

    El usuario puede aplicar uno a uno los diferentes algoritmos o crear, de una forma similar a PDI, un workflow

    de tratamientos que podr ser utilizado, por ejemplo, en una plataforma de Business Intelligence para

    analizar de forma peridica los datos.

    El uso de Weka implica disponer de un buen conocimiento de data-mining y de los distintos algoritmos

    estadsticos utilizados.

    WEKA - PRETRATAMIENTO

    12http://www.cs.waikato.ac.nz/~ml/index.html

    http://www.cs.waikato.ac.nz/~ml/index.htmlhttp://www.cs.waikato.ac.nz/~ml/index.htmlhttp://www.cs.waikato.ac.nz/~ml/index.htmlhttp://www.cs.waikato.ac.nz/~ml/index.html
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    49/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    WEKAVISUALIZACIN DE LOS DATOS

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    50/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    4 LAS SUITES DE BUSINESS INTELLIGENCE

    Desde hace 4 aos, hemos estudiado e implantado las principales plataformas de Business Intelligence de open

    source.

    Cada solucin es un paquete de programas completo, compuesto por los mdulos que se presentan a

    continuacin y con una lgica conjunta.

    Si al principio los paquetes compartan los determinados elementos de open source que acabamos de presentar y

    si todava comparten algunos, las soluciones de Business Intelligence de open source tienen ahora tendencia a

    diferenciarse para aportar cada una respuesta adaptada a las necesidades de los proyectos.

    4.1 PENTAHO BI SUITE

    4.1.1 Presentacin

    Pentaho 13 es un paquete de programas que permite la distribucin de funcionalidades y documentos de

    Business Intelligence a un gran nmero de personas a travs de una interfaz web.

    Pentaho se presenta en versin Community y en versin Enterprise con una suscripcin anual y con mdulos

    adicionales, as como soporte al proyecto y garantas sobre el producto.

    Pentaho es un actor claro e implicado en el mundo open source que ha reunido desde el inicio productos de

    open source como Kettle o Mondrian. Adems, sabe gestionar su comunidad, dirigirla y al final basarse en

    sus desarrollos para completarlos e integrarlos en su versin Enterprise.

    El dashboard designer es un buen ejemplo de este anclaje en la comunidad de open source. Este mdulo se

    basa en el CDF (Community Dashboard Framework), desarrollado por la comunidad y que se destina a

    perfiles tcnicos. Basndose en este framework, el equipo Pentaho ha desarrollado una interfaz wysiwyg de

    configuracin en modo web, destinada en esta ocasin a usuarios profesionales. El mdulo end-user se

    integra ahora en la versin Enterprise.

    13 http://www.pentaho.com

    http://www.pentaho.com/http://www.pentaho.com/http://www.pentaho.com/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    51/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    4.1.2 Caractersticas

    Pentaho permite, a travs de una interfaz nica, el acceso a distintos elementos de Business Intelligence del

    suite.

    Tambin es posible consultar informes (creados con BIRT o Pentaho Report Designer), utilizar las funciones

    de exploracin multidimensional de Mondrian y crear tablas de de tendencias.

    Desde que se abre un documento, el usuario tiene la posibilidad de modificar los parmetros de ejecucin;

    por ejemplo, eligiendo el periodo concerniente o los productos representados.

    La plataforma permite tambin enviar automticamente por correo electrnico un conjunto de informes a sus

    destinatarios respectivos. Este envo se puede realizar peridicamente o de forma aislada.

    4.1.3 Interfaz usuario

    Es posible utilizar las funcionalidades de la plataforma Pentaho en una aplicacin web, un portal o mediante

    la solicitud de web-services.

    Pentaho incluye dos interfaces para la presentacin y ejecucin de las distintas acciones disponibles.

    Aplicacin web

    La interfaz de Pentaho por defecto permite el acceso de forma muy sencilla al conjunto de acciones

    disponibles, as como a las funciones de administracin.

    Existe un alto nivel de seguridad implantado en todos los niveles: acceso a los documentos, derechos de

    actuacin sobre los documentos y tambin seguridad sobre los datos en funcin de la persona conectada,

    consiguiendo que el responsable de un pas no vea, por ejemplo, ms que los datos de su pas y no los de

    otros pases.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    52/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    APLICACIN WEB PENTAHO 2.0

    Esta interfaz constituye la forma ms sencilla de aplicar la plataforma Pentaho y, por lo tanto, se utilizar a

    menudo de forma prioritaria.

    Portal

    Desde la versin 2.0 y la disponibilidad de una consola de usuario muy ergonmica y multipestaas, la

    integracin de Pentaho en un portal resulta mucho menos pertinente, incluso intil. La gran utilizacin de

    iframes en Pentaho funcionamiento que se puede duplicar para la integracin en un portal y, por la

    disponibilidad de portlets estndar que permiten mostrar listas de informes y despus ejecutarlas, facilitan

    mucho esta tarea.

    La integracin de Pentaho en un portal supone tambin la implantacin de un sistema Single Sign On con

    la gestin de usuarios en un referencial externo; en general, un anuario LDAP y el reparto de paquetes a

    travs, por ejemplo, de la solucin de open source CAS.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    53/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Figura 2 : Informe Pentaho ejecutado en un portal Liferay

    De este modo, la seguridad y la personalizacin de la interfaz son gestionadas por el portal. Por ejemplo,

    es posible elegir qu portlets se van a mostrar para cada usuario. Como con la interfaz clsica, la

    informacin del usuario se difunde hasta las acciones de Pentaho, lo que permite devolver documentos

    adaptados y personalizados.

    Los portlets proporcionados por Pentaho se utilizarn cuando se desee integrar la plataforma en los

    portales o intranets de empresa existentes.

    4.1.4 Motor de workflow

    El motor de workflow utilizado es Enhydra Shark14 Su papel consiste en estructurar la ejecucin de los

    procesos de Business Intelligence:

    Cada funcionalidad (generacin de informes, anlisis) es exigida por la ejecucin de una Accin (xaction en

    el lenguaje Pentaho).

    Un xaction es la sucesin de etapas simples, como la ejecucin de una consulta en una base de datos, la

    generacin de un estado, el envo de un correo electrnico o la ejecucin de un trabajo de PDI. Los

    14http://www.enhydra.org/workflow/shark/index.htm

    http://www.enhydra.org/workflow/shark/index.htmhttp://www.enhydra.org/workflow/shark/index.htmhttp://www.enhydra.org/workflow/shark/index.htmhttp://www.enhydra.org/workflow/shark/index.htm
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    54/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    tratamientos realizados en estas acciones pueden estar bastante impulsados, puesto que es posible tratar de

    forma separada cada elemento de un conjunto de resultados o realizar clculos especficos a travs de laejecucin de un programa JavaScript.

    El motor de workflow gestiona el encadenamiento de las distintas etapas.

    ENVO DE UN ESTADO POR EMAIL

    Cadaxactionest descrita por un simple archivo XML. Pentaho dispone de la herramienta Pentaho Design

    Studio, que se integra en el entorno de desarrollo Eclipse y que permite crear grficamente estos archivos.

  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    55/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    Pentaho Design Studio

    Hay que tener en cuenta que todos los elementos de Business Intelligence soportados por Pentaho

    constituyen una etapa del workflow. Este hecho permite combinar sus funcionalidades y ampliar muy

    fcilmente las posibilidades de la plataforma, desarrollando nuevas etapas para conseguir, si se desea,

    una verdadera aplicacin profesional.

    4.1.5 Planificador

    El planificador utilizado es Quartz 15Permite planificar cualquier accin de Pentaho.

    Tambin es posible crear una accin que genere y enve por correo electrnico un estado, y planificarla para

    una ejecucin peridica.

    El control del planificador (adicin, suspensin y supresin de las acciones) puede realizarse manualmente o

    utilizando las etapas correspondientes en una accin.

    Pentaho permite, por lo tanto, no solamente utilizar herramientas de Business Intelligence con una interfaz

    nica, sino tambin combinar sus funcionalidades y enriquecerlas gracias a los tratamientos realizados antes

    y despus de su ejecucin.

    15http://www.opensymphony.com/quartz/

    http://www.opensymphony.com/quartz/http://www.opensymphony.com/quartz/http://www.opensymphony.com/quartz/http://www.opensymphony.com/quartz/
  • 7/13/2019 Smile Iberia Libro Blanco Business Intelligence CAST

    56/75

    Copyright Smile Iberia, S.L.U.Soluciones Open SourceQueda prohibida cualquier publicacin sin autorizacin.

    4.1.6 Metadata

    Una de las principales caractersticas del paquete Pentaho reside en el Pentaho Metadata Editor, que

    permite crear vistas profesionalesde las bases de datos, comprensibles para los usuarios finales.

    El usuari