comparativaherramientasetl-140806185328-phpapp02

24
Comparativa Herramientas ETL JORGE BUSTILLOS 2014

Upload: juan-timoteo-cori

Post on 25-Sep-2015

214 views

Category:

Documents


0 download

DESCRIPTION

comparativaherramientasetlETL INTELIGENCIA DE NEGOCIOS

TRANSCRIPT

  • Comparativa

    Herramientas ETL JORGE BUSTILLOS

    2014

  • Tabla contenidos

    Introduccin

    Para que se utilizan herramientas ETL?

    Por qu utilizar herramientas ETL?

    Herramientas ETL

    Pentaho Kettle

    Talend

    Informatica PowerCenter

    Inabplex Inaport

    IBM Cognos Data Manager

    Oracle Warehouse Builder

    Microsoft Integration Services

    Comparacin

    Tabla comparativa

    Costo total de dominio

    Riesgos

    Facilidad de Uso

    Soporte

    Implementacin

    Velocidad

    Calidad de la data

    Monitoreo

    Conectividad

  • Introduccin Para que se utilizan herramientas ETL?

    Por qu utilizar herramientas ETL?

  • Para que se utilizan

    herramientas ETL?

    Extraer data de varias fuentes de informacin (Legacy

    DB).

    Enviar data a:

    Un sistema optimizado de manejo de transacciones (nuevo

    gestor BD).

    Un sistema optimizado de reporte.

    Un sistema de anlisis.

    Sincronizar informacin de distintas bases de datos.

    Depurado de informacin para remover errores

    Cargar informacin a un Data Warehouse

  • Por qu utilizar herramientas

    ETL?

    Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la cantidad de Sistemas de Conversin personalizados a desarrollar para migrar o concentrar al informacin.

    Ahorra la dificultad para el DBA de conectar entre distintas marcas y tecnologas de Bases de Datos entre si.

    Permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra

    base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de

    negocio.

  • Herramientas ETL Pentaho Kettle

    Talend

    Informatica PowerCenter

    Inabplex Inaport

    IBM Cognos Data Manager

    Oracle Warehouse Builder

    Microsoft Integration Services

  • Pentaho Kettle

    Se utiliza a travs de un acercamiento basado en meta

    datos, y tiene posee una GUI para acelerar los procesos.

    La compaa Pentaho empez operaciones en el ao

    2001.

    Tiene una comunidad activa de usuarios grande,

    alrededor de 13,500 usuarios.

    Funciona utilizando Java, presentando como ventaja el

    ser una solucin multiplataforma.

  • Talend

    Talend es una herramienta OpenSource para la

    integracin de informacin.

    Usa un enfoque hacia la generacin de cdigo para la

    manipulacin de informacin y posee una GUI

    implementada en Eclipse RC.

    Lanz su primera versin en el ao 2006.

    Genera cdigo en Java o Scripts en Pearl que pueden ser

    implementados en servidores que lo soporten.

    Cuenta con una gran variedad de testimonios por parte

    de compaas importantes.

  • Informatica PowerCenter

    Informatica tiene una muy buena suite empresarial de

    integracin de datos.

    Fue fundada en el ao de 1993.

    Lder actual del sector Data Integration (Gartner

    Dataquest).

    Tiene alrededor de 2600 clientes, entre los cuales

    figuran Bancos como Grupo BBVA, organizaciones

    Gubernamentales, etc.

    La compaa se enfoca meramente en soluciones para la

    integracin de datos.

  • Inaplex Inaport

    Fundado en Reino Unido desde el ao 2004 para

    satisfacer la migracin de informacin hacia distintas

    soluciones CRM y software contable como Sage y

    Goldmine.

    Microsoft Dynamics CRM

    Sage CRM Solutions Family

    SalesLogix

    SageCRM

    ACT! by Sage

    GoldMine from FrontRange

    GoldMine Corporate and Premium

  • IBM Cognos Data Manager

    IBM Cognos Data Manager proporciona funciones

    dimensionales de extraccin, transformacin y carga

    (ETL) para conseguir una inteligencia empresarial de

    alto rendimiento.

    Se puede integrar con la GUI de IBM Data Manager

    Designer para disear y crear prototipos

    Se pueden ejecutar compilaciones y secuencias de

    trabajos en sistemas remotos desde un sistema de

    entorno de diseo de Data Manager.

    Data Manager Engine se tiene que instalar en un sistema

    UNIX o Linux.

  • ORACLE DATABASE 11G

    ORACLE WAREHOUSE BUILDER

    ENTERPRISE ETL OPTION La opcin empresarial ETL (Enterprise ETL Option) para

    Warehouse Builder es una opcin que puede ser adquirida con Oracle Warehouse Builder como parte de la edicin empresarial del motor de base de datos.

    Permite ejecutar cargas de datos usando mtodos rpidos y eficientes tales como el Oracle Data Pump y transportable tablespaces.

    Permite prever el efecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema ETL

    Es posible generar un modelo para configurar los ambientes de desarrollo, pruebas y produccin a niveles separados

  • Microsoft SQL Server Integration

    Services

    Puede extraer y transformar datos de diversos orgenes

    como archivos de datos XML, archivos planos y orgenes

    de datos relacionales y, despus, cargar los datos en

    uno o varios destinos.

    Se pueden realizar tareas de migracin fcilmente

    usando tareas visuales.

    Si se desea crear nueva funcionalidad, se pueden crear

    scripts en c# o VB

    Puede conseguir conectividad mediante CLI va DLLs

    tipo ensamblador.

  • Comparacin Tabla comparativa

    Costo total de dominio

    Riesgos

    Facilidad de Uso

    Soporte

    Implementacin

    Velocidad

    Calidad de la data

    Monitoreo

    Conectividad

  • Tabla comparativa TALEND KETTLE POWERCENTER INAPORT DATA

    MANAGER

    ORACLE

    WAREHOUSE

    SERVER

    INTEGRATION

    COSTO

    RIESGO

    FACILIDAD

    SOPORTE

    IMPLEMENTACIN

    VELOCIDAD

    CALIDAD DATA

    MONITOREO

    CONECTIVIDAD

  • Costo total de dominio

    Significa el costo promedio de cierto producto. Desde

    costo de orden, licencia, servicio, soporte,

    entrenamiento, consultora y cualquier otro pago

    adicional, que se tenga que realizar para el uso total.

    Las herramientas OpenSource son naturalmente gratis

    de utilizar, pero el soporte, entrenamiento y consultora

    son los costos a considerar.

    OpenSource Propietario Cdigo Propio

  • Riesgos

    Siempre hay un riesgo cuando se habla de la

    manipulacin de informacin almacenada.

    Sin embargo tambin se tienen que considerar los

    siguientes riesgos:

    Exceder presupuestos.

    Comprar licencias que no rediten su valor.

    Exceder tiempos.

    Falta capacitacin para uso de herramientas.

    No cumplir con requerimientos o expectativas.

  • Facilidad de uso

    Talend: Tiene una GUI pero se basa en un add-on para Eclipse RC.

    Kettle: Tiene la GUI ms fcil de utilizar dentro de las alternativas OpenSource.

    PowerCenter: Tiene una GUI fcil de utilizar, pero requeriere entrenamiento para aprovecharla.

    Inaport: Se conecta directamente al CRM de importacin.

    IBM: Se puede integrar con la GUI de IBM Data Manager Designer pero este es un mdulo aparte.

    Oracle: Fcil cuando se trata de informacin almacenada en bases de datos Oracle, debido a las herramientas Data Pump y transportable tablespaces, pero no ofrece mucha compatibilidad a otras BD.

    Microsoft: Se pueden realizar tareas de migracin fcilmente usando tareas visuales.

  • Soporte

    Talend: Soporte de paga en estados unidos.

    Kettle: Soporte en EEUU, Reino Unido y consultoras

    asociadas.

    PowerCenter: Soporte mundial va web y consultora.

    Inaport: Soporte mundial va web y consultora.

    IBM: Soporte mundial contratando en paquete.

    Oracle: Va soporte local Oracle Latinoamrica.

    Microsoft: Soporte va plataforma TechNet.

  • Implementacin TALEND KETTLE POWERCENTER INAPORT DATA

    MANAGER

    ORACLE

    WAREHOUSE

    SERVER

    INTEGRATION

    PLATAFORMA Cualquier

    compatible

    con Java o

    Perl

    Cualquiera

    compatible

    con Java.

    SERVIDOR

    WINDOWS,

    HP-UX, IBM-

    UX, REDHAT,

    SOLARIS

    WINDOWS WINDOWS

    SERVER,

    SOLARIS,

    HP-UX, IBM-

    UX, REDHAT

    ORACLE

    LINUX,

    REDHAT,

    SUSE

    ENTERPRISE

    WINDOWS

    SERVER

    RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB

    CPU 1 GHZ 1 GHZ 4 + CORES

    2GHZ

    1GHZ 2GHZ x 2

    cores

    Vara 2.2GHZ 2

    CORES

    EXTRA Se puede

    conectar a

    Schedulers

    para

    automatizar

    cargas

    Puede

    utilizar

    Slave

    Servers

    REQUIERE

    .NET

    Parte de

    Cognos

    Business

    Intelligence

    Ms

    informacin

  • Velocidad

    Talend: Ms lento que Pentaho Kettle y requiere configuracin especfica y manual, con conocimiento previo de la data a utilizar.

    Kettle: Ms rpido que Talend, sin embargo al requerir de Java Database Connector disminuye la velocidad de transacciones.

    PowerCenter: Herramienta ms rpida gracias a PushDown, sin embargo los cambios son en momento y no permite hacer Rollback a un estado anterior.

    Inaport: Utiliza una conexin directamente proporcional a la velocidad del CRM.

    IBM: Muy rpido cuando se trabaja con DB2 sin embargo la capa de compatibilidad disminuye la velocidad de conexin con distintos manejadores de base de datos.

    Oracle: La velocidad es proporcional al servicio Oracle en el cual este trabajando.

    Microsoft: La velocidad es proporcional al servicio MSSQL en el cual este trabajando.

  • Calidad de Data

    Talend: Ofrece herramientas para DQ dentro de la GUI, sentencias SQL personalizables utilizando Java.

    Kettle: Ofrece herramientas para SQ dentro de su GUI, sentencias SQL personalizadas as como herramientas JavaScript y REGEX para la depuracin de informacin.

    PowerCenter: Ofrece DQ a travs de otro producto llamado Informatica Data Quality.

    Inaport: Debido a la restriccin del origen de informacin se pude realizar tareas de DQ dentro de la misma.

    IBM: Mediante Cognos Data Manager Packages se pueden incorporar herramientas para DQ.

    Oracle: Permite DQ mediante el uso de Oracle Warehouse Builder Data Profiling Features.

    Microsoft: Requiere del software SQL Server Data Quality Services para ofrecer herramientas DQ.

  • Monitoreo

    Talend: Tiene herramientas practicas de monitoreo y registro histrico.

    Kettle: Tiene herramientas practicas de monitoreo y registro histrico.

    PowerCenter: Tiene herramientas practicas y extensivas de monitoreo y registro histrico.

    Inaport: Tiene herramientas practicas de monitoreo y registro histrico.

    IBM: Maneja registro de histricos.

    Oracle: Tiene herramientas practicas y extensivas de monitoreo y registro histrico.

    Microsoft: Tiene herramientas practicas y extensivas de monitoreo y registro histrico.

  • Conectividad

    Talend: Varias bases de datos, archivos planos, xml, Excel, servicios web, necesita JDBC para conexin.

    Kettle: Varias bases de datos, archivos planos, xml, Excel, servicios web.

    PowerCenter: Varias bases de datos, archivos planos, xml, Excel, servicios web puede exportar como servicio web.

    Inaport: Cualquier conexin ODBC, MSSQL, OUTLOOK, ACT, EXCEL.

    IBM: Cualquier conexin ODBC, DB2, para importacin a DB2, cubos de informacin T1MAP.

    Oracle: Solamente compatible con bases de datos Oracle mismas que la instalada en el DataWarehouse

    Microsoft: Bases de datos SQL SERVER, ACCESS, ADO.NET