comparativaherramientasetl-140806185328-phpapp02
DESCRIPTION
comparativaherramientasetlETL INTELIGENCIA DE NEGOCIOSTRANSCRIPT
-
Comparativa
Herramientas ETL JORGE BUSTILLOS
2014
-
Tabla contenidos
Introduccin
Para que se utilizan herramientas ETL?
Por qu utilizar herramientas ETL?
Herramientas ETL
Pentaho Kettle
Talend
Informatica PowerCenter
Inabplex Inaport
IBM Cognos Data Manager
Oracle Warehouse Builder
Microsoft Integration Services
Comparacin
Tabla comparativa
Costo total de dominio
Riesgos
Facilidad de Uso
Soporte
Implementacin
Velocidad
Calidad de la data
Monitoreo
Conectividad
-
Introduccin Para que se utilizan herramientas ETL?
Por qu utilizar herramientas ETL?
-
Para que se utilizan
herramientas ETL?
Extraer data de varias fuentes de informacin (Legacy
DB).
Enviar data a:
Un sistema optimizado de manejo de transacciones (nuevo
gestor BD).
Un sistema optimizado de reporte.
Un sistema de anlisis.
Sincronizar informacin de distintas bases de datos.
Depurado de informacin para remover errores
Cargar informacin a un Data Warehouse
-
Por qu utilizar herramientas
ETL?
Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la cantidad de Sistemas de Conversin personalizados a desarrollar para migrar o concentrar al informacin.
Ahorra la dificultad para el DBA de conectar entre distintas marcas y tecnologas de Bases de Datos entre si.
Permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra
base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de
negocio.
-
Herramientas ETL Pentaho Kettle
Talend
Informatica PowerCenter
Inabplex Inaport
IBM Cognos Data Manager
Oracle Warehouse Builder
Microsoft Integration Services
-
Pentaho Kettle
Se utiliza a travs de un acercamiento basado en meta
datos, y tiene posee una GUI para acelerar los procesos.
La compaa Pentaho empez operaciones en el ao
2001.
Tiene una comunidad activa de usuarios grande,
alrededor de 13,500 usuarios.
Funciona utilizando Java, presentando como ventaja el
ser una solucin multiplataforma.
-
Talend
Talend es una herramienta OpenSource para la
integracin de informacin.
Usa un enfoque hacia la generacin de cdigo para la
manipulacin de informacin y posee una GUI
implementada en Eclipse RC.
Lanz su primera versin en el ao 2006.
Genera cdigo en Java o Scripts en Pearl que pueden ser
implementados en servidores que lo soporten.
Cuenta con una gran variedad de testimonios por parte
de compaas importantes.
-
Informatica PowerCenter
Informatica tiene una muy buena suite empresarial de
integracin de datos.
Fue fundada en el ao de 1993.
Lder actual del sector Data Integration (Gartner
Dataquest).
Tiene alrededor de 2600 clientes, entre los cuales
figuran Bancos como Grupo BBVA, organizaciones
Gubernamentales, etc.
La compaa se enfoca meramente en soluciones para la
integracin de datos.
-
Inaplex Inaport
Fundado en Reino Unido desde el ao 2004 para
satisfacer la migracin de informacin hacia distintas
soluciones CRM y software contable como Sage y
Goldmine.
Microsoft Dynamics CRM
Sage CRM Solutions Family
SalesLogix
SageCRM
ACT! by Sage
GoldMine from FrontRange
GoldMine Corporate and Premium
-
IBM Cognos Data Manager
IBM Cognos Data Manager proporciona funciones
dimensionales de extraccin, transformacin y carga
(ETL) para conseguir una inteligencia empresarial de
alto rendimiento.
Se puede integrar con la GUI de IBM Data Manager
Designer para disear y crear prototipos
Se pueden ejecutar compilaciones y secuencias de
trabajos en sistemas remotos desde un sistema de
entorno de diseo de Data Manager.
Data Manager Engine se tiene que instalar en un sistema
UNIX o Linux.
-
ORACLE DATABASE 11G
ORACLE WAREHOUSE BUILDER
ENTERPRISE ETL OPTION La opcin empresarial ETL (Enterprise ETL Option) para
Warehouse Builder es una opcin que puede ser adquirida con Oracle Warehouse Builder como parte de la edicin empresarial del motor de base de datos.
Permite ejecutar cargas de datos usando mtodos rpidos y eficientes tales como el Oracle Data Pump y transportable tablespaces.
Permite prever el efecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema ETL
Es posible generar un modelo para configurar los ambientes de desarrollo, pruebas y produccin a niveles separados
-
Microsoft SQL Server Integration
Services
Puede extraer y transformar datos de diversos orgenes
como archivos de datos XML, archivos planos y orgenes
de datos relacionales y, despus, cargar los datos en
uno o varios destinos.
Se pueden realizar tareas de migracin fcilmente
usando tareas visuales.
Si se desea crear nueva funcionalidad, se pueden crear
scripts en c# o VB
Puede conseguir conectividad mediante CLI va DLLs
tipo ensamblador.
-
Comparacin Tabla comparativa
Costo total de dominio
Riesgos
Facilidad de Uso
Soporte
Implementacin
Velocidad
Calidad de la data
Monitoreo
Conectividad
-
Tabla comparativa TALEND KETTLE POWERCENTER INAPORT DATA
MANAGER
ORACLE
WAREHOUSE
SERVER
INTEGRATION
COSTO
RIESGO
FACILIDAD
SOPORTE
IMPLEMENTACIN
VELOCIDAD
CALIDAD DATA
MONITOREO
CONECTIVIDAD
-
Costo total de dominio
Significa el costo promedio de cierto producto. Desde
costo de orden, licencia, servicio, soporte,
entrenamiento, consultora y cualquier otro pago
adicional, que se tenga que realizar para el uso total.
Las herramientas OpenSource son naturalmente gratis
de utilizar, pero el soporte, entrenamiento y consultora
son los costos a considerar.
OpenSource Propietario Cdigo Propio
-
Riesgos
Siempre hay un riesgo cuando se habla de la
manipulacin de informacin almacenada.
Sin embargo tambin se tienen que considerar los
siguientes riesgos:
Exceder presupuestos.
Comprar licencias que no rediten su valor.
Exceder tiempos.
Falta capacitacin para uso de herramientas.
No cumplir con requerimientos o expectativas.
-
Facilidad de uso
Talend: Tiene una GUI pero se basa en un add-on para Eclipse RC.
Kettle: Tiene la GUI ms fcil de utilizar dentro de las alternativas OpenSource.
PowerCenter: Tiene una GUI fcil de utilizar, pero requeriere entrenamiento para aprovecharla.
Inaport: Se conecta directamente al CRM de importacin.
IBM: Se puede integrar con la GUI de IBM Data Manager Designer pero este es un mdulo aparte.
Oracle: Fcil cuando se trata de informacin almacenada en bases de datos Oracle, debido a las herramientas Data Pump y transportable tablespaces, pero no ofrece mucha compatibilidad a otras BD.
Microsoft: Se pueden realizar tareas de migracin fcilmente usando tareas visuales.
-
Soporte
Talend: Soporte de paga en estados unidos.
Kettle: Soporte en EEUU, Reino Unido y consultoras
asociadas.
PowerCenter: Soporte mundial va web y consultora.
Inaport: Soporte mundial va web y consultora.
IBM: Soporte mundial contratando en paquete.
Oracle: Va soporte local Oracle Latinoamrica.
Microsoft: Soporte va plataforma TechNet.
-
Implementacin TALEND KETTLE POWERCENTER INAPORT DATA
MANAGER
ORACLE
WAREHOUSE
SERVER
INTEGRATION
PLATAFORMA Cualquier
compatible
con Java o
Perl
Cualquiera
compatible
con Java.
SERVIDOR
WINDOWS,
HP-UX, IBM-
UX, REDHAT,
SOLARIS
WINDOWS WINDOWS
SERVER,
SOLARIS,
HP-UX, IBM-
UX, REDHAT
ORACLE
LINUX,
REDHAT,
SUSE
ENTERPRISE
WINDOWS
SERVER
RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB
CPU 1 GHZ 1 GHZ 4 + CORES
2GHZ
1GHZ 2GHZ x 2
cores
Vara 2.2GHZ 2
CORES
EXTRA Se puede
conectar a
Schedulers
para
automatizar
cargas
Puede
utilizar
Slave
Servers
REQUIERE
.NET
Parte de
Cognos
Business
Intelligence
Ms
informacin
-
Velocidad
Talend: Ms lento que Pentaho Kettle y requiere configuracin especfica y manual, con conocimiento previo de la data a utilizar.
Kettle: Ms rpido que Talend, sin embargo al requerir de Java Database Connector disminuye la velocidad de transacciones.
PowerCenter: Herramienta ms rpida gracias a PushDown, sin embargo los cambios son en momento y no permite hacer Rollback a un estado anterior.
Inaport: Utiliza una conexin directamente proporcional a la velocidad del CRM.
IBM: Muy rpido cuando se trabaja con DB2 sin embargo la capa de compatibilidad disminuye la velocidad de conexin con distintos manejadores de base de datos.
Oracle: La velocidad es proporcional al servicio Oracle en el cual este trabajando.
Microsoft: La velocidad es proporcional al servicio MSSQL en el cual este trabajando.
-
Calidad de Data
Talend: Ofrece herramientas para DQ dentro de la GUI, sentencias SQL personalizables utilizando Java.
Kettle: Ofrece herramientas para SQ dentro de su GUI, sentencias SQL personalizadas as como herramientas JavaScript y REGEX para la depuracin de informacin.
PowerCenter: Ofrece DQ a travs de otro producto llamado Informatica Data Quality.
Inaport: Debido a la restriccin del origen de informacin se pude realizar tareas de DQ dentro de la misma.
IBM: Mediante Cognos Data Manager Packages se pueden incorporar herramientas para DQ.
Oracle: Permite DQ mediante el uso de Oracle Warehouse Builder Data Profiling Features.
Microsoft: Requiere del software SQL Server Data Quality Services para ofrecer herramientas DQ.
-
Monitoreo
Talend: Tiene herramientas practicas de monitoreo y registro histrico.
Kettle: Tiene herramientas practicas de monitoreo y registro histrico.
PowerCenter: Tiene herramientas practicas y extensivas de monitoreo y registro histrico.
Inaport: Tiene herramientas practicas de monitoreo y registro histrico.
IBM: Maneja registro de histricos.
Oracle: Tiene herramientas practicas y extensivas de monitoreo y registro histrico.
Microsoft: Tiene herramientas practicas y extensivas de monitoreo y registro histrico.
-
Conectividad
Talend: Varias bases de datos, archivos planos, xml, Excel, servicios web, necesita JDBC para conexin.
Kettle: Varias bases de datos, archivos planos, xml, Excel, servicios web.
PowerCenter: Varias bases de datos, archivos planos, xml, Excel, servicios web puede exportar como servicio web.
Inaport: Cualquier conexin ODBC, MSSQL, OUTLOOK, ACT, EXCEL.
IBM: Cualquier conexin ODBC, DB2, para importacin a DB2, cubos de informacin T1MAP.
Oracle: Solamente compatible con bases de datos Oracle mismas que la instalada en el DataWarehouse
Microsoft: Bases de datos SQL SERVER, ACCESS, ADO.NET