data warehouse y mineria de datos

84

Upload: alejandra-chavez

Post on 12-Sep-2015

35 views

Category:

Documents


12 download

DESCRIPTION

mineria de datos

TRANSCRIPT

  • UNIVERSIDAD NACIONAL AUTNOMA DE MXICO

    Rector Juan Ramn de la Fuente

    Secretario General Enrique del Val Blanco

    Director General de Servicios de Cmputo Acadmico Alejandro Pisanty Baruch

    Directora de Cmputo para la Docencia Carmen Bravo Chaveste

    GUAS Y TEXTOS DE CMPUTO: DATA WAREHOUSE y minera de datos

    Editor Direccin General de Servicios de Cmputo Acadmico

    Coordinacin de la publicacin Mara Guadalupe Izquierdo Dyrzo

    Autor Mary Karina Ruiz Torres

    Revisin tcnica Jos Luis Medina Flores

    Correccin de estilo Imelda Arcelia Gutirrez de la Torre Lucero ledn Martnez

    Diseo editorial Gabriela Lil Morales Naranjo Imelda Arcelia Gutirrez de la Torre

    Diseo de portada Rodolfo Cano Ramrez

    2007 Universidad Nacional Autnoma de Mxico Esta edicin y sus caractersticas son propiedad de la Universidad Nacional Autnoma de Mxico Ciudad Universitaria, Mxico, DF.

    ISBN 978-970-32-4594-9

  • DATA WAREHOUSE y minera de datos

    I

    Contenido

    Introduccin ............................................................................................................ 1

    1. Data Warehousing............................................................................................... 3 1.1 Caractersticas .............................................................................................. 3 1.2 Estructura de datos y flujo de datos................................................................. 4

    1.2.1 Dos enfoques: Inmon y Kimball............................................................. 4 1.2.2 Conocimiento del negocio ................................................................... 5

    1.3 Arquitecturas de sistemas ............................................................................... 6 1.3.1 Sistemas OLAP .................................................................................... 6 1.3.2 Ejemplo .............................................................................................. 7 1.3.3 OLTP vs OLAP..................................................................................... 8 1.3.4 Data Warehouse y sistemas OLTP ....................................................... 10

    1.4 Procesos..................................................................................................... 11 1.5 El modelo de Data Warehouse ..................................................................... 12 1.6 Modelo dimensional.................................................................................... 14

    1.6.1 El esquema Estrella ............................................................................ 14 1.6.1.1 Granularidad ........................................................................ 15 1.6.1.2 Dimensiones ......................................................................... 15 1.6.1.3 La tabla de hechos................................................................. 15

    1.7 Factores de xito ......................................................................................... 16 1.7.1 El propsito del negocio..................................................................... 16

  • Mary Karina Ruiz Torres

    II Direccin General de Servicios de Cmputo Acadmico

    1.7.2 Consultas rpidas...............................................................................17 1.7.3 Estrategia de desarrollo.......................................................................18 1.7.4 Calidad de la informacin...................................................................19

    1.8 Metadato ....................................................................................................20 1.9 Estructuras de datos para el anlisis de negocio .............................................22

    1.9.1 Non-architected .................................................................................22 1.9.2 Data marts dependientes.....................................................................23 1.9.3 Bus....................................................................................................24

    1.10 Seleccin de un DBMS................................................................................25 1.11 Seleccin de hardware................................................................................26 1.12 Seguridad..................................................................................................27 1.13 Aplicaciones ..............................................................................................27

    1.13.1 Ventas .............................................................................................27 1.13.2 Efectividad de promociones...............................................................28 1.13.3 Anlisis de clientes............................................................................28 1.13.4 Anlisis por regiones geogrficas .......................................................29 1.13.5 Actividades gerenciales (administrativas) .............................................30 1.13.6 Inventarios .......................................................................................30 1.13.7 Costos en procesos de fabricacin.....................................................30

    1.14 Bases de datos para Data Warehousing.......................................................31

    2. Minera de datos ................................................................................................33 2.1 Definicin....................................................................................................33 2.2 Campos de investigacin precedentes............................................................37

    2.2.1 Aprendizaje inductivo..........................................................................37 2.2.2 Estadsticas ........................................................................................38 2.2.3 Mquinas de aprendizaje ....................................................................38 2.2.4 Diferencias entre minera de datos y mquinas de aprendizaje ...............38

    2.3 Modelos de minera de datos ........................................................................39 2.3.1 Modelo de verificacin........................................................................39 2.3.2 Modelo de descubrimiento ..................................................................40

    2.4 Problemas de la minera de datos..................................................................40 2.4.1 Informacin limitada...........................................................................40 2.4.2 Valores faltantes y ruido ......................................................................41 2.4.3 Incertidumbre.....................................................................................41

  • DATA WAREHOUSE y minera de datos

    III

    2.5 Usuarios de la minera de datos ................................................................... 42 2.6 Aplicaciones ............................................................................................... 43

    2.6.1 Ventas/mercadotecnia ....................................................................... 43 2.6.2 Actividades bancarias ........................................................................ 43 2.6.3 Seguros y salud ................................................................................. 44 2.6.4 Transporte ........................................................................................ 44 2.6.5 Medicina .......................................................................................... 44

    2.7 Funciones de la minera de datos ................................................................. 44 2.7.1 Clasificacin ..................................................................................... 44 2.7.2 Asociaciones ..................................................................................... 45 2.7.3 Patrones secuenciales/temporales ....................................................... 46 2.7.4 Agrupacin/segmentacin.................................................................. 46

    2.8 Tcnicas de minera de datos ....................................................................... 46 2.8.1 Anlisis cluster................................................................................... 46 2.8.2 Induccin.......................................................................................... 47

    2.8.2.1 rboles de decisin................................................................ 48 2.8.2.2 Reglas de induccin............................................................... 48

    2.8.3 Redes neuronales .............................................................................. 49 2.8.4 Procesamiento analtico en lnea......................................................... 51

    2.9 Herramientas para minera de datos ............................................................. 51

    3. Bases de datos inteligentes ................................................................................. 54 3.1 Concepto ................................................................................................... 54 3.2 Componentes ............................................................................................. 55

    3.2.1 Inteligencia en herramientas de alto nivel ............................................ 55 3.2.2 Inteligencia en la interfaz de usuario.................................................... 56 3.2.3 Inteligencia en el motor de la base de datos ........................................ 57

    3.3 Caractersticas ............................................................................................ 58 3.4 Tipos de bases de datos............................................................................... 59

    3.4.1 Bases de datos full text ....................................................................... 59 3.4.2 Indexed keywords .............................................................................. 60 3.4.3 Hypertext links ................................................................................... 60

    3.5 Funcionamiento .......................................................................................... 60 3.6 Representacin del conocimiento.................................................................. 62

    3.6.1 Reglas .............................................................................................. 62

  • Mary Karina Ruiz Torres

    IV Direccin General de Servicios de Cmputo Acadmico

    3.6.2 Marcos de referencia ..........................................................................62 3.6.3 Redes semnticas ...............................................................................62 3.6.4 rboles de decisin heurstica..............................................................63

    3.7 Inferencia ....................................................................................................63 3.7.1 Forward chaining ...............................................................................63 3.7.2 Backward chaining .............................................................................64

    3.8 Problemas de las bases de datos inteligentes ..................................................64 3.9 Ejemplo de bases de datos inteligentes...........................................................64

    3.9.1 DowQuest .........................................................................................64 3.9.2 Topic.................................................................................................65

    Anexo....................................................................................................................66 Glosario............................................................................................................66

    Bibliografa ............................................................................................................74 Data Warehouse y minera de datos ....................................................................74 Bases de datos inteligentes..................................................................................75 Referencias electrnicas ......................................................................................76

  • DATA WAREHOUSE y minera de datos

    1

    Introduccin

    Los datos son hechos, la informacin es el significado que el ser humano le da a estos hechos. Elementos individuales de datos tienen poco significado por si mismos, es nicamente cuando estos hechos se agrupan o procesan que su significado comienza a volverse claro. [Davis, W.S. and McCormack, A., The Information Age, p. 38].

    La informacin y el uso que se hace de ella ha variado a travs de los aos, es as como hoy en da el personal de empresas e instituciones requiere mayor informacin que antes, sin embargo, la gente que realiza esos trabajos tiene poco control en su acceso y, de cierto modo, existe dependencia de quienes deciden la informacin que ser proporcionada. Es decir, tanto la informacin que debe almacenarse como su manejo difieren cada vez ms del tratamiento tradicional, por lo que que surge la necesidad de plantear nuevos modelos y sistemas de bases de datos que aporten un valor aadido a las bases de datos relacionales.

    El objetivo de un sistema de descubrimiento de conocimiento es el de extraer informacin relevante, en ese sentido, el conocimiento implcito en la base de datos queda escondido tras lo que, hasta ahora, era una masa de datos carente de significado. Para ello, se requiere de una serie de labores de preparacin y depuracin de los datos para, posteriormente, aplicar una tcnica de minera de datos.

    Este documento presenta una introduccin a las tecnologas de descubrimiento y anlisis de informacin. Ejemplos de aplicaciones redituables muestran su relevancia actual en el entorno empresarial, as como una descripcin bsica de cmo pueden evolucionar las arquitecturas de Data Warehouse para entregar el valor de la minera de datos a los usuarios finales.

    Se busca proporcionar un panorama general acerca de las tecnologas orientadas al anlisis de informacin en la toma de decisiones, como son la minera de datos, Data Warehousing y bases de datos inteligentes; adems de destacar la relacin existente entre ellas e instruir sobre los elementos de decisin que permitan su aplicacin adecuada con base en los objetivos del negocio.

  • Mary Karina Ruiz Torres

    2 Direccin General de Servicios de Cmputo Acadmico

    En el primer captulo, se presenta el concepto de Data Warehouse y las caractersticas que lo hacen una herramienta de apoyo en la toma de decisiones. Para ello, se describen los principales procesos y objetivos inherentes a un desarrollo de este tipo y que marcan la diferencia con los sistemas transaccionales comunes.

    Tambin, se observa que un proyecto de Data Warehouse involucra una serie de factores que es necesario considerar antes de iniciar su desarrollo. El conocimiento del negocio se convierte en un elemento esencial ya que, generalmente, un Data Warehouse afecta a todas las reas de la organizacin y, como tal, requiere de la participacin y apoyo de cada una de las partes involucradas. Asimismo, la calidad de la informacin y los tiempos de respuesta son dos factores que determinan la aceptacin o rechazo del proyecto, en ese sentido, juegan un papel fundamental la arquitectura, hardware y herramientas de explotacin seleccionados.

    En el segundo captulo se muestra el enfoque de la minera de datos como estrategia de anlisis de informacin, de esta forma, en el Data Warehouse los datos deben encontrarse en el nivel de detalle correcto debido a la naturaleza incipiente de la tecnologa de minera de datos.

    En las aplicaciones empresariales, la tecnologa de minera de datos se ha utilizado principalmente en aplicaciones de comercializacin, ventas y anlisis de crdito; as como en reas tales como la segmentacin de clientes, de mercado y anlisis de comportamiento del cliente. Actualmente, la existencia de tres elementos importantes conduce al crecimiento en la minera de datos:

    1. La tecnologa de Data Warehouse al proporcionar un gran banco de datos bien organizados e histricos.

    2. El hardware en paralelo, los productos de base de datos y las herramientas a precios razonables.

    3. La tecnologa y las herramientas para minera de datos cada vez ms desarrolladas.

    La minera de datos es una tecnologa poderosa con un gran potencial, que ayuda a las organizaciones a concentrarse en la informacin ms importante existente en sus Data Warehouses. Las herramientas de minera de datos predicen tendencias y comportamientos futuros, por lo que permiten al negocio tomar decisiones proactivas basadas en el conocimiento.

    Por ltimo, el tercer captulo explica las bases de datos inteligentes, cuyo objetivo principal es el de proporcionar informacin que responda a condiciones especializadas de bsqueda mediante el apoyo de componentes de inteligencia artificial y sistemas expertos, tecnologas que comnmente se consideran de forma aislada. De esta manera, adicionalmente a las tecnologas integradas dentro de la arquitectura bsica de una base de datos inteligente, existen otras herramientas de alto nivel que complementan su funcionalidad.

  • DATA WAREHOUSE y minera de datos

    3

    CAPTULO

    Data Warehousing

    Un Data Warehouse puede definirse como un repositorio de datos centralizado para apoyo de las actividades de anlisis del negocio. Permite almacenar datos operacionales y eliminar inconsistencias entre los diferentes formatos existentes en los sistemas fuente. Adems de integrar los datos de toda la empresa, no importando su ubicacin, formato o requerimientos de comunicacin; permite incorporar informacin adicional integrada por el experto del negocio.

    1.1 Caractersticas

    De acuerdo con Bill Inmon, considerado el creador del concepto de Data Warehousing, existen cuatro caractersticas principales que describen un Data Warehouse:

    1. Orientado al sujeto. Los datos son organizados en reas especficas de estudio, relevantes para el analista, en lugar de orientarse a una aplicacin. Un sistema OLTP puede dividir sus datos por diferentes regiones o periodos. Un Data Warehouse almacena la misma informacin ordenada por temas como pueden ser ventas, embarques, clientes y productos, entre otros.

    2. Integrado. Cuando los datos residen en aplicaciones separadas en el ambiente operacional, la codificacin de los datos a menudo es inconsistente. La informacin que contiene un Data Warehouse proviene de diferentes fuentes, y conforme es alimentado, las inconsistencias en los datos que vienen en las fuentes son eliminadas y se integran con un formato nico.

    3. Variante en el tiempo. El Data Warehouse representa un lugar para almacenar datos de cinco a 10 aos de antigedad, incluso ms, para utilizarse en comparaciones, anlisis de tendencias y pronsticos. La informacin en un Data Warehouse siempre tiene un componente tiempo. El Data Warehouse contiene datos que representan el

  • Mary Karina Ruiz Torres

    4 Direccin General de Servicios de Cmputo Acadmico

    estado del negocio en un periodo especfico. Por ejemplo, la informacin de un inventario podra almacenarse en una serie de fotografas donde cada imagen representa el estado del inventario en un tiempo particular.

    4. No voltil. Los datos no son modificados o cambiados en forma alguna, una vez que entran al Data Warehouse, nicamente son cargados y se puede acceder a stos. Cuando una direccin cambia en un sistema operacional, muchas aplicaciones lo que hacen es sobrescribir el registro. En el Data Warehouse, una vez que el dato es almacenado, nunca cambia, excepto para corregir errores. Si una direccin cambia, ambas direcciones, la nueva y la anterior, sern almacenadas en el Data Warehouse y cada una reflejar el estado de una realidad en un periodo determinado.

    5. Detallado y sumarizado. El Data Warehouse almacena la informacin de forma atmica, pues describe la operacin del negocio y contiene, adems, vistas sumarizadas del material.

    1.2 Estructura de datos y flujo de datos

    1.2.1 Dos enfoques: Inmon y Kimball

    Dos personajes prominentes en la historia de Data Warehouse son Bill Inmon y Ralph Kimball. El primero introdujo el trmino Data Warehouse en 1992 mientras Kimball present sus guas de desarrollo, de ah que sean considerados los forjadores de los enfoques principales en la construccin de un proyecto de toma de decisiones. Algunas diferencias que se presentan entre ambos enfoques son:

    Inmon describe el Data Warehouse como el lugar donde una empresa logra la integracin de informacin, en tanto Kimball describe una arquitectura que unifica data marts, cada uno con dimensiones y medidas que puede compartir mediante el Warehouse.

    Inmon establece que el Data Warehouse debe ser la fuente de informacin para todos los data marts. Y Kimball lo describe como un concepto virtual; cuando se observa la arquitectura del Data Warehouse como un bus en donde se conectan todos los data marts, se aprecia al Data Warehouse.

    Inmon insiste en que el Data Warehouse debe tener un diseo normalizado, mientras Kimball insiste en que debe ser desnormalizado.

    La estructura de datos organizacional de Inmon incluye un componente llamado Operational Data Store (ODS), similar al Data Warehouse pero que se usa para las necesidades de anlisis de datos operacionales. Kimball no cree que el ODS deba ser una estructura separada; las necesidades de informacin inmediatas deben ser cubiertas por los mismos sistemas operacionales o directamente desde el Data Warehouse.

    En resumen, el objetivo principal del enfoque de Inmon es tener una fuente de datos unificada que contenga informacin de toda la empresa; en cambio, la teora de Kimball

  • DATA WAREHOUSE y minera de datos

    5

    tiene como objetivo hacer que la informacin se encuentre disponible para un anlisis lo ms rpido y eficiente posible.

    Ahora bien, tres directrices en las que ambas teoras coinciden son:

    Un Data Warehouse debe tener un objetivo de negocio. El sistema debe considerar las necesidades de toda la empresa. Deben tomarse en cuenta todas las posibles fuentes de datos.

    1.2.2 Conocimiento del negocio

    Previo a la construccin de un Data Warehouse debe tenerse el conocimiento necesario sobre lo que motiva a la organizacin al desarrollo de un proyecto de este tipo, en este sentido, se sugieren algunas preguntas que se clasifican de la siguiente manera:

    Propsito del negocio:

    Por qu se necesita un Data Warehouse? Por qu se requiere el anlisis OLAP? Cmo auxiliar este proyecto al negocio? Ayudar a incrementar las ventas? Ayudar a reducir costos? Permitir proporcionar un mejor servicio al cliente? Cmo lograr que la compaa sea ms eficiente?

    Necesidades especficas de las reas:

    Cuntos departamentos se beneficiarn de un Data Warehouse? En qu formas se utiliza la informacin actual en el anlisis del negocio? El Data Warehouse puede disearse de manera que pueda usarse para

    mltiples propsitos?

    Fuentes de datos:

    Cules son las fuentes de informacin potenciales para el Data Warehouse? Qu sistemas operacionales tienen informacin que pueda ser utilizada? Cul

    es la frecuencia con que cambia la informacin? Qu tan a menudo se integra nuevos datos?

    Qu informacin histrica puede ser incluida? Qu tan accesible estn los datos?

  • Mary Karina Ruiz Torres

    6 Direccin General de Servicios de Cmputo Acadmico

    Qu fuentes externas de informacin pueden incluirse? Qu tanta limpieza de datos tendr que hacerse para cada fuente? Qu datos necesitarn combinarse? Cul es el volumen total de datos?

    1.3 Arquitecturas de sistemas

    1.3.1 Sistemas OLAP

    La mejor forma de describir una herramienta OLAP es explicando su funcionamiento. En todo negocio se utilizan hojas de clculo para detallar actividades, adems de que existen reportes mensuales que contienen pilas de hojas, con un esfuerzo significativo en su creacin, sin embargo, su uso es difcil cuando se buscan piezas de informacin especficas, aunado al hecho de que no incluyen informacin adicional.

    Una herramienta OLAP provee al analista del negocio de millones de hojas de clculo a un tiempo. Estas hojas se encuentran disponibles en una estructura lgica y jerrquica, de forma tal que el analista puede moverse con rapidez a un nivel general o especfico de detalle o bien, observar la informacin desde perspectivas sumarizadas.

    Codd ha desarrollado algunas reglas o requerimientos para un sistema OLAP:

    Vista multidimensional conceptual. Transparencia. Accesibilidad. Desempeo. Arquitectura cliente/servidor. Dimensionalidad genrica. Soporte multi-usuario. Operaciones multidimensionales sin restriccin. Manipulacin de datos intuitiva. Reporteo flexible. Dimensiones ilimitadas y niveles de agregacin.

    La pregunta fundamental en este sentido es qu es un dato multidimensional y cundo se convierte en OLAP? Esto es, esencialmente, una forma de construir asociaciones entre piezas de informacin semejantes, mediante reglas de negocio predefinidas acerca de la informacin que se maneja.

  • DATA WAREHOUSE y minera de datos

    7

    Pueden identificarse tres componentes de OLAP:

    Una base de datos multidimensional debe ser capaz de expresar clculos complejos de manera sencilla. Los datos tienen que ser referenciados y definidos matemticamente.

    Navegacin intuitiva. Respuesta instantnea, el usuario tiene la necesidad de obtener la informacin lo

    ms pronto posible.

    Entre las ventajas que ofrece el sistema dimensional est la libertad que ofrece al usuario para explorar libremente los datos y recibir el tipo de reporte deseado, sin tener restringido un formato predefinido.

    1.3.2 Ejemplo

    Un ejemplo de base de datos OLAP puede comprender datos de ventas, que pueden agregarse por regin, producto y canal de venta. Una consulta tpica de OLAP puede acceder a una base de datos con informacin de ventas de mltiples aos (bastantes gigabytes), con la finalidad de encontrar todas las ventas de diversos productos en diferentes regiones. Despus de revisar los resultados, un analista puede afinar posteriormente la consulta para encontrar el volumen de ventas para cada canal de venta clasificando la informacin por regin y producto.

    Como ltimo paso, el analista puede realizar comparaciones por ao o trimestre para cada canal de venta. Este proceso completo debe realizarse en lnea con tiempos de respuesta rpidos, de manera que el anlisis no sea interrumpido. Las consultas OLAP pueden representarse como transacciones en lnea las cuales:

    Acceden a grandes cantidades de datos (varios aos de datos). Analizan las relaciones entre los diversos elementos del negocio (ventas, regiones,

    productos y canales de venta, entre otras).

    Involucran agregacin de datos (por ejemplo, volmenes de ventas o gastos). Comparan datos agregados contra periodos jerrquicos (mensualmente,

    trimestralmente, anualmente, etctera).

    Presentan los datos en diferentes perspectivas (ventas por regin, ventas por canal de venta y por producto dentro de cada regin).

    Involucran clculos complejos entre elementos de datos (ganancias esperadas, calculadas en funcin de las ventas por cada canal de venta y regin particular).

    Estn habilitadas para responder rpidamente a los requerimientos de los usuarios, de manera que pueden perseguir un proceso analtico sin ser bloqueados por el sistema.

  • Mary Karina Ruiz Torres

    8 Direccin General de Servicios de Cmputo Acadmico

    1.3.3 OLTP vs OLAP

    On Line Transaction Processing (OLTP) hace referencia a todas las aplicaciones que corren la operacin bsica de la organizacin. Son sistemas que usan la informacin de la siguiente manera:

    Almacenan los datos para optimizar su modificacin y consulta individual (por registro). Generan un nmero limitado de reportes donde se resumen los eventos que han

    tomado lugar.

    En cambio, los sistemas On Line Analytical Process (OLAP) son creados con el propsito de analizar datos de la organizacin:

    Importan datos desde los sistemas OLTP y otras fuentes, que incluso podran ser externas a la organizacin.

    Almacenan datos en un formato que optimiza consultas analticas. Estas consultas, a menudo, sumarizan informacin de diferentes registros de distintas tablas.

    Un sistema OLAP tiene como objetivo proveer una herramienta de consulta que permita analizar la informacin desde todas las perspectivas posibles.

    Aunque el lugar ms sencillo para realizar consultas es directamente en las bases de datos transaccionales, el rendimiento se puede ver degradado por las siguientes razones:

    Los sistemas OLTP tienen que entregar resultados tan rpido como sea posible, y las consultas de anlisis de informacin pueden afectar de forma significativa a los sistemas operacionales debido al uso que hacen de los recursos de procesador y memoria.

    Las bases de datos OLTP tienen una estructura normalizada, que agiliza la entrega y modificacin de registros individuales, adems de que cada pieza de informacin se almacena una sola vez por lo que puede modificarse en una ubicacin nica. Las consultas en una estructura OLAP responden con mayor rapidez cuando el esquema de la base de datos se disea para consultar mltiples registros. Esta estrategia de diseo se conoce como modelado dimensional y el resultado es un esquema estrella.

    Los sistemas OLTP son ms eficientes cuando las tablas tienen un nmero limitado de ndices, cada uno de los cuales tiene que modificarse conforme vare la informacin; en este caso, tener demasiados ndices puede afectar el proceso transaccional normal de variacin de registros. Los sistemas OLAP trabajan mejor mientras ms ndices existan, puesto que el dato no sufre modificaciones continuas.

    Los valores calculados en un OLTP pierden sentido porque los registros estn cambiando y cada vez que el registro vara, el valor calculado tiene que actualizarse. En los sistemas OLAP se requieren grandes cantidades de datos agregados, de manera que pueden presentarse para el analista de forma inmediata no importando la combinacin de factores que el analista pretenda consultar.

  • DATA WAREHOUSE y minera de datos

    9

    El almacn de datos para un OLTP es un DBMS Relacional. Los datos utilizados en un sistema OLAP pueden almacenarse en un DBMS Relacional, pero tambin existe la posibilidad de ganar rendimiento guardando los datos en estructuras multidimensionales.

    La diferencia entre OLAP y OLTP se resume de la forma siguiente: los servidores OLTP manejan datos operativos (de misin critica) a travs de consultas simples, mientras que los servidores OLAP tienen informacin a la cual se accede a travs de una investigacin iterativa (administracin crtica). Ambos, OLAP y OLTP, tienen requerimientos especializados y requieren, por lo tanto, servidores especiales para los dos tipos de procesamiento.

    Los servidores de las bases de datos OLAP manejan estructuras multidimensionales para almacenar los datos y las relaciones entre stos. Las estructuras multidimensionales pueden visualizarse como cubos de datos. Cada lado del cubo es considerado una dimensin que representa una categora diferente como producto, regin, canal de venta y tiempo. A su vez, cada celda dentro de la estructura multidimensional contiene datos agregados relacionados con los elementos que se encuentran en las dimensiones. Por ejemplo, una celda puede contener las ventas totales para un producto determinado en una regin para un canal de venta especfico en un mes. Las bases de datos multidimensionales son un medio compacto y fcil de entender para visualizar y manipular elementos de datos que tienen muchas interrelaciones.

    Los servidores OLAP soportan operaciones analticas que incluyen procesos de consolidacin, drill-down y slicing and dicing:

    Consolidacin. Involucra la agregacin de datos, tales como simples solarizaciones o expresiones complejas que involucran datos interrelacionados. Por ejemplo, las oficinas de ventas pueden ser descompuestas por distritos y los distritos en regiones.

    Drill-Down. Los servidores OLAP pueden ir en direccin inversa y desplegar de forma automtica datos detallados que comprenden los consolidados. La consolidacin y el drill-down son una propiedad inherente a los servidores OLAP.

    "Slicing and Dicing". Se refiere a la habilidad de consultar la base de datos desde diferentes puntos de vista, un corte (slice) de la base de datos de ventas puede mostrar todas las ventas de un producto por regin. Otro corte puede mostrar todas las ventas por canal de venta y producto. Slicing and dicing se realiza, generalmente, a travs de un eje de tiempo con la finalidad de analizar tendencias y encontrar patrones.

    Los servidores OLAP almacenan datos multidimensionales, esto se logra mediante arreglos de almacenamiento y tcnicas de compresin que maximizan el espacio utilizado y mediante la optimizacin en el uso de espacio. Los servidores OLAP pueden minimizar los requerimientos de espacio haciendo posible el anlisis de grandes cantidades de datos. Adems, hace posible cargar ms datos en memoria, lo cual ayuda a mejorar de manera significativa el rendimiento debido a la reduccin en el acceso a disco.

  • Mary Karina Ruiz Torres

    10 Direccin General de Servicios de Cmputo Acadmico

    En conclusin, los servidores OLAP organizan los datos lgicamente en mltiples dimensiones, lo que permite a los usuarios analizar rpida y fcilmente relaciones de datos complejas. La misma base de datos est organizada fsicamente, de tal manera que los datos relacionados pueden recuperarse con rapidez a travs de mltiples dimensiones. Los servidores OLAP son muy eficientes cuando almacenan y procesan datos multidimensionales. Los RDBMSs han sido desarrollados y optimizados para manejar aplicaciones OLAP. El diseo de una base de datos relacional se concentra en la confiabilidad y velocidad en el procesamiento de transacciones, ms que en las necesidades de apoyo a la toma de decisiones. Cabe mencionar, adems, que los diferentes tipos de servidores pueden beneficiar a un amplio rango de aplicaciones de administracin.

    1.3.4 Data Warehouse y sistemas OLTP

    Una base de datos construida para el procesamiento de transacciones en lnea (OLTP) es considerada, generalmente, como inadecuada para Data Warehousing, porque fue diseada con un diferente conjunto de necesidades, como es maximizar la capacidad transaccional y tener cientos de tablas con el objetivo de responder con mayor rapidez al usuario. Por otro lado, un Data Warehouse se enfoca en el procesamiento de consultas, ms que en el de transacciones.

    Los sistemas OLTP no pueden ser repositorios de hechos y datos histricos para el anlisis del negocio, ya que no pueden responder de manera rpida a consultas ad hoc, y la recuperacin de informacin es casi imposible. Los datos podran ser inconsistentes y cambiantes, existir registros duplicados e informacin faltante, as como la ausencia de datos histricos, los cuales son necesarios para el anlisis de tendencias.

    Bsicamente, los sistemas OLTP ofrecen grandes cantidades de datos crudos que no son tan sencillos de entender. El Data Warehouse tiene el potencial de recuperar y analizar informacin con mayor rapidez y facilidad.

    OLTP Data Warehouse

    Propsito Operaciones da a da. Recuperacin de informacin y anlisis.

    Estructura RDBMS. RDBMS (opcional).

    Modelo de datos Normalizado. Multidimensional.

    Acceso SQL. SQL ms extensiones de anlisis de datos.

    Tipo de dato Datos que utiliza el negocio para su operacin.

    Datos que analiza el negocio.

    Condiciones de datos Cambiantes, incompletos. Histricos, descriptivos.

    Ilustracin 1. Data Warehouse y OLTP.

  • DATA WAREHOUSE y minera de datos

    11

    1.4 Procesos

    El primer paso que se tiene que llevar a cabo en un Data Warehouse es el de aislar los datos operacionales actuales para preservar la seguridad e integridad de los sistemas OLTP de misin crtica, con la finalidad de acceder a todas las bases de datos y la resultante o Data Warehouse, puede consumir cientos de gigabytes e incluso terabytes de espacio en disco, por lo que se requieren tcnicas de almacenamiento y recuperacin de informacin masiva. A este respecto, las organizaciones han encontrado que los sistemas de procesamiento paralelo ofrecen un ancho de banda suficiente.

    El Data Warehouse extrae datos de una variedad de bases de datos heterogneas. Los datos son transformados y entregados al Data Warehouse que est basado en un modelo seleccionado previamente. Este proceso de transformacin de datos es realizado siempre que una modificacin al Data Warehouse es requerida, de modo que la ejecucin de estas funciones debe efectuarse de forma automtica. La informacin que describe el modelo y la definicin de los datos fuente se llama metadato, que representa el significado que el usuario final entender de la informacin contenida en el Warehouse y al menos debe contener:

    La estructura de los datos. El algoritmo utilizado para las sumarizaciones. El mapeo del ambiente operacional al Data Warehouse.

    La limpieza de datos es un aspecto importante en la creacin de un Data Warehouse eficiente porque elimina, en la medida de lo posible, las inconsistencias presentadas en los datos operacionales. Por otro lado, esta limpieza debe ser lo ms dinmica posible para satisfacer todos los tipos de consultas, incluyendo aqullas que pueden requerir informacin de bajo nivel. Los datos deben extraerse de los sistemas operacionales en intervalos regulares e integrados centralmente, pero el proceso de limpieza tiene que remover la duplicacin y conciliar diferencias entre los distintos estilos de almacenamiento de datos.

    Una vez que los datos se limpian, son integrados al Data Warehouse que, generalmente, es una gran base de datos almacenada en un equipo de alto desempeo como puede ser SMP (Symmetric Multi-Processing) o MPP (Massively Parallel Processing).

    Otro concepto importante en el entorno del Data Warehouse es el data mart. Los data marts son considerados pequeos Data Warehouses, definidos para proveer subconjuntos de informacin sumarizada del almacn principal y dependen de los requerimientos especficos de un grupo o departamento de la organizacin.

    Muchos proveedores tienen productos que satisfacen una o ms de las funciones descritas anteriormente, sin embargo, puede tomar una cantidad de trabajo considerable en programacin especializada para proveer la interoperabilidad necesaria entre productos de mltiples proveedores para ejecutar los procesos del Data Warehouse.

  • Mary Karina Ruiz Torres

    12 Direccin General de Servicios de Cmputo Acadmico

    Ilustracin 2. Procesos de Data Warehousing.

    1.5 El modelo de Data Warehouse

    Data Warehousing es el proceso de extraer y transformar datos operacionales en analticos para integrarlos en una estructura central de datos. Una vez que los datos son cargados, se puede acceder a stos va consultas SQL o bien con el uso de herramientas de anlisis disponibles para los tomadores de decisiones. El modelo de Data Warehouse se ilustra en el siguiente diagrama:

    Ilustracin 3. Esquema de Data Warehouse.

    Los datos dentro del propio Data Warehouse tienen una estructura diferente con base en los distintos niveles de sumarizacin manejados.

  • DATA WAREHOUSE y minera de datos

    13

    Ilustracin 4. Estructura de los datos dentro del Data Warehouse.

    La importancia del nivel de detalle radica en lo siguiente:

    Refleja los hechos ms recientes que, por lo general, son los de mayor inters. Aumenta el volumen de almacenamiento conforme disminuye el nivel de

    granularidad.

    Generalmente, la informacin se almacena en disco para hacer ms rpido su acceso, pero la vuelve ms costosa y difcil de administrar.

    La informacin de detalle con mayor antigedad se guarda con algn proceso de almacenamiento masivo, ya que su acceso no es tan frecuente. En cambio, la que est sumarizada y que se obtiene del nivel de detalle, se almacena en disco la mayora de las veces para su acceso rpido. Si se considera lo anterior, cuando se construye un Data Warehouse se debe considerar la unidad de tiempo sobre la cual se va a sumarizar la informacin, adems del contenido o atributos que se van a integrar, con objeto de que los datos altamente sumarizados sean compactos y fcilmente accesibles.

    El metadato es el componente final del Data Warehouse cuya funcin es:

    Ayudar al analista de negocio a localizar el contenido del Data Warehouse. Guiar el mapeo de datos conforme stos se transforman desde el ambiente

    operacional al Data Warehouse.

    Servir de gua para los algoritmos utilizados en la sumarizacin, entre los datos de detalle actuales y aquellos levemente sumarizados, y tambin en la sumarizacin entre los datos levemente y altamente sumarizados.

    Un ejemplo de los niveles de sumarizacin de datos se muestra en la siguiente ilustracin:

    Datos de detalle anteriores

    Altamente sumarizados

    Ligeramente sumarizados

    Nivel de detalle actual

    M E T A D A T O

  • Mary Karina Ruiz Torres

    14 Direccin General de Servicios de Cmputo Acadmico

    Ilustracin 5. Niveles de sumarizacin del Data Warehouse.

    El diagrama anterior asume que el ao es 1993 porque los datos actuales abarcan 1992-1993. Por lo general, los datos de ventas no alcanzan el nivel actual de detalle para las 24 horas ya que espera hasta que el sistema operacional no est disponible, esto es, le toma 24 horas obtenerlo del Data Warehouse. En cambio, se tiene la opcin de que el detalle de ventas sea sumarizado semanalmente por producto y regin, con objeto de generar el nivel de detalle levemente sumarizado y posteriormente las ventas semanales sean sumarizadas nuevamente para producir el nivel altamente sumarizado.

    1.6 Modelo dimensional

    El modelo dimensional es un reflejo directo de la forma como se observa un proceso de negocio. Captura las medidas de importancia y los parmetros, a travs de los cuales dichas medidas son descompuestas. Las medidas son referidas como hechos o mtricas, mientras que los parmetros por los que una mtrica puede analizarse son referidos como dimensiones.

    1.6.1 El esquema Estrella

    Este enfoque fue desarrollado para resolver problemas con los que el negocio se enfrenta al utilizar modelos entidad-relacin normalizados. El nombre viene de la similitud del diagrama con el de una estrella donde:

    El centro de la estrella es la tabla de hechos. Las puntas de la estrella son las tablas de dimensin. Se implementa a travs de tecnologa de bases de datos relacionales. Las tablas de hechos contienen indicadores o atributos que pertenecen a una

    combinacin de objetos de informacin (dimensiones) y tiempo.

    Ventas mensuales por producto 1981 - 1993

    Ventas semanales por subproducto 1985 - 1993

    Detalle de ventas 1992 - 1993

    Detalle de ventas 1982 - 1991

    Ventas nacionales por mes 1985 - 1993

    Ventas regionales por semana 1983 - 1993

    M E T A D A T O

  • DATA WAREHOUSE y minera de datos

    15

    1.6.1.1 Granularidad

    Cuando se disea un diagrama estrella, una de las primeras decisiones tiene que ver con el nivel de detalle en el que sern ingresadas las mtricas, conocido como granularidad de la tabla de hechos. En ese sentido, es crucial que cada registro en la tabla de hechos se almacene exactamente en el mismo nivel de detalle pues, de lo contrario, se puede destruir la funcionalidad del esquema estrella. Esto es, la informacin relevante con un nivel de granularidad diferente debe guardarse en una segunda tabla de hechos.

    En general, una tabla de hechos requiere que las llaves forneas relacionadas con un registro nunca sean nulas; dado que una relacin opcional hacia una dimensin es un signo de problemas de granularidad.

    1.6.1.2 Dimensiones

    Una vez definida la granularidad de la tabla de hechos, el objetivo siguiente ser el de desarrollar tablas de dimensin con un gran nmero de atributos, donde se reflejen un conjunto de detalles en torno al proceso de negocio. No es raro encontrar hasta 100 o 200 atributos en una sola dimensin.

    Las relaciones entre los atributos existentes en una dimensin no necesitan ser estrechas, es aceptable incluir un conjunto de atributos directamente relacionados con otros.

    La llave primaria (PK) de una dimensin siempre es un atributo nico definido por el sistema, causado porque el uso de llaves concatenadas degrada el desempeo y tambin evita la dependencia hacia los sistemas operacionales al asignar una clave propia.

    Cada una de las tablas de dimensin:

    Contiene informacin textual descriptiva (descripcin, nombre, tamao, direccin, etctera).

    Se utiliza como una fuente para limitar las consultas. Casi siempre es la fuente de encabezados de registros. Contiene una relacin uno a muchos a la tabla de hechos. Incluye un nmero limitado de registros que se incrementan lentamente con el tiempo.

    1.6.1.3 La tabla de hechos

    Despus de identificar la granularidad y las dimensiones, la atencin gira en torno a la tabla de hechos la cual:

    Contiene mtricas o hechos del negocio, representados por columnas numricas que muestran la granularidad definida de los hechos almacenados en la tabla.

    Incluye una llave nica compuesta de las llaves forneas hacia las dimensiones.

  • Mary Karina Ruiz Torres

    16 Direccin General de Servicios de Cmputo Acadmico

    Incorpora un gran nmero de registros (cientos de millones). El nivel de granularidad definido para la tabla de hechos, determinar no slo el nivel de detalle en el que se puede consultar la informacin, sino tambin el nmero de clculos que deben procesarse para proveer la respuesta a una consulta. Mientras mayor detalle se pueda consultar, aumenta el tamao de la tabla de hechos.

    No es obligatorio que cada combinacin de llave fornea exista, esto es, varias entradas a la tabla de hechos no tendrn llaves forneas hacia todas las dimensiones asociadas.

    Ilustracin 6. Esquema Estrella.

    1.7 Factores de xito

    1.7.1 El propsito del negocio

    Algunas tareas indispensables en el desarrollo de un Data Warehouse del negocio se sealan a continuacin:

    Encontrar cules datos desean y necesitan los usuarios en su sistema OLAP. Transformar los datos provenientes de sistemas OLTP a un esquema estrella. Limpiar la informacin de los OLTP. Construir cubos multidimensionales. Invertir en hardware para la transformacin de datos, procesamiento de cubos y

    almacenamiento de datos.

    Construir o comprar aplicaciones OLAP cliente. Implementar una estrategia de actualizacin de informacin.

    ALMACEN

    PRODUCTO Id_prod Nombre Tamao Paquete Categora

    Id_almacen Nombre Direccin Tamao Gerente

    Id_tiempo Da Semana Mes Trimestre Ao

    Id_org Divisin Regin Mercado

    Id_prod Id_almacen Id_tiempo Id_org Unidades_vendidas Monto_venta Ganancia Costo

    TIEMPO

    ESTR_ORG

    HEC_VENTAS

  • DATA WAREHOUSE y minera de datos

    17

    Capacitar a los usuarios. Cunto costar? y cunto tiempo tomar el desarrollo?, depende de varios factores. Puede realizarse con una inversin de 30 mil dlares, pero si se tiene una gran cantidad de fuentes de datos que integrar y mucha limpieza de datos, el costo puede escalar fcilmente los cientos de miles de dlares.

    Ahora bien, la manera como las empresas evalan el valor de un Data Warehouse para el xito del negocio depende del enfoque que decidan tomar, en este sentido, algunas compaas se enfocan en el clculo del Return On Investment (ROI). Buscan cmo el Data Warehouse ahorrar dinero, ms que reducir inventarios, disminuir el tiempo del personal en la generacin de reportes o incrementar el nivel de ventas.

    Otras compaas consideran el beneficio de un Data Warehouse en un contexto ms general. Ellos reconocen que el conocimiento obtenido les ayuda a mejorar su negocio en formas que no pueden ser trasladadas monetariamente de una manera tan sencilla. Un Data Warehouse, incluso, puede apoyar en el reconocimiento de compaas rivales para ganar ventaja competitiva.

    1.7.2 Consultas rpidas

    La rapidez en la obtencin de la informacin mostrada a los usuarios finales est considerada un factor esencial para el xito de un sistema OLAP. Existe una prueba llamada FASMI (Fast Analysis of Shared Multidimensional Information) que permite determinar si una aplicacin califica para convertirse en una herramienta OLAP:

    Fast. La presentacin debe ser rpida de manera consistente, lo que significa que el tiempo de respuesta de cualquier consulta debe ser menor a cinco segundos. Si una consulta tarda ms de este tiempo, el analista de negocio asumir que algo est mal y abortar la consulta. En cambio, si la respuesta es menor a dos segundos, se tendr la impresin de que la informacin se ha presentado de forma inmediata.

    Analisys. El sistema puede proveer funciones de anlisis de manera intuitiva, las cuales deben tener lgica de negocio y anlisis estadstico relevante.

    Shared. Los cubos deben ser capaces de soportar la concurrencia de mltiples usuarios y manejar los requerimientos de seguridad necesarios para compartir la informacin.

    Multidimensional. Un OLAP se define por su presentacin de informacin multidimensional.

    Information. Son los datos y la informacin derivada requerida por el usuario.

  • Mary Karina Ruiz Torres

    18 Direccin General de Servicios de Cmputo Acadmico

    1.7.3 Estrategia de desarrollo

    Cualquiera que sea el tamao del proyecto de Data Warehouse, es comn que se convierta en algo de mayor dimensin en el futuro. El negocio cambia y aun cuando las variaciones no sean constantes, los analistas de negocio, a menudo, desean ver la informacin desde nuevas perspectivas. Uno de los grandes retos se presenta cuando dos compaas se fusionan, por ello es importante tener en mente la posibilidad de agregar nuevos requerimientos desde el diseo, de manera que se puedan atacar las solicitudes que se enumeran a continuacin:

    Incluir un nivel de detalle menor al existente. Agregar nuevos campos. Proveer mayor cantidad de datos calculados. Integrar nuevas fuentes de informacin. Aumentar el nmero de usuarios. Distribuir la informacin de forma geogrfica. Actualizar la informacin de los cubos con mayor frecuencia. Almacenar mayores datos de informacin histrica. Incluir fuentes de datos externas a la organizacin. Proveer el acceso a los cubos va Internet / Intranet.

    No siempre se puede estar preparado para solucionar todos los cambios potenciales, sin embargo, existen algunas estrategias que permiten responder de manera efectiva cuando stos ocurren:

    Desarrollar una perspectiva global de la empresa. Mantener el ms bajo nivel de detalle posible (hechos atmicos), de manera que

    se pueda mostrar un mayor nmero de agregaciones en el futuro. De no incluir datos atmicos, existir cierta informacin que siempre estar fuera de alcance y esto significara reconstruir todo el almacn de datos.

    Incluir todos los campos que pudieran ser necesarios para las transformaciones de datos.

    Utilizar llaves nicas generadas por el propio sistema. Usar un repositorio central donde se almacene informacin acerca de las bases

    de datos y las transformaciones utilizadas, con objeto de apoyar la integracin de nuevas fuentes de datos y herramientas de software.

  • DATA WAREHOUSE y minera de datos

    19

    Implementar el ms amplio nivel de consistencia en el significado de las estructuras utilizadas entre los miembros de la organizacin, con la finalidad de que la informacin pueda usarse por un mayor nmero de reas.

    De forma continua, existe confusin entre aplicar una estrategia de desarrollo detallada u optar por un desarrollo inicial rpido. El conflicto se presenta por la necesidad de explicar conceptos generales acerca de las definiciones de datos y estructuras entre los miembros de la organizacin; lo cual es ms un reto organizacional, poltico y de administracin, que tcnico.

    Si se espera que todos los miembros estn de acuerdo con las estructuras de datos, probablemente el proyecto nunca tendr un inicio. Ahora, si el desarrollo comienza antes de que todos lleguen a un consenso, surgirn problemas en el momento de hacer las entregas de informacin a diferentes reas o bien, cuando se intente integrar el Data Warehouse propio con algn otro que se haya construido.

    Debido a que no siempre se estar en posibilidades de resolver este conflicto, lo ms prudente es mantenerse abierto a todas las opciones. Por ejemplo, si existe desacuerdo sobre qu fecha utilizar para indicar el cierre de una venta, entonces, se recomienda incluir todas las opciones posibles dentro de la estructura. Si el desacuerdo radica en cmo debe calcularse un valor (por ejemplo, la ganancia), lo ms conveniente es incluir todos los factores que puedan ser necesarios, de manera que cada rea pueda realizar el clculo necesario. Si el desacuerdo se refiere al nivel de detalle que debe mantenerse, se sugiere almacenar el ms bajo nivel de detalle, ya que existen datos que los analistas no podran considerar de su inters, solo para que estn preguntando por ellos un mes despus.

    1.7.4 Calidad de la informacin

    Es todo un reto asegurar la calidad de la informacin en un Data Warehouse debido, principalmente, al hecho de que muchos sistemas operacionales no realizan validaciones a la informacin ingresada, de manera que la informacin podra ser inconsistente, incorrecta y en un porcentaje faltante. Al proceso de mejoramiento de la informacin se le llama limpieza de datos. Algunas formas en que puede ser necesario limpiar la informacin son las siguientes:

    Eliminar duplicados. Existen entidades con registros duplicados, que pueden tener errores ortogrficos o incluso escritos exactamente igual.

    Homogenizacin de datos. Diferentes sistemas fuente utilizan diferentes cdigos. Uso de campos separados. En algunos sistemas fuente, los campos pueden

    usarse para ms de un propsito.

    Campos vacos/nulos. Si los valores correspondientes pueden definirse, entonces los correctos deben ingresarse en los campos, de lo contrario debe definirse una forma consistente de desplegar los desconocidos.

  • Mary Karina Ruiz Torres

    20 Direccin General de Servicios de Cmputo Acadmico

    Eliminar datos sin significado. En ocasiones, los operadores de los sistemas fuente deben llenar un campo requerido y desconocen la informacin, por lo que ingresan una cadena de caracteres sin significado.

    Comparar datos entre fuentes. Si el dato puede ser incorrecto y se tiene la posibilidad de verificarlo con otra fuente, entonces se eliminan posibilidades de error.

    Existen tres cursos de accin generales:

    Cambiar los datos en la base de datos fuente e implementar procedimientos que eviten la ocurrencia de estos errores.

    Modificar los datos conforme ingresan al Data Warehouse. Integrar el dato tal y como se encuentra en la fuente y documentar el problema,

    de forma tal que los usuarios estn conscientes de la situacin.

    Ciertamente, lo mejor es corregir el problema desde los sistemas fuente pero, a menudo, no resulta prctico. La limpieza de datos es costosa y requiere mucho tiempo; la calidad de la informacin puede mejorarse, y sin embargo, probablemente no llegar a ser perfecta.

    1.8 Metadato

    Todos los elementos de un Data Warehouse deben entenderse de manera que los usuarios sepan lo que obtienen, es decir, necesitan conocer desde dnde viene el dato y cmo se ha modificado para depositarse en el Data Warehouse. Adems, requieren saber la exactitud del dato y lo que se ha realizado para corregir las inconsistencias.

    El metadato provee la descripcin de varios elementos del dato. Existen dos tipos de metadato para este tipo de sistema:

    Metadato tcnico. Describe completamente los datos desde la perspectiva tcnica, es decir, es el tipo de informacin que una persona con perfil tcnico necesita para procesar los datos de manera correcta:

    1. Nombres de campos, tablas y bases de datos.

    2. Nombres de niveles, jerarquas, dimensiones, cubos y bases de datos OLAP.

    3. Tipos de datos.

    4. Longitud de campos.

    5. Valores nulos.

    6. Valores por default.

    7. ndices.

    8. Llaves primarias y forneas.

  • DATA WAREHOUSE y minera de datos

    21

    9. Relaciones.

    10. Reglas y constraints.

    11. Transformaciones y mapeos.

    12. Procedimientos de limpieza de datos.

    13. Seguridad de la informacin.

    14. Historia de la creacin y modificacin de la estructura de datos.

    15. Historia de las transformaciones.

    Metadato de negocio. Es la descripcin de los datos que se muestra a la persona que consulta la informacin, sta incluye:

    1. Descripciones de campos, tablas y bases de datos.

    2. Descripciones de niveles, jerarquas, dimensiones, cubos y bases de datos OLAP.

    3. Descripciones de mapeos y transformaciones.

    4. Descripciones de procedimientos de limpieza.

    5. Reportes.

    6. Referencias a los metadatos tcnicos.

    Algunas razones por las cuales es necesario el metadato son:

    Existen varios tipos de fuentes de datos y cada uno los define de manera especfica. El metadato provee una forma consistente de describir las estructuras de datos y la fuente de datos de que se trate.

    Es importante tener la capacidad de describir los cambios realizados a la informacin conforme sta se transforma, de manera tal que los analistas de la informacin puedan tener la confianza de que el material que ven representa de forma precisa la informacin de la organizacin.

    Los usuarios de la informacin necesitan una explicacin clara sobre el significado de cada uno de los campos, medidas, niveles y dimensiones. Una de las partes importantes del metadato es una interfaz amigable que contenga dicha descripcin del dato.

  • Mary Karina Ruiz Torres

    22 Direccin General de Servicios de Cmputo Acadmico

    Ilustracin 7. Definicin del metadato.

    1.9 Estructuras de datos para el anlisis de negocio

    Existe un nmero ilimitado de formas en que una empresa puede estructurar la informacin que ser utilizada en el anlisis de negocio, por ello se mencionan tres de las formas ms representativas:

    1.9.1 Non-architected

    En este tipo de estructura no existe un Data Warehouse y se compone por data marts independientes donde no existe la intencin de analizar la informacin de todos desde una perspectiva global. Este tipo de estructura se construye rpidamente, puesto que no se tienen que homogeneizar conceptos sobre los distintos elementos de informacin con las personas de otros departamentos. Las desventajas de esta estructura son:

    Limita el objetivo de anlisis de informacin por parte del usuario, ya que va en contra del objetivo de un Data Warehouse de tener una presentacin unificada de la informacin del negocio.

    Se vuelve muy complicado unir los data marts creados de forma independiente. Si alguna vez se desea ver los datos de un departamento junto con los de otro, se

    tienen que desarrollar transformaciones de manera que la informacin coincida en una estructura nica, de cualquiera de los dos data marts.

  • DATA WAREHOUSE y minera de datos

    23

    Ilustracin 8. Estructura no-arquitectnica con data marts independientes.

    Ilustracin 9. Estructura no-arquitectnica con cubos como data marts.

    1.9.2 Data marts dependientes

    Siendo que un data mart es un subconjunto del Data Warehouse, el primero recibe su informacin a partir del Data Warehouse, en ese sentido, se optimiza para las necesidades de anlisis particulares del departamento para el cual ha sido creado.

    SISTEMAS OLTP

    FUENTES DE DATOS EXTERNAS

    DATA MARTS CUBOS OLAP

    SISTEMAS OLTP

    FUENTES DE DATOS EXTERNAS

    CUBOS OLAP

  • Mary Karina Ruiz Torres

    24 Direccin General de Servicios de Cmputo Acadmico

    Ilustracin 10. Estructura de data marts dependientes.

    1.9.3 Bus

    En esta estructura, cada data mart es una parte del Data Warehouse y tambin se encuentra conectado al bus del Data Warehouse, que contiene los elementos de informacin comunes que son utilizados por todos los data marts. Estos elementos constan de dimensiones y mtricas que han sido definidas por la organizacin. Si cada data mart utiliza estos elementos comunes, el analista puede consultar todos los data marts al mismo tiempo.

    Cuando se emplea este tipo de estructura, el Data Warehouse se convierte ms en un elemento virtual que en una realidad, todos los data marts pueden ser almacenados en un servidor y si as fuera, el Data Warehouse estara en el mismo servidor. As mismo, los data marts podran estar en servidores separados y el Data Warehouse tendra una existencia virtual, ya que no es ms que la suma de todos los data marts.

    Ilustracin 11. Estructura de bus.

    DATA WAREHOUSE DATA MARTS

    DATA WAREHOUSE

    DATA MART

    CUBOS OLAP

    DATA MART

    DATA MART

  • DATA WAREHOUSE y minera de datos

    25

    1.10 Seleccin de un DBMS

    Uno de los problemas con el software de Data Warehouse ha sido la precipitacin de las compaas por entrar en el uso de la nueva tecnologa, al distorsionar el concepto de Data Warehouse en productos de procesamiento transaccional tradicionales. [Chris Erickson, presidente de Red Brick].

    La compaa Red Brick Systems ha establecido un conjunto de criterios para definir cundo un manejador de bases de datos (DBMS) es adecuado para Data Warehousing, stos son los siguientes:

    Desempeo en la carga de informacin. Un Data Warehouse requiere cargas incrementales de nueva informacin sobre bases peridicas en ventanas de tiempo reducidas. El desempeo en los procesos de carga debe medirse en cientos de millones de registros y gigabytes por hora, y no debe limitarse artificialmente el volumen de datos requerido por el negocio.

    Procesamiento. Se debe efectuar un proceso para cargar o modificar datos en el Data Warehouse, lo que incluye conversiones, filtros, dar formato, chequeo de integridad, almacenamiento fsico, indexacin y actualizacin del metadato. Estos pasos deben ejecutarse en una unidad de trabajo simple.

    Administracin de la calidad de datos. Una de las demandas principales en la administracin de datos es la alta calidad que se requiere. El Data Warehouse debe asegurar la consistencia y la integridad referencial, a pesar de lo sucio de la informacin fuente y del tamao de la base de datos. Mientras que la carga y preparacin son pasos necesarios, no son suficientes. La respuesta a las consultas es la medida de xito de un Data Warehouse, dado que entre ms consultas sean respondidas, los analistas estarn con mayor motivacin para formular preguntas creativas y profundas.

    Desempeo en las consultas. Deben completarse consultas grandes y complejas en el menor tiempo posible (en segundos), ya que el anlisis de informacin no debe afectarse por el desempeo del DBMS.

    Escalabilidad en almacenamiento. Actualmente, el tamao de un Data Warehouse abarca desde unos cuantos cientos de gigabytes hasta terabytes. El DBMS no debe tener limitaciones arquitectnicas, ya que es capaz de soportar la administracin modular y paralela, asegurar su disponibilidad an en eventos de falla con mtodos efectivos de recuperacin de informacin. As mismo, debe soportar dispositivos de almacenamiento masivo y por ltimo, el desempeo en las consultas no debe ser dependiente del tamao de la base, sino de la complejidad de la consulta misma.

    Escalabilidad en el nmero de usuarios. El acceso al Data Warehouse no debe limitarse a unos cuantos usuarios, por lo que el DBMS debe soportar el acceso de cientos e incluso miles de usuarios concurrentes, mientras se mantiene un desempeo aceptable en la respuesta de las consultas.

  • Mary Karina Ruiz Torres

    26 Direccin General de Servicios de Cmputo Acadmico

    Comunicacin va red. Cuando mltiples Data Warehouses necesitan cooperar en una red de Warehouses, el servidor debe incluir herramientas que coordinen el movimiento de los subconjuntos de datos entre las diversas bases. Los usuarios deben ser capaces de trabajar con los mltiples Data Warehouses desde una estacin de trabajo nica y, por otro lado, los administradores deben realizar sus funciones desde la misma ubicacin fsica.

    Administracin del Warehouse. La naturaleza del Data Warehouse, en cuanto a tamao y periodicidad, demanda una fcil administracin y flexibilidad. EL DBMS debe proveer los controles indispensables para implementar lmites en el uso de recursos y priorizacin de consultas, con objeto de direccionar las necesidades de los diferentes usuarios. Adems, debe permitir el seguimiento de las cargas de trabajo y afinacin, de forma tal que los recursos del sistema puedan optimizarse para un mejor rendimiento.

    Anlisis dimensional. El poder de las vistas multidimensionales es ampliamente demandado, por lo que el soporte dimensional debe ser inherente al DBMS para proveer el ms alto desempeo a las herramientas OLAP. El DBMS debe permitir de forma rpida y sencilla la creacin de agregaciones precalculadas en un Data Warehouse de gran tamao. Adems, de dotar de herramientas de mantenimiento para automatizar la creacin de estos agregados y su clculo dinmico, el cual debe ser consistente con las necesidades de desempeo en la interaccin con el usuario.

    Funcionalidad avanzada en las consultas. Los usuarios finales requieren de clculos analticos avanzados, anlisis secuenciales, anlisis comparativos y acceso consistente a datos sumarizados y detallados. Utilizar una herramienta SQL en un ambiente cliente/servidor puede, en ocasiones, ser imprctico o incluso imposible. EL DBMS debe proveer un conjunto completo de operaciones analticas, incluyendo operaciones secuenciales y estadsticas.

    1.11 Seleccin de hardware

    Los procedimientos de transformacin de datos y construccin de cubos, son altamente consumidores de memoria y procesamiento, a menos de que se trate de un proyecto muy pequeo, donde se dedican recursos de hardware bajo los siguientes criterios:

    Los servicios de transformacin de datos y OLAP son aplicaciones multihilo (multithreaded applications), lo que implica que corrern ms rpido en mquinas con mltiples procesadores.

    Las consultas respondern en tiempos cortos, si la informacin a la que se accede se encuentra en cach.

    El espacio de almacenamiento se necesita para el almacn central (data staging area), los data marts y los cubos; de manera que si el espacio y los tiempos de procesamiento se encuentran disponibles, un mayor nmero de agregaciones puede crearse, lo que incrementa la velocidad de consulta para los usuarios finales.

  • DATA WAREHOUSE y minera de datos

    27

    Hardware para el almacenamiento de respaldos. Si se tienen ms de 100 GB de informacin, posiblemente pueda ser una opcin

    almacenar algunos de los datos ms antiguos o menos utilizados en un sistema de almacenamiento ms econmico.

    1.12 Seguridad

    El objetivo de un Data Warehouse es el de obtener informacin para usuarios de todas las reas de negocio y como tal, las cuestiones de seguridad implican un alto riesgo. Lo anterior se debe a que los administradores de bases de datos pueden restringir permisos de acceso, adems de la informacin que se necesita o bien, un departamento podra no estar de acuerdo en que su informacin se encuentre visible a otros.

    Un Warehouse debe ser capaz de integrar un gran nmero de requerimientos de seguridad. Puede tener parte de la informacin que sea visible a todo tipo de usuarios, otra que sea visible solo para empleados de un departamento y, otra ms que nicamente est visible para empleados con permisos especiales. La seguridad se considera con base en los siguientes elementos:

    Transformaciones de datos. Almacenamiento de datos. Creacin de cubos OLAP. Acceso a herramientas de consulta de los cubos OLAP. Almacenamiento de los cubos.

    1.13 Aplicaciones

    1.13.1 Ventas

    OLAP ha sido utilizado para el anlisis de datos de ventas ms que para cualquier otro propsito, ya que tanto almacenes, como distribuidores y fabricantes, necesitan saber cules productos son los que venden. La informacin de ventas puede usarse para:

    Asegurar la existencia de la cantidad necesaria del producto en todo momento. Reducir el nivel de mercanca no vendida o regresada. Administrar canales de distribucin. Mover mercanca entre zonas, con base en la necesidad. Analizar tendencias para futuras ventas potenciales.

  • Mary Karina Ruiz Torres

    28 Direccin General de Servicios de Cmputo Acadmico

    1.13.2 Efectividad de promociones

    Otro inters de los vendedores es la medicin en resultados de sus promociones, cuya efectividad se basa en las siguientes cuestiones:

    En qu porcentaje se vendi el producto antes, durante y despus de la promocin?

    Tuvieron las promociones un efecto positivo o negativo en la venta de algn otro producto?

    Cul fue el beneficio econmico positivo de la promocin en comparacin con sus costos?

    Cmo se comparan los resultados de esta promocin con otras promociones?

    1.13.3 Anlisis de clientes

    Por lo general, la informacin del cliente se recopila con propsitos de conocimiento de perfiles (segmentacin de mercado), es decir, permite determinar cules grupos demogrficos respondern de mejor manera a los esfuerzos de mercadotecnia por realizarse. La informacin del cliente que podra considerarse valiosa incluye:

    Rango de ingresos. Ocupacin. Estado civil. Nmero de hijos. Edad. Sexo. Ubicacin geogrfica. Nivel de educacin. Comportamiento previo de compras.

    Toda esta informacin es til, pero lo primero que un negocio debe determinar es, quines son sus clientes ms frecuentes? Existen muchas empresas que almacenan los nombres y direcciones de sus clientes, pero que nunca utilizan esa informacin para algn tipo de anlisis. Por ejemplo, si se desconoce el nivel de ingreso de un cliente, pero se conoce su direccin, puede hacerse un tipo de anlisis basndose en el ingreso promedio de la gente que vive en un rea geogrfica particular.

    Otro punto importante es el grado de satisfaccin del cliente. El anlisis OLAP permite identificar patrones tanto de satisfaccin como de insatisfaccin. Informacin acerca de

  • DATA WAREHOUSE y minera de datos

    29

    mercanca que es devuelta y las quejas recibidas puede capturarse y organizarse para su anlisis. Esta informacin puede ser valiosa, vista desde las siguientes dimensiones:

    Producto, lnea de producto y manufactura. Tiempo (Las quejas se incrementan o disminuyen cuando son vistas a travs de

    distintos periodos?).

    Ubicacin de almacenes. Vendedores. Descripcin demogrfica del cliente.

    De esta forma, es posible clasificar las quejas o devoluciones dentro de varias categoras de problemas. Si un tipo particular de problema es recurrente, un conjunto de problemas pueden ser atendidos al mismo tiempo. Adems, es importante mantener detalles individuales de cada queja, de manera que el analista puede ver en detalle lo que dicen los clientes con este tipo de queja en particular.

    Ahora bien, para las compaas de servicios financieros o bancarios, el mayor beneficio se da cuando se mantiene la lealtad del cliente. Uno de los retos de estas compaas es identificar qu cuentas representan al mismo cliente. Una familia puede tener diversas cuentas registradas con diferentes nombres, pero lo que es ms importante para un banco es reconocer las cuentas que pertenecen a una misma familia, debido a que desean enfocar sus esfuerzos de lealtad del cliente a nivel familiar.

    Muchas compaas de servicios financieros creen que la estrategia ms efectiva para impulsar la lealtad del cliente es hacer de cada familia, un cliente mltiple. Diferentes estudios han demostrado que la gente est menos dispuesta a cambiar de banco, si tienen dos o ms cuentas en una institucin. De manera adicional, este tipo de instituciones utiliza informacin demogrfica e informacin actual de la cuenta, con la finalidad de determinar cules servicios adicionales podran necesitarse, de forma que pueden dirigirse estrategias de mercado para convertir una cuenta nica en cuentas mltiples.

    1.13.4 Anlisis por regiones geogrficas

    El anlisis OLAP puede usarse para apoyar a los distribuidores interesados en responder cuestiones crticas acerca de ubicaciones. Por ejemplo:

    Cules sucursales son ms rentables? Qu factores son los ms importantes a considerar en la construccin de futuras

    sucursales?

    Qu tiendas se han convertido en ms o menos redituables? Cmo afecta la ubicacin de un local las ventas de un producto en particular o

    una lnea de producto?

  • Mary Karina Ruiz Torres

    30 Direccin General de Servicios de Cmputo Acadmico

    Los distribuidores siempre han reconocido el beneficio de posicionar un producto en un lugar estratgico y poner otros cerca de ste.

    1.13.5 Actividades gerenciales (administrativas)

    Muchos negocios solo son redituables cuando operan a su mayor capacidad o algo cercano a esto, como ejemplos de ello estn las aerolneas y hoteles, que pierden su valor rpidamente si en parte no son ocupados. Todas las compaas emplean diversas estrategias de mercadotecnia para asegurar que alcanzarn su ms alto nivel de uso.

    El anlisis OLAP puede apoyar a las compaas en el alcance de dichos objetivos. Los factores que afectan su capacidad pueden ser monitoreados y analizados. Pueden realizarse comparaciones entre periodos similares; las tendencias pueden marcarse con anticipacin de manera que los precios pueden elevarse o disminuirse y las estrategias de mercado pueden modificarse de forma apropiada.

    Los anlisis OLAP posteriores pueden llevarse a cabo sobre estrategias de mercado particulares, con la finalidad de determinar cules son las ms efectivas y redituables.

    1.13.6 Inventarios

    El anlisis OLAP apoya el manejo de factores crticos que permiten una administracin adecuada del inventario:

    La cantidad de producto disponible en cada local. Qu tan rpido es utilizado el producto? Cunto tiempo ms tomar abastecer el producto? Cunto tiempo tomar mover el producto de una ubicacin a otra? Medir la velocidad del inventario (qu tan rpido se mueve el inventario en el

    sistema de Data Warehouse).

    El costo de almacenar el producto en el almacn. El sistema OLAP permite llevar una secuencia de los productos en el almacn y, por otro lado, define el espacio disponible en ste para que los productos puedan almacenarse y distribuirse de forma tal que traigan el mayor beneficio al negocio.

    1.13.7 Costos en procesos de fabricacin

    Uno de los puntos de inters donde el OLAP puede resultar de ayuda para los fabricantes tiene que ver con el control de inventarios mencionado en el prrafo anterior, y un segundo punto relevante, es el anlisis de costos en el proceso de fabricacin.

  • DATA WAREHOUSE y minera de datos

    31

    Si una compaa fabrica un producto en diferentes plantas o lneas dentro de una planta, la entrada y salida para cada unidad de produccin puede examinarse y compararse. La produccin puede compararse por varios factores de tiempo (el ao pasado contra el ao actual, el mes pasado contra el actual, etctera), de manera que la produccin puede ser comparada incluso, cuando individuos o diferentes grupos de individuos se encuentren trabajando.

    Si la compaa emplea un sistema de costeo, donde cada tiempo por individuo y por mquina se agrega al costo del producto, entonces el OLAP puede usarse para comparar la ganancia relativa de diferentes productos y procesos de manufactura.

    1.14 Bases de datos para Data Warehousing

    A continuacin, se presenta una lista de bases de datos que cumplen con las caractersticas necesarias para el desarrollo del Data Warehouse y sistemas de apoyo en la toma de decisiones.

    Herramienta Proveedor Direccin

    Alterian Nucleus Alterian Limited www.alterian.com

    Analysis Engine Aleri www.aleri.com

    Broadbase EPM Broadbase Information Systems www.broadbase.com

    DB2 IBM www.software.ibm.com/data/db2/index.html

    DEX New York Software Company www.nysco.co.uk

    D3 Pick Systems www.picksys.com

    FAME Database Fame Information Services www.fame.com

    GeneXus ARTech www.genexus.com/main/hmain.aspx

    Hilbert Engine InMentia Technology www.inmentia.com

    HiRDB Hitachi www.hicam.hitachi.com

    HOPS HOPS International www.hops.com

    Informix Dynamic Server Informix www.informix.com

    Ingres II Computer Associates www.cai.com

    Intelligent Exploration Synera www.synerasystems.com

    JS ORI Software www.orisoftware.com

    Kdb Kx Systems www.kx.com

    Linter RelexUS www.relexus.com

    MaxScan MaxScan www.maxscan.com

  • Mary Karina Ruiz Torres

    32 Direccin General de Servicios de Cmputo Acadmico

    Herramienta Proveedor Direccin

    meta5 Meta5 www.meta5.com

    Microsoft SQL Server Microsoft www.microsoft.com/sql/

    Mimer Sysdeco Mimer AB www.mimer.com

    Model 204 Computer Corporation of America www.cca-int.com

    MPbase Open Sky Technologies www.openskytech.com

    MSM Micronetics www.micronetics.com

    Netezza Performance Server Netezza

    www.netezza.com

    NGram Transform-DB Triada www.triada.com

    Nucleus Server Sand Technology Systems www.sandtechnology.com

    Oracle 9i Oracle www.oracle.com

    Polyhedra Polyhedra www.polyhedra.com

    Rapid Automsoft International www.automsoft.com/index.html

    Red Brick Warehouse Informix www.informix.com

    Sahara Integrix www.integrix.co.uk

    SAS Software SAS www.sas.com

    Seisnt Seisnt www.seisnt.com

    Sentences Lazy Software www.lazysoft.com

    StorHouse/RM FileTek www.filetek.com

    Sybase Adaptive Server, Adaptive Server IQ Sybase

    www.sybase.com

    SymfoWARE Server Fujitsu www.symfoware.com

    Tamino Software AG www.softwareag.com

    Teradata DBS NCR www.teradata.com

    Thunderbolt VLDB WhamTech www.whamtech.com

    Time Machine Data Management Technologies Inc. www.dmtech.com

    TimeCube TimeCube www.timecubeinc.com

    TimesTen Data Manager TimesTen Performance Software www.timesten.com

    Titanium Micro Data Base Systems, Inc. www.mdbs.com

    Vision Innovative Systems Techniques, Inc. www.insytenet.com

    Visual Dimension VisualMetrics Corporation www.visualmetrics.com

    WIDAS MSI AG www.widas.com

  • DATA WAREHOUSE y minera de datos

    33

    CAPTULO

    Minera de datos

    2.1 Definicin

    Las dos dcadas pasadas han visto un aumento dramtico en la cantidad de informacin o datos almacenados en formato electrnico. Esta acumulacin de datos ha tenido lugar a un nivel explosivo. Se estima que la cantidad de informacin en el mundo se duplica cada 20 meses, y el tamao y nmero de bases de datos crecen aun ms rpido. Los dispositivos que permiten el acceso remoto han contribuido al aumento en el uso de datos electrnicos.

    Ilustracin 12. Crecimiento de la informacin.

    El almacenamiento de datos lleg a ser ms fcil conforme descenda el costo en el poder de procesamiento y almacenamiento, lo que haca el dato barato. Tambin influyeron la introduccin de nuevos mtodos para la representacin del conocimiento basado en la lgica de programacin, junto con el anlisis de datos estadstico

  • Mary Karina Ruiz Torres

    34 Direccin General de Servicios de Cmputo Acadmico

    tradicional. Los nuevos mtodos tienden a ser computacionalmente ms demandantes de poder de procesamiento.

    Los algoritmos de minera de datos comprenden tcnicas que han existido al menos por 10 aos, pero han sido implementadas recientemente como herramientas maduras, redituables y entendibles que utilizan este tipo de mtodos estadsticos.

    Ao Pregunta de negocio

    Tecnologas Proveedores Caractersticas

    Coleccin de datos

    (1960s)

    Cul fue mi ganancia total en los ltimos 5 aos?

    Computadoras, cintas, discos.

    IBM, CDC. Retrospectiva, entrega de datos esttica.

    Acceso a datos

    (1980s)

    Cuntas fueron las unidades vendidas en el Nuevo Len en marzo pasado?

    Bases de datos relacionales (RDBMS), Lenguaje de consulta estructurado (SQL), ODBC.

    Oracle, Sybase, Informix, IBM, Microsoft.

    Retrospectiva, entrega de datos dinmica a nivel de registros.

    Data Warehousing &

    Soporte a la toma de decisiones

    (1990s)

    Cules fueron las unidades vendidas en Nuevo Len en marzo pasado con respecto a Monterrey nicamente?

    Procesamiento analtico en lnea (OLAP), bases de datos multidimensionales, Data Warehouses.

    Pilot, Comshare, Arbor, Cognos, Microstrategy.

    Retrospectiva, entrega de datos dinmica a mltiples niveles.

    Minera de datos

    (Actualmente)

    Cules podran ser las unidades vendidas en Nuevo Len para el siguiente mes? Por qu?

    Algoritmos avanzados, multiprocesamiento, bases de datos masivas.

    Pilot, Lockheed, IBM, SGI, numerosas empresas nuevas.

    Prospectiva, entrega de informacin preactiva.

    Ilustracin 13. Evolucin de la minera de datos.

    Ahora bien, habindose concentrado en la acumulacin de datos, el siguiente problema de enfoque es: qu hacer con este valioso recurso? Sin duda, uno de los usos principales que puede darse a la informacin es apoyar la operacin del negocio y dar a los tomadores de decisiones una opcin de gran valor para ganar conocimiento del negocio y su entorno. Los Sistemas Manejadores de Bases de Datos (DBMS) dieron acceso a los datos almacenados, pero sta es solo una pequea parte de lo que puede ganarse a travs de los datos; los sistemas tradicionales de procesamiento en lnea (OLTP) estn diseados para insertar datos en las bases de datos rpida, segura y de forma eficiente, pero no son buenos para la entrega de anlisis significativos.

  • DATA WAREHOUSE y minera de datos

    35

    El anlisis de datos puede proveer conocimiento adicional acerca del negocio, yendo ms all de los datos explcitamente almacenados que derivan en conocimiento del negocio. Aqu es donde la minera de datos o descubrimiento del conocimiento en bases de datos (KDD Knowledge Discovery in Databases) tiene beneficios obvios para cualquier empresa.

    El trmino minera de datos ha sido llevado ms all de sus lmites para aplicar a cualquier forma de anlisis de datos. Algunas de las numerosas definiciones de minera de datos son:

    Minera de datos o descubrimiento del conocimiento en bases de datos (KDD,) como tambin se le conoce, es la extraccin no trivial de informacin potencialmente utilizable y previamente desconocida. Esto comprende un nmero de diferentes enfoques tcnicos tales como agrupaciones (clustering), sumarizacin de datos, clasificacin de reglas de aprendizaje, anlisis de cambios y deteccin de anomalas. [William J Frawley, Gregory Piatetsky-Shapiro and Christopher J Matheus].

    Minera de datos es la bsqueda de relaciones y patrones globales que existen en grandes bases de datos pero que se encuentran escondidas entre grandes cantidades de datos; tal como una relacin entre datos del paciente y su diagnstico mdico, esta relacin representa conocimiento valioso acerca de la base de datos y los objetos en ella. [Marcel Holshemier & Arno Siebes (1994)].

    La analoga con el proceso de minera se describe de la siguiente manera:

    Minera de datos se refiere al uso de un conjunto de tcnicas para identificar trozos de informacin o conocimiento para la toma de decisiones en grupos de datos y extraer los mismos, de forma tal que puedan ser puestos en uso en reas tales como apoyo a la toma de decisiones, prediccin y estimacin. Los datos a menudo son voluminosos, pero como muchos de ellos tienen un valor bajo y no se puede hacer uso directo de ellos, es la informacin escondida en los datos la que es til. [Clementine User Guide, a data mining toolkit].

    Bsicamente, la minera de datos se preocupa por el anlisis de datos y el uso de tcnicas de software para encontrar patrones y regularidades en conjuntos de datos. La computadora es la responsable de ubicar los patrones, mediante la identificacin de reglas subyacentes y caractersticas en los datos. La idea es que es posible encontrar informacin valiosa en lugares insospechados, conforme el software de minera de datos extrae patrones no discernidos previamente o tan obvios que nadie los haba notado antes.

    Las mejores tcnicas de minera de datos son aqullas desarrolladas con una orientacin hacia grandes volmenes de datos, haciendo uso de la mayor cantidad de datos posible para llegar a las conclusiones y decisiones confiables. El proceso de anlisis, inicia con un conjunto de datos, utiliza una metodologa para desarrollar una representacin ptima de la estructura de datos, durante la cual se adquiere conocimiento del tiempo. Una vez que el conocimiento se adquiere, puede extenderse a grandes conjuntos de datos asumiendo que stos tienen una estructura similar a los datos muestra tomados.

  • Mary Karina Ruiz Torres

    36 Direccin General de Servicios de Cmputo Acadmico

    El siguiente diagrama resume algunos de los procesos/etapas identificados en la minera de datos y descubrimiento del conocimiento: [Usama Fayyad & Evangelos Simoudis]

    Ilustracin 14. Fases de la minera de datos.

    Las fases que se muestran inician con los datos crudos y terminan con la extraccin del conocimiento que se ha adquirido como resultado de las siguientes etapas:

    Seleccin. Elegir o segmentar los datos de acuerdo con los criterios establecidos, por ejemplo, todas las personas que poseen un auto forman un subconjunto de datos que puede definirse.

    Preprocesamiento. Esta es la fase de limpieza de datos, por lo que se elimina aquella informacin que se considera innecesaria ya que puede hacer ms lentas las consultas, por ejemplo, es innecesario anotar el sexo de un paciente cuando se estudia el embarazo. Adems, los datos son reconfigurados para asegurar un formato consistente ya que provienen de diversas fuentes. Por ejemplo, el sexo puede guardarse como M o F o bien como 0 o 1.

    Transformacin. El dato no es simplemente transferido a lo largo del proceso, sino que se transforma de manera que pueda ser utilizable y navegable.

    Minera de datos. Esta etapa est relacionada con la extraccin de patrones a partir de los datos. Un patrn puede definirse como un conjunto de hechos (datos) F, un lenguaje L y algunas medidas de certeza C. De esta manera, un patrn es una sentencia S en L que describe relaciones entre un subconjunto Fs

    Patrones

    Datos Transformados

    Datos Preprocesados

    Seleccin

    Datos

    Conocimiento

    Preprocesamiento

    Transformacin

    Minera de Datos

    Evaluacin

    Datos Objetivo

  • DATA WAREHOUSE y minera de datos

    37

    de F con una certeza C, de manera que S es ms simple que la enumeracin de todos los hechos en Fs.

    Interpretacin y evaluacin. Los patrones identificados por el sistema son interpretados en conocimiento, que se puede usar como apoyo en la toma de decisiones, prediccin y clasificacin de tareas, sumarizacin del contenido de una base de datos o al explicar el fenmeno observado.

    2.2 Campos de investigacin precedentes

    La minera de datos ha aprovechado otros campos de investigacin como son el aprendizaje inductivo, mquinas de aprendizaje y estadsticas, entre otros.

    2.2.1 Aprendizaje inductivo

    Induccin es la inferencia de informacin a partir de datos y el aprendizaje inductivo es el proceso de construir modelos donde el ambiente es analizado con el objeto de encontrar patrones. Los objetos similares son agrupados en clases, y se formulan regla