unidad 6 base de datos domitila velazquez de la cruz

22
Unidad 6. Base de datos para el soporte de toma de decisiones

Upload: domi-velazquez

Post on 28-Dec-2015

33 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

Unidad 6.Base de datos para el soporte de toma de decisiones

Page 2: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.1.1 Definición Y objetivo

6.1 Bodegas de datos(Data warehouse)

Un Data Warehouse es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”

Page 3: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

1.3.2 Funcionamiento

Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales.

* El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. * La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo.

*Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.

Page 4: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

2.1.3 consideraciones de Diseño

El diseño de un DW debe estar orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar, esto conduce a una estructura en estrella en la que el centro es la tabla “fact” o “hecho” que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas “dimensión”, que representan los diferentes aspectos relacionados con el principal y que influyen en el estudio.*Entre los aspectos a tener en cuenta al afrontar el diseño de un DW hay que tener especial cuidado al:

*Identificar las tablas de hechos, ya que es posible tener más de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos.

Page 5: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.1.4 herramientas para extraer transformar y cargar fuentes de datos

En los procesos de extracción, transformación y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las siguientes operaciones:* Extracción. Acción de obtener la información deseada a partir de los datos almacenados en fuentes externas.*Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de éste a otra base de datos.

*Repositorio Propio de Datos: información relevante, metadatos.*interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).

Page 6: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de datos objetivo normal.

*El sistema ETL, realiza las siguientes acciones:*Extracción de los datos.

*Filtrado de los datos: limpieza, consolidación.

*Carga inicial del almacén: ordenación, agregaciones.

*Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos.

Page 7: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.2 Procesamiento y análisis en línea (OLAP).

6.2.1 Definiciones y conceptos

OLAP (Procesamiento Analítico en Línea / On LineAnalytical Processing) es una solución utilizada en la Inteligencia de negocios cuyo objetivo es agilizar la consulta de grandes cantidades de datos para extraer algún tipo de información

Page 8: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.2.2 Requerimientos funcionales de los sistemas OLAP.

Construir un datawarehouse y/o datamart.

Uso de herramientas de almacenamiento (bases de datos multidimensionales), herramientas de extracción y colección, herramientas para reportes de usuario final y herramientas para análisi inteligentes.

Un servidor que sea altamente escalable. Un segundo servidor para las herramientas de consulta de datos.

Page 9: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.2.3 Operadores para manejo de cubos de datos del estándar SQL3.

Qué es SQL3

El SQL3 es una extensión del estándar de bd SQL92 que incluye soporte para la administración de bd orientadas a objetos.

SQL3 es un estándar para productos y no un producto en sí.

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos.

Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada.

Page 10: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

3.2.4 diseño de consultas de base de datos Dimensionales

El modelo UDM proporciona las siguientes ventajas:

Mejora notablemente el modelo del usuario.

Proporciona consultas de alto rendimiento que admiten un análisis interactivo, incluso con grandes volúmenes de datos.

Captura las reglas de negocio del modelo para proporcionar un análisis mejorado.

Admite “cerrar el ciclo”, lo que permite que los usuarios actúen según los datos que ven.

Page 11: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

3.2.5 UTILIZACION DE HERRAMIENTAS PARA OLAP

Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.

Modelo Multidimensional:

Modelo estilo hoja de cálculo.

a. Elementos:

b. Visión de Relaciones :

Page 12: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.3 MERCADO DE DATOS DATA MARK

Introducción de data Mart

Los productos Data Warehouse han nacido para resolver problemas de análisis de grandes masas de información, en empresas donde una pequeña diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dólares.

Data Mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, así como su duración.

Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicación que integre todas ellas y proporciona las funciones de un EIS (Executive Information System).

Page 13: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.3.1 Definiciones o conceptos

DefiniciónUn Data mart es una versión especial de almacén de datos (data warehouse).Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.

Page 14: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.3.2 Fase de construcción

Construcción del Data mart: Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotación y La Arquitectura del Modelo Multidimensional en la herramienta de explotación.*Construcción de los Procesos de Cargas:En ésta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos.*Construcción de los reportes analíticos:Consiste en construir los reportes, tableros de control, dashboard, scorecard.*Construcción de los procesos de prueba:Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.

Page 15: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4 Minería de datos (Data mining)

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos

Selección del conjunto de datos,.•Análisis de las propiedades de los datos, •Transformación del conjunto de datos de entrada, •Seleccionar y aplicar la técnica de minería de datos•Extracción de conocimiento,• Interpretación y evaluación de datos,

Page 16: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4.1 Definiciones y conceptos

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperación y extracción de información, presentación, resumen de multidocumentos, minería de datos aplicada a textos.

El datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

Page 17: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4.2 Aplicaciones de la minería de datos

Negocios

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.*En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente.

Page 18: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

Hábitos de compra en supermercados

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza.

Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano.

El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.*Patrones de fuga

Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones.

A estos clientes y en función de su valor se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos.

*

Page 19: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4.3 Diseño de la minería de base de datos

Un proceso típico de minería de datos consta de los siguientes pasos generales:1. Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.

5. Evaluar los resultados contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Page 20: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4.4 Obtención de información a través de patrones de búsquedas

Modelo o patrón

Un modelo es una descripción global del conjunto de datos. Toma una perspectiva completa y total. En contraste un patrón es una propiedad local de los datos, tal vez sólo la tienen ciertas instancias o atributos.

El reconocimiento de patrones, también llamado lectura de patrones, identificación de figuras y reconocimiento de formas es el reconocimiento de patrones en señales. No sólo es un campo de la informática sino un proceso fundamental que se encuentra en casi todas las acciones humanas.

Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la clasificación de documentos, el reconocimiento de escritura y el reconocimiento de caras humanas.

Page 21: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4.5 Técnicas y herramientas de la minería de datos.

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea.

Los más importantes de ellos son:

La importancia que han cobrado los datos no estructurados (texto, páginas de Internet).

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet.

La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente a un fraude con una tarjeta de crédito).

Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

Page 22: Unidad 6 Base de Datos Domitila Velazquez de La Cruz

6.4.6 Tendencias en minería de datos.