using quality of data metadata for source selection and ranking
DESCRIPTION
Using Quality of Data Metadata for Source Selection and Ranking. Santiago López Andrés Margalef. Agenda. Introducción y Datos generales Motivación Objetivos Modelo Lenguaje de consulta Solución Propuesta Críticas Conclusión. Introduccion. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/1.jpg)
Using Quality of Data Using Quality of Data Metadata for Source Metadata for Source
Selection andSelection andRankingRanking
Santiago LópezAndrés Margalef
![Page 2: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/2.jpg)
AgendaAgendaIntroducción y Datos generalesMotivaciónObjetivosModeloLenguaje de consultaSolución PropuestaCríticasConclusión
![Page 3: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/3.jpg)
IntroduccionIntroduccionUsando la Calidad de Datos para
la selección de fuentes de datos.Autores
◦George Mihaila. (Doctorado en Universidad de Toronto, actualmente trabaja IBM).
◦Louiqa Raschid. (UMIACS)◦María Esther Vidal. (UMIACS)
Fecha Publicación◦¿2000?
![Page 4: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/4.jpg)
MotivaciónMotivaciónCrecimiento del uso de Internet
Adopción formatos y estándares
Cuales son los datos relevantes para un determinado problema?
De los datos relevantes, cuales son los mejores?
![Page 5: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/5.jpg)
ObjetivosObjetivosUsando calidad de datos…
◦Selección de fuentes de datos
◦Ranking de fuentes relevantes Score de rankeo
![Page 6: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/6.jpg)
ModeloModeloBases del modelo
◦Se basa en atributos de dimensión y de medición, los dominios de ellos y además de parámetros de calidad de los datos.
Parámetros de calidad◦Completitud◦Edad de los datos (Recency)◦Frecuencia de actualización (Update
Frecuency)◦Granularidad (Granularity)
![Page 7: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/7.jpg)
Componentes del modelo◦SODA: conjunto de atributos dimensión
como por ejemplo ciudad, tiempo.◦SOMA: conjunto de atributos de
medición por ejemplo, temperatura, presión atmosférica.
◦T1…TN son tipos relacionales, cada Ti tienen un conjunto de atributos los cuales estos tienen determinados dominios. Los atributos pertenecen a la unión entre SODA y SOMA.
◦Fuente S, que contiene los datos para cada Ti comprendida.
![Page 8: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/8.jpg)
Descriptores de calidad del contenido de una fuente (SCQD)Es una terna (t, cd, qods)- t: tipo relacionado a los datos (valor
de Ti)
- Cd: es el descriptor del contenido, comprende un conjunto de parejas de atributos y su respectivos dominio. Estos atributos pertenecen a SODA.
- Qods: conjunto de descriptores de calidad de los datos.
![Page 9: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/9.jpg)
Descriptor de calidad de dato (QOD)Es una tupla con los elementos (lcd, c, r,
f, g, soma) los cuales- lcd: descriptor de contenido de alguna
fuente, estos deben estar incluidos en el descriptor del contenido (cd).
- c, r, f, g: corresponden a los parámetros de calidad de datos, completitud, edad de datos, frecuencia de actualización y granularidad respectivamente.
- soma: subconjunto de todos los atributos de medición (SOMA).
![Page 10: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/10.jpg)
Identificación de Identificación de componentescomponentes
![Page 11: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/11.jpg)
Proponen utilizar el formato WS-XML
![Page 12: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/12.jpg)
Lenguaje de ConsultaLenguaje de ConsultaNotación similar a SQL.
![Page 13: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/13.jpg)
Resultados de las ConsultasSe devuelve una lista ordenada de las fuentes que verifican las condiciones impuestas en la consulta.
A cada fuente se le asigna un score que indica el nivel de relevancia de la fuente.
Combinando fuentes.
![Page 14: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/14.jpg)
Solución PropuestaSolución PropuestaEjemplo
![Page 15: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/15.jpg)
![Page 16: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/16.jpg)
Agrupando descriptores de contenido de las fuentes. (Buckets)
Buckets del ejemplo
![Page 17: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/17.jpg)
Surge un problema…◦Si bien se reduce el problema de
eficiencia, igualmente es posible que la cantidad de buckets crezca considerablemente.
Como se puede solucionar?…◦Extendiendo la solución empleando
conjuntos parcialmente ordenados
![Page 18: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/18.jpg)
Conjuntos parcialmente Conjuntos parcialmente ordenadosordenadosRelación de inclusión entre Buckets.
◦Bi esta incluido en Bj si y solo si, los dominios comprendidos por los atributos de Bi están incluidos estrictamente en los dominios de los atributos definidos en Bj.
IncompatibilidadDos buckets son incompatibles si no son el
mismo y ninguno esta incluido en el otro.
Usando la inclusión entre buckets se agrupan buckets en diferentes niveles, cada nivel es un superbucket.
![Page 19: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/19.jpg)
SuperBucket◦Consiste en la agrupación de los
buckets incompatibles.◦Implícitamente si un bucket Bi
incluye a otro Bj, entonces el superbucket que aloja Bi incluye al superbucket que aloja Bj
Conjunto parcialmente ordenado(po-set)◦Conjunto de superbackets ordenados
según la relación de inclusión
![Page 20: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/20.jpg)
po-set del ejemplopo-set del ejemplo
![Page 21: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/21.jpg)
Combinaciones de SCQD◦Si no hay una fuente que cumpla con la
consulta se pueden usar combinaciones de fuentes de datos, de manera tal que el resultado obtenido de esta combinación cumpla con las condiciones de la consulta , y como consecuencia esta combinación es relevante.
◦Aquellos buckets tal que su lcd cumplan con algún elemento del lcd propuesto en la consulta serán los candidatos a formar parte de la combinación.
![Page 22: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/22.jpg)
En este ejemplo los buckets candidatos son: B32, B31, B12, resultando las siguientes combinación de fuentes: {S1, S2, S6},
{S1, S2, S5}, {S2, S4, S6}, {S2,S4, S5}.
![Page 23: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/23.jpg)
Problemas◦Puede existir un numero muy grande
de combinaciones de fuentes.
Alternativa 1◦Extender el po-set hacia un lattice.◦Se agregan todos los buckets
generados a través de combinación de fuentes a la estructura de superbukets.
◦El problema de esta solución ese que igualmente puede existir un crecimiento exponencial de la cantidad de buckets.
![Page 24: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/24.jpg)
Alternativa 2◦Construir parcialmente el lattice. ◦Se agrega un bucket que contiene la
combinación de las fuentes de los buckets mas generales.
◦Solución sencilla, pero tiene como contrapartida la perdida de exactitud en los datos devueltos.
![Page 25: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/25.jpg)
Según esta metodología el ejemplo retornaría el resultado a S2 y S3, cuando existe una mejor solución realizando la unión de S1 y S2
![Page 26: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/26.jpg)
Criticas Criticas No es auto contenido
◦Creación de scores no desarrollados.◦Elección de parámetros de calidad.
No consigue una solución definitivaUbicación de componentes de ejemplos
inadecuada.Ausencia de fecha de publicación del
articulo.Profundidad técnica sencilla de
comprenderPresenta ejemplos claros.
![Page 27: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/27.jpg)
ConclusiónConclusiónProblemática adecuada a la
realidadSolución no es completamente
madura.◦Mejorar el desarrollo de las
alternativas propuestas.Una buena idea para solucionar
problemas que se presentan en la actualidad en esta area.
![Page 28: Using Quality of Data Metadata for Source Selection and Ranking](https://reader036.vdocuments.us/reader036/viewer/2022062516/56812a88550346895d8e27d6/html5/thumbnails/28.jpg)
PreguntasPreguntas