23 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Reminders about Data QualitySharon Grant & Sophie Pamerlon
23 AOÛT 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon
INDEX
BackgroundData WorkflowData Quality and Digitization
MetadataTaxonomic informationSpatial informationCollection informationDescriptive information
Inde
x
INDEX
ContexteFlux des donnéesQualité des données et numérisation
MétadonnéesDonnées taxonomiquesDonnée spatialesDonnées de collecteDonnées descriptives
Inde
x
From data to understanding…
Oceans of data…
Bac
kgro
und
Des données à la compréhension…
Des océans de données…
Con
text
e
…rivers of information…
Bac
kgro
und
…des rivières d’informations…
Con
text
e
… streams of knowledge…
Bac
kgro
und
… des ruisseaux de connaissances …
Con
text
e
…droplets of understanding
Bac
kgro
und
…des gouttes de compréhension
Con
text
e
Data quality is a relative concept that depends on the use of these data.
"The general intent of describing the quality of a particular dataset or record is to describe the fitness of that dataset or record for a particular use that one may have in mind for the data."
Chrisman, 1991
Fitness for use - DefinitionD
efin
ition
La qualité des données est un concept relatif qui dépend de l’usage qui est fait de ces données…
« L’intention générale, lorsqu’on décrit la qualité d’un jeu de données ou d’un enregistrement, est de décrire l’adéquation de ce jeu de données ou enregistrement à l’usage que l’on souhaite que d’autres personnes en fassent.»
Chrisman, 1991
« Fitness-for-use »
Adéquation à l’usage - définitionD
éfin
ition
Each institution should have:
1.A vision targeted on data quality
o Don’t « reinvent the wheel » and use standardso Seek efficiency (in collecting data and quality checks) and avoid
duplicating effortso Promote sharing (data, informations, tools, standards…)o Think at a large scaleo Cater to users and their needso Invest in documentation and metadata
2.A policy implementing this vision
3.An implementation strategy for this policy (precise goals at short, mean and long term)
Data Processing and QualityD
ata
wor
kflo
w
Chaque institution devrait avoir :
1.Une vision ciblant la qualité des données
o Ne pas “réinventer la roue” et utiliser les standardso Chercher l’efficacité (dans la collecte et l’assurance qualité)
and éviter la duplication d’efforto Encourager le partage (données, informations et outils)o Réfléchir à long termeo Prendre soin des utilisateurs et de leurs besoinso Investir dans la documentation et les métadonnées
2.Une politique implémentant cette vision
3.Une stratégie d’implémentation pour cette politique (échéances précises à court, moyen et long terme)
Chaîne des Données et QualitéFl
ux d
e do
nnée
s
Quality loss happens at every step.The responsibility in terms of data quality has to be assigned at the earlier possible step of the process.
Dat
a w
orkf
low
Data Processing and Quality
La perte de qualité survient à chaque étape.La responsabilité en terme de qualité de données doit être assignée le plus tôt possible dans cette chaîne.
Flux
de
donn
ées
Chaîne des Données et Qualité
CuratorRetranscription quality in the database
Regular validation tests.
Data regularly saved and archived
Keep precedent versions
Ensure respect of private life, intellectual rights, local traditions and sensibilities ...
Provide quality documentation (including known issues about the data)
Take feedback into account
Responsibility for maintenance but also moral responsibility to improve data quality (if possible) for future uses and users.
Sharing responsibilitiesUserInform data curators about Mistakes and et omissions in data and documentation.
Provide feedback to define future priorities
When using data, determine whether data are adequate for intended use and not use them if this is not the case.
CollectorLabels and logs are as correct, complete and readable as possible
Collection methods are vastly documented
Remarks are clear and non-ambiguous
Dat
a flo
w
ConservateurQualité des retranscriptions dans la base de données
Tests de validation réguliers et documentés.
Les données sont sauvegardées et archivées
Les versions précédentes sont conservées
Assurer le respect (vie privées, propriété intellectuelle, traditions locales, ...)
Fournir une documentation de qualité (incluant les problèmes connus)
Les retours utilisateurs sont pris en compte
Responsabilité de maintenance et d’améliorer la qualité des données pour de futurs utilisateurs et usages.
Partage des ResponsabilitésUtilisateurInformer les conservateurs des erreurs et omissions dans les données et la documentation
Définir les priorités futures
A l’usage, déterminer si les donnés sont adaptées à l’usage prévu et ne pas les utiliser de façon non-adéquate.
CollecteurL’étiquetage et les journaux sont corrects, aussi complets que possible et lisibles
Les méthodes de collecte sont largement documentées
Les remarques sont claires et non-ambiguës
Flux
de
donn
ées
What can the digitization team do?
1. Help document the data(set) through metadata and record-level annotations2. Ensure the maximum quality possible when digitizing:
1. Taxonomic data2. Geographical data3. Collection and collector data4. Descriptive data
Dat
a w
orkf
low
Que peuvent faire les équipes de numérisation ?
1. Aider à documenter le(s) jeu(x) de données grâce aux métadonnées et annotations sur les occurrences2. S’assurer de la meilleure qualité possible lors de la numérisation :
1. Données taxonomiques2. Données géographiques3. Données sur la collection et le collecteur4. Données descriptives
Flux
de
donn
ées
Metadata = « Data about the data »
• Describe content, accessibility, completeness...• About the dataset• Error documentation• Documentation of validation process, data cleaning
and data correcting
Metadata must be rich enough to allow data (re)use by a third party without them having to refer to the data source.
Met
adat
aDocumenting quality during digitization
Métadonnées = « Données sur les données »
• Décrivent le contenu, l’accessibilité, la complétude, ...• A propos du dataset• Documentation de l’erreur• Documentation des procédures de validation, de
nettoyage et de correction appliquées
Les métadonnées doivent être suffisamment riches pour permettre l’usage des données par des tiers sans devoir se référer à la source de ces données.
Mét
adon
nées Documentation de la qualité pendant la numérisation
• Names (scientific, vernacular, rank, hierarchy, …)
• Statuts (synonyms, valid names, …)
• References (author, date and location)
• Identification (by whom and when?)
• Quality terms (ID certainty, …)
Taxo
nom
ic d
ata
Taxonomic data: definition
• Noms (scientifique, vernaculaire, rang, hiérarchie, …)
• Statuts (synonymes, nom valide, …)
• Références (auteur, date et lieu)
• Détermination (par qui et quand ?)
• Champs relatifs à la qualité (certitude, …)
Don
nées
taxo
nom
ique
sDonnées taxonomiques : définition
Scientific/vernacular name = entry point
Risk of propagating errors during the whole data publishing process
Possible errors and solutions:
• Incorrect identifications (calls for help from a taxonomist)• Typos (data cleaning)• Wrong format (data cleaning)
Errors can affect scientific and vernacular names, from all taxonomic ranks
Taxo
nom
ic d
ata
Taxonomic data
Souvent le nom = point d’entrée
Risque de propagation des erreurs tout au long du processus de publication des données
Erreurs possibles et solutions :
• Identification incorrectes (requiert l’aide d’un taxonomiste)• Erreurs orthographiques (nettoyage des données)• Mauvais format (nettoyage des données)
Les erreurs peuvent concerner noms scientifiques et noms communs, à tous les niveaux de taxonomie
Don
nées
taxo
nom
ique
sDonnées taxonomiques
• Missing data (e.g.: subspecies written but not the species)
• Incorrect values (typos, wrong column, symbols « ?? », …)
• Non-atomic values (e.g.: « subsp. bicostasa » in a single term)
• Uncertainty on at least one name of the binominal nomenclature
• Duplicates (synonyms, several valid names…)
• Inconsistent data after to databases fusion using several checklists
Taxo
nom
ic d
ata
Taxonomic data: common MISTAKES to avoid
• Données manquantes (ex : sous-espèce renseignée mais pas l’espèce)
• Valeurs incorrectes (fautes de frappe, mauvaise colonne, symboles « ?? », …)
• Valeurs non-atomiques (ex : « subsp. bicostasa » dans un seul champ
• Incertitude sur un des noms de la nomenclature binomiale
• Valeurs dupliquées (synonymes, plusieurs noms valides…)
• Données inconsistantes suite à la fusion de deux bases de données utilisant différents référentiels
Don
nées
taxo
nom
ique
sDonnées taxonomiques : ERREURS à éviter
Spatial data (textual or geo-referenced) are one of the key information to determine the fitness-for-use of biodiversity primary data:
• Species distribution modelling• Selection of areas to protect• Resources and environment
management• ...
Spa
tial d
ata
Spatial data: definition
Les données spatiales (textuelles ou géoréférencées) représentent un des aspects cruciaux pour déterminer l’adéquation à l’usage des données primaires de biodiversité:
• Modélisation de la distribution des espèces• Sélections des zones à protéger• Gestion de l’environnement et
des ressources• ...
Don
nées
spa
tiale
sDonnées spatiales : définition
What are we talking about?• Latitude and longitude • Area• Point + radius• Bounding box = rectangle calculated from the coordinates of two points)• Polyline• Grid reference
Spa
tial d
ata
Spatial data: definition (2)
De quoi s’agit-il ?• Latitude et longitude • Aire• Point + rayon• Boîte englobante (bounding box = rectangle calculé à partir des coordonnées de deux points)• Polyline• Référence de grille
Don
nées
spa
tiale
sDonnées spatiales : définition (2)
Spa
tial d
ata
Data based on a grid
Don
nées
spa
tiale
sDonnées basées sur une grille
• Coordinates: a code documenting a position on Earth, expressed with a SRS (spatial reference system). Most of the time: latitude/longitude
• Georeferencing: the process of assigning a geographical reference to a given record.
• Datum: geodetic system
Spa
tial d
ata
Spatial data: a few more definitions
• Coordonnées : un code documentant une position sur la surface de la terre, exprimé suivant un SRS (spatial reference system). En pratique; souvent latitude/longitude
• Géoréférencement : le procédé qui consiste à assigner une référence géographique à un enregistrement donné.
• Datum : système géodésique
Don
nées
spa
tiale
sDonnées spatiales : quelques définitions
• Coordinates inversion
• Null values
• Unknown datum
• Inadapted SRS
• Conversion issues.
Spatial data: common MISTAKES to avoid
Early GBIF map showing USA data, making evident some common mistakes:
● 0,0 coordinates (Greenwich meridian and Equator)● Reverse coordinates (mirror effect on China and slight
mirror effect west of Chile)
Spa
tial d
ata
• Inversion des coordonnées
• Valeur(s) zéro
• Système géodésique oudatum inconnu
• SRS inadapté
• Problèmes de conversion.Don
nées
spa
tiale
sDonnées spatiales : ERREURS à éviter
Ancienne carte GBIF que présentait les données des États Unis, montrant des exemples d’erreurs communes :
● Coordonnées 0, 0 (méridien de Greenwich et Equateur)
● Coordonnées inversées (miroir sur la Chine et léger miroir à l’ouest du Chili)
• Collector name• Collect date• Additional information: habitat, soil, meteorological
conditions…
Relevance depends on dataset type:
• Static collection (museum) : collector name and ID, date, habitat, capture technique...
• Observations: observation length, area, time of day, activity, sex of the observed specimen…
• Sampling-event data: sampling methods, grid size, frequency, collection of reference specimens
Col
lect
ion
data
Collection data: definition
• Nom du collecteur• Date de collecte
• Informations supplémentaires: habitat, sol, conditions météorologiques…
La pertinence dépend du type de jeu de données:
• Collection statique (musée) : nom et ID du collecteur, date, habitat, méthode de capture ...
• Observations: +durée d’observation, zone, période de la journée, activité, sexe du spécimen observé…
• Échantillonnage et inventaires exhaustifs : +méthode, taille de la grille, fréquence, si des spécimens de référence ont été collecté (+références)
Don
nées
de
colle
cte
Données de collecte et de collecteur : définition
• Exactitude: names of the collector(s), date,…
• Consistency: use of a controlled vocabulary for soils, habitats…
• Completeness: some terms are very rarely completed (flowering period, associated species…) which can impede data (re)use
Col
lect
ion
data
Collection data: factors
• Exactitude: nom du ou des collecteurs, date,…
• Cohérence: utilisation d’une terminologie (différente pour les sols, les habitats…)
• Complétude : certains champs sont très rarement renseignés (floraison, espèces associées…) ce qui peut limiter la réutilisation des données
Données de collecte et de collecteur : facteursD
onné
es d
e co
llect
e
• Variable quality: historical data impossible to check, data description too expensive on time/money, subjectivity (colour or abundance estimation…)
• Often data relative to the whole taxonomic rank and not the specimen in particular
• Completeness: generally impossible to achieve on a given specimen
• Consistency: some traits can be non consistento FLOWER_COLOUR = Carmineo FLOWER_COLOUR = Crimson
Des
crip
tive
data
Descriptive data: factors
• Qualité très variable : données historiques impossibles à vérifier, description trop coûteuse en temps/argent, subjectivité (estimation des couleurs, de l’abondance…)
• Souvent des données s’appliquant au niveau taxonomique et pas au niveau du spécimen
• Complétude : généralement impossible à atteindre sur un même spécimen
• Cohérence: attributs non consistantso FLOWER_COLOUR = MAUVEo FLOWER_COLOUR= violet clairD
onné
es d
escr
iptiv
es Données descriptives : facteurs
23 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Reminders about Data QualitySharon Grant & Sophie Pamerlon
23 AOÛT 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon