bid ce workshop 1 session 02 - foundations for the workshop
TRANSCRIPT
22 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Foundations for the WorkshopSharon Grant
22 Août 2016LE PROGRAMME BID EST FINANCÉ PAR L’UNION EUROPÉENNE
Les fondations pour l’atelierSharon Grant
Structure of this Session
Structure de cette séance
Key Concepts
Data QualityDocumentationStandardsData NormalizationWhy Publish?
Key
Con
cept
s
Concepts clés
Qualité des donnéesDocumentationStandards de donnéesNormalisation des donnéesPourquoi publier?
Con
cept
s cl
és
"...data quality is related to use and cannot be assessed independently of the user. In a database, the data have no actual quality or value (Dalcin 2004); they only have potential value that is realized only when someone uses the data to do something useful. Information quality relates to its ability to satisfy its customers and to meet customers’ needs (English 1999).”
Quality
Reference: Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF, Copenhagen. ISBN 87-92020-03-8.
"...la qualité des données est liée à l’usage et ne peut pas être jugée indépendamment de l’utilisateur. Dans une base de données, les données n’ont pas de qualité ou de valeur intrinsèques (Dalcin 2004) ; elles n’ont qu’une valeur potentielle qui se réalise seulement quand quelqu’un utilise des données pour faire quelque chose d’utile. La qualité de l’information est liée à sa capacité à satisfaire ses consommateurs et leurs besoins (English 1999).”
Qualité
Chapman, A. D. (2005). Les principes de qualité des données, version 1.0. Trad. Chenin, N. Copenhague: Global Biodiversity Information Facility. ISBN 87-92020-03-8.
QualityQ
ualit
y
Activités préparatoiresQ
ualit
é
Reference: Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF, Copenhagen. ISBN 87-92020-03-8.
• accessible, • accurate, • timely,• complete, • consistent with other sources, • relevant, • comprehensive, • provide a proper level of detail,• be easy to read and easy to interpret
Qua
lity
“Fitness for Use”All data include error – there is no escaping it! It is knowing what the error is that is important, and knowing if the error is within acceptable limits for the purpose to which the data are to be put. (Chapman 2005)
• accessibles, • exactes, • opportunes,• complètes, • cohérentes avec les autres sources, • pertinentes, • exhaustives, • fournissent un niveau de détail approprié,• aisées à lire et à interpréter
Qua
lity
“Aptitude à l’emploi”Toute données contient des erreurs – on ne peut y échapper ! Ce qui compte c’est d’avoir connaissance de ces erreurs et de savoir si elles restent dans des limites acceptables au regard de ce que l’on veut en faire. (Chapman 2005)
Chapman, A. D. (2005). Les principes de qualité des données, version 1.0. Trad. Chenin, N. Copenhague: Global Biodiversity Information Facility. ISBN 87-92020-03-8.
Reference: http://chemistry.about.com/od/unitsconversions/fl/What-Is-the-Difference-Between-Accuracy-and-Precision.htm
• Accuracy How close are you to the true value.high degree of accuracy, but low precision.
• Precision How consistent are your measurements.
high precision, but low degrees of accuracy.
Qua
lity
Accuracy and Precision“Be precise. A lack of precision is dangerous when the margin of error is small” (Donald Rumsfeld)
Reference: http://chemistry.about.com/od/unitsconversions/fl/What-Is-the-Difference-Between-Accuracy-and-Precision.htm
• Exactitude La proximité par rapport à la vraie valeurun haut degré d'exactitude, mais une faible précision
• Précision La coherence de vos mesuresUne haute précision, mais un degré faible d’exactitude
Qua
lité
Exactitude et précision« Soyez précis. Un manque de précision est dangereux lorsque la marge d'erreur est faible. » (Donald Rumsfeld)
Reference: http://www.npl.co.uk/upload/pdf/Understanding%20uncertainty.pdf
• Uncertainty Is the quantification of the doubt about the measurement result.
• Error Is difference between the measured value and the true value of object being measured.
Qua
lity
Errors and Uncertainty“As far as the law of mathematics refer to reality, they are not certain; and as far as they are certain, they do not refer to reality. (Albert Einstein)
Reference: http://www.npl.co.uk/upload/pdf/Understanding%20uncertainty.pdf
• Incertitude La quantification du doute sur le résultat de la mesure.
• ErreurLa différence entre la valeur mesurée et la valeur réelle de l'objet mesuré.
Qua
lité
Erreurs et incertitudes« Pour autant que les lois des mathématiques reflètent la réalité, elles ne sont pas certaines; pour autant qu’elles soient certaines, elle ne reflètent pas la réalité. »(Albert Einstein)
“People have forgotten how to tell a story. Stories don’t have a middle or an end any more. They usually have a beginning that never stops beginning.” (Steven Spielberg)
Documentation
"Les gens ont oublié comment raconter une histoire. Les histoires n’ont plus ni milieu ni fin. Elles ont généralement un début qui ne cesse de commencer." (Steven Spielberg)
Documentation
Reference: Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF, Copenhagen. ISBN 87-92020-03-8.
• title;
• source;
• data lineage;
• accuracy;
• logical consistency;
• date and life expectancy;
• field definitions;
• collection methodology;
Doc
umen
tatio
nDocumentation
Experience has shown that treating data as a long-term asset and managing it within a coordinated framework produces considerable savings and ongoing value. (NLWRA 2003).
• completeness;
• conditions of use and use constraints;
• custodianship;
• contact information
• titre ;
• source ;
• historique des données ;
• précision ;
• cohérence logique ;
• date et durée de vie des données ;
• définition des champs ;
• méthodologie de collecte ;
Doc
umen
tatio
nDocumentation
L’expérience a montré que le fait de traiter les données comme un atout à long terme et de les gérer dans un cadre coordonné apporte des économies considérables et une valeur durable (NLWRA 2003).
• Methodology utilisée par la collection;
• complétude ;
• conditions et contraintes d’utilisation ;
• information sur la conservation ;
• contact
Chapman, A. D. (2005). Les principes de qualité des données, version 1.0. Trad. Chenin, N. Copenhague: Global Biodiversity Information Facility. ISBN 87-92020-03-8.
Metadata = « Data about the data »
• Describe content, accessibility, completeness...• About the dataset• Error documentation• Documentation of validation process, data cleaning
and data correcting
Metadata must be rich enough to allow data (re)use by a third party without them having to refer to the data source.
Doc
umen
tatio
nDocumenting quality during digitization
Que peuvent faire les équipes de numérisation ?
1. Aider à documenter le(s) jeu(x) de données grâce aux métadonnées et annotations sur les occurrences2. S’assurer de la meilleure qualité possible lors de la numérisation :
1. Données taxonomiques2. Données géographiques3. Données sur la collection et le collecteur4. Données descriptives
Doc
umen
tatio
n
"As with marathon runs and lengths of toilet paper, there had to be standards to measure up to.” (Haruki Murakami)
Standards
«Tout comme la distance des marathons et la longueur des rouleaux de papier toilette, il faut des standards auxquels nous puissions nous référer. » (Haruki Murakami)
Standards de données
Source: https://www.idigbio.org/content/data-standards-sharing-hands-experience-integrated-publishing-toolkit-ipt
Existing Standards• Ecological Metadata Language St
andard (EML),
• Darwin Core,• Audubon Media Description (aka A
udubon Core),
• Global Genome Biodiversity Network(GGBN)
• Ocean Data Standards and Best Practices Project (ODSBP)
• Any more..?
Reasons to Standardise• Standards provide data integrity, accuracy and consistence, clarify ambiguous meanings, minimize redundant data, and document business rules.
Sta
ndar
ds Data Standards“Data standards are the rules by which data are described and recorded. In order to share, exchange, and understand data, we must standardise the format as well as the meaning.” (USGS)
Source: https://www.idigbio.org/content/data-standards-sharing-hands-experience-integrated-publishing-toolkit-ipt
Standards existants• Ecological Metadata Language St
andard (EML),
• Darwin Core,• Audubon Media Description (alias
Audubon Core),
• Global Genome Biodiversity Network(GGBN)
• Ocean Data Standards et Best Practices Project (ODSBP)
• Autres standards..?
Raisons pour standardiser• Les standards fournissent protection,exactitude et cohérence aux données, permettent d’éclaircir les termes flous, de réduire les répétitions d’information, et de documenter les règles d’utilisation des données.
Sta
ndar
ds Standards de données« Les standards de données sont les règles permettant de décrire et d’enregistrer les données. Afin de partager, échanger et comprendre les données, nous devons standardiser la forme autant que le fond.» (USGS)
Sta
ndar
ds Extensions and the Star SchemaExtensions
● GGBN Suite● EOL References● Germplasm Suite● Trait measurement● Taxon Description● Simple Multimedia● Literature References● Types and Specimen● Vernacular Names● Audobon Media● Darwin Core Event
Etc… etc…
Sta
ndar
ds Extensions et Schéma en étoileExtensions
● GGBN Suite● EOL References● Germplasm Suite● Trait measurement● Taxon Description● Simple Multimedia● Literature References● Types and Specimen● Vernacular Names● Audubon Media● Darwin Core Event
Etc… etc…
"The idea is there locked inside. All you have to do is remove the excess stone (Michelangelo).
Normalization
"L'idée est là, enfermée à l’intérieur, et tout ce que vous avez à faire est de retirer l’excès de pierre.” (Michel-Ange)
Normalisation
Source: http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-en
First Normal Form (1NF)• Remove duplicative columns• Create separate tables for related data.• Identify each row with a primary Key
Second Normal Form (2NF)• First Normal Form +• Remove subsets of data for multiple rows• Create relationships with foreign keys
Third Normal Form (3NF)• Remove columns not dependant on the
primary key
Reasons to Normalize• To minimize duplicate data.• To minimize or avoid data modification issues.• Simplify queries.N
orm
aliz
atio
nWhat is Data Normalization?
Data Normalization is the process used to organize a database into efficient tables and columns.
Source: http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-en
Première Forme Normale (1NF)• Supprimer des duplications de colonnes• Créer des tableaux différents pour les
données connexes.• Identifier chaque ligne avec une clé primaire
Deuxième Forme Normale (2NF)• Première Forme Normale +• Supprimer les sous-ensembles de données
sur plusieurs lignes • Créer des liens avec des clés étrangères
Troisième Forme Normale (3NF)• Supprimer les colonnes ne dépendant pas
de la clé primaire
Les raisons de la normalisation• Minimiser la duplication des données.• Minimiser ou éviter les problèmes dus aux modifications de données.• Simplifier les requêtes de données.N
orm
alis
atio
nQu’est ce que la normalisation des données?
La normalisation des données est la procédure utilisée pour organiser de manière efficace une base de données sous forme de tableaux et de colonnes.
"Nothing stinks like a pile of unpublished writing” Sylvia Plath
Publishing
"Rien ne pue autant qu’un tas de textes non publiés” Sylvia Plath
La Publication
Source: http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-enReference:1B Publishing Primary Biodiversity Data by A. González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT . 13 Jan 2015
Pub
lishi
ng What is Data Publishing?“Publishing” refers to making biodiversity datasets publicly accessible and discoverable, in a standardized form, via an access point, typically a web address (a URL).
Source: http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-enReference:1B Publishing Primary Biodiversity Data by A. González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT . 13 Jan 2015
Pub
licat
ion
Qu'est ce la Publication de Données ?La « publication » consiste à rendre des jeux de données de la biodiversité accessibles au public et découvrable, sous une forme standardisée, via un point d'accès, généralement une adresse Web (URL).
21st century = « century of the data »
Data quantity increases exponentially
GBIF is part of this movement!
Well curated and standardized, these data have the potential to greatly improve our knowledge and capacities
Pub
lishi
ng Why Publish Data
Pourquoi publier les données ?
21ème siècle = « siècle des données »
La quantité de données augmente exponentiellement
Le GBIF est un acteur de ce mouvement !
Bien mises en forme et standardisées, ces données ont le potentiel d’améliorer grandement nos connaissances et aptitudes
Pub
licat
ion
Taxonomic research, niche modelling/species distribution prediction, invasive and alien species, habitat degradation, interspecific
relationships, ...
But also...
Conservation biology, water management, eco-tourism, science history, hunting and
fisheries, data repatriation,..
Biodiversity Data Use
After Chapman, 2006
Pub
lishi
ng
Recherches taxonomiques, modélisation/prédiction de la distribution des espèces, espèces invasives, dégradation des
habitats, relations interspécifiques, ...
Mais aussi...Organisation de la conservation, gestion de l’eau, éco-tourisme, histoire des sciences,
chasse et pêche, rapatriement des données, ...
Usage des données de biodiversité
D’après Chapman, 2006
Pub
licat
ion
Reasons to Publish● Taxonomy● Biogeographic studies● Species diversity and populations● Life histories and phenologies● Endangered, Migratory and Invasive
Species● Impact of Climate Change● Ecology, Evolution and Genetics● Environmental Regionalisation● Conservation Planning
Source: https://docs.google.com/presentation/d/1iYCb3EdqwcD_Nxk5j_lFgGTLFNEz0Cu54qyUvXlSMgs/edit#slide=id.g163ca52ab8_1_7
Pub
lishi
ng
● Natural Resource Management● Agriculture, Forestry, Fisheries
and Mining● Health and Public Safety● Bioprospecting● Forensics● Border Control and Wildlife Trade● Education and Public Outreach● Ecotourism and Recreational
Activities● Society and Politics● Human Infrastructure Planning
Raisons de Publier ● Taxonomie● Études biogéographiques● Diversité des espèces et Populations ● Traits de vie and phénologies● Espèces Menacées, Migratoires et
Envahissantes● Conséquences du Changement
Climatique● Écologie, Évolution et Génétique● Régionalisation Environnementale ● Planification de la Conservation
Source: https://docs.google.com/presentation/d/1iYCb3EdqwcD_Nxk5j_lFgGTLFNEz0Cu54qyUvXlSMgs/edit#slide=id.g163ca52ab8_1_7
Pub
licat
ion
● Gestion des Ressources Naturelles● Agriculture, Sylviculture, Pêcheries et
Activités Minières● Santé et Sécurité Publique● Bioprospection● Médecine Légale● Contrôle des Frontières et du
Commerce d’Espèces Sauvages ● Éducation et Sensibilisation Publique● Écotourisme et Activités Récréatives● Société et Politiques● Planification des Infrastructures
Humaines
Barriers to data publishingP
ublis
hing
● Lack of knowledge
● Lack of understanding
● Lack of will
● Perceived data value
● Privacy concerns
● Lack of authorization
● Lack of time / planning
● Lack of capacity
● Lack of funding
● Lack of infrastructure
Psychological &
cultural barriers
Practicalbarriers
Capacitybarriers
Institutionalbarriers
Obstacles à la PublicationP
ublic
atio
n
● Manque de connaissance
● Manque de compréhension
● Manque de volonté
● Valeur perçue des données
● Questions de confidentialité
● Absence d'autorisation
● Manque de temps/planning
● Manque de moyens
● Manque de fonds
● Manque d'infrastructures
Obstacles psychologiques
et culturels
Obstacles pratiques
Obstacles liés aux ressources
Obstacles institutionnels
● Refuse to share.
● Refuse to share until they have exhausted the planned use of the data.
● Will only share their data for a fee.
● Will only share data under specific restrictions.
● Agree to share data openly.
Data restriction levelsP
ublis
hing
Niveaux de restriction P
ublic
atio
n
● Refus de partager.
● Refus de partager jusqu'à ce que l'utilisation
prévue des données soit terminée.
● Partage payant des données.
● Partage des données sous restrictions.
● Partage libre des données.
● Facilitate access to financial support.
● Call upon commitments or legal mandates.
● Call upon open access / moral principles.
● Show the benefits of a better data management.
● Show the benefit for their scientific careers.
● Peer pressure.
● Start / support big digitization programmes.
● Start / support data repatriation efforts.
Incentives for PublishingP
ublis
hing
Incentives pour la publicationP
ublic
atio
n
● Faciliter l'accès à un soutien financier.
● Appel à des engagements ou des mandats légaux.
● Appel à un accès ouvert/principes moraux.
● Montrer les avantages d'une meilleure gestion des données.
● Montrer les avantages pour les carrières scientifiques.
● Pression des pairs
● Démarrer/soutenir de grands programmes de numérisation.
● Démarrer/soutenir les efforts de rapatriement des données.
Promotion of Data Publishing – EXAMPLES
http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/
Pub
lishi
ng
Challenges• Not wanting to publish
and/or not wanting to publish all the data
• Technical threshold of an IPT
• Restrictive licensing of data
Strategies• Start smaller – meta data only• Promote one-off publishing
with multiple exposures• Provide hosted IPTs to
eliminate technical threshold• Illustrate licensing with telling
examples.• Promote and organize
trainings to bring reluctant publishers in with an easier “sell” like data papers.
Promotion de la publication de données - EXEMPLE
http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/
Pub
licat
ion
Stratégies• Commencez petit - seulement les
méta-données• Promotion du fait qu’avec une
seule publication au GBIF les données seront exposées dans de multiples réseaux
• Fournir des IPTs hébergés pour éliminer les barrières techniques
• Illustrer les licences avec des exemples éloquents.
• Promouvoir et organiser des formations sur les « data papers »
Défis• Ne pas vouloir publier et/
ou ne pas vouloir publier toutes les données
• Exigences/ capacities techniques pour utiliser l’IPT
• Licences restrictives des données
Useful Resources
Ressources utiles
References
● Data Quality: • http://zookeys.pensoft.net/articles.php?id=2926%7C
• https://www.sophia.org/tutorials/accuracy-and-precision--3
• http://chem.libretexts.org/Core/Analytical_Chemistry/Quantifying_Nature/Significant_Digits/Uncertainties_in_Measurements
• http://chemistry.about.com/od/chemistrylabexperiments/qt/meniscus.htm
● Data Normalization: • http://zookeys.pensoft.net/articles.php?id=2926%7C
• http://databases.about.com/od/specificproducts/a/normalization.htm
• http://www.slideshare.net/JohnCutajar/relational-database-examples
● Data Standards• https://www2.usgs.gov/datamanagement/plan/datastandards.php
• https://www.researchgate.net/figure/259599014_fig1_The-star-schema-showing-the-relation-of-Darwin-Core-Archive-extension-files-to-the-core
• https://www.idigbio.org/content/data-standards-sharing-hands-experience-integrated-publishing-toolkit-ipt
● Why Publish?:• http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-en• http://www-old.gbif.org/orc/?doc_id=1300• http://idigbio.org/sites/default/files/workshop-presentations/demystifyingIPT/IPTiDigBio-20150113-1B%20Publishing%20B
asic%20Primary%20Biodiversity%20Data.pptx
Use
ful R
esou
rces
Références
● Qualité des données :• http://zookeys.pensoft.net/articles.php?id=2926%7C
• https://www.sophia.org/tutorials/accuracy-and-precision--3
• http://chem.libretexts.org/Core/Analytical_Chemistry/Quantifying_Nature/Significant_Digits/Uncertainties_in_Measurements
• http://chemistry.about.com/od/chemistrylabexperiments/qt/meniscus.htm
● Normalisation des données : • http://zookeys.pensoft.net/articles.php?id=2926%7C
• http://databases.about.com/od/specificproducts/a/normalization.htm
• http://www.slideshare.net/JohnCutajar/relational-database-examples
● Standards de données• https://www2.usgs.gov/datamanagement/plan/datastandards.php
• https://www.researchgate.net/figure/259599014_fig1_The-star-schema-showing-the-relation-of-Darwin-Core-Archive-extension-files-to-the-core
• https://www.idigbio.org/content/data-standards-sharing-hands-experience-integrated-publishing-toolkit-ipt
● Raisons de Publier• http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-en• http://www-old.gbif.org/orc/?doc_id=1300• http://idigbio.org/sites/default/files/workshop-presentations/demystifyingIPT/IPTiDigBio-20150113-1B%20Publishing%2
0Basic%20Primary%20Biodiversity%20Data.pptx
Res
sour
ces
utile
s
22 AUGUST 2016THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Foundations for the WorkshopSharon Grant