sudoc, calames, theses.fr et le web de données

56
Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Upload: y-nicolas

Post on 27-Jan-2015

2.169 views

Category:

Education


0 download

DESCRIPTION

Atelier sur le Web de données lors des Journées ABES 2011

TRANSCRIPT

Page 1: Sudoc, Calames, theses.fr et le Web de données

Sudoc, Calames, theses.fret le Web de données

Atelier JABES2011

Page 2: Sudoc, Calames, theses.fr et le Web de données

Vers le Web de donnéesApplication Lancement Format RDF Données à jour Richesse des liens

Calames 2008 RDFa Oui +

theses.fr 2010 RDFa + RDF/XML2011 Oui +

IdRef 2010 RDF/XML + RDFa2011 Oui ++

Sudoc 2011 RDF/XML2011 Oui +++

Page 3: Sudoc, Calames, theses.fr et le Web de données

Il faut participer au Web de données [Acquis]

Page 4: Sudoc, Calames, theses.fr et le Web de données

Objectifs de l’atelier

• Faire un bilan d’étape• Montrer les données• Justifier certains choix• Expliquer comment ça marche• Manipuler quelques outils simples• Esquisser la suite du travail à mener– Nous– Vous

Page 5: Sudoc, Calames, theses.fr et le Web de données

Partons du connu

Page 6: Sudoc, Calames, theses.fr et le Web de données
Page 7: Sudoc, Calames, theses.fr et le Web de données

S’agit-il de données RDF ou d’une simple notice Dublin Core ?

Page 9: Sudoc, Calames, theses.fr et le Web de données

about• En RDF, il faut expliciter de quoi on parle en

l’identifiant par une URL : http://www.sudoc.fr/013041932/id

• http://www.sudoc.fr/013041932/id est l’identifiant du document décrit

• http://www.sudoc.fr/013041932/id est décrit à cette page-là http://www.sudoc.fr/013041932

Page 10: Sudoc, Calames, theses.fr et le Web de données

triplets

• En RDF, tout est décomposé en triplets

• Chaque triplet est indépendant• Chaque triplet pourrait être stocké séparément

Pas de notice finie Une autre source peut la compléter, si elle parle de la même chose :

http://www.sudoc.fr/013041932/id Interopérabilité. Extensibilité.

Page 11: Sudoc, Calames, theses.fr et le Web de données

Identifier la langue avec le référentiel Lexvo

Page 12: Sudoc, Calames, theses.fr et le Web de données
Page 13: Sudoc, Calames, theses.fr et le Web de données

Mettre en relation un document et une langue

• La langue n’est pas un code (‘fre’)• La langue est une entité à part entière– Avec son propre identifiant

http://lexvo.org/id/iso639-3/fra – et ses propres propriétés

• La propriété dcterms:language met en relation deux entités

Page 14: Sudoc, Calames, theses.fr et le Web de données

http://www.lexvo.org/id/iso639-3/fra décrite en HTML

Page 15: Sudoc, Calames, theses.fr et le Web de données

http://www.lexvo.org/id/iso639-3/fra décrite en RDF

Page 16: Sudoc, Calames, theses.fr et le Web de données

De fil en aiguille

• La description de la langue poursuit la description du document Sudoc

• Où s’arrêter ?• C’est sans fin• C’est le Web de données

Page 17: Sudoc, Calames, theses.fr et le Web de données

Identifier les personnes avec IdRef

Page 18: Sudoc, Calames, theses.fr et le Web de données
Page 19: Sudoc, Calames, theses.fr et le Web de données

IdRef, fournisseur d’identifiants et de référentiels

• www.idref.fr = application Web ouverte– Ouverte sur le Web de données– Ouverte à d’autres applications IST (France)• Par son Web Service de recherche• Par ses fonctions d’intégration (Javascript)

• Différents moyens/services pour récupérer et exploiter les identifiants et les données des autorités Sudoc ABES.

Page 20: Sudoc, Calames, theses.fr et le Web de données

IDREF Autorités

Sudoc

Sudoc et IdRef

Sudoc

Page 21: Sudoc, Calames, theses.fr et le Web de données

Autorités Sudoc

Les autorités Sudoc,pivot du Linked data ABES

theses.fr

Calames

SudocThèses soutenuesetThèses en cours (2011)

Page 22: Sudoc, Calames, theses.fr et le Web de données

RDFa de Calames

• Pas de page RDF/XML• Le RDF est caché dans le HTML de

http://www.calames.abes.fr/pub/ms/Calames-2010914119419211

Pour révéler le RDF caché ,utiliser un outil comme

Page 23: Sudoc, Calames, theses.fr et le Web de données

RDFa de Calames

http://www.calames.abes.fr/pub/ms/Calames-2010914119419211

Page 24: Sudoc, Calames, theses.fr et le Web de données

RDFa de theses.fr

• Pas encore de page RDF/XML• Le RDF est caché dans le HTML de

http://www.theses.fr/2009TOUR3802

Pour révéler le RDF caché ,utiliser un outil comme

Page 25: Sudoc, Calames, theses.fr et le Web de données

Les thèsesportant sur les correspondants de Goethe

PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX ead: <info:ms#>PREFIX tef: <http://www.abes.fr/abes/documents/tef/>

SELECT ?these{?ms dc:creator <http://www.abes.fr/su/res/026895528>.?ms ead:destinataire ?destinataire.?these a tef:Thesis.?these dc:subject ?destinataire}

La requête exploite les données Calames et STAR

Page 26: Sudoc, Calames, theses.fr et le Web de données

Lier les données à IdRef, au-delà de l’ABES

Page 27: Sudoc, Calames, theses.fr et le Web de données

Autorités Sudoc

Linked data IST.fr ?

theses.fr

Calames

SudocThèses soutenuesetThèses en cours ( 2011)

HAL ?

revues.org ?

Persée ?

Presses univ. de Y ?

Plateforme pédagogiq.

?

?

Page 28: Sudoc, Calames, theses.fr et le Web de données

IdRef comme nœud régional

• Positionnement d’IdRef : IST français• En complémentarité avec d’autres

fournisseurs d’identifiants et de référentiels :– Local : identifiants propres à une application, à un

annuaire– Régional : BnF, auteurs HAL, CERL, DAI (NL)– Global : VIAF, DBpedia

Page 29: Sudoc, Calames, theses.fr et le Web de données

Autorités Sudoc

theses.fr

Calames

Sudoc

HAL ?

revues.org ?

Persée ?

Presses univ. de Y ?

Plateforme pédagogiq.

?

Autorités BnFDBpedia

VIAF

Page 30: Sudoc, Calames, theses.fr et le Web de données

Lier les données de l’IST entre elles, au-delà d’IdRef

Page 31: Sudoc, Calames, theses.fr et le Web de données

Autorités Sudoc

Linked data IST.fr ? Les labos !

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ. de Y

Plateforme pédagogiqu

e X

?

Référentiel des

laboratoires

Page 32: Sudoc, Calames, theses.fr et le Web de données

Autorités Sudoc

Linked data IST.fr ? Les affiliations

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

PRISMES (AMUE) locaux

Référentiel des

laboratoires

Page 33: Sudoc, Calames, theses.fr et le Web de données

On parle de la même chose

• owl:sameAs

Page 34: Sudoc, Calames, theses.fr et le Web de données

Identifier et nommer les personnes avec IdRef

Page 35: Sudoc, Calames, theses.fr et le Web de données
Page 36: Sudoc, Calames, theses.fr et le Web de données

Identifier les concepts avec IdRef et RAMEAU

Page 37: Sudoc, Calames, theses.fr et le Web de données
Page 38: Sudoc, Calames, theses.fr et le Web de données

IdRef et Rameau

• Identifiants IdRef pour Rameau• A lier aux identifiants canoniques, ceux du

centre national Rameau (BnF) quand ils seront officiellement publiés.

• MeSH• Dewey

Page 39: Sudoc, Calames, theses.fr et le Web de données

Préciser le rôle des agents avec les MARC Relators

Page 40: Sudoc, Calames, theses.fr et le Web de données
Page 41: Sudoc, Calames, theses.fr et le Web de données
Page 42: Sudoc, Calames, theses.fr et le Web de données

L’embarras du choix ?

• dcterms:creator• dcterms:contributor• marcrel:aut• rda:authorWork• tef:auteur ?

Page 43: Sudoc, Calames, theses.fr et le Web de données

Qui utilise explicitement marcrel:aut utilise implicitement dc:contributor

Page 44: Sudoc, Calames, theses.fr et le Web de données

RaisonnementLe Sudoc dit :http://www.sudoc.fr/012367206/id marcrel:aut http://www.idref.fr/ 026975262 /id

La Bibliothèque du Congrès dit (ici) :Marcrel:aut rdfs:subPropertyOf dc:contributor

Un outil de raisonnement pourra en déduire que :http://www.sudoc.fr/012367206/id dc:contributor http://www.idref.fr/ 026975262 /id

Page 45: Sudoc, Calames, theses.fr et le Web de données

Qui utilise marcrel:aut peut également tef:auteur,

malgré la redondance apparente

Page 46: Sudoc, Calames, theses.fr et le Web de données

tef:auteur

• Ne semble rien dire de plus que marcrel:aut• Mais possède une propriété intéressante :

C’est une propriété fonctionnelle=

Une thèse ne peut avoir qu’un auteur=

si une thèse a deux auteurs, c’est deux fois le même !

Page 47: Sudoc, Calames, theses.fr et le Web de données

RaisonnementQuelqu’un dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.idref.fr/035200898/id

Quelqu’un d’autre dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.viaf.org/123456789

Une ontologie TEF dit :http://www.abes.fr/tef/auteur rdf:type owl:ObjectProperty owl:FunctionalProperty(une thèse ne peut avoir qu’1 auteur, au sens de tef:auteur)(mais elle peut avoir 2 dc:creator)

Un outil de raisonnement pourra en déduire que :http://www.idref.fr/035200898/id owl:sameAs http://www.viaf.org/123456789

Page 48: Sudoc, Calames, theses.fr et le Web de données

DÉMO

Fichier (fusion des triplets RDF) : http://193.52.69.127/xml/rdf/sperber_turtle.txt

Outils de raisonnement :http://www.ivan-herman.net/Misc/2008/owlrl/ http://inspector.sindice.com

Page 49: Sudoc, Calames, theses.fr et le Web de données

Raisonnement

• RDF, c’est de la logique• Travaux en cours avec le LIRMM pour ADONIS sur

les données Persée• Oblige à qualité des données et rigueur de la

modélisation• Sinon : on génère n’importe quoi !

• Usages :– Enrichir les données– Expliciter les données– Mettre au jour des incohérences

Page 50: Sudoc, Calames, theses.fr et le Web de données

Page RDF complète

Page 51: Sudoc, Calames, theses.fr et le Web de données
Page 52: Sudoc, Calames, theses.fr et le Web de données

Une pincée de RDA et de FRBR

Page 53: Sudoc, Calames, theses.fr et le Web de données

CONCLUSION

Page 54: Sudoc, Calames, theses.fr et le Web de données

Convertir en RDF

• Aussi indéterminé que « convertir en Excel » !

Quelle modélisation ?Quels vocabulaires réutiliser ?Forger son propre vocabulaire ?Nos données historiques sont-elles éligibles à

ces nouvelles modélisations ?» cf. notre dc:format et notre dc:publisher

Page 55: Sudoc, Calames, theses.fr et le Web de données

Trois lièvres à la fois

Priorité Objectif Vocabulaires

Parler à la cantonade Interopérabilité générale dc, foaf

Modéliser de manière exhaustive nos données métier

Se passer de MARC rda, isbd, frbr

Faire raisonner les données Tirer le maximum des donnéesContrôler leur qualitéAide au catalogage

ad hoc si nécessaire

Page 56: Sudoc, Calames, theses.fr et le Web de données

La suite

• Enrichir encore les conversions en RDF• Multiplier si nécessaire les vocabulaires employés,

sans craindre les redondances• Ajouter des liens internes et externes (IST française,

BnF, OCLC, Dbpedia, Freebase, etc.)• Encourager les partenaires à diffuser leurs données

en RDF, en s’appuyant sur des référentiels communs (IdRef)

• Continuer à exploiter ces données en RDF avec le LIRMM et d’autres