sudoc, calames, theses.fr et le web de données

Post on 27-Jan-2015

2.169 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Atelier sur le Web de données lors des Journées ABES 2011

TRANSCRIPT

Sudoc, Calames, theses.fret le Web de données

Atelier JABES2011

Vers le Web de donnéesApplication Lancement Format RDF Données à jour Richesse des liens

Calames 2008 RDFa Oui +

theses.fr 2010 RDFa + RDF/XML2011 Oui +

IdRef 2010 RDF/XML + RDFa2011 Oui ++

Sudoc 2011 RDF/XML2011 Oui +++

Il faut participer au Web de données [Acquis]

Objectifs de l’atelier

• Faire un bilan d’étape• Montrer les données• Justifier certains choix• Expliquer comment ça marche• Manipuler quelques outils simples• Esquisser la suite du travail à mener– Nous– Vous

Partons du connu

S’agit-il de données RDF ou d’une simple notice Dublin Core ?

about• En RDF, il faut expliciter de quoi on parle en

l’identifiant par une URL : http://www.sudoc.fr/013041932/id

• http://www.sudoc.fr/013041932/id est l’identifiant du document décrit

• http://www.sudoc.fr/013041932/id est décrit à cette page-là http://www.sudoc.fr/013041932

triplets

• En RDF, tout est décomposé en triplets

• Chaque triplet est indépendant• Chaque triplet pourrait être stocké séparément

Pas de notice finie Une autre source peut la compléter, si elle parle de la même chose :

http://www.sudoc.fr/013041932/id Interopérabilité. Extensibilité.

Identifier la langue avec le référentiel Lexvo

Mettre en relation un document et une langue

• La langue n’est pas un code (‘fre’)• La langue est une entité à part entière– Avec son propre identifiant

http://lexvo.org/id/iso639-3/fra – et ses propres propriétés

• La propriété dcterms:language met en relation deux entités

http://www.lexvo.org/id/iso639-3/fra décrite en HTML

http://www.lexvo.org/id/iso639-3/fra décrite en RDF

De fil en aiguille

• La description de la langue poursuit la description du document Sudoc

• Où s’arrêter ?• C’est sans fin• C’est le Web de données

Identifier les personnes avec IdRef

IdRef, fournisseur d’identifiants et de référentiels

• www.idref.fr = application Web ouverte– Ouverte sur le Web de données– Ouverte à d’autres applications IST (France)• Par son Web Service de recherche• Par ses fonctions d’intégration (Javascript)

• Différents moyens/services pour récupérer et exploiter les identifiants et les données des autorités Sudoc ABES.

IDREF Autorités

Sudoc

Sudoc et IdRef

Sudoc

Autorités Sudoc

Les autorités Sudoc,pivot du Linked data ABES

theses.fr

Calames

SudocThèses soutenuesetThèses en cours (2011)

RDFa de Calames

• Pas de page RDF/XML• Le RDF est caché dans le HTML de

http://www.calames.abes.fr/pub/ms/Calames-2010914119419211

Pour révéler le RDF caché ,utiliser un outil comme

RDFa de Calames

http://www.calames.abes.fr/pub/ms/Calames-2010914119419211

RDFa de theses.fr

• Pas encore de page RDF/XML• Le RDF est caché dans le HTML de

http://www.theses.fr/2009TOUR3802

Pour révéler le RDF caché ,utiliser un outil comme

Les thèsesportant sur les correspondants de Goethe

PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX ead: <info:ms#>PREFIX tef: <http://www.abes.fr/abes/documents/tef/>

SELECT ?these{?ms dc:creator <http://www.abes.fr/su/res/026895528>.?ms ead:destinataire ?destinataire.?these a tef:Thesis.?these dc:subject ?destinataire}

La requête exploite les données Calames et STAR

Lier les données à IdRef, au-delà de l’ABES

Autorités Sudoc

Linked data IST.fr ?

theses.fr

Calames

SudocThèses soutenuesetThèses en cours ( 2011)

HAL ?

revues.org ?

Persée ?

Presses univ. de Y ?

Plateforme pédagogiq.

?

?

IdRef comme nœud régional

• Positionnement d’IdRef : IST français• En complémentarité avec d’autres

fournisseurs d’identifiants et de référentiels :– Local : identifiants propres à une application, à un

annuaire– Régional : BnF, auteurs HAL, CERL, DAI (NL)– Global : VIAF, DBpedia

Autorités Sudoc

theses.fr

Calames

Sudoc

HAL ?

revues.org ?

Persée ?

Presses univ. de Y ?

Plateforme pédagogiq.

?

Autorités BnFDBpedia

VIAF

Lier les données de l’IST entre elles, au-delà d’IdRef

Autorités Sudoc

Linked data IST.fr ? Les labos !

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ. de Y

Plateforme pédagogiqu

e X

?

Référentiel des

laboratoires

Autorités Sudoc

Linked data IST.fr ? Les affiliations

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

PRISMES (AMUE) locaux

Référentiel des

laboratoires

On parle de la même chose

• owl:sameAs

Identifier et nommer les personnes avec IdRef

Identifier les concepts avec IdRef et RAMEAU

IdRef et Rameau

• Identifiants IdRef pour Rameau• A lier aux identifiants canoniques, ceux du

centre national Rameau (BnF) quand ils seront officiellement publiés.

• MeSH• Dewey

Préciser le rôle des agents avec les MARC Relators

L’embarras du choix ?

• dcterms:creator• dcterms:contributor• marcrel:aut• rda:authorWork• tef:auteur ?

Qui utilise explicitement marcrel:aut utilise implicitement dc:contributor

RaisonnementLe Sudoc dit :http://www.sudoc.fr/012367206/id marcrel:aut http://www.idref.fr/ 026975262 /id

La Bibliothèque du Congrès dit (ici) :Marcrel:aut rdfs:subPropertyOf dc:contributor

Un outil de raisonnement pourra en déduire que :http://www.sudoc.fr/012367206/id dc:contributor http://www.idref.fr/ 026975262 /id

Qui utilise marcrel:aut peut également tef:auteur,

malgré la redondance apparente

tef:auteur

• Ne semble rien dire de plus que marcrel:aut• Mais possède une propriété intéressante :

C’est une propriété fonctionnelle=

Une thèse ne peut avoir qu’un auteur=

si une thèse a deux auteurs, c’est deux fois le même !

RaisonnementQuelqu’un dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.idref.fr/035200898/id

Quelqu’un d’autre dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.viaf.org/123456789

Une ontologie TEF dit :http://www.abes.fr/tef/auteur rdf:type owl:ObjectProperty owl:FunctionalProperty(une thèse ne peut avoir qu’1 auteur, au sens de tef:auteur)(mais elle peut avoir 2 dc:creator)

Un outil de raisonnement pourra en déduire que :http://www.idref.fr/035200898/id owl:sameAs http://www.viaf.org/123456789

DÉMO

Fichier (fusion des triplets RDF) : http://193.52.69.127/xml/rdf/sperber_turtle.txt

Outils de raisonnement :http://www.ivan-herman.net/Misc/2008/owlrl/ http://inspector.sindice.com

Raisonnement

• RDF, c’est de la logique• Travaux en cours avec le LIRMM pour ADONIS sur

les données Persée• Oblige à qualité des données et rigueur de la

modélisation• Sinon : on génère n’importe quoi !

• Usages :– Enrichir les données– Expliciter les données– Mettre au jour des incohérences

Page RDF complète

Une pincée de RDA et de FRBR

CONCLUSION

Convertir en RDF

• Aussi indéterminé que « convertir en Excel » !

Quelle modélisation ?Quels vocabulaires réutiliser ?Forger son propre vocabulaire ?Nos données historiques sont-elles éligibles à

ces nouvelles modélisations ?» cf. notre dc:format et notre dc:publisher

Trois lièvres à la fois

Priorité Objectif Vocabulaires

Parler à la cantonade Interopérabilité générale dc, foaf

Modéliser de manière exhaustive nos données métier

Se passer de MARC rda, isbd, frbr

Faire raisonner les données Tirer le maximum des donnéesContrôler leur qualitéAide au catalogage

ad hoc si nécessaire

La suite

• Enrichir encore les conversions en RDF• Multiplier si nécessaire les vocabulaires employés,

sans craindre les redondances• Ajouter des liens internes et externes (IST française,

BnF, OCLC, Dbpedia, Freebase, etc.)• Encourager les partenaires à diffuser leurs données

en RDF, en s’appuyant sur des référentiels communs (IdRef)

• Continuer à exploiter ces données en RDF avec le LIRMM et d’autres

top related