dokumente suche autoreninfos projekte info/hilfe © arbeitsgruppe "elektronisches...
TRANSCRIPT
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,
Thinking the long term: the XML-based publishing Workflow for handling electronic theses and dissertations
at Humboldt-University Berlin Susanne Dobratz
Head Electronic Publishing Group of Computer and Media Services/University Library,
Humboldt-University Berlin, Germany
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Contents
1. Introduction: – Edoc-Server of Humboldt-University– long term preservation of ETDs
2. Trustworthy digital repositories
3. Organisational features of the edoc-Server
4. Technological features of the edoc-Server
5. The XML based publishing approch
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
The Edoc-Server of Humboldt-University
• Established in 1997, began with ETDs (optional)• 2883 Publications (20. September 2005) from which
– 1028 dissertations– 21 Historical (digitized) dissertations– 273 Professorial dissertations– 31 master and diploma theses
• DINI certificate in 2004• Concentrate on Open Access in 2005
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Short: DINI certificate issues
The requirements and recommendations cover:• Server Policy / Guidelines• Authors support• Legal issues• Authenticity and integrity • Catalogueing• Access statistics• Long term availability: self or cooperation
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Trustworthy digital repositories
OAIS Compliance
Administrative Responsibility
Organizational Viability
Financial Sustainability
Technological and Procedural Suitability
System security
Procedural Accountability "Trusted Digital Repositories: Attributes and Responsibilities" (RLG; OCLC, Mountain View CA, 2002), http://www.rlg.org/longterm/repositories.pdf
attributes
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Organisational features of the edoc-Server
• Policy of the edoc Server• Legal Issues• Authors Support• Maintenance of the service• Usage of adequate technology• Transparency of service, technology and workflow
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Policy
• The responsibility of the library is formulated as follows:
“The collection mandate of Humboldt University Library consists of collecting, cataloguing, and archiving all the scientific documents published by the members of Humboldt University. It refers to digitally born documents as well as digital versions of printed documents.
Also included are significant historic documents from the University Library and other institutions that are digitised due to terms of content, conservatory aspects, or the requirements of place-independent use.”
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Legal Issues
• Dissertation: publication as requirement to receive degree• ETD: one option to fulfill duty• Often parallel publication planned• Authors sign a specific author publishing contract with the
university library, – the university has reserved the non exclusive copyright– Provide open access to ETD– Deposit copy at German National Library– Provide a copy to a subject gateway
• Obey rights of others for used materials
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Authors Support
• Goal: XML as archival format for long term preservation purposes
• In order to receive convertable originals• Support a selection of authoring formats: MS Office,
LaTeX, Staroffice but with ETD specific document styles
• Provide online help, monthly tutorials, telephone support
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Maintenance of the service
• University established a joint electronic publishing group of Computer and Media Services (CMS) and University Library in 2002 with permanent staff
• Technology is integrated into the CMS network• Cataluguing is integrated into the library workflow
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Usage of adequate technologyTransparency of service, technology and workflow• Consequent aquisition of new project fundings in
order to keep up with technology• Staff of Electronic Publishing Group is active within
different national, international developments• Continous documentation of the system and
workflows• Web server statistics
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Technological features of the edoc-Server
• Addressability• Securing integrity and authenticity of the edoc-Server• Securing integrity and authenticity of the documents• Cataloguing• Workflow Management
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Addressability: Persistent Identifiers
urn:nbn:de:kobv:11-1009824
National Bibliographic Number Domain:
GermanySubdomain: designations of library association
Production number
Check number
official notation of university libraries
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Addressability: urn:nbn:de:kobv:11-1009824
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Securing integrity and authenticity of the edoc-Server
• SUN Workstation with 2 x 300 MHz CPU und 1 GB RAM • System maintenanace by CMS specialists• Access control to hardware and system• Use of secure access methods like SSH• Integration into the CMS backup storage with IBM Tivoli
Storage Management• RAID System• Using University Storage Area Network (SAN)
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Securing integrity and authenticity of the documents
• Use of digital signatures to be able to detect misuse
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Cataloguing: 1. Documents + metadata from author to library
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Cataloguing: 2. Documents + metadata from library to edoc-
Server• Use an own development:• A Sybase/PHP based
metadata database• Supports a very flexible
metadata schema, also journals, articles, etc.
• Feeds the browsing structure
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Cataloguing: 2. Documents + metadata from library to edoc-
Server• Formal Cataloguing
– OPAC Library -> Metadata database• Subject Cataloguing:
– Regensburg Classification– DDC Subject Headings defined by the
GermanNational Library– Abstracts german / english– Author‘s Keywords german / english
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Cataloguing: 3. Documents + metadata from edoc-Server to German National Library
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
ETD Workflow
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
The Ideal ETD Process
ETD
Submission
AuthorSystem
Checking
uploadedETD
System CheckedETD
ConversionRevision
convertedETD
CatalogueingAquisition
DepositArchiving
Metadata
convertedETD
Distribution
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Supporting the workflow
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
The XML based publishing approch
• XML choosen as preservation format:– ISO based standard– Vendor independent– Structure and information based on UNICODE– Widely used format
• Before Ingest into edoc documents need to undergo a first migration procedure– Service done by EPUB Group
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
document in PDF
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
PDF: behind the scenes
but PDF/Ais ISO standard
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Document in XML
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
to XML:via Word / Staroffice
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Presentationin HTML
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Summing Up
• Long term preservation puts various demands on an institutional repository,
• Organisationally• Technologically• One important issue is the document format and• XML is a good basis to ensure future accesibility and
readability of the stored documents• But it‘s not a fully automated process
Dokumente Suche Autoreninfos Projekte Info/Hilfe
© Arbeitsgruppe "Elektronisches Publizieren" des Rechenzentrum und der Universitätsbibliothek der Humboldt-Universität zu Berlin,Susanne Dobratz: Thinking the long term at ETD2005 ...evolution through discovery, Syney, Australia, 28 - 30 September 2005
Contact und Information
Electronic Publishing Working Group
Computer- and Media Servies/ University Library
Humboldt- University Berlin
Unter den Linden 6
10099 Berlin
Email: [email protected]
Susanne Dobratz: [email protected]
http://edoc.hu-berlin.de