bncf digital long term preservation: glusterfs

20
DIGITAL LONG TERM PRESERVATION: Glusterfs in BNCF Cristiano Corsani Biblioteca Nazionale Centrale di Firenze 30/31 ottobre 2012

Upload: cristiano-corsani

Post on 29-Jun-2015

2.008 views

Category:

Technology


0 download

DESCRIPTION

Presentazione dei progetti di storage della BNCF che usano glusterfs: seminario redhat del 30 ottobre 2012 (Milano) e 31 ottobre 2012 (Roma)

TRANSCRIPT

Page 1: BNCF Digital long term preservation: glusterfs

DIGITAL LONG TERM PRESERVATION:Glusterfs in BNCF

Cristiano CorsaniBiblioteca Nazionale Centrale di Firenze30/31 ottobre 2012

Page 2: BNCF Digital long term preservation: glusterfs

DIGITAL LONG TERM PRESERVATION:glusterfs in BNCF

Breve presentazione BNCF Digital long term Preservation:

Perché glusterfs? Progetti:

Magazzini Digitali Low cost cloud Desktop storage “Teca Digitale” storage

Page 3: BNCF Digital long term preservation: glusterfs

BNCF: cenni storici

La Biblioteca Nazionale Centrale Firenze (BNCF) ha origini nei 30.000 volumi della biblioteca privata di Antonio Magliabechi lasciata in eredità nel 1714 alla città di Firenze.

Nel 1861 la Biblioteca Magliabechiana fu unificata con la Biblioteca Palatina (creata da Ferdinando III di Lorena) e assunse il nome di Biblioteca Nazionale e, nel 1885, quello di Biblioteca Nazionale Centrale.

Dal 1870 la BNCF ha il deposito legale di tutta la produzione editoriale italiana.

Page 4: BNCF Digital long term preservation: glusterfs

BNCF: numeri

Le raccolte della Biblioteca si sviluppano su oltre 120 chilometri di scaffali con un aumento annuo di quasi 2 chilometri e comprendono:

4.000 incunaboli

25.000 manoscritti

68.000 incisioni

oltre 6 milioni di libri

oltre 120.000 testate di periodici. i nuovi magazzini

Page 5: BNCF Digital long term preservation: glusterfs

BNCF: compiti istituzionali

La BNCF ha come compito la raccolta, la conservazione, la documentazione e la valorizzazione della memoria storica italiana attraverso:

il deposito legale in coordinamento con BNCR e le

istituzione depositarie regionali

la produzione della Bibliografia Nazionale Italiana (BNI)

la cooperazione al Servizio Bibliotecario Nazionale

l'attività di studio e ricerca nel campo della conservazione

nel lungo periodo delle risorse digitali

Page 6: BNCF Digital long term preservation: glusterfs

BNCF: digitalizzazione

Manoscritti:

Unità bibliografiche: 11.104

Immagini: 166.728

Libro antico:

Unità bibliografiche: 53.466

Immagini: 433.151

Libro moderno:

Unità bibliografiche: 77.330

Immagini: 2.276.848 le lune di Galileo

Page 7: BNCF Digital long term preservation: glusterfs

Digital long term Preservation Formati: quale formato scegliere per garantire la

conservazione e la fruizione nel tempo?

Storage: quale tecnologia scegliere per garantire la

sicurezza dei dati? Flessibile: semplice e facile da gestire Scalabile: aggiungere spazio al bisogno Sicuro: nessuna perdita di dati Economico: hardware low cost

Page 8: BNCF Digital long term preservation: glusterfs

Glusterfs

File system distribuito: aggrega spazi disco in rete

Scalabile: oltre i Petabytes

Flessibile: installabile in ogni ambiente

Prestazioni lineari: nessun degrado

Namespace unificato: come una cartella locale

No single-point of failure: completamente decentralizzato

Affidabile: ridondanza dei dati, anche geografica

Integrità: garantisce integrità del dato

Page 9: BNCF Digital long term preservation: glusterfs

Magazzini Digitali:deposito legale di opere digitali

Sicurezza: replica 6 su nodi

geograficamente distanti

Spazio: 32TB storage

Scalabilità: dimensione dei nodi

e il numero di nodi

Numeri: 30 server, 96 x 2TB

disks, apparati di rete

Nodi: 3 provider iso 27001

Hardware: standard, low cost.

Torino: BNCF

Bologna: BNCR

Roma: Dark Archive

Page 10: BNCF Digital long term preservation: glusterfs

Magazzini Digitali:schema formato dati

Opera: formato digitale

standard (PDF?)

Metadati: xml, contiene i dati

descrittivi dell'opera da

indicizzare

WARC: archivio compresso di

200Mb circa – opere+metadati

(ISO 28500:2009)

Documento

WARC

INDEX File SystemIn

de

x

sto

reco

mp

ress

STORAGE

Page 11: BNCF Digital long term preservation: glusterfs

Magazzini Digitali: replica dati sul nodoreplicated glusterfs – replica 2

Hardware: 4 x 2TB x 8 server

Volume: glusterfs replica 2

simmetrica su 4 + 4 server

Totale: 32TB utili

Accesso: index del front-end

fornisce il path del file WARC

contenente il documento.

WARC

Sys disksSys disks

sto

re

Front end

Index

read

Page 12: BNCF Digital long term preservation: glusterfs

Magazzini Digitali: replica dati geograficatodo: georeplica glusterfs o torrent – replica 3 x 2

BNCR

BNCF

DARK ARCHIVE

rep

lica

deploy

deploy

Replica: geografica dei

singoli file WARC

Torrent?

Page 13: BNCF Digital long term preservation: glusterfs

Low Cost Cloud:cloud dei servizi BNCF

Open hypervisor

disponibile nel kernel di ogni distro standard Open orchestrator

live migration, ha, backup, … interfaccia web intuitiva Hardware standard

no raid, no-frills (Gb net minima) No centralized storage system

file system distribuito sui dischi di sistema

Page 14: BNCF Digital long term preservation: glusterfs

Low Cost Cloud: storage backend

Lo storage condiviso non è un opzione per la live migration e l'alta affidabilità

Scelte comuni: NAS/SANdedicati (NetApp, EMC, ...)

Soluzione storage glusterfs: Flessibile: semplice e facile

da gestire Scalabile: aggiungi spazio

al bisogno Economico: usa i dischi di sistema ...

Page 15: BNCF Digital long term preservation: glusterfs

GlusterfsSTORAGE

System disks

Hosts

VM

dat

a

Low Cost Cloud: storage backend1TB – replicated glusterfs – replica 3

… aggrega lo spazio disponibile dei dischi di sistema

Sicuro: replica dati (previene data-loss)

Sicuro: no single-point of failure (HA)

Data disponibili via LAN con protocolli standard: FUSE, NFS, CIFS.

Page 16: BNCF Digital long term preservation: glusterfs

Low Cost Cloud 2: storage backend1TB – glusterfs replicated + georeplica

GlusterfsSTORAGE

System disks

Hosts

VM

dat

a

GlusterfsSTORAGE

System disks

HostsV

M d

ata

geo-replica

Ipotesi di georeplica tra volumi su nodi gemelli per garantire I servizi in caso di crash

Page 17: BNCF Digital long term preservation: glusterfs

Desktop migration: home storage8TB – glusterfs replicated – replica 2

Migrazione desktop a Linux Oltre 250 postazioni attive Oltre il 60% migrato 2 server 8TB glusterfs storage

replica 2 (/home) Servizi virtuali:

KVM, proxmox (LDAP, PXE, …)

GlusterfsSTORAGE

System disks ho

me

s

Hosts

Page 18: BNCF Digital long term preservation: glusterfs

Desktop migration 2: home storage8TB – glusterfs replicated + georeplica

GlusterfsSTORAGE

System disks ho

me

s

Hosts

GlusterfsSTORAGE

System disks

ho

me

s

Hosts

geo-replica

Ipotesi georeplica dei dati su nodo remoto.

In caso di crash i client accedono al volume remoto

Possibile uso dei fs locali

Page 19: BNCF Digital long term preservation: glusterfs

Teca Digitale: storage immagini32TB – glusterfs distributed + georeplica

GlusterfsSTORAGE

System disks

Hosts

GlusterfsSTORAGE

System disks

Hosts

geo-replica

WEB server

Page 20: BNCF Digital long term preservation: glusterfs

Cristiano Corsani

Servizi InformaticiBiblioteca Nazionale Centrale di FirenzePiazza dei Cavalleggeri, 150122 Firenze

Voce: 055 24919 302 / 339 2287466mail: [email protected]: http://www.bncf.firenze.sbn.it

Link:http://www.rinascimento-digitale.ithttp://www.slideshare.com - keysearch: bncfhttp://www.bncf.firenze.sbn.it/pagina.php?id=212http://http://www.depositolegale.it