grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by carl...

60
Grigle: tecnologie ed opportunita’ per la medicina Mario Reale, [email protected] GARR GRID EGEE SA2 [Conferenza IRCCS-Roma-12 Dicembre 2007]

Upload: others

Post on 08-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

Grigle: tecnologie ed opportunita’per la medicina

Mario Reale, [email protected]

GARR GRID

EGEE SA2

[Conferenza IRCCS-Roma-12 Dicembre 2007]

Page 2: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

2 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Contenuti

�1.”La GRID”: definizioni e concetti introduttivi

�2.Le Grid o Griglie

– Health Grids• Service Oriented Architecture / Web Services

�3.EGEE - il progetto e la struttura

�4.gLite: il middleware di EGEE– Componenti di gLite di maggior interesse per la medicina

�5.Progetti di medicina che usano la GRID:– qualche esempio

�6.Conclusioni

1. “The Grid”

Page 3: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

3 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

La Grid: una definizione

�The Grid - un’ idea:Un insieme di risorse distribuite

(calcolo, storage, dati, documenti ) appartenenti a domini amministrativi diversi(non soggette a controllo centralizzato) cheattraverso l’utilizzo di protocolli ed interfacce aperti, standard, forniscono a gruppi diutenti con esigenze comuni (organizzati in Virtual Organizations) funzionalita’ e qualita’di servizio specifiche per lo svolgimento delleloro attivita’.

�Una check list di 3 punti (I.Foster): La Grid e’ un sistema che:

–Coordina risorse che non sono soggette a controllo centralizzato…

– ..utilizzando protocolli ed interfacce standard aperti e general-purpose...

–…per fornire una qualita’ di serviziocomplessivamente elevata• L’utilita’ del sistema complessivo e’ maggioredella somma delle utilita’ delle singole componenti

Page 4: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

4 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

La Grid: l’idea

�Una rete informatica distribuita, accessibile daovunque, user-friendly, che consenta l’accessoa enormi risorse di calcolo,storage,dati

�Onnipresente e “plug & play” come e’ oggi la rete elettrica (da cui il nome Grid)

�Che esponga agli utenti interfacce semplici e facili da usare, che nascondono l’eterogeneita’e la complessita’ delle strutture sottostanti

�Uno strumento per collaborare e avvicinare la soluzione dei problemi alle persone e le persone tra di loro - nel raggiungimento di unoscopo – integrando funzionalmente risorseeterogenee

�Se la rete tra risorse e dominii diversidiventasse infinitamente veloce non saremmo piu’ capaci di distinguere i link interni sul nostro PC da quelli esterni, checi connettono a risorse distribuite nelmondo. Avremmo cosi’ accesso ad unastruttura globale, distribuita, universale dipotenza di calcolo, dati, risorse distorage.

Page 5: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

5 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

G

R

I

D

M

I

D

D

L

E

W

A

R

E

Visualising

Workstation

Mobile Access

Supercomputer, PC-Cluster

Data-storage, Sensors, Experiments

Internet, networks

GRID : l’idea

Page 6: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

6 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

La GRID fondamento dell’e-Science

La Grid: centri di processamento deidati interconnessi dalla rete e componenti middleware come collante tra risorse.

I ricercatori svolgono le loro attivita’indipendentemente dalla lorolocazione geografica, interagisconocon i colleghi, accedono ai dati e licondividono.

Gli strumenti scientifici e gliesperimenti forniscono un enormequantita’ di dati.

Page 7: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

7 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

La Grid: due caratteristiche importanti

�No SPF–Nell’architettura di Grid non puo’ esistere un punto di criticita’/singolarita’ (Single Point of Failure)• La Grid e’ una struttura intrinsecamentedistribuita

�Single Sign-on–Ci si collega alla Grid con un unico processodi log in, una volta che si possiedono le credenziali necessarie.• Una grande varieta’ di risorse diventa accessibile

� Virtual Organization (VO): comunita’ di utenti con le stessefinalita’/esigenze che mettono in comune risorse Grid

� Middleware (m/w) : strato software di implementazione dellaGRID – sopra il sistema operativo e sotto le applicazioni

� Certification Authority (CA): Autorita’ che certifica l’identita’ degliutenti rilasciando certificati elettronici

� Computing Element (CE): una coda batch accessibile attraversola Grid

� Storage Element (SE): un insieme di risorse di storage accessibiletramite la Grid (puo’ essere basato su Local Filesystem, Disco o suMass Storage)

� Worker Node (WN): una macchina appartenente ad un CE dove effettivamente avviene l’esecuzione del job

� Virtual Organization Management System (VOMS): sistema diautenticazione ed autorizzazione degli utenti sulle risorse di Grid. Rilascia proxy files per l’autorizzazione dell’utente sulle risorse

� Proxy: certificato di durata limitata contenente le credenziali dell’utente,utilizzato per l’autorizzazione sulle risorse.

Qualche termine importante

Page 8: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

8 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Il ruolo delle Virtual Organizations

ComputeCenter

ComputeCenter

VO

Service

slide based on presentation given by Carl Kesselman at GGF Summer School 2004

2. Le Grid (Griglie)

Page 9: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

9 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Le Grids (Le Griglie)

�Implementazioni dell’idea della “Grid”

�Sono infrastrutture:– CPU, Storage, Dati, Rete, Centri di Calcolo

�Sono organizzazioni / progetti ICT

�Sono distribuzioni di middleware e software– Implementano funzionalita’ per gli utenti

• Computation Grid / Data Grid / Utility Grids

�Sono ormai davvero numerose:– Diversita’ di comunita’ di utenti e scopi

• Applicazioni di riferimento

– Diversita’ di middleware

– Diversita’ di distribuzione geografica

Page 10: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

10 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Funzionalita’ delle Grid

Consentire un uso ottimale e sicuro

delle sue risorse

Fornire agli utenti e a se stessauna descrizione delle sue

risorse costitutive

Autorizzare gli utenti su risorsedi dominii amministrativi diversi

Autenticare gli utenti

Gestire i job degli utenticome gli utenti preferiscono

Consetire livelli differenziati

di delega sull utilizzo delle risorse-Fa tutto l’ utente-Fa tutto la GRID

Fornire agli utenti e a se stessaInformazioni sull’ utilizzo

delle sue risorse

Attribuire un ruolo

agli utenti per determinare il livellodi autorizzazione sulle risorse

Gestire i dati degli utenticome gli utenti preferiscono

Workload ManagementEsecuzione e management dei jobs

sottomissione / esecuzione monitor / restituzione dell output

cancellazione

Data Management

trasferimento di files prodotti, registrazione su cataloghi distribuiti

replicazione

Information SystemsFornire informazioni sulla struttura della Grid

agli utenti e alla Grid stessaFornire informazioni sull’utilizzo delle risorse

di Gridper consentire un uso ottimale

delle risorse stesse Per consentire un budget model

accounting

AAA

Authentication/Authorization/Accounting

Autenticazione:

sapere chi vuole usare una data risorsaAutorizzazione:

sapere che cosa quell’utente e’ autorizzato a fareSicurezza:

ridurre la vulnerabilita’ globale del sistemaNon-ripudiabilita’: sapere chi ha fatto cosa

Page 11: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

11 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Uso di una GRID e del suo middleware

� Quando si usa un PC o unaworkstation:

– Login usando username & password (“Authentication”)

– Si dispone di certi diritti(“Authorisation”)

– Si eseguono programmio jobs

– Si gesticono files: Si creano, leggono o scrivono, si listanodirectories

� Le varie componenti sonocollegate da un bus

� Si sta usando il sistemaoperativo

� C’e’ un solo dominioamministrativo

� Quando si usa la GRID:

– Si effettua la log-in utilizzando credenzialidigitali – single sign-on (“Authentication”)

– Si dispone di certi diritti(“Authorisation”)

– Si eseguono programmio jobs

– Si gestiscono files…

� Componenti e servizi sonocollegati tramite internet

� Si sta usando il GRID Middleware

� Ci sono tanti dominiamministrativi differenti

Page 12: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

12 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Open Grid Forum (OGF)

�OGF : Open Grid ForumOrganizzazione mondiale che si occupa delladefinizione e promozione di standard comuni per le Grid (www.ogf.org)

Produce 4 tipi di documenti:

- Informativi

- Sperimentali

- Community Practice

- Raccomandazioni

Page 13: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

13 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

La rete globale

Page 14: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

14 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

� Enabling Grids for E-sciencE (worldwide) : EGEE� Open Science Grid ( USA) OSG� Nordic Data Grid Facility (Scandinavia) NDGF� Nordugrid (Scandinavia) NORDUGRID� NAREGI (Japan) NAREGI� TeraGrid (USA) TeraGrid� PRAGMA (Pacific Rim) PRAGMA� Distributed European Infrastructure for Supercomputing Applications

(Europe) DEISA� National Grid Service (UK) NGS , D-GRID (D), Grid-5000 (F), INFNGRID(I)� Australian Partnership for Advanced Computing (Australia) APAC� China National GRID CNG� Progetti di collaborazione tra EU e paesei terzi:

– EuChinaGRID– EELA– EuMedGRID– EuIndiaGRID

� Infrastruttura Europea permanente : EGI http://www.eu-egi.org• FP 7

I maggiori progetti GRID al mondoNordugrid

NDGF

Page 15: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

15 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Un Riassunto : cosa sono le GRID

� Le GRID permettono Virtual Computing tra dominiiamministrativi diversi

– Le risorse condividonoautorizzazione e autenticazione

– Si accede alle risorseattraverso le lorointerfaccie astratte

� Motivazioni per le GRID:

– Collaborazioni di ricerca, diagnostica, ingegneria, servizi publici..

– Uso delle risorse e lorocondivisione

Network

infrastructure

& Resource

centres

Opera

tions, S

upport

and

train

ing

Collaboration

Grid

Page 16: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

16 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Health Grids

�Infrastrutture Grid integrate a servizispecialistici – Integrano i dati sul paziente alle tecnologiebiomediche emergenti ed a nuovi protocolli• Porteranno ad una medicina personalizzata

– Piu’ vicina a pazienti e a medici

– Piu’ accessibile

– Piu’ capace, veloce, distribuita

– In fase di grande sviluppo nell’ UE ed in USA

–Si basano generalmente su architettureservice oriented (SOA) basate sui Web Services

Page 17: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

17 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Service Oriented Architecture

�Service Oriented Architecture (SOA) e’ una nuova architettura per lo sviluppo di applicazioni distribuite ( loosely coupled )

�In effetti SOA e’ un insieme di diversi serviziin rete

�Questi servizi comunicano tra loro

�La comunicaizone implica – scambio di dati

– coordinamento tra i servizi

�La SOA si basa sul paradigma dei Web Services

Page 18: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

18 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Il paradigma dei Web Services

� Un Web Service e’ un unita’ di codice gestito che puo’ essere chiamato da remoto usando HTTP, puo’ essere cioe’ attivato utilizzando richiesteHTTP

� I Web Services sono publicati, trovati ed utilizzati attraverso il web.

� Sono– Componenti di applicazioni– Che comunicano utilizzando protocolli aperti– Sono autodescrittivi e self-contained– Si localizzano utilizzando UDDI– Si basano su XML

� La piattaforma di base per I Web Services e’ HTML e XML.

� Elementi costitutivi sono– SOAP (Simple Object Access Protocol) – UDDI (Universal Description, Discovery and Integration) – WSDL (Web Services Description Language)

Page 19: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

19 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Vantaggi dei Web Services

�Pubblicare le funzionalita’ in rete�Connettere applicazioni diverse e differenziate�Utilizzo di protocolli standard�Basso costo del processo di comunicazione�Supporto per altri metodi di comunicazione

– (p.esFTP, non solo SOAP su HTTP)

�Applicazioni Loosely Coupled�I Web Services supportano tecnologie diverse�I Web Services sono autodescrittivi

– Facile svilupparci applicazioni sopra

�Automatic Discovery– Facile per I clients trovare I servizi di cui hanno bisogno

�Business Opportunity– Facile connettersi con I clienti di un business potenziale

3. EGEEEnabling Grids for E-SciencE

Page 20: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

20 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

EGEE: Enabling Grids for E-SciencE

�EGEE e’ il maggior progetto Europeo di Grid

(esistono molti progetti ad esso correlati)

(EU FP6/IST)

�Attualmente in fase 2 (EGEE-II: 2006-2008)

– 91 partners

– 32 paesi

– Budget: 52 Milioni di

Euro totali (37 dall’ UE)

– Infrastruttura

di circa 50 000 CPUs

- http://www.eu-egee.org Distribuzione mondiale di EGEE e dei progetti correlati

Obiettivi del progetto:

Gestire una infrastruttura di larga scala, diqualità elevata, da sistema di produzione, per la e-Science

Attirare nuove risorse ed utenti sia dalmondo scientifico che da quellodell’industria

Migliorare e gestire il middleware gLite

Promuovere l’inter-operabilità con gli altriprogetti di Grid esistenti

Disseminare il know-how ed educare alla Grid studenti e ricercatori

Parner EGEE-II in USA:• Univ. Chicago

• Univ. South. California

• Univ. Wisconsin

• RENCI

Page 21: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

21 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Le applicazioni & gli utenti diEGEE

� Applicazioni ed utenti da numerosi settori:

– Astrofisica

– Chimica Computazionale

– Scienze della Terra

– Simulazione Finanziaria

– Fisica della Fusione Nucleare

– Geofisica

– Fisica delle Alte Energie (HEP)

– Scienze della vita/Biologia

– Multimedia

– Scienza dei Materiali

– …

Libro degli abstracts: http://doc.cern.ch//archive/electronic/egee/tr/egee-tr-2006-005.pdf

EGEE: La Struttura�Joint Research Activities (JRA)

– JRA-1: sviluppo del middleware di EGEE: gLite

– gLite: attualmente in versione 3.1 in rilascio • download da http://cern.ch/glite• OS: Scientific Linux CERN 4 e Linux compatibili(RHAS,Centos,..)

�Network Activities (NA) �Service Activity (SA)

– SA-2: network

Page 22: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

22 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Progetti UE legati ad EGEE

OMII

Health

ICEAGE

BIOINFOGRID

BELIEF

ETICS

eIRGSP

ISSeG

EUMedGRID

EUChinaGRID

EELA

BalticGrid

Name

Page 23: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

23 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Risorse dell’infrastruttura EGEE

Region Countries Sites CPU

CERN 5 12 6400

UK/I 2 25 8384

Fr 2 12 7238

De/CH 2 15 4413

It 1 34 4341

NE 9 30 3289

SEE 8 38 2727

CE 7 24 2588

SWE 2 18 1938

A-P 8 20 1884

Ru 2 15 738

Totals 48 243 44040

23

Da Ian Bird - EGEE'07

EGEE: ~250 siti, >45000 CPU

24% delle risorse provengono da gruppi esterni al progetto EGEE

~>20k jobs simultanei in esecuzione permanentemente

Page 24: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

24 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Health Grids: alcuni risultati esemplari

� La prima BioMedical Data Challenge

– WISDOM : World-wide In-Silico Docking on Malaria

• http://public.eu-egee.org/files/battles-malaria-grid-wisdom.pdf• Sull’infrastruttura EGEE: 11/7-19/8/2005

� Parametri biologici significativi

– Due applicazioni di molecular

docking (Autodock and FlexX)

– Selezionati un milione di leganti

– Ricerca di proteine legate al

responsabile della malaria

� Numeri importanti :

– Trattati 46 milioni di leganti in

6 settimane

– Prodotto 1 TB di dati.

– Piu di 1000 computers in 15 paesi

usati contemporaneamente

per un totale di 80 anni-CPU

80 anni di lavoro per un PC standard

Domain distribution of Flexx run jobs

es; 5122

fr; 7580

gr; 2004 il; 263 it; 3687

nl; 3356

tw; 827

uk; 8106

bg; 597 com; 1072

de; 715 cy; 383

pl; 1877

ru; 218

ro; 337

http://wisdom.eu-egee.fr/malaria/

4. gLiteil middleware prodotto da EGEE

e le sue componenti di maggior interesse per la medicina

Page 25: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

25 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Struttura del Middleware di gLitecriteri progettuali

� Le applicazioni hanno accessoa entrambi i servizi di alto livello ed il middleware di base

� I servizi Grid di alto livelloservono a supportare gli utentie le loro infrastrutture ma non sono obbligatori

� Il middleware di base vieneinstallato su tuttal’infrastruttura EGEE

– Funzionale e robusto,

– Deve consentirel’interoperabilita’ con altreinfrastrutture Grid

– Non deve dipendere daiservizi di alto livello (chesono opzionali )

Foundation Grid Middleware

(Middleware di base)Security model and infrastructure

Computing (CE) and Storage Elements (SE)

Accounting

Information and Monitoring

Higher-Level Grid Services

(Servizi Grid di alto livello)

Workload Management

Replica Management

Visualization

Workflow

Grid Economies

...

Applications

(Applicazioni)

Page 26: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

26 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Workload ManagementData Management

SecurityInformation & Monitoring

Access

API

ComputingElement

WorkloadManagement

MetadataCatalog

StorageElement

DataMovement

File & ReplicaCatalog

Authorization

Authentication

Information &Monitoring

Application

MonitoringAuditing

JobProvenance

PackageManager

CLI

Accounting

Site Proxy

Descrizione: http://doc.cern.ch//archive/electronic/egee/tr/egee-tr-2006-001.pdf

Il middleware gLite

Page 27: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

27 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

I costituentidel middleware

� Servizi di Base

– Computing Element (CE)

– Storage Element (SE)

• Storage Resource Manager (SRM) Interface

– Information and Monitoring Service (BD-II, R-GMA)

– Authentication/Authorization/Auditing-Security

User Interface

&PortaleWeb

� Servizi Grid di alto livello

– Workload Managament Service/Server (WMS/RB)

– Logging&Bookkeeping (LB)

– File Transfer Service (FTS)

– File Catalogs (LFC, FireMan )– Metadata Catalogs ( AMGA )

– Encrypted Data Storage (EDS)

– Accounting

SOA

Globus (VDT)GridFTP / GSI

Condor PKI X.509 LDAP, MySQL, OpenSSL,..

Page 28: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

28 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Componenti di base di gLiteper la medicina

�CE: Computing Element– Esegue i job degli utenti / Basato su Globus e Condor

• Dotato di un interfaccia WS per la parte di IS

�SE: Storage Element– Per la storage dei dati

• SRM 2.2 interfaccia WS unica per i Mass Storage Systems e il disk storage

�LFC: LCG file catalog– Per mappare logical file names dei file in Site-URLs (PFN) attraverso i GUID • Con interfaccia WS

�AMGA: ARDA metadata Grid Application Catalog �EDS: Encrypted Data Storage �GFAL: GRID File Access Library (POSIX-like)�BD-II information system

Page 29: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

29 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Monitoring: GridMap

http://gridmap.cern.ch/gm/

4.Progetti di medicina che utilizzano la Grid

Esempi.

Page 30: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

30 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Progetti di medicina che usano la Grid

�Esistono innumerevoli esempi di progetti diMedicina e BioInformatica che usano le Grid

–E’ un successo per la Grid ☺– E’ assolutamente impensabile (e forse anche inutile)

pensare di descriverli tutti in questo talk (di 30 minuti) �

�Riporto qui – Alcuni progetti in EGEE

– L’ iniziativa HealthGrid

– un paio di progetti specifici interessanti, a titoloesemplificativo• NeuroInf / BioInfo LAB

• Health-e-Child

Page 31: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

31 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Progetti di medicina in ambito EGEE NA4 (Applicazioni)

� Cardiologia– Caviar

• Simulazione 3D del moto del cuore• Uso di MPI su Grid: guadagno in CPUtime lineare col n.dei nodi

– Processing di sequenze immagini 3D: svariate ore di CPU su un processore singolo:

- 2 minuti di CPU per istante di segmento 3D- 20 ore di CPU for 1603 motion estimation

� Cura del cancro/Adroterapia– ThIS

• Simulazione dell’irradiazione dafasci di fotoni,protoni e ioni pesanti

Hugues BENOIT-CATTINEGEE 07 conference

Page 32: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

32 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

HealthGrid

�Iniziativa europea di coordinamento per la promozione della Grid in medicina

–http://www.healthgrid.org

–Si occupa di promuovere standard comuniper l’interfacciamento di applicazionimediche e protocolli utilizzati in ambitomedico alla Grid

–Definire le priorita’ di svilippo nella stesura diuna roadmap europea verso una Grid medica

integrata

Page 33: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

33 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Portale NeuroInf (Analisi SPMA)

� Portale Grid per la diagnosi del morbo di Alzheimer attraverso la Statistical Parametric Mapping Analysis (SPMA)

� Motivazioni– L’accuratezza delle mappe di ipoperfusione e’ legata strettamente al numero di

casi normali confrontati con l’immagine di test– Servono percio’ molte immagini di casi normali

MA problemi etici e costi elevati riducono drasticamente il numero di acquisizionidi volumi PET di casi normali.

� La riservatezza e la sicurezza sono fondamentali nei sistemi informativi delle Health Grids

I neurologi che lavorano in piccoli ospedali non hanno a disposizione un grande campione di casi normali e non hanno un modo di accedere in maniera sicura databases remoti di immagini, percio’ di fatto non possono eseguire analisi SPM sui loro casi sospetti di AD

[ Ivan Porro - BioLab Univ. Genova - EGEE 07 conference ]

Page 34: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

34 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

�Acquisizione della immagine di testsullo user node

�Trasferimento dell’immagine di prova sulmanagement node

�Query al catalogo delle immagini normaliper trovarne di utili per il confronto (con quella di test)

Trasferimento di un eseguibile software (leggero)per l’estrazione dell’informazione sui nodi repository�Estrazione dalle immagini normali dell’informazionenecessaria per l’analisi statistica

�Trasferimento dell’informazioneestratta sul nodo di management

�Esecuzione dell’analisi statisticasul nodo di management

�Trasferimento dei risultati dell’analisiSPM sullo user node

Page 35: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

35 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Analisi delle immagini PET-SPECT

Analisi SPM:

•Statistical Parametric Mapping Analysis (SPM) package

�Creato dal Functional Imaging Lab (FIL) presso il Wellcome Department of Imaging Neuroscience (London University College)O

�Usato ampiamente nella comunita’ di ricerca dei neurologi per l’analisi voxel-based di studi PET per la diagnosi precoce del morbo di Alzheimer (AD)

� L’algoritmo principale:- confronto tra I valori di perfusione in immagini PET per pazienti sospetti di AD

Ei valori in un database di immagini PER per casi normali

� Risultato finale dell’analisi SPM:

pattern di ipoperfusione per differenziare i casi di AD da casi di altri tipi di malattie mentali

Pattern ipometabolici (glucosio)

Page 36: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

36 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

JOB submission & Data management

ZOPE

Portal Engine

Job submission

xrootd

GFAL

Upload image and select

User node

• Job submission and management

• Remote file access• Remote processing

Management node

gLiteUser Interface

SPMApplication

AliEnUser Interface

ZOPE Portal Engine

AliEn server

File and MetadataCatalogue

TaskQueue

Repository node

AliEnComputing Element

AliEnStorage Element

Repository node

gLiteComputing Element

gLiteStorage Element

MyProxyServer

LCG/gLite services

ResourceBroker

AMGA

LFC

Page 37: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

37 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Progetto dell’applicazione Grid

�Registrazione e storage dei data files (PET images) sugli SE disponibili usando lcg_utils che interagisce con LFC ed AMGA

�Sviluppo di un programma C (usando le API C di GFAL) per – Accedere alle immagini distribuite usando il loro LFN e senza copiarle fisicamente sui Worker Nodes

– Estrarre l’informazione necessaria all’analisi SPM

�Job Submission: sottomissione di uno o piu’ file JDL in parallelo a seconda del numero delle slice

�Analisi statistica: esecuzione dell’analisi SPM sui risultati ottenuti dalla sottomissione dei job. L’analisi statistica viene effettuata fuori dalla Grid.

gLite tools utilizzati:

� Data Management and File Access tools (lcg_utils and GFAL):per accedere ai dati remoti dalla User Interface

utilizzando i Logical File Names (LFN)O

� LCG File Catalog (LFC):per registrare i dati nel catalogo

� AMGA Metadata Catalog:per aggiungere metadati ai dati

� Workload Management System:per sottomettere e monitorare I job

Page 38: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

38 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Perche’ creare un portale ?

�L’accesso remoto all’analisi SPM puo’ fornire ai medici di ospedali periferici un tool utilissimo per eseguire l’analisi da remoto utilizzando una semplice interfaccia web

�Non servono ne risorse H/W particolari ne grande esperienza di computing

�Per evitare errori nell’analisi, solo utenti selezionati devono poter accedere ai servizi

http://www.http://www.neuroinfneuroinf.it.it

http://www.neuroinf.ithttp://www.neuroinf.it

Page 39: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

39 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Query al metadata catalog AMGA

Page 40: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

40 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Selezione di soggetti normalie sottomissione job

Page 41: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

41 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Risultati dell’analisi SPM

La validazione dei risultati sta venendo eseguita all’ospedale San Raffaele aMilano (usando 20 immagini)O (Risultati in Locale = Risultati GRID & Portale Web )

[ Iva

nP

orro

-B

ioLa

bU

niv.

Gen

ova

-E

GE

E 0

7 co

nfer

ence

]

Page 42: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

42 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Motivazioni per il progetto

� La domanda clinica di integrazione e utilizzo di informazione biomedica eterogenea– In dimensione verticale : molte sorgenti di dati diverse– In dimensione orizzontale : molti siti diversi

� Il bisogno di piattaforme generiche e scalabili– Integrando risorse tradizionali ed emergenti– Per supportare i processi decisionali– Accesso ubiquitous a knowledge repository nella routine clinica

– Mettere in comunicazione gli stakeholders nella ricerca clinica

� Bisogno di modelli strutturati e complessi per le malattie– costruendo holistic views del corpo umano– Diagnosi precoce delle malattie utilizzando informazione in vitro

– Diagnosi, terapia e decorso personalizzati

Health-e-Child

Page 43: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

43 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Obiettivi del progetto Health-e-Child

� Costruire servizi e strumenti chiave per migliorare la qualita’ della cura e ridurre I costi con– Modelli integrati delle malattie– Sistemi di supporto alle decisioni guidati da DB– Fusione dell’informazione da modalita’ diverse

e data mining per acquisire conoscenza

� Attuare un’ integrazione multi-sito, verticale e longitudinale, di dati, informazione e conoscenza

� Sviluppo di una piattaforma basata su Grid, supportata da una ricerca approfondita, ottimizzazione e confronti

Healthy Child

Dec

isio

n S

uppo

rt

Sys

tem

s

Integrated Disease Modeling

Know

ledge Discovery

AugmentAugment

GuidanceGuidanceGuidanceGuidanceEnrichEnrich

RealReal--time time alertalert

OnOn--line line learninglearning

Obs

erva

tion

Pro

cess

Sen

sors

Imaging

Genomics

Lab Data

ProteomicsDemographics

Physician Notes

Life Style

Time

Organ

Tissue

Cell

Molecule

PopulationIndividual

Ver

tical

D

ata

Inte

grat

ion

Integrated Integrated

Medical Medical

DatabaseDatabase

Cosa ha di speciale il progetto Health-e-Child ?

� Pediatria:

– La componente temporale

– Alcuni concetti validi per gli adulti non si possono applicare :modelli esistenti possono essere misleading

– Gli esami e le cure sono diverse, alcune non possono essere usate

� Intergrazione Verticale:

– Si collezionano, rappresentano e presentano l’ informazione ed il knowledge in maniera integrata

– L’integrazione e’ un nuovo modo di fare diagnosi e classificazione

� Estrema eterogeneita’:

– Malattie, modalita’ , standard, interessi….

Pediatria: malattie infantili / dipartimenti clinici / modalita’

� Tre malattie infantili con cause almeno parzialmente sconosciute, classification and/or treatment outcomes– Malattie cardiache (Right Ventricular Overload,

Cardiomyopathy) – Malattie infiammatorie (Juvenile Idiopathic Arthritis) – Tumore al cervello (Gliomas)

� Molti dipartimenti medici– Cardiologia– Reumatologia– (Neuro-)Oncologia– Radiologia– Lab (Genetica, Proteomics)– Amministrazione, IT

� Modalita’ principali / Sorgenti di dati:– Imaging (MR, US/echocardiography, CT, x-ray)– Cliniche(Patient information, Lab results etc)– Genetica & Proteomics

Page 44: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

44 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Distribuzione geografica

GOSH

NECKER

UWE

CERN

IGG

SIEMENS

ASPER

UOA

INRIA

LYNKEUS

UCL

EGF

FGG

MAAT

Sito clinico

Sito di R&D

Page 45: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

45 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

HeC System Overview

Grid Infrastructure

databases, resource and user management, data security

HeC Gateway

HeC specific models and Grid services like query processing, security

Heart Disease

Applications

Inflammatory

Diseases

Applications

Brain Tumour

Applications

Common Client Applications

user interface for authentication, viewing, editing, similarity search

Page 46: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

46 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

– Uno strato di accesso intermedio per disaccoppiare le applicazioni client dalla complessita’ della Grid

– Verso un implementazione indipendente dalla piattaforma

– Per aggiungere funzionalita’ specifiche non fornite dal middleware

Health-e-Child gateway

Stato√ SOA architecture

and design√ impementation of

privacy and security modules

Page 47: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

47 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

� La tecnologia Grid (gLite3.0) come infrastruttura di fondo:– Una piattaforma distribuita per condividere storage e computing

� Requirements specifici HeC– Supporto per immagini mediche (DICOM)

– Alta responsivita’ per l’utilizzo nella routine clinica

– Bisogno di garantire la privacy del paziente:� access rights management

�Storage dei dati sul paziente anonimizzati

Architettura

√ Testbed installation da Maggio 2006

√ HeC Certificate Authority√ HeC Virtual Organisation√ Security Prototype (clients &

services)√ Logging Portal

Stato:

Page 48: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

48 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

File storage� Non strutturati (file-based)

– DICOM • Images (MRI, CT, x-ray)• Movies (US)

– Molecular/Genetics data

� Semi-strutturati– Derivati– Dati clinici– Patient history– Diagnostica– Terapie

� Annotazioni semantiche– Annotazioni sulle immagini– Annotazioni sul caso, diagnosi– Links a risorse esterne

Dati Health-e-Child

5.Conclusioni

Page 49: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

49 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Conclusioni �Le Grid sono (ormai da qualche anno) definitivamenteuscite dalla fase di prototipo per diventare ormaitecnologia affermata e diffusa, costituendoinfrastrutture di produzione ( in certi casi molto estese, come EGEE)

�L’approccio architetturale piu’ importante per le tecnologie Grid e’ quello delle Service Oriented Architectures e dei protocolli basati sui Web Services– Approccio raccomandato da HealthGrid

�Le Grid sono gia’ ampiamente utilizzate con successoin Medicina ed in BioInformatica– In Silico experiments

– Algoritmi molto complessi di ottimizzazione

– Analisi di immagini Bio-Mediche ( PEM,Mammografia, TAC..)

� I vantaggi dell’ uso delle Grid in medicina sono molti:– Enorme boost nella potenza di calcolo disponibile per molte strutture ed utenti che non hanno a disposizione un centro di supercalcolo in locale

– Accesso distribuito e condivisione di risorse mediche ( dati sui pazienti, strumenti di misura, cartelle cliniche ) fornito ai medici e personale specializzato per le diagnosi e la definizione delle cure

– Interfacciamento a sistemi PACS / standard DICOM

� Nei prossimi anni la roadmap HealthGrid vedra’ l’ ulteriore integrazione ditools medici e protocolli associati con il middleware delle Grid, nel suoparadigma della Service Oriented Architecture

� La comunita’ GARR e’ chiamata a partecipare in maniera naturale all’evolversie l’ulteriore affermarsi delle teconologie Grid per tutti i suoi utenti, includendoquindi la medicina in generale e gli IRCCS in particolare

� La rete GARR (GARR-G oggi, GARR-X domani) terra’ chiaramente in mente le esigenze degli utenti Grid, del middleware e delle applicazioni affinche’ essesiano soddsfatte:– High Bandwitdth– Premium IP e allocazione di banda riservata– Anche i servizii associati alle Grid - a cominciare dall’ INFN e GARR Certification Authorities gia’ in funzione

Ringraziamenti

� Ivan Porro (Univ.Genova / BioLab )

� David Manset (Maat-G / Health-e-Child)

� Tamás Hauer (Health-e-Child )

� Claudio Grandi ( EGEE JRA-1 )

� Johan Montagnat ( EGEE NA4 )

� Ian Bird ( EGEE SA-1 )

� Reggie Cushing (EuMedGrid)

Page 50: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

50 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Appendice: le componenti di gLite

Page 51: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

51 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Service Oriented Architecture� gLite si basa su una Architettura Service

Oriented (SOA)

– Per facilitare l’interoperabilita’ tra i serviziGrid

– Per essere compatibile con gli standard emergenti presenti e futuri

– I servizi collaborano in maniera coerentema possono anche essere installati ed utilizzati indipendentemente, permettendoil loro utilizzo in contesti differenziati

�I servizi comunicano scambiandosimessaggi– Stanno venendo tutti dotati di interfacceWeb Services

– Esistono in realta’ diverse specifice che I WS e uno standard e’ necessario

– Le attivita’ sono svolte in ambito OGF-GIN (interoperabilita’)http://www.ogf.org/gf/group_info/view.php?group=gin-cg

GIN

Page 52: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

52 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Il Computing Element (CE)

Il Computing Element

� accetta batch jobs (e richieste di job control) utilizzando il gatekeeper

�LCG-CE (GT2 GRAM + GSI-enabled Condor)

�gLite-CE (GSI-enabled Condor-C)

�CREAM (WS-I based interface)

� Svolge le funzionalita’ AAA e mappa su un utente locale

�usando LCAS/LCMAPS e GRAM oglexec

� Passa il job allo strato che interagisce col LRMS

� Monitora lo stato del job e lo restituisce al client

�Condor

�CEMon (in CREAM)

• Interfaccia Web service

Client

LRMSWN

MonitoringComputing

Element

AAA andlocal mapping

JobController

Grid

Site

Page 53: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

53 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Lo Storage Element (SE)

� Gli storage elements (SE) sono le componenti per la memorizzazione dei datiin files nella Grid.

� Si possono basare su disco o nastro e sono visti attraverso un interfacciastandard : lo Storage Resource Manager

� Lo Storage Resource Manager (SRM)

– Nasconde l’implementazione dello storage system (disk o active tape)

– Controlla l’autorizzazione allo storage system ed ai files

– Gestisce sia SFNs che PFNs (converte SFN in PFN)

– disk-based: DPM, dCache; tape-based: Castor, dCache

� File I/O: Accesso posix-like ai files dai nodi locali o dalla Grid

�GFAL

Page 54: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

54 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Il Workload Management System

� Resource brokering, workflow management, I/O data management

�Interfaccia Web Service : WMProxy

– Task Queue: tiene in archivio I job che non-matching

– Information SuperMarket: cache dell’ information system

– Match Maker: assegna i job alle varie risorse in base ai requirements degli users

– Job submission & monitoring

�Condor-G

�ICE (to CREAM)

– Interagisce con:

• Information System

• Data Catalogs

• Logging&Bookkeeping

• Policy Management system (G-PBox)

Page 55: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

55 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Il File transfer Service� FTS: File transfer affidabile, scalabile e customizzabile

– Multi-VO service, usato per bilanciare l’uso delle site resources rispettando gli SLA definiti tra un sito e le VO che supporta

– Interfaccia WS, supporto di ruoli differenziati per utenti e admin (VOMS)

– Gestisce i trasferimenti utilizzando canali

• mono-directional network pipes tra due siti

– I vari file transfers sono gestiti come job

• Prioritizzazione

• Retry in caso di failure

– Automatic discovery dei servizi

� Progettato per gestire transfer di applicazioni data intensive

– Collaudato a 1 GB/s continuativo

– Piu’ di 9 petabytes trasferiti negli ultimi 6 mesi (> 10 milioni di files)

Page 56: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

56 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

LCG File Catalog� LFC mappa LFNs in SURLs

– Logical File Name (LFN): user file name

• nel namespace della VO, aliases consentiti

– Glbally Unique IDentifier (GUID)

• Stringa univoca assegnata dal sistema al file

– Site URL (SURL): identifica una replica specifica• Uno SE ed il LFN del file che contiene

� GSI security: utilizza le ACLs (basate su VOMS)

– Ad ogni gruppo/ruolo VOMS corrisponde un virtual group identifier

– Supporto per secondary groups

� Interfaccaia Web Service di query: Data Location Interface (DLI)

� Namespace gerarchico

� Supporta le sessions e le bulk operations

LFC

GUIDSURL 1

SURL 2

ACL

LFN 1

LFN 2

lfc-ls –l /grid/vo/ /grid/vo/data

fileLFC

DLI

lfc-getacl /grid/vo/data

Page 57: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

57 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

AMGA Metadata Catalog� AMGA e’ un metadata catalog general purpose

– Contiene informazioni sui dati scritti nei files

– Usato da diversi tipi di applicazioni– Interfaccia SOAP– VOMS authorization– Shell-like client– Browser grafico (Python)

� Performance comparabili all’accesso diretto a DB– C++, TCP streaming protocol, sessioni SSL

molto veloci� LHCb (HEP VO use case)

– 100 Milioni di entries– 150GB di dati– 105 entries/day rate di inserimento– 10 entries/sec rate di lettura

Authenticate with X509 Cert VOMS-Cert

with Group & Role information

VOMS-Cert

Resource management

AMGAOracle

VOMS

�http://cern.ch/amga

Page 58: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

58 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Encrypted Data Storage� Per VOs con requirements forti di riservatezza

– Per esempio la comunita’ medica

• Anonimita’ (i dati sul paziente sono tenuti separatamente)

• fine grained access control (solo alcuni individui possono accedere)

• Privacy (nemmeno gli amministratori degli SE possono leggere i dati)

� Interfaccia DICOM (Digital Image and COmmunication in Medicine)� Hydra keystore

– Memorizza le keys per l’encryption dei dati

– N istanze: per le menoM<N servono per la decryption

• Sicuro ed affidabile

AMGAHydra gridftp SRM I/O

DPM

DICOMTrigger 0. retrieve

image

0. storeencrypted

image&ACL

0. storekeys&ACL

0. storepatientdata

&ACL

1. patient look-up2. retrievekeys 3. get

TURL

4. read

Page 59: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

59 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Job Management Services

Computing Element Storage Element

Site X

Information System

submit

submit

query

retrieve

retrieve

Workload ManagementLogging & Bookkeeping

User Interface

publishstate

File and ReplicaCatalogs

AuthorizationService

query

updatecredential publish

state

discoverservices

Page 60: Grigle: tecnologie ed opportunita’ per la medicina · slide based on presentation given by Carl Kesselmanat GGF Summer School 2004 2. Le Grid (Griglie) 9 [Conferenza IRCCS, Roma,

60 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]

Information Systems

� Generic InformationProvider (GIP)

– Fornisce informazione

LDIF su un servizio

Grid utilizzando lo

schema GLUE

� BDII: Information system in gLite 3.0

– LDAP database aggiornato

da un processo di update

– Si usa piu’ di un DB, separati

in lettura e scrittura

– Per selezionare il DB si usa il

port forwarding

2171LDAP

2172LDAP

2173LDAP

2170Port Fwd

Update DB&

Modify DB

2170Port Fwd

Swap DBs

GIP Provider

ConfigFile

LDIF File

Plugin

Cache