old.iss.itold.iss.it/binary/publ/cont/pag1_321rapporto84_20.pdf · nominali, scale ordinali, scale...
TRANSCRIPT
6
Un disegno dell'inchiesta con il relativo piano di campionamen-
to (quando l'inchiesta campionaria), se correttamente formulati,
contengono gi le scelte per le tecniche statistiche da utilizzare
nella fase descrittiva e per quelle relative alle stime e ai testa di
ipo~esi da applicare quando si intenda giungere ad una decisione.
L'indagine statistica risulta determinata, per quanto riguarda
l'analisi dei dati, nel momento in cui programmata: resta soltanto
da raccogliere i dati.
Il contributo dello statistico nella programmazione di una
inchiesta quindi quello di mettere a disposizione dell 'Opera:tore
gli aspetti tecnici della teoria statistica, ~nendogli una chiara e
quanto pi preci sa possibile programmazione del l inchiesta. Impone
cio all'operatore di spiegare chiaramente perch si appresta a
realizzare 1 1 inchiesta, a giustificare la scelta .delle variabili che
vuole rilevare ed eventualmente confrontare, a dimensionare l'inchie-
sta e a difendere la sua richiesta che le inferenze desumibili dallo
studio siano sufficientemente precise e che i risulati siano perti-
nenti alle domande che si posto.
La dettagliata descrizione dell'inchiesta e dei suoi obiettivi
pu essere raggiunta mettendo per iscritto le caratteristiche dell'in-
chiesta stessa {cio con la stesura di un protocollo formale):
l) definizione degli obiettivi che si vogliono raggiungere (pochi: ta-
l.ora inchieste concepite. come "multipurpose" non danno alcun ri-
sultato valido};
2) formalizzazione dell'inchiesta {variabili da raccogliere, fattori
di rischio allo studio, definizione della popolazione bersaglio e
campionabile, dimensione del Campione o della popolazione);
3) definizione del metodo di analisi dei risultati e degli strumenti
di raccolta, registrazione e codifica.
Gli obiettivi devono essere chiari e specifici evitando sia
vaghezza e ambiguit sia eccessiva ambizione (tenendo quindi sempre
presente la fattibilit dell'inchiesta rispetto alle ipotesi formula-
te).
Altri punti importanti sono: definire l'ordine di priorit de-
gli obiettivi stessi e la popolazione sulla quale si intende fare
l'inferenza.
' l
7
Nella scelta delle variabili importante definirle chiaramente
in relazione al ruolo che ognuna deve avere ai fini del raggiungimento
degli obiettivi dell'inchiesta.
I risultati forniti da un esperimento o dal! 'osservazione dei
fenomeni chiaramente sempre diversi l'uno dall'altro, risentono non
solo della condizione sperimentale (dose di un farmaco, classi di et,
sesso, mansione) cui appartengono, ma anche di vari,azioni di fattori
non controllati o non controllabili che tendono a mascherare gli ef-
fetti considerati e quindi comportano un errore.
Sono distinguibili tre tipi fondamenta~! di errore:
1) errori grossolani;
2) errori sistematici;
j) errori casuali.
Nei capitoli seguenti si discuteranno strategie atte ad af-
frontare questi tipi di errore.
Alla luce di quanto detto, si pu ora iniziare l'esame delle
pi comuni tecniche di statistica descrittiva. Per una discussione
pi approfondita del ruolo della statistica nella pianificazione di
studi e indagini si rinvia a G.A. Maccacaro (in Biometria, a cura
di Salvi e Chiandotto, Piccin 1978, pagg. XIX- XXVII).
1.2. SCALE DI MISURA
Il processo di osservazione scientifica sempre seguito da un
processo di classificazione che consiste $emplicemente nel raggruppare
le ~ifestazionidei. fen~ni ~eco0do una o pi caratteristiche e nel deidere quali di esse devono considerarsi uguali e quali divers~. Per
poter far ci evidente che prima stata fatta una scelta della sca-
la di misura e unit di misura. Ma la classificazione non fatta sol-
tanto secondo la scala di misura, ma anche secondo l'ampiezza di va-
riabilit. Infatti 1 1 insieme di tutte le possibili osservazioni (ad
ognuna delle quali associato un valore) viene considerato discreto
se costituito da un numero finito o da un numero infinito, ma nume-
rabile di unit; viene invece considerato continuo se costituito da
un numero infinito e non numerabile di-unit.
8
E' utile in primo luogo distinguere tra due tipi di osservazio-
ni, le qualitative e le quantitative. Le prime sono quelle non carat-
terizzate da una grandezza numerica, ad esempio: il sesso, la mansio-
ne, morte o sopravvivenza, la residenza. Le seconde, invece, sono ca-
ratterizzate da grandezze numeriche, es.: numero di batteri trovato in
campioni d 'acqua, numero di globuli rossi per cc di sangue, misure di
funzionalit respiratoria, valori di piombemia.
Per ci che riguarda l'operazione di classificazione delle uni-
t di osservazione secondo una scala di misura si tende generalmente a
distinguere quattro diversi livelli di misurazione: si parla di scale
nominali, scale ordinali, scale di intervallo e scale razionali o di
rapporto. La misura , quindi, il processo di "mappatura" o di asse-
gnazione di numeri ad oggett~ o osservazioni (corrispondenza a codifi-
ca). Il tipo di misura funzione delle regole sotto le quali i numeri
vengono assegnati. Le operazioni e le relazioni usate nell'ottenere
valori -definiscono e limitano le manipolazioni e le operazioni che so-
no permesse nel maneggiare i valori stessi; le manipolazioni e le ope-
razioni, infatti, devono essere quella della struttura numerica a cui
la misura isomorfa.
1.2.1. Scala nominale o classificatoria
E' il pi semplice livello di misurazione. La raccolta dei dati
relativi alle scale nominali consiste nell'effettuare conteggi, cio . . - . . nel r1conoscere la presenza o assenza di una modalit discreta (carat-. teristica) di una variabile,
DEFINIZIONE. Numeri o altri simboli vengono usati semplicemente per
identificare i gruppi a cui i vari oggetti appartengono (codifica);
vedi esempio. Tali numeri o simboli costituiscono una scala nominale.
PROPRIETA' FORMALI. Le classi definite (modalit) devono essere mutua-
mente esclusive in quanto ciascuna osservazione deve appartenere solo
ad una delle possibili categorie. L'unica relazione valida la rela-
zione di equivalenza del tipo cio: A=B oppure A#B. Questa relazione
gode della propriet riflessiva, simmetrica e transitiva. Infatti
9
. riflessiva in quanto A=A; simmetrica dato che se A=B anche B=A ed
transitiva poich se A=B e A=C anche B=C.
OPERAZIONI AMMISSIBILI. La scala invariante rispetto a trasformazio-
ni del tipo "1 a 1", ad es. chiamare "a" tutti i "b" e viceversa.
ESEMPIO. Classificazione di una popolazione in base al gruppo sangui-
gno (sistema ABO):
A
B
AB
o
1.2.2. Scala ordinale o per ranghi
DEFINIZIONE. Gli oggetti appartenenti ad una categoria in una scala
ordinale non differiscono semplicemente dagli oggetti di altre catego-
rie ma possibile stabilire una relazione tra di essi del tipo pi
grande, pi preferito, pi difficile etc
E' possibile stabilire l'ammontare del carattere posseduto, ma non
possibile esprimere il rapporto fra quantit, cio non possibile
esprimere: A + B = C e A/B = C/O.
PROPRIETA' FORMALI. Per le scale ordinali oltre alla relazione di
equivalenza, vale anche la relaZione di "maggiore di" (A>B), tale re-
lazione ovviamente non riflessiva, antisimmetrica (se: A> B,
allora: BB e B>C, si ha: A>C).
' OPERAZIONI AMMISSIBILI. Una scala ordinale invariante rispetto a
trasformazioni monotone, cio trasformazioni che non cambiano l'ordine
delle classi.
ESEMPIO. Valutazione radiologica della silicosi:
a) non segni
b) minimi segni
c) 1/1P
d) 1/2P
e) 2/2P
1
2
3
4
5
9
B
7
6
5
f) 2/3P
g) 3/3P
h) x/xP
i) ABC
1.2.3. Scala intervallare
10
6
7
8
9
4
3
2
1
DEFINZIONE. E' la prima scala quantitativa. Ha tut~e le caratteristi-
che della scala ordinale ed in pi vi definita la distanza tra due
numeri. Una scala intervallare car~tterizzata da una comune e co-
stante unit di misura che assegna UN NUMERO REALE ad ogni coppia di
oggetti in un insieme ordinato.
In una scala intervallare il rapporto tra due intervalli. indipen-
dente dall'unit di misura e dal punto zero, mentre dipendente da
essi il rapportO fra due punti.
PROPRIETA' FORMALI. Le distanze nella scala sono isomorfe alla strut-
tura dell'aritmetica. Possono essere associati numeri alle posizioni
degli oggetti in una scala intervallare, in modo tale che le opera-
zioni dell'aritmetica possano essere effettuate sulle differenze tra
questi numeri.
OPERAZIONI AMMISSI.BILI. La .scala intervallare invariante rispetto
a trasformazini del tipo: y = ax+b.
ESEMPIO. Misura della temperatura.
I gradi centigradi e quelli Fahrenheit rappresentano misure interval-
lari della temperatura: sono diversi l'unit di misura ed il punto o, ma il rapporto tra le differenze di lettura di due temperature in una
scala uguale al rapporto tra la differenza delle letture delle stes-
se temperature nell'altra scala. Infatti i rapporti fra due distanze
della scala sono indipendenti dalle unit di misura.
3oc - 10C 10C - oc = 2 =
la legge di trasformazione del tipo:
86"'F - 50"'F soF - 32"F
l C= 59 ( F- 32).
11
1.2.4. Scala di rapporti
DEFINIZIONE. Ha tutte le caratteristiche di una scala intervallare ed
ha un punto zero vero come origine. I rapporti tra due punti della
scala sono indipendenti dall'unit di misura. PU essere discreta o
continua. E' quella definita comunemente quantitativa.
PROPRIE'!' A' FORMALI. Le operazioni e le relazioni che danno luogo a
valori numerici in una scala di rapporti sono tali che la scala iso-
morfa alla struttura dell'aritmetica. Cio le operazioni aritmetiche
sono permesse per i valori numerici assegnati agli oggetti stessi.
OPERAZIONI AMMISSIBILI. I numeri associati ad una scala di rapporti
.sono veri numeri con uno zero vero, solo l'unit di misura arbitra-
ria. La scala razionale invariarite rispetto a trasformazioni del
tipo: y = ax. I rapporti tra due numeri qualsiasi, in altre parole, sono conserva-
ti quando i valori della scala sono tutti moltiplic.ati per una co-
stante positiva, il che corrisponde al cambiamento di unit di misura.
ESEMPIO. Statura di un individuo espressa in centimetri. (cm) o in
pollici (inch).
65 inch 1 inch "" 65 c
165.1 cm 2.54 cm
La legge di trasformazione del tipo:
Y"" ax infatti: cm= inch Z.54.
12
1. 3 o ANALISI DESCRITTIVA DEI DATI
L'informazione numerica contenuta in un insieme di dati pu es-
sere descritta abbastanza sinteticamente con la costruzione e rappre-
sentazione grafica di un distribuzione di frequenza. Sostanzialmente
una distribuzione di frequenza una tabella che indica il numero del-
le osservazioni o frequenze per ogni valore della variabile compreso
in un certo ambito di variabilit.
Per variabili i cui valori sono classificati secondo una scala
discreta {nominale o ordinale), si pu tabulare la frequenza in cor-
rispondenza di ogni categoria considerata, eventualmente raggruppando
le categorie secondo un criterio logico se esistono problemi di nume-
rosit nelle categorie.
Per variabili i cui valori sono invece classificati secondo
una scala continua (intervallare o di rapporti) chiaro che occorre
formare opportune classi suddividendo l'intervallo di variabilit in
intervalli di classe e. calcolare la frequenza delle misure in ciascun
intervallo. Di fatto ogni volta che si conduce una misurazione con uno
strumento noi stessi suddividiamo l'intervallo di variabilit in in-
tervalli di classe" tanto pi piccoli, quanto pi grande il potere di
risolUzione dello strument-o e viceversa. L'intervallo di classe di una
distribuzione di frequenza ,deve, per tale motivo, essere sicuramente
pi ampio del potere di risoluzione dello strumento. Le distribuzioni
di frequenza cos costruite possono essere rappresentate visivamente
tramite istogrammi. Per convenzione si riportano i valOri della varia-
bile sull'asse Orizzontale e le frequenze di ogni valore o di ogni
classe su quello verticale.
Se la variabile discreta e non raggruppata in classi, le
frequenze sono rappresentate con linee verticali; se e raggruppata in classi, con rettangoli la cui base coincide con gli intervalli di
classe. Se l'ampiezza dell'intervallo uguale in tutte le classi le
frequenze sono proporzionali sia alle aree che alle altezze del ret-
tangolo, altrimenti lo sono alle aree e non alle altezze.
Questo tipo di rappresentazione offre la possibilit di co-
gliere tendenze e confronti _spesso pi facilmente di un esame detta-
gliato dei corrispondenti dati numerici o di una distribuzione di
b
13
frequenza fornita in forma di tabella. Il passaggio dai dati tabulati
alle distribuzioni di frequenza in forma di tabelle e in forma grafica
comporta d'altra parte una perdita di dettaglio ed ovvio che per fa-
re esami critici e confronti validi bisogner fare riferimento ai dati
numerici di partenza.
La frequenza in una distribuzioqe, e in un istogramma si pu
esprimere non solo come valore assoluto ma anche come frequenza rela-
tiva (p'ercentuale sulla frequenza totale": n/N).
Nella frequenza cumulativa invece si considera la frequenza
relativa delle osservazioni che hanno valori minori o uguali al valore
considerato.
Esistono, inoltre, altri tipi di rappresentazioni grafiche riassuntive dei dati di partenza (diagrammi a barre, circolari, linea-
ri, piramidi delle et) che non riportiamo in questa sede, ma la cui
conoscenza e costruzione facilita molto la descrizione visiva di un
fenomeno.
In modo pi sintetico 1 1 informazione pu essere espressa me-
diante singole misure che si dividono in due grandi categorie: misure
di tandenza centrale (esse danno un'idea di dove l'insieme delle os-
servazioni si colloca nell'ambito di tutti i valori possibili) e mi-
sure di dispersione (che danno, invece, un'idea di quanto le osser-
vazioni siano diverse fra loro). Al fine di ccll-atteriz'zare una di-
stribuzione di frequenza dei dati indispensabile considerare entram-
bi i tipi di misure.
Pu infatti accadere di incontrare 2 distribuzioni con medie
uguali e deviazioni standard diverse o viceversa, come si evidenzia
dalla Fig. 1.1 (le procedure di calcolo della deviazione standard ver-
ranno introdotte nel par. 1.3.2).
ESEMPIO: Controllo della precisione di uno spirometro eseguito sui
valori di prove simulate in giorn~ diversi, segnale di 4 l. i
4 3.78 4.08 4.06
4.04 4.10 ,. giorno 3.96 2. giorno 3.60 3.96 4.44
4 4.02
x = 4.0067
s 1 = 0.0002187 s = 0.04676
14
x = 4.0
5 Z= 0.0832
s = 0.2884
Esistono, inoltre, misure di asimmetria e di concentrazione (skewness
e curtosi), che .caratterizzano la forma delle distribuzioni, esse sono
misure relative in quanto fanno riferimento alla curva normale o di
Gauss.
1.3.1. Misure di tendenza centrale
Vengono sotto definite le pi usate:
MEDIA ARITMETICA. E' data dalla somma di tutte le osservazioni divisa
per il numero di osservazioni:
)C. '
LA MEDIANA. E' l'osservazione di mezzo, quando le osservazioni sono
disposte in ordine crescente o decrescente di grandezza; molto uti-
le nei casi in cui si ha a che fare con una distribuzione molto asim-. . . metrica, poich la presenza di pochi valori molto alti o molto bassi
influenza la media, rendendola poco descrittiva dell'insieme dei da-
ti.
LA MODA. Valore della variabile per il quale la curva di frequenza
raggiunge un picco, ovvero il valore Poco usata in statistica analitica.
che ricorre pi 'frequentemente;
ESEMPIO. giorni di assenza dal~avoro per malattia di 19 lavoratori:
1, 10, 8, 6, 7, 6, 38, 2, 4, 1, 3, BO, 6, 4, 2, 5, 4, 6, 3. .. . Ordinandt! dal valore pi piccolo a quello pi grande: t
1, 1, 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 6, 7, 8, 10, 38, so. Media aritmetica: 10.32
Mediana
Moda
5
6 \
15
Distribuzione di frequenza assoluta, relativa e cumulativa.
N. giorni
1
2
3
4
5
6
7
8
10
38
80
f. assoluta
2
2
2
3
1
4
1
1
1
1
1
19
Raggruppando in classi si ha:
1-5
6-10
11-15
) 15
f. assoluta
10
7
2
19
f. relativa
10.53
10.53
10.53
15.79
5.26
21.05
5.26
5.26
5.26
5.26
5.26
100.00
f. relativa
52.63
36.84
10.53
100.00
f. cumulativa
10.53
21.06
31.59
47.38
52.64
73.69
78.95
84.21
89.47
94.73
100.00
f. cumulativa
52.63
89.47
89.47
100.00
MEDIA GEOMETRICA. Molto usata nelle ricerche di microbiologia, sierOT
logia e chimica clinica dove le distribuzioni possono avere marcate
asimmetrie positive dovute al crescere degli intervalli fra i passi-
bili valori. Il valore alto della variabile incide proporzionalmente
in misura minore se si usa la media geometrica:
"...-------, x.,: '{>
16
Il logaritmo della media geometrica corrisponde alla media aritmetica
dei logaritmi dei dati:
ESEMPIO. In una serie di valori del tipo:
1 2 4 6 16 32 64 128 256 512 1024
x= (1+2+4+ + 1024)/11 = 2047/11 = 186.09
Med. "" 32
Hr-----~ >( .. = v~ 2 ..... 1024 = 32.
ESEMPIO. I 115 valori relativi a dati di polverosit in una miniera
presentano il valore minimo di 0.04 e il valore massimo di 9.07 con
una distribuzione fortemente asimmetrica e media pari a 1.13 mg/mc.
essa infatti risente dei pochi valori molto alti, la mediana inve-
ce: 0,71 mg/mc.
4D "l .. t l ft A "' ... " ".l
..... ..... .... t ' " 1t .. o
o 5 IO """1.'"'.
La media geometrica uguale a 0.63 mg/mc ed sicuramente pi rappre-
sentativa come misura di tendenza centrale.
Come si pu notare dagli esempi la media geometrica molto vicina
alla mediana o coincide con essa.
l '
l l
17
1.3.2. Misure di dispersione
Esse svolgono un ruolo importante nella descrizione sintetica
di una serie di dati, ed anche nella metodologia dell'inferenza stati-
stica che sar sviluppata pi avanti. Le pi usate sono:
INTERVALLO DI VARIAZIONE. E 1 dato dalla differenza fra il valore
massimo e il valore minimo, e fornisce un'informazione sulla gamma di
valori su cui si distribuisce la variabile. Questo indice ovviamente
influenzato dai valori estremi, che sono pi soggetti a errore casuale
e sistematico o addirittura grossolano e quindi possono differire in
maniera rilevante anche in due studi condotti in condizioni simili.
Inoltre, l'intervallo di variazione non fornisce notizie sul modo in
cui i dati sono disposti nella regione centrale della distribuzione.
DISTANZA INTERQUARTILE. E' un indice che viene calcolato dopo avere
ordinato i dati in ordine crescente, si individua un quartile infe-
riore (primo quartile) 1 cio il valore al di sotto del quale cade
1/4 (25%) delle osservazioni, ed un quartile superiore (terzo quarti-
le), valore al di sopra del quale cade 1/4 (25%) delle osservazioni.
I due quartili individuano la ragione entro cui si trova la met (il
50%) dei dati; la differenza tra i valori del quartile superiore e
del quartile inferiore la distanza interquartile. E' un indice e-.
stensibile alla sequenza delle osservazioni e non risente molto del~
l'effetto di valori estremi. E' interessante notare che il 2 quartile
la mediana, valore al di sotto e al di sopra del quale cadono il 50%
delle osservazioni.
DEviANZA. Se si ha una serie di misure x1
, x2
, . , xn' la distan-
za di ogni xi dalla media aritmetica, (x1
- Xl, rappresenta una misura della dispersione dei dati: queste distanze (deviazioni) crescono in-
fatti al crescere della dispersione dei dati intorno alla media. La
media di queste deviazioni sempre nulla per la Propriet Centrale
della Media (la somma algebrica di tutte le deviazioni della media
uguale a zero) quindi si utilizzano i loro quadrati e si calcola la
devianza: ~
Dx = f;1
(x- i
18
Ai fini dell'effettuazione dei calcoli, si utilizza di solito la far-
mula: ~ ~ t ~
.D x z. l ( f;, x') ' t ..-x;.) (;I(~+Xt+"'~ = x, ' (x, .. x, .. ~-t "-
.....
~
Z.x z cio si eleva al quadrato la somma dei dati (, , .... ) , la si divide .. , per il numero dei dati stessi e si ottiene ' 1'
.
19
La variabilit risulta, dunque, assente, in quanto l'unica osservazio-
ne disponibile non pu ovviamente differire da se stessa. se, invece,
si considera l'osservazione come un campione di Una popolazione pi
ampia si verifica:
2 s = (50 - 50)
2
1 - 1
o indeterminato =-=
o Un'osservazione sola, !~fatti, non pu fornire nessuna informazione
sulla variabilit della popolazione di provenienza.
DEVIAZIONE STANDARD. La varianza espressa in termini di quadrati .
dell'unit di misura originaria: per ritornare ad essa se ne estrae la
radice quadrata.
ESEMPIO. I dati
DS = s "" " relativi ad un campione di 307 sogget~i sottoposti a
prove spirometriche per la determinazione del VEMS sono rappresentati
sinteticamente dalla distribuzione di frequenza riportata nel grafico
schematizzato qui di seguito.
Le misure sono di tipo continuo ed espresse in cc; la media aritmetica
3135 cc, i valori massimo e minimo sono rispettivamente 5140 e 270
(intervallo di variazione 4870}. La distanza interquartile vale 415,la
devianza 125337.600, la varianza 409.600 e la deviazione standard 640.
o
. ~ . ' n -.:
'"" '"""'' '... "''J'l1:11 'l XJ.J.1'C11o$:lSI ~:C: '&ll'ISIJ*l'-2. l S.'CJI: J'l:l'i.1'1:t.~
' '''"**~~~~ '*''''''*'~, ~ s '"'''~,,~rJs~~~Y
.J Jt.'S.j.Q11$J:S11.S.iSJJ. ~ ~1 IJtta~'ili~S~~~~sss,s J ' 5~~1*CSJ,'fS.Sit.S~JIJ$Ss-J
-' .
20
COEFFICIENTE DI VARIAZIONE. E' un indice di variabilit relativo. in
quanto espresSo dal rapporto tra il valore di un indice assoluto di
variabilit (la deviazione standard) ed il valore medio della ~tessa
distribuzione {comunemente lo si esprime in percento):
CV= s
o 100 x
L'uso di questo indice di dispersione pu essere necessario nel caso
in cui si debbano confrontare le variabilit relative a distribuzioni
che:
1) sono espresse in unit di misura diverse;
2) hanno medie diverse;
Il coefficiente di variazione, molto usato in chimica clinica, non ha
dimensione fisica, e si dice essere un numero puro.
ESEMPIO. Si abbia una serie di misure di glicemia, con un valore medio
di 100 mg/dl e con una s=S, e una serie di misure di calcemia, con un
valore medio di 10 mg/dl e s=S. Si evidenzia che nonostante gli indici
di variabilit assoluti siano identici i CV sono molto diversi:
5 cv: .. = -- 100 = 5% ~ 100
; 5 CVca = -- 100 = 50%
IO
un CV del 50% ben diverso da uno del 5%! Questo significa che la
variabilit proporzionale della glicemia inferiore a quello della
calcemia.
Ognuno degli indici fin qui considerati pu essere calcolato anche se
non si dispone di dati disaggregati ma di distribuzioni di frequenza.
Le formule di calcolo relative sono riportate in tutti i testi di Sta-
tistica. In tal caso si possono introdurre nei calcoli errori dovuti
al fatto che si attribuiscono a tutte le osservazioni di una classe
il valore centrale della classe stessa, se la distribuzione asimme-
trica.
21
2. DISTRIBUZIONI DI PROBABILITA'
2.1. DEFINIZIONI DI PROBABILITA'
Si ricorre utilmente a modelli probabilistici quando si consi-
derano esperimenti il cui risultato non sia determinabile a priori in modo univoco. La probabilit una quantit numerica intesa a rappre-
sentare l'intensit della aspettativa di ogni particolare risultato .
ESEMPIO. Gi prima di aver determinato il gruppo sanguigno di un sog-
getto, la conoscenza della popolazione da cui egli proviene consente
di formulare previsioni probabilisticqe su quale sar il suo gruppo,
assumendo randomizzazione.
Lanciando in aria una moneta Si pu ottenere Testa (T) oppure
Croce (C}; se si ripete la prova pi volte si pu ottenere la seguen-
te successione: CCTCTTCTCCCTTTTCTC.
Sequenze di questo tipo sono chiamate serie casuali: ogni posizione
della sequenza un esperimento o prova ed ogni risultato un evento.
Le principali definizioni di probabilit possono essere cosi
sch~camente riassunte:
Definizione "classica" (probabilit matematica); la probabilit
di un evento data dal rapporto fra il numero di risultati della
prova in cui l'evento si verifica e il numero complessivo di risul-
tati possibili.
ESEMPIO: nel lancio di un dado, la probabilit del risultato "4"
uguale a 1/6 (ovvero 0.17 o 17't) perch il dado ha 6 facce e su
una sola compare il "4".
Definizione "frequentista": la probabilit di un evento data
dall~ sua frequenza media osservata in una serie illimitata di ri-
petizioni di una prova.
ESEMPIO: immaginiamo di lanciare una moneta innumerevoli volte: ci
accorgeremo che all'aumentare del numero delle volte la frequenza
22
relativa dell'evento Testa (T), oppure dell'evento croce (C), ten-
der al valore: 1/2. E' quindi ragionevole assegnare all'evento T
nel lancio di una moneta (regolare e simmetrica) la probabilit di
1/2.
Definizine "soggettiva'': la probabilit di un evento rappresenta il
grado soggettivo di fiducia accordato al verificarsi dell'evento
stesso. Si tratta dell'espressione sintetica, in forma -numerica
di una nostra valutazione anche molto complessa. Si pu descrivere
il meccanismo nel caso della scommessa: la probabilit dell'evento
~ data dal rapporto fra la cifra c~e accettiamo di puntare sull'e-
vento e la cifra che guadagnetemo in caso di successo. Nel caso di
1:1 p=l/2; se 1:3 pcl/4, etc.
ESEMPIO: se ci viene proposta una scommessa in cui puntiamo 1000
lire sul "4", sapendo che in caso di successo ne incassiamo 6000
(vincita: incasso- posta), e noi riteniamo tale situazione ugual-
mente accettabile per il giocatore o per il banco, vuol dire che
(i-n base ad una serie di informazioni di cui disponiamo) , attri-
buiamo a quel risultato una probabilit proprio di 1000/6000, cio
1/6. E' verosimile che se l'incasso fosse 5000 lire, preferiremmo
essere il banco, e se fosse 7000 lire, preferiremmo essere giocato-
re.
Deriva da queste definizioni che il ragionamento probabilist~o
di tipo matematico pu essere applicato solo a fenomeni di cui si co-
noscano sufficientemente bene i meccanismi per postulare l'equiproba-
bilit degli eventi che ne sono alla base e per conoscere tutti i pqs-
sibili risultati, come il gioco dei dadi e delle carte, la segretazio-
ne degli omozigoti recessivi nell'incrocio di due eterozigoti, la fre-
quenza di mani di bridge dello stesso seme.
La definizione "frequentista11 ha un pi vasto campo di applica-
zione, in quanto riferibile a fenomeni di cui si possono ignorare i
meccanismi, purch sia pensabile la loro ripetizione in una sequenza
sufficientemente lunga di prove analoghe.
23
La definizione di proQabilit "soggettiva" ha un'applicabilit
ancora pi vasta, perch non richiede ne' una conoscenza dei meccani-
smi elementari dei fenomeni, ne' una loro ripetibilit, ma solo di
sintetizzare tutte le informazioni che si hanno e, a quella luce, cer-
care di immaginare in quali condizioni ci si sentirebbe ugualmente
tranquilli nel ruolo del giocatore e del banco. Fenomeni che possono
essere affrontati anche in questi termini sono i risulati di una con-
sultazione elettorale (ad es. quanti voti prenderanno i Democratici
nello Stato del New York alle elezioni presidenziali di un determinato
anno, alla luce dei problemi locali, dei problemi degli USA in genere
e della situazione internazionale}, l'esito di un incontro di calcio
(come si concluder un campionato di calcio alla luce dei risultati
del campionato dell'anno preceden'te, degli acquisti di giocatori fatti
dalle varie squadre, delle condizioni psico-fisiche dei giocatori,
della presenza/assenza di alcuni elementi nelle varie partite), la
sorte di una vicenda individuale (riuscir ognuno di noi prima della
fine del mese ad ottenere un aumento di stipendio; riuscir Tizio a
trovare una casa; riuscir Caio a partire per una vacanza con la per-
sona amata, etc.), lo stabilire quale probabilit esiste che omero sia
stato un personaggio storico. Considerazioni frequentiste entrano, co-
me naturale, in un modello soggettivo.
In una situazione relativamente semplice, come il lancio del
dado, tutte e tre le definizioni erano applicabili e, come si vi-
sto, si arrivava a conclusioni analoghe, anche se per strade diverse.
In un modello probabilistico, dunque, si considera l'insieme
dei possibili risulta.ti di una prova, e si definiscono quelli fra di
loro che rappresentano il "successo". La probabilit dell'evento
data dalla somma delle probabilit dei risultati che implicano il ve-
rificarsi del successo:
ESEMPIO, nel lancio del dado se si definisce come successo "uscita di
un numero pari 11 , la probabilit di tale evento sar la somma delle
probabilit associate a "2", "4" e "6", cio 1/6 + 1/6 + 1/6 "" 1/2.
(come meglio spiegato nel par. 2.1.1.).
24
2.1.1. cenni di calcolo delle probabilit
Questo paragrafo stato inserito solo per un veloce richiamo
al calcolo delle probabilit, ma, per una trattazione esauriente, si
raccomanda la lettura di 'Statistica Medica', P.Arm!tage, 1975, Fel-
trinelli, pagg. 53-60.
Gettando Un dado, a priori, si possono considerare possibili
i 6 risultati espressi dai numeri da 1 a 6; chiaro che, eseguita la
prova, uno ed uno solo di questi deve realizzarsi. Questi 6 risultati
vengono chiamati eventi elementari (o semplici) e ad ognuno di essi
vitme assegnata una particolare probabilit sulla base di considera-
zioni matematiche, frequentiate o sO;ggettive. Quindi, indipendentemen-
te dalla teoria delle probabilit seguita, una volta assegnate delle
misure di probabilit a determinati eventi, possibile che la proba-
bilit di tutti gli altri eventi venga calcolata semplicemente per
via matematica (calcolo delle probabilit). Dal punto di vista mate-
matico una distribuZi!';:me di probabilit una funzione definita sul-
l' insieme di tutti i possibili risultati di una prova e con valo;-i
che vanno da O a 1.
Esistono 3 regole fondamentali nel calcolo delle probabilit.
1) La probabilit d1 ogni evento (evento=uscita del numero 6) com-
presa tra zero e uno; 1 1 evento impossibile (evento=uscita del nu-
mero 8) ba probabilit zero, mentre l'evento certo (evento=uscita
di uno qualsiasi dei numeri tra 1 e 6) ha probabilit uno.
2) Quando si assegna una distribuzione di probabilit si sottintende
una certa quantit di informazione sulla prova in questione. Ora,
mentre le probabilit degli eventi non cambiano, pu verificarsi
che gli stati di informazione evolvano via via che si generano di-
verse distribuzioni di probabilit.
Infatti la probabilit di un evento pu essere subordinata (modi-
ficata oppure no) dal fatto che si verificato un altro evento;
ed essa si chiama probabilit condizionata: quale la probabili-
t di A dato che si verificato B (Pr{A)\B).
Se A e B sono eventi indipendenti chiaro che la probabilit di
A non cambia:
25
Pr (A\8) = Pr (A) eventi indipendenti Se sono dipendenti:
Pr (A\8) = Pr (A e B)
Pr (B)
cio: la probabilit di A dato B uguale alla probabilit che si
verifichino sia A che B diviso la probabilit di B .
3) vengono chiamate probabilit composte quelle probabilit assegnate
ad eventi composti, cio a combinazioni di eventi come A e B oppure
A o B.
Pr (A e B) = probabilit che A e B si verifichino contemporaneamen-
te.
Se A e B sono mutuamente esclusivi: Pr (A e B) = O
Se A e B sono indipendenti:
Pr (A e B)= Pr (A)Pr (B)
Se non sono disgiunti:
Pr {A e B) = Pr (AiB) Pr (B)
Pr (A o B) = probabilit che si verifichi A o B oppure tutti e due. Se A e B sono mutuamente esclusivi:
Pr (A e B) = Pr (A) + Pr (B) Se non lo sono:
Pr (A o B) = Pr (A) + Pr (B) - Pr (A e B)
2.2. VARIABILI CASUALI
Definita una variabile, supponiamo "somma dei punteggi di due
dati lanciati contemporaneamente", possiamo studiare la probabilit
associata ai diversi valori che essa pu assumere.
La relazione per cui si assegna una certa probabilit ad ogni
valore che la variabile pu assumere rappresenta la distribuzione di
probabiit della variabile. La seguente tabella mostra la distribu-
zione di probabilit della variabile "somma dei punteggi di due dadi
lanciati contemporaneamente".
26 l l
DADO- l Dl\DO 2 SOMMA Dl\DO l DADO 2 SCMMA
l l 2 4 l 5
l 2 3 4 2 6
l 3 4 4 3 7
l 4 5 4 4 8
l 5 6 4 5 9
l 6 7 4 6 IO
2 l 3 5. l 6
2 2 . 4 5 2 7
2 3 5 5 3 8
2 4 6 5 4 9
2 5 7 5 5 IO i '~ 2 6 8 5 6 Il
3 l 4 6 l 7
3 2 5 6 2 8
3 3 6 6 3 9
3 4 7 6 4 IO
3 5 8 6 5 Il
3 6 9 6 6 12
EVENTO PROBABILITA' PROBABILITA 1 C~OSTO CUMULATIVA
(somma dei punteggi)
"2" 1/36 1/36
"3" 2/36 3/36
"4" 3/36 6/36
"5" 4/36 10/36
"6" 5/36 15/36
"7" . 6/36 21/36
"8" 5/36 26/36
"9" 4/36 30/36
"lO" 3/36 33/36
"11" 2/36 35/36
"12" 1/36 36/36
27
una variabile casuale una variabile ai cui valori associata
una probabilit.
ESEMPIO. Il punteggio "2" compare una volta in 36 possibili risultati
(probabilit: 1/36); il punteggio "6" (evento composto) compare 5 vol-
te (probabilit: 5/36); punteggi uguali o minori di 6 (evento compo-
sto di eventi composti) compaiono 15 volte (probabilit cumulativa:
15/36). Il punteggio "l" non compare mai {probabilit: Q); punteggi u-
guali o minori di 12 compaiono 36 volte (probabilit cumulativa:
36/36 = 1).
-A !;!Copo di esercizio si provi a costruire la distribuizione
di probabilit della variabile "prodotto dei punteggi di due dadi lan-
ciati contemporaneamente", completando la tabella seguente:
DADO 1
1
1
1
1
EVENTO COMPOSTO
(prodot.dei punteggi)
"2"
"3"
"4"
DADO 2
1
2
3
4
PR.BABILITA 1
1/36
2/36
2/36
....
. . . .
PRODOI'TO
1
2
3
PROBABILITA' CUMULATIVA
1/36
3/36
5/36
. ...
Analogamente a quanto visto per le distribuzioni di frequenza,
una distribuzione di probabilit pu essere descritta graficamente,
su un piano cartesiano, riportando sull'asse delle ascisse i valori
della variabile e sull'asse delle ordinate le probabilit o le proba-
bilit cumulative.
28
ESEMPIO. Riferendosi ai dati della tabella precedente, si ottengono i
grafici riportati nella fig. 2.1 e nella fig. 2.2.
Le variabili casuali sono dette "discrete" se, come nell'esem-
pio dei dadi sono indiv!duabili 2a 3, n. risultati distinti. Al
Umite, si pu anche avere un numero infinito di risultati distinti,
ad es. numeri interi divisibili per 7.
Le variabili casuali sono dette "continue" se possono assumere
qualsiasi valore compreso in un dato intervallo, ad es. tutti i va-
lori di statura compresi fra cm. 150.00000 e cm. 200.00000 In
questi casi, la distribuzione di probabilit viene costruita non sulla
base di tutti i singoli risultati, ma attraverso una funzione che as-
segna probabilit ad intervalli di valori della variabile. Cosi, nel
caso della statura, si pu valutare quale sia la probabilit di osser-
vare un soggetto di statura compresa fra cm. 169,5 e cm. 170,5, oppure
fra 169.99 e 170.01, etc. {il _che corrisponde a ciO che si fa misuran-
do). L'ampiezza degli intervalli pu diminuire al crescere della sen-
sibilit dello strumento usato. Se si costruiscono intervalli molto
stretti, in base a misurazioni molto precise, ad es. con 10 cifre si-gnificative, la probabilit che i soggetti cadano in simili intervalli
piuttosto bassa, tendente a O al diminuire dell'ampiezza dell'inter-
vallo. In conclusione anche quando la variabile misurata per sua na-
tura continua (come nel caso della statura), vengono di fatto utiliz-
zate misure di intervalli di questa variabile, e ad esse si assegnano
valori definiti di probabilit.
Nell'esame delle variabili casuali si introducono delle gran-
dezze che forniscono sinteticamente un'informazione sul comportamento
delle variabili, in termini di probabilit. Si tratta delle stesse
grandezze usate per descrivere le distribuzioni di frequenza, alle
quali viene ora assegnato un significato pi complesso.
La media aritmetica rappresenta il valore "atteso" di una va-
riabile casuale. In termini intuitivi, nel caso di una distribuzione
di probabilit gaussiana rappresenta il parametro di tendenza centra-
le, cio quel valore che rit~niamo pi probabile trovare quando effet-
29
tuiamo una prova (misura) , in quanto coincide anche con la moda (oltre
che con la mediana).
Meno intuitivo il caso di una distribuzione non gaussiana. L'attesa,
in generale, quel valore tale per cui, chiamati ad attribuire un
valore all'oscuro e giudicati in base all'entit dello scostamento dal
valore "vero", se usiamo la media, vinciamo.
Il valore medio di una variabile casuale discreta si calcola,
se x una variabile che assume valori x1
, x2
,
t P1
, P2
, P3 :
E (xl ... Z: >l'- 9''-'
ESEMPIO: Valore medio del lancio di un dado:
0.167 l = 0.167
0.167. 2 - 0.333 0.167 3 = 0.501
0.167. 4 = 0.668 0.167. 5 = 0,835 0.167. 6 = !,002 1.000 3.510
. . . . x n con probabili-
30
Nel caso di una variabile casuale continua la procedura non
cambia se non per il fatto che, data la natura dei dati si deve far '
ricorso al calcolo infinitesimale:
"' E (x) = /__ >< ... La varianza, che fornisce informazioni sulla dispersione di una
distribuzione, cio sulla distanza media dei valori della variabile
dalla loro media, consente di effettuare valutazioni sulla probabilit
associata a tal:1. valori nel caso di una gaussiana. La radice quadrata
della v,arianza la deviazione standard.
La varianza di una variabile aleatoria definita da:
2 E (x-E (x) )
sviluppo della formula vista nel paragrafo 1.3.2.
2 .. - 2/ s =t::. {x. - x) n '- , La distinzione tra il denominatore n e n-1 nel caso di una di-
stribuzione di probabilit diventa inutile dato che n effettivamente
infinito.
Nel caso di distribuzioni continue:
1.;"' t ()'" (>
31
d. gaussiana paramet~ir e l"
d. binomiale parametri n e !t
d. poissoniana parametro >.
d. log.normale parametri rrit e l>,.
Si riporteranno, infine, la distribuzione di probabilit dei
' valori della statistica t di Student e del Jt.
2.3. DISTRIBUZIONE BINOMIALE
La distribuzione binomiale si riferisce a variabili con due so-
li possibili valori (eventi dicotomici), del tipo "presente/assente".
Se in una popolazione costituita.da n elementi, n1 presentano una cer-
ta caratteristica C, e n2
non la presentano (n1
+ n2
=n), la probabi-
lit di osservare un elemento con C alla prima estrazione oppure sem-
pre, se consideriamo la reintroduzione, :
e la probabilit di trovare r elementi con c in n osservazioni data
da o
( ~) r n-r [ ] r p(r) "" r P (1-p) ""nl/r! (n-r) l p . (l-p) n-r
ESEMPIO:
La probabilit di ottenere 11 testa" lanciando una moneta p-0.5.
Qual-~ la probabilit, in 10 lanci, di ottenere O, 1, 2, 3, 4, S, 6,
7, 8, 9 e 10 teste? (In altre parole, calcolare la distribuzione di
probabilit della variabile "numero di teste in 10 lanci di moneta").
Si applica la formula suindicata; nel primo caso r=1, nel secondo
r==2 etc. n sempre uguale a 10, p e 1-p sono uguali a 0.5. L'espres-
sione nl significa "n fattoriale", cio n (n-1) (n-2)... 2 1.
Eseguendo i calcoli, si trova la seguente distribuzione di probabili-
t:
o l
2
3
p
0.001
0.010
0.044
0.117
r
4
5
6
7
32
p
0.205
0.246
0.205
0.117
r
8
9
IO
p
0.044
0.010
0.001
Se p c 1-p = 0.5, come nell'esempio considerato, la distribu-zione binomiale simmetrica. Se p) 0.5 oppure p< 0.5, la distribu-
zione asimmetrica, ma tende alla simmetria al crescere di n.
Applicazioni della distribuzione binomiale verranno esaminate
nel cap.S sui test statistici. Per ora consideriamo solo le procedure
per calcolare media e varianza. Queste misure sono i parameti della
binomiale quando la si pu approssimare ad una gaussiana, cio quan-
do pn>5 e/o p ";l! (l -p).
Questa distribuzione, dato un particolare n, simmetrica se
p = 1/2 e se, dato un particolare valore di p, cresce il valore di n. Media: jA = E(x) = z-x:~f..:."" np
't. L 2 2 varianza: l= E(x-E(x)) = E(x -r> = np(l-i'p) Nell'esempio prec~~dente,f
33
"numero di tumori pol.monari comparsi in un tempo in una popolazione",
"nUDlero di pezzi difettosi prodotti in un tempo in un'industria".
In ognuna di queste situazioni il modello contempla degli eventi di-
stribuiti a caso con densit per unit di lungl)ezza (area, volume
0 tempo); il numero di eventi trovati in un certo spazio di osser-
vazione (superficie, volume o tempo) seguir la distribuzione di Pois-
son con parametro oppure A
' " t
Nella distribuzione di Poisson, la probabilit di trovare r
eventi in 00 prove data da: , -r
p(r} = r e /rl dove: e la base dei logaritmi naturali,,.. , la me-dia, uguale a np.
La varianza di una distribuzione di Poisson uguale alla me-
dia.
ESEMPIO: In una popolazione un tipo di tumore ha un'incidenza di
1/tci5 per anno. In un gruppo di addetti a una lavorazione, costituito
da 1. 000 persone, compaiono due casi di questo tumore in 10 anni. Ci
si chiede qual la probabilit di osservare 2 eventi dove se ne
aspetterebbero (1/105 ) 104 = 0.1 (104 dato dal prodotto di 1.000 persone per 10 anni; si tratta pertanto di 10.000 persone anno).
2 ~O.i. p(2) = 0.1 e /21 = 0.0045 Analogamente a quanto visto per la distribuzione binomiale, si
possono costruire distribuzioni di probabilit basate sulla poissonia-
na per calcolare le probabilit associate alla com~arsa di 1,2, DQ
eventi in un certo spazio di osservazione.
2. 5. LA DISTRIBUZIONE NORMALE
La distribuzione normale, o di Gauss, descrive il comportamen-
to di vriabili casuali continue sulle quali operano contemporaneamen-
te diverse fonti di variazioni, ciascuna con eguale influenza, positi-
va o negativa e operanti indipendentemente l'una dall'altra.
34
Segue la distribuzione normale la variabile "misure ripetute di
una stessa grandezza": se si misura uno stesso individuo unit con lo
stesso strumento e lo stesso metodo molte volte consecutive, i dati si
disporranno intorno alla loro media secondo una curva detta "a campa-
na", dove la probabilit di un valore decresce simmetricamente allon-
tanandosi dalla media verso i valori alti e verso i valori bassi. La
deviazione standard rappresenta nella distribuzione normale l~ distan-
za fra la media e il punto di flesso della curva, come mostrato nella
figura 2.3. Media e deviazione standard rappresentano i parametri del-
la distribuzione.
La distribuzione normale seguita da diverse variabili di in-
teresse biologico, per esempio le variabili antropometriche, come la
statura, che SOno l.rifluenzat contenlporaneamerite da fattori genetici,
ambientali, alimentari etc., tendono a distribuirsi nelle popolazioni
secondo la curva di Gauss.
Dato che la distribuzione normale si riferisce a variabili con-
tinue, le probabilit vengono riferite a intervalli di valori della
variabile. La probabilit associata ad es. allo intervallo compreso
fra i valori x1
e x2
si calcola come differenza fra 1 e la somma
delle probabilit associate agli intervalli da - oo a x1
e da x2
a
+00 (vedi fig. 2.4); cio:
Queste vengono ricavate attraverso la formula:
Nella pratica, sono disponibili tavole che forniscono diretta-
mente tali valori, Per utilizzare queste tavole, occorre in primo luo-
go trasformare la variabile originaria x nella sua "deviata normale
standardizzata":
35
dover la media e ()' la deviazione standard della distribuzione.
La trasformazione consiste in una traslazione dell'asse y e nel cam-
biamento della scala di misura, per cui la nuova variabile z ha media
o e deviazione standard 1. Le tavole della distribuzione normale so-
no riportate in Appendice (tavola 1).
La fig. 2.3 mostra una distribuzione normale relativa a una
variabile x e alla sua deviata normale standardizzata z.
ESEMPIO
Si ha una distribuzione normale con media 110 e deviazione
standard 12. Qual' la probabifit di trovare un valore maggiore di
130?
Si calcola il valore di z corrispondente a x= 130:
z = (130-110)/12 = 20/12 = 1.67
In base alle tavole, se z = 1.67, la probabilit di un valore maggiore o uguale p = 0.048.
Se la domanda fosse stata: qual' la probabilit di trovare un valore
compreso fra 125 e 130 (vedi fig. 2.5), si sarebbero calcolati i valo-
ri di z corrispondenti ai due valori:
z 130 == 1.67
z 125 = 1.25
La probabilit associata all'intervallo da-~ a 125 :
1 - 0.106 = 0.894;
e quella associata all'intervallo da 130 a+~ : 0.048.
Quindi la probabilit' che z cada tra 1.25 e 1.67 :
p(125,130) = 1- (0.896 + 0.048) == 0.058
Dal punto di vista operativo, utilizzando la Tavola 1 allegata;
quando i 2 valori si trovano entrambi a destra o a sinistra della me-
dia, si pu direttamente fare la sottrazione delle probabilit asso-
ciate ai valori di z.
p(130) = 0.048; p(125) = 0.106
36
la _probabilit di trovare valori compresi tra 125 e 130 di 0.058,
cio del 5.8%.
p(125-130) 0.106- 0.048. 0.058
, ESEMPIO
A partire dalla distribuzione dell 1 esempio precedente, qual
la probabilit di trovare un valore compreso fra 100 e 120? (Vedi
fig. 2.6).
z100 = -0.83 p (100) 0.203
0.83 p(120) 0.203
p(100-120) 1- (0.203 + 0.203) 0.594
La probabilit dei val.ori compresi fra 100 e 120 di 0.594, cio del
59.4%.
Osservando le tavole si nota che nella regione compresa fra la
media e +1 deviazione standard (z = 1) compreso il 34.1 + 34.1 =
= 68.2% della distribuzione. Fra la media e + 2 deviazioni standard compreso il 95.4% delle osservazioni, fra la media e + 3 deviazioni standard il 99.8%.
La conoscenza della distribuzione normale permette di calcolare
la probabilit di valori appartenenti a distribuzioni in accordo con
essa. E' ad esempio molto importante che diverse "statistiche", come
il valer medio aritmetico di un gruppo di dati, la proporzione di sog-
getti con una caratteristica, il coefficiente di regressione e altre,
seguano la distribuzione normale, anche se le variabili originarie cui
37
esse si riferiscono non la seguono. Le applicazioni di questo fatto
risulteranno chiare nel cap.3 sulla stima dei parametri e nel cap. 5
sui test statistici,
~ 2.6. DISTRIBUZIONE DI l
Abbiamo visto che z la deviata standardizzata corrispondente
alla variabile x trasformata, cio:
e che ad essa associata una distribuzione di probabilit tabulata
nella Tavola 1.
Consideriamo ora la variabile casuale:
osserveremo che essa sempre non negativa e che segue una distribu-<
zione comunemente chiauiata 'X.. con un grado di libert (1 gl), tabulata nella prima riga della Tavola 4.
L'attesa (il valore medio) di questa distribuzione :
e la varianza : 2.
Siano x1
e x2
due osservazioni indipendenti della variabiJ.e
casuale x; possiamo considerare una seconda variabile casuale:
'Xt =(x,.,..)~ ("-t~)' t ~' + ~<
t Questa variabile segue una distribuzione nota come 7( con 2 gl,
a t necessariamente non negativa e tabulata nella 2 riga della Tavola 4.
c La variabile?( la somma di 2 osservazioni indipendenti quindi
L il suo valore medio :
38
Nello stesso modo per un campione di n osservazioni indipenden-
ti:
con:'E-(X1n.) =n, la variabile segue una
t distribuzione X.. con n gl.
. 2 La distribuzione di X. con 1 gl presenta una forte asimmetria
positiva. L'asimmetria tende a diminuire nelle curve con un n~ero via
via maggiore di gl, e le curve si avvicinano alla distribuzione no~&-
le.
La varianza, in generale, 2 gl.
2. 1. LA DISTRIBUZIONE t DI STUDENT
2 Le distribuzicmi _!, come quelle del X , formano una famiglia i
cui elementi sono contraddistinti dal valore dei gradi di libert
(gl) o
La variabile .! si ottiene quando, data una variabile x con di-stribuzione normale, media t" e varianza incognita, si usa la trasfor-ma'zione:
dove s una stima (ottenuta dal campione in esame} della deviazione
standard G' (incognita) della popolazione, indipendente da x. La forma della distribuzione sempre simmetrica e differisce
dalla curva normale per una pi accentuata concavit in corrispondenza
dei punti di flesso.
La variabile t segue una distribuzione simile a quella di z a
condizione che il numero dei gl sia sufficientemente grande, dato che
in questo caso s una buona stima di ~. per effetto del campionamen-
te.
Per gl comunque superiori a 30, t si avvicina molto alla di-
stribuzione normale standardizzata (z) .
Per gl =o" OC i valori tabulati coincidono con quelli della di-
stribuzione z.
p(>') "fy.
~
'Yl'
'W.
'fy.
~
o " .. c; FIG'-' .... H
IO 12 x
Ol~rAt&""l.to..,e; ... f'otoe,.#fi,&\LI r~>o"
b iO,+ 2 0,?> e ~,, - ' .. ~ 0,1 i o
- -1
39
p(x.)
!!'o/ ~~o !P/Y.
24jl1>$ ""'"""""T'hl ... di Pllo~l.~r~r.. ~
Variabile originaria, x
_, o 1 3
fiGU .... 2.3 La Pl,.iA.I.&U~""'- HOA.rtA.Uio
40
x2 x x Figuro 2.
41
3. POPOLAZIONE E CAMPIONE
3.1. PREMESSA
Una popolazione viene intesa come l'insieme di tutte le possibili
osservazioni relative ad una variabile; me~tre un campione uno dei possi-
bili sottoinsiemi delle possibili osservazioni di individui della popola-
zione come si evidenzia dalla fig. 3.1.
Per gli aspetti tecnici della procedura di campionamento (tipi di
campioni, numerosit etc.) si rimanda al paragrafo 3.2. Qui si vogliono
sottolineare i seguenti 2 punti:
l) il diverso ruolo della procedura di campionamento nella interpretazione
dei risultati a seconda che si segue una impostazione "frequentista" o
una "soggetti va" ;
2) la distinzione tra un campionamento effettivo e uno simulato.
Per quanto riguarda il primo punto secondo la concezione "soggetti-
va" le informazioni disponibili a priori sul fenomeno in esame hanno un
ruolo essenziale sia nella progettazione dell'indagine sia nella interpre-
tazione dei risultati. Infatti un buon piano di campionamento deve essere
definito in relazione sia al fenomeno in esame sia alle informazioni su di
esso disponibili e non bisogna affidarsi semplicemente ad una casualizza-
zione generale.
Le informazioni non sperimentali giocano, inoltre, un ruolo essen-
ziale nella interpretazione dei risultati e questo ruolo tanto pi grande
quanto pi conosciuto il fenomeno. Solo nel caso in cui quest'ultimo
sconosciuto si accetta una conclusione induttiva in cui, cio, il grosso
della informazione disponibile rappresentata dal campione in esame.
Nella concezione frequentista, invece, se si accetta un ruolo delle
informazi~ni a priori nell'impostazione dell'indagine, esse non giocano
pi alcun ruolo nella interpretazione dei risultati, almeno da un punto di
vista puramente matematico (risultati, livelli di significativit). I ri-
sultati ottenuti dal campione vengono estesi alla popolazione {da cui . .
42
tratto il campione stesso) e la loro attendibilit basata solo su di un
corretto piano di campionamento e sull'errore campionario comunque sempre
associato ad ogni misura effettuata su un campione di osservazioni.
Anche nella metodologia di tale scuola, comunque, vengono fatte del-
le scelte, non esplicitate, che equivalgono ad opzioni soggettive e che,
consentono di risolvere problemi, dal punto di vista matematico, che altri-
menti resterebbero senza soluzioni (indeterminati).
Un esempio di tali scelte l'affermazione: "Due eventi de~lo stesso
tipo in identiche condizioni per tutte le circostanze rilevanti sono'
uguali' ed hanno quindi necessariamente la stessa probabilit'".
E' evidente che questa una scelta che rende possibile la tratta-
zione con matematica elementare dei dati, infatti due eventi distinti sono
sempre diversi tra loro per infinite circostanze ed essi sono egualmente
probabili (per noi) se e poich giudichiamo che le differenze riscontrabili
fra di loro non influiscono sul nostro giudizio. (Rif. bibl. De Finetti B.
Teoria della probabilit. Sintesi introduttiva con appendice critica. Tori-
no, G. Einaudi 1970) .
In entrambe le impostazioni, comunque, l'aumentare della numerosit
del campione migliora il procesSo di conoscenza della popolazione di
partenza.
Per quanto riguarda il secondo punto c' da osservare che spesso
nelle applicazioni della statistica medica le "popolazioni" sono definite
in modo del tutto astratto come ad esempio "la popolazione degli infortuni
sul lavoro" e spesso non esiste nessuna reale "estrazione" di un campione
da tale popolazione. In realt quando lavoriamo sui dati ricavati da 6
operai infortunati sul lavoro noi non abbiamo estratto nessun campione, ma
abbiamo eseguito una osservazione e questa viene considerata come un
campione delle infinite osservazioni a priori possibili di "numero di
operai infortunati sul lavoro".
,Anche questa scelta (considerare campione random una osservazione)
motivata dal fatto di semplificare le procedure di calcolo e di poter
applicare la teoria probabilistica.
Sintetizzando: il campionamento pu essere:
Effettivo Tecniche per studiare una popolazione REALE considerando solo
una data proporzione dei suoi individui (campioni random, stra-
tificati, etc.).
43
Trattamento dei dati relativi ad una popolazione unica anche se
non bene definita COME SE tali dati di riferissero ad una prova
aell 'interno di un gran numero di PROVE RIPEI'UTE per poter fru.!_
re delle procedure di calcolo offerte dalla teoria campionaria.
I paragrafi che seguono cercheranno di chiarire gli aspetti tecnici
della procedura di campionamento, i principi su cui si basa la teoria cam-
tr~ia e come essa venga utilizzata nelle procedure di stima intervallare.
fi, .
~3.2. INCHIESTE E CAMPIONl\MENrO 1. Perch fare un'inchiesta?
Avete una domanda a cui rispondere e non c' !lOdo migliore per ottenere
l'informazione. Un'inchiesta comporta roolto lavoro e non dovrebbe mai
essere usata quando l'informazione puO essere meglio ottenuta altri-
menti.
2. Quali sono i due tipi di inchiesta?
~l.
a. censimento - ogni elemento della popolazione viene incluso.
b. Inchiesta campionaria - solo una porzione della popol. azione bersa-
glio viene selezionata.
cosa si intende per campionamento?
Una procedura mediante la quale alcuni membri di una popolazione vengono
selezionati come rappresentativi dell'intera popolazione. L'obiettivo
di fare osservazioni o misure su questi membri e trarre conclusioni ri-
guardanti l'intera popolazione.
Il campionamento non la mera selezione e indagine di una porzione dei
membri di una poPJlazione come un sostitutivo per tutti i membri. E', in-
vece, l'applicazione della teoria delle probabilit per acquisire un di-
mostrabile grado di affidabilit o protezione, e fare ci al minimo co-
sto.
44
4. Quali sono i vantaggi del campionamento?
a. Vantaggio principale - Ci permette di conoscere qualcosa di una
grande popolazione con bassi costi e in minor tempo.
b. Consente una misura dell'entit dell'errore introdotto con il no-
stro processo di campio~amenta.
E' vero che o~ni stima ottenuta da un campione soggetta ad errore.
Comunque, anche vero che usualmente ogni stima ottenuta da un'in-
tera popolazione anche soggetta a errori (di misura o mancate ri-
sposte.
c. Usualmente permette di ottenere un'informazione pi accurata.
Con pochi affidabili investigatori addestrati che lavorano su un
campione della popolazione, appropriamente selezionato, noi'possiamo
usualmente ottenere un'informazione pi accurata di quanto sarebbe
possibile con un pi grande numero di investigatori meno addestrati
che lavorassero su tutti gli individui della popolazione. L' espe-
rienza ha mostrato che con sufficienti risorse concentrate su un
relativamente pi piccolo campione l'aumento dell'errore campionario
dovuto alla limitatezza del campione pu essere pi che compensato
dalla riduzione di altre sorgenti di errore come la mancata risposta
o cattive misure.
d. Fornisce informazioni altrimenti impossibili da ottenere.
S. Quali sono i criteri per un buon piano di campionamento?
a. Il pi alto grado di precisione per i fondi disponibili (efficienza)
b.. Specificare 1 1 entit dell'errore campionario che siete disposti ad
. accettare (vedi paragrafi seguenti) in modo tale che sia possibile
in seguito calcolare l'errore campionario. Questo possibile solo
quando il campione progettato secondo definite procedure statisti-
che.
c. Considerare la grandezza degli errori per altre cause e provvedere
per essi.
d. Lo schema del campionamento deve essere attuabile. La teoria del
campionamento e la pratica devono essere compatibili.
45
6. cosa determina la dimensione del campione?
La dimensione del campione deve essere sufficiente per realizzare lo
scopo ma non dovrebbe essere pi grande del necessario o diventa !nu-
ti! e.
I seguenti criteri determinano la dimensione del campione:
a. Il livello di confidenza e la precisione desiderata
b. La variabilit della caratteristica"nella popolazione bersaglio -
se sconosciuta, dovete assumere la pi grande variabilit compatibi-
le con il fenomeno in esame.
c. La numerosit della popolazione bersaglio.
La seguente formula pu essere usata nella determinazione della grandez-
za del campione, qualora si sia interessati ad una variabile del tip:>
presente/assente:
n "" t2pq
d2
dove n = prima stima della dimensione del campione
Quindi --'n'----nf= l + n
N
dove
t = livello di confidenza (per il 95% usate
1.96; vedi par. seg.
d= precisione (.05 o .10 usualmente)
p = proporzione di individui nella popolazione
bersaglio oon le caratteristiche da misura-
re (se sconosciuto porre p= 0.5}.
q = l - p
= dimensione finale del campione
= dimensione della popolazione bersaglio
Quindi nf deve essere verificato per vedere se consistente oon le ri-
sorse disponibili per ottenere il campione. Questo richiede una previ-
sione dei costi, del lavoro, del tempo e dei materiali necessari per
ottenere la dimensione del campione proposta. Talvolta succede che nf
deve essere drasticamente ridotto. Se ci avviene, deve essere presa una
difficile decisione - se procedere con una pi piccola dimensione del
campione, riducendo cosi la precisione, o ahbanadonare il lavoro finch
si rendapo disponibili pi risorse.
Se la variabile di tipo continuo si stimano le dimensioni del campione
in funzione della grandezza dell 1 errore standard accettabile: {)~ < ~ oppure: 1'\. > 2.0"'1./t.'l..
46
per altre procedure (ad es. differenze fra medie) si rimanda ad Armita-
ge, pagg. 184-186.
7. Quali sono i tre tipi base di campioni?
a. Il campionamento probabilistico l 'uso della teoria statistica per
progettare un '.indagine sperimentale. E' questo un modo di campionare
non viziato e ci permette di trarre valide conclusioni sulla
popolazione da cui il nostro campione stato estratto.
b. Il campionamento soggettivo (valutazione) la selezione di un cam-
pione basata su valutazioni e sulla conoscenza del materiale (qual-
cuno che sa) Questo tipo di campionamento viziato ed general-
mente usato quando non c' tempo per definire un campione probabi-
listico.
c. Il campionamento conveniente l 'uso di un campione che a portata
di mano ed viziato. Inchieste di argomento politico realizzate
per strada sono campioni convenienti. Inchieste telefoniche possono
essere campioni coilvenienti poich qualcuno pu non avere il tele-
fono mentre altri possono avere numeri telefonici non segnati.
8. Quali metodi probabilistici vengono frequentemente usati nella selezione
di campioni?
a. Campionamento random semplice - questo metodo d ad ogni membro
della popolazione una uquale probabilit di essere incluoo nel cam-
pione. Non c' controllo della distribuzione del campione e qualche
campione potr avere una cattiva distribuzione geografica (non vi-
ziato ma non rappresentativo}.
Perci, il pi delle volte non tanto desiderabile e possono essere
esequite alcune variazioni e miglioramenti per aumentare la preci-
sione del campione. n principio del campionamento random semplice la base di tutte le buone tecniche di campionamento e viene uti-
lizzato in molte tecniche pi specializzate.
b. Campionamento sistematico - questa tecnica spesso usata quando gli
elementi possono essere ordinati o elencati in qualche modo. E'
assicurata una buona distribuzione geografica (secondo la densit)
ed un facile metodo da applicare. Questo metodo probabilmente
il pi popolare tra coloro che si interessano di sanit pubblica.
i
l
c.
47
va fatta attenzione alla eventuale esistenza di ciclicit nella
popolazione coerenti con il passo di selezione.
campionamento stratificato - la popolazione viene classificata in a-
deguate sub-popolazioni o strati. Ciascuno strato dovrebbe essere o-
mogeneo all 1 interno ed eterogeneo con gli altri strati. Ciascun
sottogruppo pi accuratamente rappresentato e l'errore campionario
ridotto. Stime separate possono essere richieste da ciascuno stra-
to dovute a differenti problemi di campo oppure possono essere con-
siderati campioni proporzionali da ciascuno strato. Questo metodo
viene usato frequentemente nelle inchieste sullo stato immunit~io,
inchieste ambientali, etc.
d. campionamento a multistadi - necessario per inchieste su grande sca-
la dove una lista delle unit del campione finale sarebbe troppo
grande. Un esempio la selezione di unit di abitazioni in una
grande area metropolitana.
e. Campionamento a multifasi - usato per ottenere informazioni supple-
mentari. Alcune informazioni vengono acquis te da un sub-campione.
Un esempio una inchiesta sullo stato immunitario per cui utile
acquisire ulteriori informazioni in un sub-campione.
f. Campionamento per area - un metodo a griglia usato, ad es., per
il conteggio di mosche, etc.
9. guali materiali sono necessari nella programmazione di un'inchiesta cam-
pionaria?
a. Mappe di tutte le aree dell'inchiesta con strade ben definite, aree
senza case, aree di negozi ed, altri dettagli utili.
b. Dati completi dal censimento pi recente per avere un'idea di ci che ci aspetta riguardo le abitazJ.oni, l'educazione, etc. (se di-
sponibile}.
c. Buona conoscenza di ogni cambiamento che pu essere avvenuto dal-
l'ultimo censimento.
48
Molto di ci che necessario pu essere difficile da ottenere, in tal
caso necessario un lavoro di campo preliminare (per esempio, si
possono contare le abitazioni nell'area d 1 inchiesta, se tale dato non
disponibile).
10 . Quali sono le migliori tecniche da usare nel raccogliere dati in una
!richiesta?
a. Inchiesta con intervista o con questionario.
b. Inchiesta osservazionale - Siete limitati a ci che potete vedere.
c. Inchiesta con intervista ed osservazione - Il metodo pi popolare
usato per scopi di sanit pubblica.
d. Inchiesta osservazionale sperimentale - L 1 ambiente viene , trattato
finchi non Viene rggii.mto un effetto osservabile - usato estensi-
v'ainente in agricoltura.
11. Come deve essere realizzata una buona scheda per un'inchiesta?
a. Dovrebbe essere la pi semplice possibile e facile da codificare.
b. Porre alcune domande preliminari per mettere l'intervistato a suo
agio
c. Raccogliere 1 1 informazione necessaria e non dilungarsi troppo.
d. Tre tipi di domande sono frequentemente usate:
(l) Scelta multipla - sono date molte differenti risposte e solo una
accettabile. Sono variazioni ~o schema vero/Falso" e la gra-
duazione di giudizio.
(2) eompietamento della frase o risposta libera - La risposta viene
scritta come viene data dal rispondente. Le variazioni sono del
tipo "riempi lo spazio bianco" o "completa la frase".
(3) Domande filtro - Programmate per filtrare le necessarie informa-
zioni. Sono di due tipi: (i) Domande sondaggio- Se l'intervistato risponde ad una doman-
da in un certo modo, si richiedono altre informazioni.
(ii) Intensit di opinione - Si tenta di misurare le emozioni di
una persona: a una particolare risposta si richiede il per-
ch di tale atteggiamento.
'
49
12 come possibile ottenere informazioni accurate usando la tecnica del-
l' intervista?
a. Le domande devono essere verificate sul campo per assicurarsi cQe
l'intervistato le capisca - deve essere usata la terminologia loca-
le.
b. Eliminando per quanto possibile domande dolorose o imbarazzanti.
c. Ponendo le domande allo stesso ~odo'ogni volta.
d. Permettendo all'intervistato una uguale possibilit di dite si o no.
e. Analizzando periodicamente i risultati rispetto all'accora-
tezza includendo elementi conosciuti o provando su elementi non co-
nosciuti.
f. Randomizzando l'assegnazione delle aree per eliminare l'errore dovu-
to agli intervistatori.
13. Chi dovrebbe essere usato come intervistatore?
Personale addestrato. Esperti nel campo rappresentano l'ideale ma altri
possono essere addestrati in modo intensivo per un breve periodo cosi
che possano fare un lavoro adeguato. Gli intervistatori devono essere
posti sotto il pieno controllo del coordinatore dell'inchiesta. Nella
. maggior parte delle inchieste necessario un lavoro serale (per i ri-
' chiami) e qQesto il problema pi rilevante quando vengoAO usati dei
volontari
14. Come i risultati possono essere al meglio tabulati e analizzati?
a. Tabulazione manuale - per numero limitato di schede (fino a 100)
b. Tabulazione meccanica - per grandi numeri di schede precodificate
o schede perforate.
c. L'interpretazione dei dati usualmente semplice in quanto la mag-
gior parte di essi viene interpretata nella forma di proporzioni o
percentuali.
Talvolta potete desiderare fare analisi pi sofisticate, etc.,
in tal caso avrete bisogno probabilmente di uno statistico per que-
sti pi complicati tipi di analisi.
50
15. gua:le procedura sistematica dovrebbe essere eseguita nel pianificare e
realizzare una inchiesta campionaria?
a. Definendo lo scopo e le necessit per una inchiesta.
b. Definendo la popolazione bersaglio.
c. Decidendo la dimensione del campione e il metodo di campionamento da
usare.
d. Selezionaodo il campione.
e. Sviluppando, provando sul campo e revisionando il questionario.
f. Addestrando gli intervistatori a condurre il lavoro sul campo.
g. Verificando tutte le schede dell'intervista rispetto alla codifica-
zione appropriata.
h. Tabulando e analizzando i risultati.
i. Usando i ri~ultati ottenuti. Essi non sono la fine del lavoro ma por-
tano alla fine del lavoro.
16. Quali sono alcuni dei comuni difetti trovati in molte inchieste?
'
a. L'uso dei metodi di campionamento non probabil.istici - Questi meto-
di non corretti sono usualmente meno impegnativi da applicare e pos-
sono essere frequentemente di valore pratico sebbene l'accuratezza
discutibile. Questi sono i metodi usati quasi esclusivalente da
organizzazioni per ricerche di mercato e da coloro che sondano gli
orientamenti elettorali nella popolazione.
b. L'uso di domande dolorose o imbarazzanti.
c. L'uso d1 domande fuorvianti o ambigue.
d. Incapacit a mantenere vivo l'interesse o a stabilire un rapporto
con l'intervistato.
e. Procedure di controllo difettose o limitate - Una persona dovrebbe
avere la piena responsabilit per l'indagine.
f. Tabulazioni e/o analisi poco accurate o superficiali.
g. Risultati non usati.
'
51
3,3. Stime intervallari
Si consideri il campione l formato da n elementi estratti a caso da
' una popolazione ben definita con media/"' e varianza 1r; da questo campione - ' si otterr una media x 4 e una varianza S 1 (stime puntuali) che possono diffe-
rire daJ- e ~~(cio essere affette da un errore) per 2 ordini di motivi:
1) il campione non rappresentativo della popolazione ed pertanto
affetto da una distorsione;
2) il campione non distorto, ma operano variazioni casuali.
Supponiamo di riuscire a scegliere campioni rappresentativi della
popolazione in base a quanto detto nel paragrafo precedente e consideriamo
il campione 2
ch'essi dar
sempre di
' e !l'" oltre n elementi. - 2 I valori di Xz. e Sz differiscono an-
in quanto le stime dei 2 parametri
cambiano da campione a campione se si ripete il campionamento all'interno
della stessa popolazione con il reinserimento degli elementi via via con-
siderati.
I valori della statistica X ricavati da tutti i possibili campioni
di n elementi della popolazione saranno distribuiti intorno ad un valore
centrale, con una certa dispersione intorno ad esso. Si dimostra che que-
sta distribuzione, nel caso di X, normale, anche se la variabile di par-
tenza non lo e che: E(i)=f', cio che la media della distribuzione delle
medie campionarie coincide r:::on la media delle misure individuali della
popolazione.
In :nodo analoqo (cio con il campionamento ripetuto) c;i oossono
:ostruire le distribuzioni di frequenza della statistica 'S2.o di una propor-
zione o ancora di un tasso.
Si definisce 'lnd proporzione il rapporto p=r/n, cio la frequenza
.Jsservata di rilievi positivi (r) sull'intera serie (n) di osservazioni,
1n altre parole assa la fr~quenza relativa delle osservazioni che pre-
_:entano la caratteristica in esame; vedi par. 2.3
.Oi definisce tasso, invece, il rapporto fra il numero di soqgetti
.. ~e a.cquista.no la caratteristica in F"same in un intervallo di tempo, e
-L ~)rodotto della DOpolazione "a rischio" di sperimentare l'evento ~er
~l tempo di osservazione (per 1m .'lpprofondimento si Jedano i camuni testi
li ~pidAmiologia).
52
E' importante conoscere la distribuzione campionaria delle statisti-
che dato che esse permettono di calcolare il grado di incertezza che il
solo fatto di lavorare su di un campione conferisce al parametro in studio.
Si gi detto che il parametro allo studio ha anche una sua disper-
sione intorno alla media e questa variabilit sar:
a). tanto pi. grande quanto pi grande la variabilit della variabile
originaria {cio tanto pi grande a-1 ); b) tanto pi piccola quanto pi grande la numerosi t, n, del campione
fino a divenire zero quando la numerosit del campione coincide con la
numerosit della ~polazione.
ESEMPIO .Distri~zione campionaria di x
' ' !4----
SE(il=Jk
E' chiaro quindi che la teoria campionaria permette di trarre infe-
renze riguardanti i parametri veri della popolazione senza limitarsi ad un
unico valore del parametro registrato su un singolo campione.
Il parametro vero della popolazione pu essere molto vicino a quel-
lo stimato (calcolato) sul campione oppure pu essere totalmente diverso.
53
Questo conc~tto pu essere espresso in termini di: "probabilit" che
il parametro vero giaccia in un dato intervallo (intervallo di confidenza)
centrato sul parametro stimato". Se questa probabilit aumenta, quindi di-
minuisce la probabilitA di c~nmettere un errore nel fare questa affermazio-
ne, gli estremi dell'intervallo di confidenza (limiti di confidenza) si di-latano, rendendo meno informativo il dato; quindi necessario trovare un
comnromesso nPr cui si abbiano intervalli ragionevolmente ristrett" ~l!f lf/- l. con una
probabilit4 eli errore accettabile. Questa probabilit d'e::rore viene defi-
nita "o4." e f:t.ssata a un livello prestabilito, ad Qs. ~'\ 0 1\. Un intervallo di confidenza cui associata una probabilit d'errore J ,. o os ad ese .
rl\ mp1.o, ----un interVAllo ri.s,Petto al quale riteniamo di sbagliarE! non pi di 5 volte
su 100 se affermiamo che eso contiene il parametro da stimare.
I paragrafi chrJ S(l(juono trattano alcuni metodi per il calcolo del-
l'intervallo di confidenza di alcuni dei parametri pi usati.
3.3.1. stima intervallare di una media
Se la distribuzione della variabile originaria x normale e di essa
si conosce 17'"1.la stima intervallare di/"' data da:
Se~~ 0.05 allora~
1 due valori, cosl calcolati, rappresentano i due estremi delt'in-
tervall..o di confidenza al 95\1 esSi sono siliJlletrici rispetto a )(. e, dato
che (j'- e n sono noti, possono essere calcolati a partire dai dati di un
campione. A questo intervallo associata una probabilit di , 0 95 (95 ,)
di comprendere )l".
Se della distribuzione
intervallare di fA- data da: di x non si conosce a'f invece, la stima
54
ad eso:
pero\= 0.05 e gl = 19 t = 2.093 e
x + 2.073 . =tln N.B. gl=Y = n-1
ESEMPIO
Si abbia una serie di osseryazioni relative all'et di 61 addetti
ad una particolare lavorazione:
x "" 38.08 anni
s = 9.6
x + t - IOO,o .:otS . (w;
38.08 + 2.00 . 9.6/ '{61;
.. 35.62 38.08 + 2.46 =,40.54
3.3.2. Stima intervallare di una varianza
Sia *io?.. la stima puntuale della varianza in un campione casuale di
dimensione n; fissato il livello di confidenza voluto DI., i limiti fidu-
cia!! della varianza sono dati da:
lim.sup . : lim.inf.:("'~i) ~'1.. 7\~-, -
'"
56
Se si hanno r soggetti con la caratteristica in esame su un totale
di n soggetti/
p= n r
l - p = n - r
n
La stima intervallae di 7r data da:
Stima al 95% (l-p)
n
Stima al 99% p + 2. 57~ {l-p) - n
Ad es. la stima intervallare della proporzione 28/200 data da:
0.14 + 1.96 0.14 x 0.86
200 (0.09- 0.19, cio 9%- 19%}.
e la stima al 99% data da 0.14 + 2.576
{0.08- 0.20, cio 8%- 20%}.
3.3.4. Stima intervallare di un tasso
a) CAMPIONI PICCOLI
0.14 x 0.86 200
I limiti degli intervalli di confidenza al 90%, 95%, 99% e 99.9%
riferiti al verificarsi di eventi rari, del tipo di quelli discussi a
proposito dei tassi di incidenza, sono stati calcolati impiegando la di-
stribuzione di Poisson, e tabulati (Tavola 3 ter). L'uso di queste tavole
57
se\.plice: si supponga di aver osservato 30 casi di un tipo di tumore
in una popolazione di un -6
milione di persone, in un anno. Il tasso d'in-
cidenza 30 x 10 per anno.
al 95%, (Allegato) 20.241 -
La stima intervallare ad -6
42. 827 x 10 per anno;
pi ampia, avendo come limiti 17.767 e 47,210
b) CAMPIONI GRANDI
essa associata,
la stima al 99%
I limi ti fiducia!! presentati nella tabella allegata sono stati
calcolati per numeri di eventi osservati non superiori a 200. Per numero-
sit (n) maggiori si suggerisce l'uso di una formula approssimata:
stima al 95%
Stima al 99%
( 1.96 +-v 1.962
+ 4nY /4
2 + 4n,)2 /4 ( 2.576 :!:.V 2.576
Analogamente a quanto avviene nelle tavole per piccoli campioni (Tavola 3
ter) queste formule operano sul numeratore del tasso, ad es. l'intervallo
di confidenza associato a un tasso di incidenza di 500 casi in 40.000 per-
sone seguite per un anno (cio 12.5 x 10-3 per anno) pu essere stimato
calcolando in primo luogo:
limiti fiduciali di 500:
al 95% (1.96 +Vl.962
+ 2ooo'f /4 = 545.79 e 458.05
al 99% ( 2.576 + {2.5762
+ 2oo;y /4 = 561.01 e 445.62
e successivamente rapportando questi limiti al denominatore del tasso
t {40.000 persone per un anno): ' .
(13.64 x 10-3 x anno 14.02 x 10-3 x anno
11.45 x 10-3 x anno -3 11.14 x 10 x anno.
l
l N
~
" ~ 6 ... z. A
58
FIG. 3.1
c A n p l o N A n s
1 l
59
4. TEST STATISTICI E VERIFICA DI IPOTESI
4.1. DISTRIBUZIONE CAMPIONARIA
Associata ad ogni possibile risultato di un esperimento o ad
ogni possibile insieme di risultati la corrispondente probabilit
di occorrenza sotto una definita ipotesi, la distribuzione di pro-
babilit che si ottiene viene designata come:
DISTRIBUZIONE CAMPIONARIA
Tenendo conto della interpretazione della probabilit come
rapporto limite tra il numero di volte che si ottiene un certo risul-
tato e il numero delle prove (occasioni in cui esso pu verificarsi)
(il numero delle prove tende all'infinito), la distribuzione campio-
naria ha a che fare con il numero delle volte che ci si aspetta di
ottenere certi risultati se si effettuano moltissimi esperimenti.
In realt il ricercatore non ottiene mai una distribuzione cam-
pionaria, dal momento che realizza un solo esperimento o pochi espe-
rimenti; la conoscenza della distribuzione campionaria permette di
determinare la probabilit associata all'occorrenza del risultato di
.:ruello specifico esperimento.
La distribuzione campionaria si pu ottenere con procedimenti
.natematici deduttivi o attraverso processi di simulazione.
un approccio intuitivo alla distribuzione campionaria mostra-
co nella Fig. 4.1. Una serie di popolazioni differiscono per la pro-
[lorzione di individui che presentano la caratteristica 'x:' (ad .::s. ;Jn
:arattere controllato _?a un gene). Da ognuna di queste popolazioni
..ii pu immaginare di estrarre ripetutamente campioni 1 e misurare L n
cgnuno di essi . la proporzione di soggetti con la caratteristica in
'Same.
I :!"isultati :lell' 8same di questi campioni possono istribuir-
'1., .>d es . come.mostrato nella figura: se la proporzione di sogget-
60
ti con la caratteristica 'x' 0.4 (40%) nella popolazione, la maggior
parte dei campioni si disporranno into;"llo a quel valore e, in quanti-
t mdnori, wostreranno valori piU alti o pi bassi.
Quando si dispone dei risultati di un unico processo di campio-
namento, ad es. '0.3', ci si chiede da quale popolazione sia pi vero-
simile che tale campione provenga, date le possibili popolazioni ipo-
tizzate, con uri ragionamento analogo a quello precedente.
Nei para9rafi seguenti si esaminano alcuni esempi di distribu-
zioni campionarie, e se ne discutono le implicazioni.
4.2. ESEMPIO DI DISTRIBUZIONE CAMPIONARlA (CASO DISCRETO)
'Dalla distribuzione binomiale possibile calcolare quale la
probabilit di ottenere r volte testa su n lanci di una moneta, es-
sendo p la probabilit di avere testa in un lancio e q == 1 - p la
probabilit di avere croce, mediante la formula:
f(.r) = l~) r 1"\- r
f' 'j
Considerando l'esperimento:
Serie di 10 lanci di una moneta
Se p= q= 0.5 e l'esperimento condotto in modo adeguato, la
distribuzione campionaria la seguente:
61
Numero delle volte (r) in cui si ottiene testa probabilit
in 10 lanci (n = IO) p
o 0.001 l 0.010
2 0.044 '
3 0.117
4 a. 2os 5 0.246
6 0.205
7 o. 117 8 0.044
9 o. 010 IO 0.001
p = 1.000
Il ricercatore che ha programmato di condurre l 'esperimento
"Serie di 10 lanci di una moneta", ha uno scopo (ipotesi da verifica-
re) e si preoccupa di definire le corrette modalit di conduzione
dell'esperimento.
Sulla base del risultato dell'esperimento dovr prendere delle
decisioni.
Il ricercatore deve verificare se la moneta buona {p= 0.50),
oppure no, (p f O. 50) 1
e sa che non pu rischiare di sbagliare pi -ii
i:anto nel l 'affermare, .mlla base del risultato dell'esperimento, sia
che la moneta non buona, sia che la moneta buona, in quanto per
ogni errore doVr pagare un costo definito,
i::gli sa che le teorie statistiche (della stima o della valuta-
zione delle ipotesi) forniscono soluzioni nella forma di asserzioni
Jefinite che hanno 'ma conosciuta e controllabile ;>robabilit di es-
sere sb?-gliate.
' ,,
'i: "
l .,1 i
l
l ' '
62
4.3. I MOMENTI DELLA VERIFICA DELLE IPOTESI
l) Assumere i requisiti essenziali (scelta del modello e formulazione_
di ipotesi univoca);
2) ottenere (o assumere) la distribuizone campionaria della statisti-
ca rilevante;
3) scegliere il livello di significativit;
4) osservare la regione in cui cade la statistica;
5) decidere.
1) Assumere i requisiti essenziali
Il ricercatore deve dare per scontata o assumere 1 1 esistenza
di certi requisiti relativi all'universo al quale si riferiranno le
future generalizzazioni, e ai procedimenti adottati per la scelta del
campione.
Tali requisiti possono essere divisi in due classi:
A) Quelli della cui e'sistenza il ricercatore relativamente certo o
che comunque disposto a dare per scontato, tenendo conto della
correttezza della procedura sperimentale.
I requisiti di questa, classe costituiscono il MODELLO.
B) Quelli la cui esistenza relativamente dubbia.
I requisiti di questa classe costituiscono le IPOTESI.
Il test statistic? da usare deve essere appropriato al modello
e per un solo requisito la esistenza deve essere dubbia.
RISPETTO AL TEST STATISTICO
TU'ITI I REQUISITI HANNO LA STESSA IMPORI'ANZA
Nella realt, normalmente il ricercatore considera il requisito
costituente l'ipotesi, falso e quindi da rigettare, mentre
l'ipotesi alternativa l'ipotesi della ricerca (che si vuole di-
mostrare essere vera).
63
Chiameremo H0
(Ipotesi nulla) l' IPorESI E H1
l'alternativa (Ipo-
tesi alternativa)
2) ottenere (o assumere) la distribuzione caseionaria
Noto il modello e l'ipotesi nulla (H ) (cio l'insieme dei re-o
quisiti che il ricercatore assume) e qu2ndi scelto il test statistico
che compatibile con il modello, la statistica che possibile rica-
vare dai dati sperimentali ammette una distribuzione campionaria
teorica che indica le probabilit associate ai possibili valori che la
statistica stessa pu assumere, dato il modello e nell'ipotesi H . o
3) scegliere il livello di significativ