seconda unit. 2006 - unisal · title: microsoft word - seconda unit. 2006.doc author: ermanno...

14
15 SECONDA UNITA’ La rappresentazione grafica dei dati raccolti Quando si raccolgono le frequenze con cui compaiono i valori di una data variabile (o le modalità con cui si manifesta un certo carattere) è possibile rappresentarle oltre che mediante tabelle del tipo sopra riportato, anche tramite alcuni tipi di grafici o diagrammi. Questi servono a fornire una visione sintetica di come si presentano i dati raccolti. Tra le procedure adoperate per dare un ordine logico a una massa di dati non organizzati, in genere la prima consiste nel definire le distribuzioni di frequenze dei dati. Il passo successivo consiste nel rappresentare i dati graficamente, così che si possano subito cogliere le caratteristiche essenziali di una distribuzione di frequenze e confrontarle fra loro. Tali rappresentazioni non possono essere considerate come sostitutive dell’analisi statistica, ma piuttosto come un aiuto visivo per discutere e analizzare i problemi statistici. Grafici (o diagrammi) per le variabili o scale nominali e ordinali Consideriamo in primo luogo la rappresentazione delle frequenze delle modalità con cui compaiono i caratteri qualitativi, modalità cioè relative sia a scale nominali, sia a scale ordinali. Si tratta dei cosiddetti diagrammi a barre verticali od orizzontali. Ecco un grafico o diagramma relativo agli iscritti ad alcune facoltà universitarie in una ipotetica Università. Fig. 2.1- Diagramma o grafico a barre della scala nominale relativa al numero di iscritti in una facoltà universitaria. Come accennato, un grafico a barre, come quello precedente, è il mezzo grafico impiegato per rappresentare le frequenze delle modalità relative alle scale nominali od ordinali. Le frequenze relative a una modalità formano una classe, o insieme, e per ognuna di esse è disegnata una barra verticale. L’altezza della barra rappresenta il numero di elementi di quella classe. In generale l’ampiezza della base delle diverse barre è uguale e di conseguenze la somma di tutte le altezze è uguale a N, cioè al numero totale delle frequenze registrate. Esistono però forme di rappresentazione dei dati nelle quali l’ampiezza della base della diverse barre varia secondo criteri definiti da chi le disegna. In questi casi è l’area di ogni barra che rappresenta la frequenze della modalità per ogni classe o insieme. In questi casi è l’area totale di tutte le barre che è uguale a N.

Upload: others

Post on 07-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • 15

    SECONDA UNITA’

    La rappresentazione grafica dei dati raccolti Quando si raccolgono le frequenze con cui compaiono i valori di una data variabile (o le modalità con cui si manifesta un certo carattere) è possibile rappresentarle oltre che mediante tabelle del tipo sopra riportato, anche tramite alcuni tipi di grafici o diagrammi. Questi servono a fornire una visione sintetica di come si presentano i dati raccolti. Tra le procedure adoperate per dare un ordine logico a una massa di dati non organizzati, in genere la prima consiste nel definire le distribuzioni di frequenze dei dati. Il passo successivo consiste nel rappresentare i dati graficamente, così che si possano subito cogliere le caratteristiche essenziali di una distribuzione di frequenze e confrontarle fra loro. Tali rappresentazioni non possono essere considerate come sostitutive dell’analisi statistica, ma piuttosto come un aiuto visivo per discutere e analizzare i problemi statistici. Grafici (o diagrammi) per le variabili o scale nominali e ordinali Consideriamo in primo luogo la rappresentazione delle frequenze delle modalità con cui compaiono i caratteri qualitativi, modalità cioè relative sia a scale nominali, sia a scale ordinali. Si tratta dei cosiddetti diagrammi a barre verticali od orizzontali. Ecco un grafico o diagramma relativo agli iscritti ad alcune facoltà universitarie in una ipotetica Università.

    Fig. 2.1- Diagramma o grafico a barre della scala nominale relativa al numero di iscritti in una facoltà universitaria. Come accennato, un grafico a barre, come quello precedente, è il mezzo grafico impiegato per rappresentare le frequenze delle modalità relative alle scale nominali od ordinali. Le frequenze relative a una modalità formano una classe, o insieme, e per ognuna di esse è disegnata una barra verticale. L’altezza della barra rappresenta il numero di elementi di quella classe. In generale l’ampiezza della base delle diverse barre è uguale e di conseguenze la somma di tutte le altezze è uguale a N, cioè al numero totale delle frequenze registrate. Esistono però forme di rappresentazione dei dati nelle quali l’ampiezza della base della diverse barre varia secondo criteri definiti da chi le disegna. In questi casi è l’area di ogni barra che rappresenta la frequenze della modalità per ogni classe o insieme. In questi casi è l’area totale di tutte le barre che è uguale a N.

  • 16

    Nel disegnare la distribuzione di frequenza delle modalità di caratteri relativi a scale nominali, occorre ricordarsi che: a) nessun ordine è sottinteso, in quanto le modalità non possono essere ordinate ed è possibile in questo caso rappresentare le varie classi, o insiemi, seguendo un qualsiasi ordine; b) spesso è preferibile ordinare le classi in modo alfabetico, cercando così di eliminare ogni possibile fattore personale nella decisione; c) le barre dovrebbero essere separate piuttosto che contigue affinché sia tentazione di considerare una continuità fra la classi. La prima decisione da prendere relativamente alla lunghezza dell’ascissa deve essere basata su fattori quali, ad esempio, la disponibilità di spazio per la rappresentazione grafica. Presa questa decisione, il resto viene automaticamente. Se lo spazio disponibile ci permette di rappresentare l’asse orizzontale con una linea di circa 100 mm di lunghezza, è opportuno che l’altezza dell’asse verticale sia i 3/4 di 100, cioè 75 mm. Questo rapporto tra organizzazione dell’asse orizzontale e organizzazione dell’asse verticale, come vedremo in seguito, evita alcune possibili distorsioni nella presentazione dei dati. È opportuno ricordare ancora che le barre verticali devono essere separate per evitare ogni implicazione di continuità. Le frequenze di modalità relative a scale ordinali permettono un ordinamento che è esprimibile nei termini di disuguaglianze del tipo “più grande di”, “meno grande di”. Di conseguenza le scale ordinali possono venire trattate nello stesso modo delle scale nominali, salvo il fatto che le classi devono essere disposte nel grafico, o diagramma, secondo il loro ordine naturale. La figura seguente illustra l’uso dei grafici a barre in quest’ultimo caso. Si tratta dei risultati di una indagine di gradimento di un prodotto. La scala usata (e relativi punteggi) era: cattivo (34), passabile (56), buono (25), ottimo (17).

    Fig. 2.2 - Diagramma a barre della scala ordinale relativa al gradimento di un prodotto da parte dei consumatori.

  • 17

    Grafici (o diagrammi) per variabili o scale per intervalli e per rapporti Nel caso di scale per intervalli o per rapporti si possono usare grafici analoghi a quelli a barre verticali o orizzontali, che sono denominati più propriamente istogrammi. Gli istogrammi si distinguono dai grafici a barre perché i singoli rettangoli possono essere disegnati uno accanto all’altro con continuità. Cioè le barre verticali possono quindi essere contigue. Ciò è particolarmente importante nel caso di variabili continue. Inoltre, i rettangoli rappresentano le frequenze mediante le loro aree. In genere le basi dei singoli rettangoli sono uguali tra loro e di conseguenza le loro altezze sono proporzionali alle singole frequenze. Nel caso degli istogrammi, dunque, le frequenze possono venire rappresentate o dall’area delle barre o dalla loro altezza. Nel caso in cui le basi dei rettangoli non siano tutte uguali tra loro occorrerà fare molta attenzione perché l’altezza della barra può suggerire informazioni false sulle frequenze. Nella figura seguente viene indicata la frequenza del numero di bambini di famiglie di un’area popolare di campagna. Si tratta di un istogramma relativo a una variabile discreta misurata per rapporti.

    Fig. 2.3 - Istogramma relativo al numero dei figli per nucleo famigliare in un’area popolare di campagna. Poligonale di frequenza Possiamo facilmente convertire l’istogramma in un’altra forma abbastanza comune di rappresentazione grafica, la poligonale di frequenza, che congiunge il punto centrale della sommità delle barre mediante segmenti. Non è necessario costruire un istogramma prima di tracciare una poligonale di frequenza. Tutto ciò che si deve fare è mettere un punto dove dovrebbe trovarsi la sommità della barra e congiungere questi punti. In pratica si preferisce riservare l’uso dell’istogramma a distribuzioni discrete e la poligonale di frequenza a distribuzioni nelle quali la sottintesa continuità sia esplicita o possa essere assunta ragionevolmente. Quando due o più distribuzioni di frequenza debbono essere paragonate, la poligonale di frequenza fornisce un quadro abbastanza chiaro. La figura seguente mostra una poligonale di frequenza basata sulla distribuzione di frequenza della tabella che la precede.

  • 18

    Fig. 2.4 - Poligonale di frequenza relativa alla tabella che la precede. Poligonale delle frequenze cumulate (ogiva) Precedentemente si è mostrata la procedura per costruire la distribuzione di frequenze cumulate assolute e la distribuzione di frequenze cumulate relative. Le corrispondenti rappresentazioni grafiche sono rispettivamente la poligonale delle frequenze cumulate e la poligonale delle frequenze relative cumulate. Ambedue queste rappresentazioni sono riportate nella figura seguente, dove sull’asse a sinistra sono la frequenze assolute cumulate mentre sull’asse di destra sono le frequenza relative cumulate. Un diagramma di questo tipo viene denominato ogiva.

    Fig. 2.5 - Diagramma a forma di ogiva delle frequenze cumulate.

  • 19

    Due sono i punti essenziali da ricordare: 1) le frequenze cumulate sono in corrispondenza del limite superiore della classe; 2) il massimo valore delle frequenze cumulate è N, mentre nelle frequenze cumulate relative è 100. Uso improprio dei grafici statistici. La regola aurea dei tre quarti Occorre notare come i grafici siano talora impiegati per ingannare il lettore. Per esempio, attraverso la manipolazione delle assi verticali (ordinate o asse Y) e orizzontali (ascisse o asse X) di un grafico, è possibile trarre qualsiasi impressione si desidera. Un caso significativo è citato nel volume di R.P. Runton e A. Haber Fondamenti di statistica (1986) da cui traiamo molta documentazione. Questa procedura consiste nell’eliminazione della frequenza zero dell’asse verticale ponendo l’origine in corrispondenza di un punto dell’asse delle ordinate, corrispondenti ad una frequenza maggiore di zero. La figura 2.6 illustra in modo incisivo il modo in cui i grafici possono venire impiegati per scopi poco onesti. E’ ovvio che l’uso di tali mezzi è contrario agli scopi del lavoro statistico, che consistono nella presentazione dei dati con una chiarezza che riduca le cattive interpretazioni al minimo. Occorre ricordare comunque che la scelta delle unità di misura riferite agli assi orizzontale e verticale è di per sé arbitraria. Però, per non cadere nell’anarchia grafica, è necessario adottare delle convenzioni.

    Fig. 2.6 - Esempio di manipolazione delle rappresentazioni grafiche di dati. Per quanto riguarda le rappresentazioni grafiche delle distribuzioni di frequenza, la maggior parte degli statistici ha adottato una convenzione nota come la regola aurea del tre-quarti; che può essere definita in questo modo. Per rappresentare graficamente le frequenze, l’unità di misura sull’asse verticale dovrà essere tale che l’ordinata del punto più alto (che rappresenta il punteggio cui è associata la frequenza più elevata) sia approssimativamente uguale ai tre quarti dell’unità di misura sull’asse orizzontale. Il vantaggio di questa convenzione consiste nel poter eliminare l’influenza dei fattori soggettivi nella rappresentazione grafica e, possibilmente, le distorsioni introdotte dall’autore del grafico.

  • 20

    Forma delle curve di frequenza Le poligonali di frequenza possono assumere un numero illimitato di forme differenti. Tuttavia, molte delle analisi statistiche discusse nel seguito possono essere approssimate da una particolare curva di frequenza: la cosiddetta curva normale, che a causa della sua forma viene denominata spesso curva a campana. Nella figura seguente vengono presentate numerose distribuzioni a campana. La curva (a), caratterizza dall’accentrarsi dei punti nelle classi centrali, è definita distribuzione leptocurtica. La curva (c), nella quale prevale il contrario, la distribuzione è definita platicurtica. Ed infine la curva (b) prende la forma ideale di una curva normale ed è definita distribuzione mesocurtica.

    La curva normale rappresenta una distribuzione simmetrica, poiché se divisa a metà, le due parti possono essere sovrapposte in modo da coincidere mediante il ribaltamento di una di esse. Non tutte le curve simmetriche, però, sono a forma di campana. Un certo numero di curve simmetriche, tutte differenti tra loro, è presentato nella figura seguente. A queste distribuzioni sono stati dati dei nomi; quella (a) è chiamata distribuzione rettangolare, mentre quella (b) è chiamata distribuzione a U. Si ha una distribuzione bimodale (c) quando le distribuzioni di frequenza di due popolazioni diverse sono rappresentate su un unico grafico, come capita, a esempio, a una distribuzione di frequenza di adulti maschi e femmine della stessa età.

    Quando una distribuzione non è simmetrica, si dice che è asimmetrica in senso positivo, se la distribuzione si assottiglia all’estremità destra dell’asse orizzontale, in quanto ci sono relativamente poche frequenze in questa parte. Viceversa, diciamo che la distribuzione è asimmetrica in senso negativo, se ci sono relativamente pochi valori segnati al lato sinistro dell’asse orizzontale. La figura seguente presenta numerose forme di distribuzioni asimmetriche.

  • 21

    La rappresentazione (a) è chiamata curva a J. La rappresentazione (b) è chiamata ogiva e la distribuzione cumulata di frequenza di dati distribuiti normalmente assume questa forma ( come una S). La rappresentazione (c) è asimmetrica in senso positivo. La figura (a) è un esempio di asimmetria fortemente negativa. Non è sempre possibile determinare con un semplice esame, se una distribuzione è asimmetrica. Esiste, tuttavia, un preciso metodo matematico preciso per determinare sia la direzione che l’ampiezza dell’asimmetria. Se ne riparlerà in seguito. Altre rappresentazioni grafiche In questa unità abbiamo discusso alcuni modi dl rappresentare graficamente le distribuzioni di frequenza. I ricercatori tuttavia, raccolgono spesso altri tipi di dati. Discuteremo brevemente alcuni modi di rappresentare graficamente tali dati. Diagramma a ramo e foglia (stem and leaf). Il diagramma a ramo e foglia (stem and leaf) è una rappresentazione insieme tabellare e grafica introdotta nel 1977 da J.W.Turkey. La distribuzione di frequenza si articola attorno a un “ramo”, ove sono riportati i valori fondamentali, e alle “foglie”, dove sono indicati i valori che si diramano dal ramo. Se, a esempio, i valori sono numeri interi a due cifre, si possono indicare sul ramo le decine e le foglie sono costituite dalle cifre delle unità. I rami sono separati dalle foglie da una linea verticale. Esempio. In una prova di apprendimento, i cui risultati potevano variare da 0 a 40 punti, dodici studenti hanno riportato i seguenti punteggi: 28, 22, 26, 33, 21, 23, 37, 24, 18, 19, 35, 31. Il grafico a ramo e foglia è: 1 8 9 2 1 2 3 4 6 8 3 1 3 5 7 E’ possibile associare la rappresentazione a ramo e foglia con una tabella. In questo modo si evidenziano molte informazioni congiuntamente. Esempio: In un test applicato a 30 soggetti sono stati rilevati i seguenti punteggi. 5 20 6 19 18 17 7 8 16 15 17 8 15 14 10 11 15 11 12 14 15 13 12 11 11 12 13 11 10 9

  • 22

    La distribuzione dei punteggi può essere così riassunta. Ramo e foglia Distribuzione di frequenza

    Tab.2.1 - Distribuzione di frequenza e sua rappresentazione mediante diagramma a ramo e foglia. Percentuali cumulate e posizione percentile Supponiamo che in un test ottenete il punteggio di 127. Che valutazione potete dare del risultato ottenuto? E’ chiaro che un punteggio di per sé non ha significato se non viene confrontato con una scala o un altro riferimento opportuno. A esempio, se il 75 % dei punteggi ottenuti dagli altri nel test è inferiore a 127, allora si ha un termine di riferimento per interpretare il risultato ottenuto. Si ha in questo caso una informazione sulla posizione percentile del punteggio, cioè sulla percentuale di casi, entro il gruppo di riferimento, con un punteggio inferiore a quello preso in considerazione. A esempio, supponiamo che la poligonale, o ogiva, delle frequenze cumulate sia quella della figura seguente. Qual è la posizione percentile di 127? Localizziamo 127 sull’ascissa (asse delle X) e costruiamo la perpendicolare a quel punto che interseca la poligonale in un punto. Tiriamo una linea orizzontale per questo punto e vediamo quale valore troviamo sull’asse verticale o delle Y. Se conosciamo, invece, la posizione percentile, si dovrà seguire il cammino inverso.

    Fig. 2.7 - Individuazione della posizione percentile a partire dall’ogiva delle frequenze cumulate.

  • 23

    E’ possibile calcolare direttamente la posizione percentile senza dover far ricorso al grafico delle frequenze relative cumulate utilizzando la formula Posizione percentile = fcum/N x 100 Tenendo conto della tabella 2.4 relativa al QI che riporta le frequenze raggruppate della distribuzione per classi si nota che la posizione 127 è compresa nell’intervallo 125-129: La frequenza cumulata fino a 125 è 82. La posizione 127 è compresa tra l’82mo caso e il 92mo caso. Per avere la posizione precisa, occorre interpolare tra il valore 125 e il valore 130 al fine di trovare la frequenza cumulata corrispondente esattamente al punteggio 127. Per fare questo si prende in considerazione la frequenza cumulata dell’estremo inferiore dell’intervallo contenente 127 e il punteggio corrispondente. Nel nostro caso questi valori sono rispettivamente 82 e 125. Poi l’ampiezza dell’intervallo e il numero dei casi che cadono in esso. Nel nostro caso si tratta rispettivamente di 5 e 9. Il calcolo della posizione percentuale esatta di 127 (X in generale) è: fcume + (X – Xe)/ampiezzai x n Posizione percentile = ----------------------------------------- x 100 N fcume = frequenza cumulata dell’estremo inferiore dell’intervallo Xe = punteggio corrispondente all’estremo inferiore dell’intervallo ampiezzai = ampiezza dell’intervallo n = numero di casi compresi entro l’intervallo N = numero totale dei casi X = punteggio considerato Applichiamola al nostro caso: 82+ (127 – 125)/5 x 9 85,6 Posizione percentuale di 127 = ----------------------------- x 100 = ------- x 100 = 77,82 110 110 Se si vuole procedere nella direzione opposta, cioè partire dalla posizione percentile per risalire al punteggio esatto la formula è la inversa della precedente. ampiezzai x (fcum - fcume) Punteggio = Xe + ------------------------------ n fcum = frequenza cumulata corrispondente al punteggio fcume = frequenza cumulata dell’estremo inferiore dell’intervallo Xe = punteggio corrispondente all’estremo inferiore dell’intervallo ampiezzai = ampiezza dell’intervallo n = numero di casi compresi entro l’intervallo Verifichiamo che nel nostro caso si ottiene il valore originale: 5 x ( 85,6 - 82) Punteggio = 125 + ------------------------ = 127 9

  • 24

    I quartili e la rappresentazione BoxPlot (Box and Whisker, Scatola e baffi) Molto spesso quando si confrontano dati o punteggi raccolti in indagini riferite a popolazioni diverse (a esempio, i dati raccolti nell’indagine Pisa 2000) è utile prendere in considerazione le posizioni percentili relative a un quarto, due quarti o metà e tre quarti della popolazione, cioè del 25 %, del 50% e del 75 % della popolazione. Queste posizioni percentili vengono denominate quartili e sono indicati in questo modo: primo quartile Q1 (25° percentile), secondo quartile Q2 (50° percentile o mediana), terzo quartile Q3 (75° percentile). Utilizzando queste posizioni percentili è possibile rappresentare la distribuzione dei dati in una maniera compatta assai significativa, mediante diagrammi prospettati da J.W.Turkey nel 1977 e denominati Box and Whisker (scatola e baffi) o semplicemente BoxPlot. Un BoxPlot riassume in un disegno le seguenti informazioni.

    a) La posizione mediana o del secondo quartile Q2 (50° percentile), indicata da una linea centrale disegnata in un rettangolo. Questo rettangolo è chiamato box o scatola.

    b) Le posizioni del primo quartile Q1 e del terzo quartile Q3, indicate rispettivamente dal lato inferiore e superiore del rettangolo.

    c) La distanza interquartilica Q3 - Q1, cioè la differenza tra il terzo e il primo quartile, è data dalla distanza tra il lato superiore e inferiore del rettangolo. Questa distanza è proporzionale alla dispersione della distribuzione dei dati. Tra questi due limiti, infatti, è compreso il 50 % delle osservazioni. Se la distanza è piccola, allora i valori si addensano intorno alla mediana o secondo quartile; se la distanza è grande, allora la dispersione (o varianza) dei dati è elevata.

    d) E’ possibile anche avere informazioni sulla simmetria della distribuzione. Basta osservare le distanze tra la mediana (secondo quartile) e il primo e terzo quartile. Se tali distanze sono uguali, allora la distribuzione è simmetrica; se non lo sono, si ha una distribuzione asimmetrica, positiva o negativa a seconda dei casi.

    e) Anche i valori inferiori al primo quartile e superiori al terzo quartile sono rappresentati mediante linee perpendicolari ai lati del rettangolo. La loro lunghezza è proporzionale alla dispersione dei dati considerati. Queste linee sono chiamate wisker o baffi.

    f) Osservando la rappresentazione è quindi possibile trarre alcune conclusioni sulla distribuzione dei valori. A esempio se la distribuzione è normale allora saranno uguali sia le distanze interquartiliche, sia la lunghezza dei baffi. Non solo, ma tali lunghezze saranno proporzionali alle aree sotto la curva normale comprese tra i vari quartili.

    g) E’ possibile anche indicare valori anomali isolati.

    Fig. 2. 8 - Esempio di rappresentazione mediante scatola e baffi.

  • 25

    Occorre anche ricordare come questo tipo di rappresentazione della dispersione dei valori ha avuto negli anni vari adattamenti. A essi verrà fatto riferimento nel seguito. Oltre ai quartili vengono spesso considerati i decili che, come dice il nome, non sono altro che le posizioni percentuali del 10 %, 20 %, 30 %, ecc., cioè relative a un decimo, due decimi, ecc., della popolazione. In genere questo tipo di posizioni percentili (quartili, decili, ecc.) vengono denominate quantili. Sintesi In questa unità sono state presentate alcune tecniche che si possono impiegare al fine di rendere significativa una gran massa di dati. In particolare sono state esaminate le distribuzioni di frequenza e varie forme di presentazione grafica. Quando i punteggi sono assai dispersi, molti valori della misurazione hanno frequenza zero, e quando non appare una chiara tendenza dei dati a distribuirsi si è soliti operare un raggruppamento dei medesimi in classi. La distribuzione che ne risulta si chiama distribuzione di frequenza per classi. Lo scopo principale della rappresentazione grafica è quello di fornire un aiuto visivo per poter riflettere e discutere determinati problemi di carattere statistico. L’obiettivo primario è quello di presentare i dati in modo chiaro, non ambiguo, di modo che il lettore possa cogliere con un’occhiata le relazioni che si intende mettere in evidenza. Occorre anche ricordare che è possibile tentare di ingannare il lettore con forme di presentazione grafica scorrette. Sono state presentate le seguente forme di rappresentazione grafica dei dati: a) diagrammi a barre verticali e orizzontali; b) istogrammi; c) poligonali di frequenza; d) poligonali delle frequenze cumulate; e) diagrammi a ramo e foglie; f) diagrammi a scatola e baffi. Sono state, inoltre, esaminate le forme che può assumere una poligonale di frequenza e introdotti i concetti di posizione percentile, di decile, di quartile e, in genere, di quantile.

  • 26

    Termini da ricordare Ascissa (asse X) - Asse orizzontale di un grafico. Grafico a barre - Un tipo di grafico che usa delle barre verticali per rappresentare le frequenze dell’occorrenza delle osservazioni entro ciascuna classe, sia essa nominale, sia ordinale. Distribuzione di frequenza - Allorché i valori di una variabile sono disposti in modo tale da costituire una successione crescente (o decrescente), la distribuzione di frequenza mostra il numero di volte che un dato punteggio si presenta nel collettivo. Poligonale dl frequenza - Una particolare rappresentazione grafica della distribuzione di frequenza. Distribuzione di frequenza per dati raggruppati in classi - Una distribuzione di frequenza in cui i valori di una variabile sono raggruppati in classi. Istogramma - Un tipo di grafico a barre usato per scale per intervallo e scale per rapporto. Distribuzione leptocurtica - Distribuzione campanulare caratterizzata da una accumulazione di punteggi al centro. Distribuzione asimmetrica negativamente - Distribuzione che presenta un ammontare relativamente basso di casi all’estremo sinistro (estremo inferiore) della variabile. Curva normale - Una poligonale di frequenza simmetrica a forma di campana. Ogiva - Distribuzione di frequenza cumulata associata a dati distribuiti normalmente. Ordinata (asse Y) - Asse verticale in un grafico. Distribuzione platicurtica - Distribuzione di frequenza caratterizzata da un appiattimento nella posizione centrale. Casuale - Un metodo atto a selezionare un campione così che ogni elemento della popolazione ha le stesse possibilità di essere sorteggiato. Distribuzione asimmetrica - Distribuzione che si allontana dalla condizione di simmetria e presenta accumulazione delle frequenze in una delle due code. Rappresentazione a ramo e foglia - Particolare forma di rappresentazione dei dati che unisce aspetti grafici a registrazione analitica dei dati. Posizione percentile - Posizione al di sotto della quale è compresa una specifica percentuale di dati. Quartile – Valore percentuale al di sotto della quale sono compresi o il 25%, o il 50 %, o il 75% dei dati, denominati rispettivamente primo, secondo e terzo quartile. Decile - Valore percentuale al di sotto della quale sono compresi progressivamente il 10 %, il 20 %, ecc. dei dati. Rappresentazione a scatola e baffi - Particolare rappresentazione della distribuzione dei dati che valorizza la differenza interquartilica. Distanza interquartilica – Differenza tra i valori che caratterizzano il terzo e il primo quartile.

  • 27

    Esercizi 1. Utilizzando i risultati degli esercizi 5 e 6 della precedente unità e cioè

    Curricolo Ped Com Med

    Ped Sc e Fp Ped Sociale Ped Vocaz Psic Educ Past e Catec

    Studenti 86 102 125 98 364 147 40 48 52 60 61 63 66 67 68 70 70 70 75 75 76 76 77 77 77 77 78 78 79 79 81 81 81 81 82 82 83 84 86 87 87 88 92 92 94 98 costruisci per ciascuna situazione un opportuno diagramma. 2. In base al grafico rispondi alle domande.

    a) Qual è stato l’ammontare delle esportazioni della Zedlandia nel 1998? b) Qual è stato l’ammontare delle esportazioni di succhi di frutta della Zedlandia nel 2000? c) Qual è stato l’ammontare delle esportazioni di lana e tessuti di cotone della Zedlandia nel 2000? 3. Costruisci un diagramma Ramo e foglia per la seguente serie di valori: 15, 6, 7. 18, 13, 18, 9, 21, 13, 10, 13, 16, 17, 19

    20,4

    25,4 27,1

    37,9

    42,6

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    1996 1997 1998 1999 2000

    Totale delle esportazioni annue della Zedlandia in milioni di zed, 1996-2000

    Distribuzione delle esportazioni della Zedlandia nel 2000

    Anno

    Tabacco 7%

    Lana 5%

    Tessuto di cotone 26%

    Succhi di frutta 9% Riso

    13%

    Tè 5%

    Carne 14%

    Altro 21%

  • 28

    4. Date le seguenti frequenze organizzate in classi o intervalli

    5. Calcola le seguenti posizioni percentili:

    a) Primo quartile o posizione percentile 25a b) Secondo quartile o posizione percentile 50a c) Terzo percentile o posizione percentile 75a

    6. Calcola la differenza interquartilica tra il terzo e il primo quartile negli stessi dati.

    Classi Valore centrale

    f f cum f cum % f cum f cum %

    95-99 97 1 40 100,0 % 1 2,5 % 90-94 92 3 39 97,5 % 4 10,0 % 85-89 87 4 36 90,0 % 8 20,0 % 80-84 82 8 32 80,0 % 16 40,0 % 75-79 77 11 24 60,0% 27 67,5 % 70-74 72 4 13 32,5% 31 77,5 % 65-69 67 3 9 22,5% 34 85,0 % 60-64 62 3 6 15,0 % 37 92,5 % 55-59 57 0 3 7,5 % 37 92,5 % 50-54 52 1 3 7,5 % 38 95,0 % 45-49 47 1 2 5,0 % 39 97,5 % 40-44 42 1 1 2,5 % 40 100,0 %