introducereˆın statistica daniel n fileexemplu de popula¸tie bine definita. ˆin mod tipic...

45
Statistic˘ a descriptiv˘ a Introducere ˆ ın statistic˘ a Daniel N.Pop ULBS 02.febr.2016 Daniel N.Pop (ULBS) Statistic˘ a descriptiv˘ a 02.febr.2016 1 / 45

Upload: others

Post on 12-Sep-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Statistica descriptiva

Introducere ın statistica

Daniel N.Pop

ULBS

02.febr.2016

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 1 / 45

Continut

1 Statistica descriptivaIntroducereTerminologia de bazaCulegerea datelorPrezentarea grafica

2 Repartitii de frecventeTabele de frecventeReprezentarea grafica a repartitiilor de frecventeTipuri de serii statistice

3 Caracterizarea repartitiilor de frecventeIntroducereIndicatori de pozitieIndicatori ai variatiei

4 Bibliografie

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 2 / 45

Statistica descriptiva - introducere I

Statistica este limbajul universal al stiintelor. Statistica este mai multdecat un set de instrumente. Ca utilizatori potentiali trebuie sa ınvatam sautilizam corect aceste instrumente. Utilizarea adecvata a metodelorstatistice ne permite:

1 sa descriem cu acuratete descoperirile cercetarii stiintifice;

2 sa luam decizii;

3 sa facem estimatii.

Cuvantul statistica are diverse semnificatii pentru oamenii din diversegrupuri de interes. Pentru unii oameni este un fel de ,,hocus-pocus“ princare o persoana ın cunostinta de cauza poate induce ın eroare o persoanaprofana. Pentru alti oameni este o metoda de a colecta si afisa volumemari de informatie numerica. Mai exista si un alt grup pentru carestatistica este o modalitate de a lua decizii ın conditii de incertitudine.Intr-un anumit sens fiecare din aceste puncte de vedere este corect.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 3 / 45

Statistica descriptiva - introducere II

Domeniul statisticii poate fi ımpartit ın doua subdomenii: statisticadescriptiva si statistica inferentiala (sau analitica). Statistica descriptivaeste ceea ce multi oameni ınteleg cand aud cuvantul statistica. Ea includecolectarea, prezentarea si descrierea datelor. Termenul statisticainferentiala se refera la tehnica de interpretare a valorilor rezultate dintehnicile descriptive si apoi utilizarea lor la luarea deciziilor.Vom aminti urmatoarele doua definitii ale statisticii:

Statistica este stiinta colectarii, clasificarii, prezentarii si interpretariidatelor numerice [Johnson];

Statistica matematica este o ramura a matematicii aplicate care seocupa cu gruparea, analiza si interpretarea datelor referitoare la unanumit fenomen de masa ın scopul obtinerii unor previziuni privinddesfasurarea ulterioara a sa.[Mihoc]

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 4 / 45

Terminologia de baza I

1 Populatia – o multime de indivizi, obiecte sau masuratori ale carorproprietati urmeaza a fi analizate. Pentru a forma o populatie omultime de elemente trebuie sa aiba o caracteristica comuna.Conceptul de populatie este una dintre notiunile fundamentale alestatisticii. Populatia ın cauza trebuie sa fie foarte atent definita sieste considerata complet definita numai atunci cand se poate da listatuturor elementelor ei. Multimea studentilor unei universitati este unexemplu de populatie bine definita. In mod tipic gandim o populatieca o colectie de oameni. Totusi ın statistica populatia poate fi ocolectie de animale, de obiecte manufacturate sau de masuratori. Deexemplu, multimea valorilor numerice care sunt ınaltimi ale plopilordin judetul Cluj constituie o populatie. Un element al unei populatiise numeste individ.

2 Esantion sau selectie – o submultime a unei populatii. O selectietrebuie sa ındeplineasca urmatoarele conditii:

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 5 / 45

Terminologia de baza II

1 sa fie aleatoare (orice selectie sa aiba sansa de a fi aleasa – sansa poatefi calculata);

2 toate elementele colectivitatii sa aiba aceiasi probabilitate de a fi alese;3 structura selectiei sa fie cat mai apropiata de structura populatiei,

adica selectia sa fie reprezentativa;4 volumul selectiei sa fie suficient de mare.

3 Variabila – o caracteristica cantitativa de interes a fiecarui element alunei populatii sau selectii. Ca exemple, am putea da varsta unuistudent la intrarea ın facultate, ınaltimea s.a.m.d. Variabilele pot fidiscrete sau continue.

4 Atribut - o caracteristica calitativa de interes a fiecarui element alunei populatii sau selectii. Culoarea parului sau a ochilor studentilorde la o facultate, calitatea unor piese de a fi corespunzatoare saunecorespunzatoare sunt exemple de atribute.

5 Data – valoarea unei variabile asociate cu un element al uneipopulatii sau selectii.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 6 / 45

Terminologia de baza III

6 Date – multimea valorilor colectate ale unei variabile pentru fiecareelement din selectie. Exemplu: multimea ınaltimilor fiecaruia din cei25 de studenti ai unei grupe de 25 de studenti.

7 Experiment – o activitate planificata al carei rezultat este o multimede date.

8 Parametru – o caracteristica numerica a unei ıntregi populatii.Varsta medie la admitere a studentilor sau proportia celor peste 21 deani dintre cei admisi sunt exemple de parametri ai unei populatii. Unparametru este o valoare ce descrie ıntreaga populatie.

9 Statistica – o caracteristica numerica a unei selectii.

Exemplu. Un student care urmeaza un curs de statistica este interesat sastudieze valoarea masinilor pe care le poseda studentii si angajatiiuniversitatii. In aceasta situatie fiecare din cei noua termeni descrisianterior poate fi identificat:

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 7 / 45

Terminologia de baza IV

1 populatia este colectia masinilor posedate de studentii si angajatiiuniversitatii (sau a valorilor acestora);

2 o selectie este orice parte a acelei populatii;

3 o variabila este valoarea actuala a fiecarei masini;

4 un atribut ar putea fi culoarea fiecarei masini;

5 o data este valoarea unei masini particulare;

6 datele sunt multimea valorilor care corespund selectiei obtinute;

7 un experiment va fi metoda de determinare a valorii fiecarei masinidin selectie, de exemplu chestionar sau consultarea chitantelor;

8 un parametru despre care cautam informatii ar putea fi valoareamedie a populatiei;

9 o statistica ar fi media aritmetica a unei selectii.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 8 / 45

Terminologia de baza V

Masurabilitate si variabilitate. Intr-o multime de date experimentale neasteptam ıntotdeauna sa apara variatii. Daca apar foarte putine variatiisau deloc, ne gandim ca dispozitivul de masurare este defect sauinsuficient de precis. Daca luam o cutie de carton cu table de ciocolata de100 de grame si cantarim fiecare ciocolata, constatam o abatere de, sazicem, ±2 grame. Greutatea (masa) unei table de ciocolata va fi ovariabila. Nu conteaza ce este sau ce reprezinta variabila; va fi variabilitatedaca instrumentele de masura sunt suficient de precise. Un obiectiv primarın analiza statistica va fi acela al masurarii variabilitatii.Comparatie ıntre Calculul probabilitatilor si Statistica. Calcululprobabilitatilor si Statistica sunt doua domenii separate ale matematicii,dar strans ınrudite. Calculul probabilitatilor este vehiculul statisticii, cacifara legi de probabilitate statistica nu ar fi posibila.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 9 / 45

Terminologia de baza VI

Urna probabilistica

5 albe, 5 rosii, 5 albastre

Urna statistica

???

Figure: Raportul Calculul probabilitatilor – Statistica

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 10 / 45

Terminologia de baza VII

Sa ilustram relatia dintre cele doua ramuri ale matematicii printr-unexemplu. Avem doua urne (una probabilistica si una statistica, vezi figura1). Urna probabilistica contine 5 bile albastre, 5 rosii si 5 albe. SubiectulCalculul probabilitatilor ıncearca sa raspunda la ıntrebari de genul: daca seextrage o bila sau mai multe din urna, care este probabilitatea sa avem oanumita configuratie de culori? Pe de alta parte urna statistica are oconfiguratie necunoscuta. Extragem o selectie de bile si facem afirmatiidespre ceea ce credem ca ar fi ın urna. Observati diferenta: calcululprobabilitatilor calculeaza sansa ca ceva (o selectie) sa se ıntample cand secunoaste populatia. Statistica cere sa se extraga o selectie, descrie selectia(statistica descriptiva) si apoi face inferente asupra populatiei bazandu-sepe informatia gasita ın selectie (statistica inferentiala).

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 11 / 45

Culegerea datelor

Una dintre problemele careia statistica trebuie sa le faca fata este culegereadatelor. Trebuie sa ıntelegem importanta unei bune tehnici de selectie,deoarece inferentele pe care le facem se bazeaza ın ultima instanta pe

statistici obtinute din datele de selectie. Culegerea datelor pentru o analizastatistica este un proces complicat si contine urmatorii pasi importanti:

1 definirea obiectivelor studiului sau experimentului (de exemplucompararea efectelor unui medicament cu efectele unui medicamentstandard sau estimarea cheltuielilor gospodaresti medii ın judetulnostru);

2 Definirea populatiei de interes si a variabilelor (de exemplu timpul derecuperare pentru pacientii ce sufera de o boala particulara saucastigurile totale pe persoana);

3 Definirea colectiilor de date si a schemelor de masurare (aici intraprocedurile de selectie, dimensiunea selectiei, instrumentele sauprocedeul de masurare – chestionar, telefon, etc.);

4 Determinarea tehnicilor adecvate (descriptive sau inferentiale) deanaliza a datelor.

Exemplele care urmeaza prezinta populatii definite pentru investigatiiDaniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 12 / 45

Prezentarea grafica I

Dupa ce ın urma observatiilor s-au obtinut datele sub forma numerica,primul pas ın analiza si interpretarea acestor date consta ın reprezentarealor grafica. Alcatuirea graficelor pregateste conditiile pentru cercetareaanumitor corelatii si da o reprezentare intuitiva a materialului adunat.In functie de caracterul materialului si de problema care trebuie rezolvata,avem urmatoarele tipuri de grafice:

Harti rectilinii. Doua caracteristici ale unui individ sunt reprezentatesub forma unui punct ıntr-un sistem de axe rectangular. In modobisnuit pe ordonata se trece clasificarea cantitativa (timp, varsta,bani, etc.). Diferite serii de date asemanatoare, clasificate dupaaceeasi caracteristica pot fi reprezentate pe acelasi grafic. In acestmod apar clar deosebirile sau asemanarile ıntre seriile de date.

Grafice circulare. Graficul circular este un cerc ımpartit ın diferitesectoare, cu unghiurile la centru proportionale cu diferite componenteale totalului.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 13 / 45

Prezentarea grafica II

Grafice dreptunghiulare. In acest grafic cantitatile sunt reprezentateprin arii sau lungimi asezate orizontal sau vertical. Adeseori o singurabaza este ımpartita ın diferite sectiuni cu lungimile proportionale cumarimea diferitelor componente, astfel ca realitatea sa nu fiedenaturata.

Grafice logaritmice sau semilogaritmice. In unele cazuri, pentrusimplificarea prelucrarii si examinarii datelor, se vor aseza pe grafic nunumerele ci logaritmii lor (grafice logaritmice). Prin folosirealogaritmilor o curba de o forma complicata se poate aduce la formaunei drepte, ceea ce simplifica prelucrarea si interpretarea fenomenuluidat.

Pentru exemple vezi fisierul Excel exgrafice.xlsx

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 14 / 45

Tabele de frecvente I

Sub forma lor bruta, datele statistice reprezinta o masa dezordonata demateriale. Pentru simplificarea calculelor si o mai usoara interpretare arezultatelor se va trece la o grupare a observatiilor (discrete sau continue)efectuate asupra unei singure caracteristici a unui numar mare deelemente. Vom ımparti intervalul de variatie a acestor date ıntr-un numarde intervale si vom ınregistra numarul de observatii care cad ın fiecareinterval. Acest numar poarta numele de frecventa absoluta a intervaluluisau a clasei. O tabela care arata repartitia frecventelor ın diferite clasepoarta numele de tabela de frecvente.Este recomandabil ca orice repartitie de frecvente sa aiba intervalele deaceeasi marime, deoarece numai ın acest caz frecventele diferitelor clasesunt direct comparabile ıntre ele, diferenta ıntre marimea acestor frecventeconstituind elementul cel mai caracteristic al unei repartitii.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 15 / 45

Tabele de frecvente II

Daca avem o serie de n termeni si se cunoaste diferenta dintre termenulmaxim si cel minim al seriei, atunci marimea i a intervalului poate fideterminata cu formula empirica a lui H. A. Sturges:

i =xmax − xmin

1+ 3.322 lg n.

In orice situatie, pentru alcatuirea tabelelor numerice este important caintervalul sa fie determinat astfel ıncat sa nu fie nici o ambiguitate ın ceeace priveste limitele lui si apartenenta unui caz la o grupa.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 16 / 45

Reprezentarea grafica a repartitiilor de frecvente I

In statistica, repartitiile de frecvente exprima centralizari compacte dedate, care sunt pregatite pentru prelucrarea lor ulterioara. Aceste repartitiipot fi reprezentate nu numai sub forma de tabele ci si sub forma degrafice. In acest mod multe trasaturi caracteristice ale repartitiei defrecvente devin mai clare.

Histograma. Daca ni reprezinta frecventa absoluta a clasei (ci , ci+1),atunci repartitia frecventei poate fi reprezentata ıntr-un sistem de axerectangulare ın care un dreptunghi are ca baza clasa (ci , ci+1) si ariaproportionala cu frecventa absoluta ni (histograme absolute) sau cufrecventa relativa pi =

nin(histograme relative), unde n este numarul

total de observatii. Daca histograma este relativa, atunci aria totala aei este 1. Daca intervalele sunt mici si numeroase, histograma poatefi ınlocuita cu o curba de frecventa. Curba se traseaza ın asa fel ıncatfractiunile din dreptunghiurile histogramei ramase ın afara curbei sa fiecompensate cu ariile cuprinse sub curba, dar ın interiorul histogramei.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 17 / 45

Reprezentarea grafica a repartitiilor de frecvente II

Poligonul frecventelor. Daca caracteristica studiata este o variabilaaleatoare discreta, avand valorile x1 < x2 < . . . < xn, frecventaabsoluta a lui xi fiind ni si cea relativa pi , atunci o reprezentaregrafica pentru repartitia empirica (multimea perechilor formate devalorile observate sau clasele de valori si frecventele lor) se obtinereprezentand punctele Ni (xi , ni ) si unind perechile de puncte(N1,N2), (N2,N3), . . ., (Nn−1,Nn) prin linii drepte. Diagrama astfelobtinuta poarta numele de poligonul frecventelor. Daca avem orepartitie de frecvente ın locul valorilor posibile vom consideramijloacele claselor, adica (ci + ci+1)/2, rolul frecventelor relativeindividuale jucandu-l frecventele relative corespunzatoare claselor.

Ogiva sau curba cumulata a repartitiilor de frecvente. Ogiva se obtinereprezentand punctele N∗

i (xi , p∗i ), p

∗i = ∑

ik=1 pk si unind perechile de

puncte (N∗1 ,N

∗2 ), (N

∗2 ,N

∗3 ), . . ., (N∗

n−1,N∗n ) prin linii drepte.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 18 / 45

Reprezentarea grafica a repartitiilor de frecvente III

Observatia 4

Se utilizeaza uneori procente ın locul frecventelor relative.

Pentru exemple a se vedea fisierul Excel descrstat.xlsx

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 19 / 45

Tipuri de serii statistice I

Daca elementele seriei sunt distincte si ordonate crescator avem o serie detip (S1).Daca unele valori se repeta si avem k valori distincte x1 < x2 < . . . < xk ,iar n1, n2, . . ., nk indica numarul de repetari ale valorilorx1 < x2 < . . . < xk , avem de-a face cu o serie de tipul (S2), care poate fireprezentata printr-o tabela de forma

Valorile Frecventa Frecvente %caracteristicii (ni ) relative (pi ) (θi )

1 2 3 = col2n

4 = col3 · 100x1 n1 n1/n n1/n · 100x2 n2 n2/n n2/n · 100...

......

...

xk nk nk/n nk/n · 100n = ∑

ki=1 ni ∑

ki=1

nin= 1 ∑

ki=1 θi = 100

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 20 / 45

Tipuri de serii statistice II

Daca valorile se grupeaza ın clase, fiecare clasa corespunzand unui intervalde variatie al variabilei, avem de-a face cu o serie de tipul (S3). Ea poatefi reprezentata printr-o tabela de forma:

Intervalul mijlocul Frecventa Frecvente %interv.(xi ) (ni ) relative (pi ) (θi )

1 2 3 4 = col3n

5 = col4 · 100c0 − c1 x1 n1 n1/n n1/n · 100c1 − c2 x2 n2 n2/n n2/n · 100...

......

......

ck−1 − ck xk nk nk/n nk/n · 100n = ∑

ki=1 ni ∑

ki=1

nin= 1 ∑

ki=1 θi = 100

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 21 / 45

Caracterizarea repartitiilor de frecvente - Introducere I

Gruparea si constructia curbei de repartitie a frecventelor permit punereaın evidenta a materialului numeric studiat.Urmatoarea etapa, prelucrarea datelor, nu poate avea loc daca nu avem laındemana un numar suficient de mare de date, pe care dorim sa lesintetizam ıntr-un indicator care sa le exprime sau sa le reprezinte.Daca fiecare repartitie de frecvente ar reprezenta o problema cu totul noua,ce se supune numai anumitor legi proprii, atunci problema studiului sidescrierii repartitiilor ar fi foarte dificila. In realitate, datele (care se referala diferite domenii ale cunoasterii), odata aranjate ıntr-o repartitie defrecvente, scot ın evidenta trasaturile comune tuturor curbelor de repartitiesi care se supun unor reguli generale. Acest lucru ne permite ca experientafacuta ıntr-un domeniu al cunoasterii sa fie extinsa si ın alte domenii.Curbele care ınfatiseaza repartitiile fenomenelor fizice prezinta simetrii siregularitate. Unele din curbele din domeniul economic sunt asimetrice si se

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 22 / 45

Caracterizarea repartitiilor de frecvente - Introducere II

observa ca ele au tendinta de a se alungi ıntr-o anumita parte de lapunctul cu cea mai mare frecventa.La toate curbele ınsa, trebuie sa observam variabilitatea marimilor care seobtin ca rezultat al unor masuratori. Cu toate ca exista variabilitate, seobserva o tendinta a datelor de a se grupa strans ın jurul unui anumitpunct al curbei (tendinta centrala). Daca se masoara marimea abaterii dela punctul de concentrare maxima a frecventelor, se constata ca sunt maifrecvente abaterile mici decat cele mari, ca abaterile ın ambele parti fatade punctul de concentrare maxima se echilibreaza aproape complet si caabaterile foarte mari sunt rare. Repartitia de frecvente se poate caracterizaprintr-o valoare si anume acea care este reprezentativa pentru toatarepartitia. Deoarece frecventele variaza, vom alege acea marime care seıntalneste cel mai des, marime care va fi masura tendintei centrale arepartitiei. Aceasta marime, ca si alte marimi asemanatoare se numescindicatori de pozitie, deoarece arata pozitia elementelor principale alerepartitiei pe axa absciselor.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 23 / 45

Indicatori de pozitie I

Media aritmetica. Daca ın urma selectiei apar valorile distincte x1, x2,. . ., xk , atunci media aritmetica este

x =x1 + x2 + · · · xk

k.

Dam urmatoarele proprietati ale mediei aritmetice pentru date negrupate:

1 Suma algebrica a abaterilor diferitelor valori de la medie este nula

k

∑i=1

(xi − x) =k

∑i=1

xi − kx = 0.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 24 / 45

Indicatori de pozitie II

2 Media minimizeaza abaterea medie patratica

k

∑i=1

(xi − a)2 =k

∑i=1

[(xi − x)− (a− x)]2 =k

∑i=1

(xi − x)2−

2(a− x)k

∑i=1

(xi − x) + k(a− x)2

si cum ∑ki=1(xi − x) = 0 urmeaza ca ∑

ki=1(xi − a)2 ≥ ∑

ki=1(xi − x)2.

In cazul datelor grupate se poate folosi formula

x =

r

∑i=1

nixi

r

∑i=1

ni

,

unde notatiile folosite au semnificatia:

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 25 / 45

Indicatori de pozitie III

ni - frecventa absoluta a intervalului (ci , ci+1);xi - mijlocul intervalului (ci , ci+1);r - numarul intervalelor.Media geometrica. Se defineste pentru x1, . . . , xn ≥ 0 prin

G = n√x1 . . . xn.

Daca valorile x1, . . . , xn au ponderile (frecventele) k1, . . . , kn atunci

G k1+···+kn = xk11 . . . xknn .

Media geometrica se bucura de proprietatea ca produsul rapoartelorsituate de o parte a mediei geometrice si media geometrica este egal cuprodusul rapoartelor dintre media geometrica si valorile situate de cealaltaparte a mediei geometrice.In statistica economica, media geometrica este folosita pentru constructiaindicatorilor preturilor. Atunci cand asezand frecventele absolute pe un

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 26 / 45

Indicatori de pozitie IV

grafic se obtine o curba asimetrica de asemenea tip ıncat, daca am lualogaritmii ın locul numerelor, ar disparea asimetria curbei, se prefera mediageometrica. Aceasta va fi repartitia ın care vor fi simetrice nu abaterileprin diferenta de la tendinta centrala, ci cele relative. In aceste repartitiilogaritmul mediei geometrice a diferitelor masuratori va fi cea maireprezentativa valoare, iar curba va fi simetrica ın raport cu logaritmulmediei geometrice.Media armonica. Se utilizeaza pentru deducerea normelor medii de timpsi prezinta avantaje la prelucrarea unor date privind preturile. Are expresia

H =n

1x1+ · · ·+ 1

xn

.

Intre cele trei medii prezentate are loc inegalitatea

H ≤ G ≤ x .

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 27 / 45

Indicatori de pozitie V

Mediana si marimi ınrudite. Mediana este o valoare care ımparte seria ındoua grupe de frecvente egale. Sa presupunem ca toate elementele serieisunt aranjate ın ordinea marimii lor. Daca seria are 2n+ 1 elemente,atunci mediana este elementul n+ 1, iar daca seria are 2n elemente,atunci mediana este media aritmetica a elementelor de rang n si n+ 1.Intervalul median este intervalul care contine elementul de rang k

2 , undek este numarul total de observatii.Exista trei cuartile: Q1,Q2,Q3, care ımpart repartitia ın patru parti egale.Q1 se numeste cuartila inferioara (mica), Q3 se numeste cuartilasuperioara (mare), iar Q2 este chiar mediana. Cuartilele se determina prinprocedee asemanatoare cu cele de la mediana. Se determina intervalul ıncare se gaseste observatia de rang k

4

(

3k4

)

pentru Q1(Q3), iar apoi prininterpolare liniara se determina valorile corespunzatoare dupa formulele

Qi = xQi+

ik − 4ni−1

4nQi

dQi; i = 1, 3, (1)

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 28 / 45

Indicatori de pozitie VI

undexQi

- limita inferioara a intervalului cuartilic Qi ;ni−1 - frecventa cumulata corespunzatoare intervalului anterior intervaluluicuartilic Qi ;nQi

- frecventa absoluta corespunzatoare intervalului cuartilic Qi ;dQi

- marimea intervalului cuartilic Qi .Multimea ordonata a valorilor unei serii statistice poate fi ımpartita ın 10si respectiv 100 de parti egale obtinandu-se astfel decile si respectivprocentile. Calculul lor este analog cu cel al cuartilelor.Modul. Modul (modulul, moda) este valoarea caracteristicii variabilecareia ıi corespunde frecventa maxima. In cazul datelor grupate exista uninterval modal, adica un interval caruia ıi corespunde frecventa maxima.Modul se determina cu ajutorul formulelor

Mo = l +∆1

∆1 + ∆2i

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 29 / 45

Indicatori de pozitie VII

sau

Mo = l − ∆2

∆1 + ∆2i ,

undel – limita inferioara a intervalului modal;l – limita superioara a intervalului modal;i – marimea intervalului modal;∆1 – diferenta dintre frecventa intervalului modal si frecventa intervaluluianterior intervalului modal;∆2 – diferenta dintre frecventa intervalului urmator intervalului modal sifrecventa intervalului modal.In unele cazuri, problema determinarii modului se complica prin aceea carepartitia poate avea doua sau mai multe puncte de concentrare ın loc deunul singur. Repartitiile de acest fel se numesc bimodale (plurimodale).Cauzele aparitiei unei astfel de repartitii pot fi urmatoarele:-un numar prea mic de date supuse gruparii;

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 30 / 45

Indicatori de pozitie VIII

-folosirea unor intervale prea mici ın raport cu numarul termenilor din serie.In asemenea cazuri se poate determina valoarea aproximativa a modului,modificand limitele intervalului si marind intervalul. Acest proces vacontinua pana cand se va stabili un singur interval modal. Daca repartitiaramane bimodala si dupa aceste operatii, atunci datele reflecta influentaunor factori cu totul deosebiti.Pentru repartitii perfect simetrice, media, mediana si modulul coincid.Intre cele trei caracteristici avem relatia aproximativa:

Mo = x − 3(x −Me).

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 31 / 45

Indicatori ai variatiei I

Orice colectivitate de date (populatie) din domeniile social, biologic,economic, etc. se caracterizeaza prin deosebiri cantitative ıntre diferiteleelemente. Acest aspect al variatiei este tot atat de important ca siaspectul asemanarii de ınrudire. Bunastarea materiala a populatiei dintr-otara depinde, ın aceeasi masura de variatia veniturilor ıncasate de diferitepersoane cat si de media veniturilor.Tinand seama de afirmatiile facute, putem considera ca metodele statistice

sunt un complex de procedee pentru studiul variatiei care da nastere la

diferite tipuri de repartitii de frecvente.Compararea indicatorilor variatiei reprezinta mijlocul pentru verificareaipotezelor. La generalizarea caracteristicilor statistice ıncercam sadelimitam limitele exactitatii acestor generalizari si ın acest scop utilizamde asemenea indicatorii variatiei.Un moment important al metodei statistice se realizeaza atunci cand seface distinctie ıntre variatia calitatii determinate de cauze stabilite (si prin

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 32 / 45

Indicatori ai variatiei II

urmare supuse controlului) si variatia care reprezinta consecinteleıntamplarii (actiunea unui numar arbitrar de cauze variabile). In acesteconditii este necesar un indicator exact si sensibil al variatiei. Valoareamedie prin ea ınsasi este putin reprezentativa daca nu este cunoscut gradulde ımprastiere a valorilor ce au condus la determinarea sa. Daca datelesunt puternic ımprastiate, astfel ıncat nu se poate contura o tendintacentrala, atunci media nu are nici o semnificatie. In schimb, cu cat valorilevor fi mai concentrate, cu atat media va fi mai semnificativa.Indicatorii folositi pentru caracterizarea variatiei se bazeaza pe calcululunor abateri.Amplitudinea pentru o repartitie empirica se calculeaza ca diferentadintre valoarea cea mai mare si valoarea cea mai mica. Urmeaza caamplitudinea depinde numai de marimea termenilor extremi ai seriei, asaca orice abatere brusca poate schimba esential marimea ei. Pentru selectiimici, mai ales cand selectia se repeta si sunt folosite rezultatele selectiilor

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 33 / 45

Indicatori ai variatiei III

ulterioare, amplitudinea da rezultate bune, ceea ce o face utilizabila laverificarile speciale ale calitatii productiei.Variatia intercuartilica. Pentru a ınlatura interpretarile aproximative ceprovin din cauza utilizarii unor valori extreme la caracterizarea variatiei seutilizeaza diferenta dintre doua valori ale variabilei, alese ın asa fel ıncatnumarul cazurilor observate sa se repartizeze proportional pe intervale. Inacest scop se utilizeaza cuartilele unei repartitii. Cand valorile cuartilei seapropie de mediana, repartitia empirica se caracterizeaza prin ımprastieremica. Putem calcula variatia intercuartilica pe care o notam cu Q

Q =Q3 −Q1

2

si coeficientul de variatie intercuartilica

q =Q

Me.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 34 / 45

Indicatori ai variatiei IV

Coeficientul q variaza ıntre -1 si 1. Se apropie de zero ın cazul repartitiilorsimetrice cu variatie foarte mica.Abaterea medie absoluta reprezinta media abaterilor fata de mediaaritmetica luate ın valoare absoluta. In practica, pentru caracterizareaımprastierii cu ajutorul abaterii medii, trebuie acordata preferinta medianei,deoarece marimea abaterii medii va fi mai mica daca marimea medie de lacare se porneste este mediana. Daca ın urma selectiei se obtin datelex1, x2, . . . , xn (pe care le presupunem aranjate ın ordine crescatoare) sadeterminam numarul x , x1 ≤ x ≤ xn, care minimizeaza suma

n

∑i=1

|xi − x | = E .

Presupunand ca xk ≤ x ≤ xk+1, 1 ≤ k ≤ n avem

k

∑i=1

(x − xi ) +n

∑i=k+1

(xi − x) = E .

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 35 / 45

Indicatori ai variatiei V

Derivand pe E ın raport cu x si egaland cu zero obtinem k − (n− k) = 0sau k = n

2 .

In cazul unui numar mare de valori, determinarea abaterii medii absolutedevine greoaie. Daca datele sunt grupate ıntr-o repartitie de frecvente,abaterile pot fi masurate de la media aritmetica sau de la mediana siınmultite cu frecventa absoluta a intervalului. De asemenea abaterile pot fimasurate de la centrul intervalului care contine media aritmetica saumediana, ınsa ın acest caz, rezultatul obtinut trebuie corectat datoritaerorii folosirii mijlocului intervalului ın locul mediei sau medianei reale.Acest indicator se foloseste rar ın cazul unei repartitii de frecvente. Seutilizeaza cand avem un numar redus de date si atunci cand nu estenecesara o analiza ulterioara.Cel mai reprezentativ indicator care caracterizeaza variatia este dispersia.Dispersia de selectie notata cu s2 se determina cu formula

s2 =1

n

n

∑i=1

(xi − x)2.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 36 / 45

Indicatori ai variatiei VI

Atunci cand se apreciaza caracteristica colectivitatii generale (populatiei)din care a fost extrasa selectia, cantitatea

s ′2 =1

n− 1

n

∑i=1

(xi − x)2 = s2n

n− 1(2)

este preferabila dispersiei de selectie (vom vedea de ce la capitolulestimatie). Radacina patrata s a dispersiei de selectie se numeste abateremedie patratica (de selectie).Pe baza selectiei vom face estimatii asupra caracteristicilor populatiei.Media aritmetica a selectiei va fi o aproximare a mediei aritmetice apopulatiei, iar dispersia de selectie a dispersiei populatiei.Se pune problema determinarii variatiei ce predomina ın colectivitatea acarei medie si dispersie sunt necunoscute. Avand o valoare individualadispunem de o baza minima pentru estimarea mediei, ınsa nu avem nici oinformatie asupra ımprastierii din colectivitatea generala. In cazul unei

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 37 / 45

Indicatori ai variatiei VII

singure valori, putem presupune ca toti termenii colectivitatii au aceiasimarime, iar atunci cand avem doua valori avem deja o baza pentrumasurarea variatiei colectivitatii, baza ce se mareste odata cu crestereanumarului de valori observate. Cu alte cuvinte, doua valori observate nedau un singur grad de libertate pentru estimarea variatiei colectivitatii, ...,n valori observate, n− 1 grade de libertate pentru estimarea variatiei(deoarece unul este folosit pentru calculul mediei aritmetice). In cazuldatelor grupate, se considera abaterile centrelor intervalelor de la mediaipotetica a intervalelor de grupare. Masurile dispersiei, exprimate subforma unitatilor de masura ale fenomenului cercetat, sunt utile atunci candse compara mai multe serii.Pentru o mai buna interpretare a rezultatelor obtinute se utilizeazacoeficientul de variatie

x =s

x,

exprimat sub forma procentuala si care este o masura a dispersiei relative.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 38 / 45

Indicatori ai variatiei VIII

Diferentele mici ın forma variatiei se evidentiaza cu ajutorul momentelorcare stau la baza caracteristicilor descrise si analizate ın continuare si aaltor indicatori utilizati la studiul asimetriei.Momentul este un termen folosit ın mecanica pentru a desemnacapacitatea fortei de a provoca o miscare. Marimea acestei capacitatidepinde de forta si de distanta de la punctul de aplicatie a fortei pana lapunctul ales. In statistica termenul de moment este folosit ın acelasi sens,fortele fiind ınlocuite cu frecventele absolute ale intervalelor.Dreptunghiurile construite pe abscisa, avand drept baza intervalul, iar ariaproportionala cu frecventa absoluta, vor apasa pe abscisa cu o fortadeterminata de frecventa absoluta a intervalului. Momentul fiecaruiinterval va fi dat de produsul dintre frecventa absoluta ni a intervalului sidistanta de la centrul intervalului la orginea aleasa. Daca notam cu mk

momentul de ordinul k , atunci

mk =∑i nix

ki

∑i ni.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 39 / 45

Indicatori ai variatiei IX

Se observa ca m1 coincide cu media aritmetica.Momentele centrate sau momentele fata de media aritmetica luata dreptorigine, au expresia

mk =∑i ni (xi − x)k

∑i ni.

Ele se pot calcula cu ajutorul momentelor obisnuite mk :

m1 = 0;

m2 = m2 −m21;

m3 = m3 − 3m1m2 + 2m31;

m4 = m4 − 4m1m3 + 6m21m2 − 3m4

1,

. . .

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 40 / 45

Indicatori ai variatiei X

Momentul centrat de ordinul 2, m2, este tocmai dispersia de selectie. Incazul cand momentele se calculeaza din datele grupate, presupunem caelementele fiecarui interval sunt concentrate ın mijlocul intervalului, faptce conduce la erori. Pentru ınlaturarea acestor erori se foloseste corectiaSheppard. Momentele (fata de media aritmetica) astfel corectate, notatecu m∗ sunt

m∗1 = 0;

m∗2 = m2 −

1

12;

m∗3 = m3;

m∗4 = m4 −

m2

2+

7

240;

. . .

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 41 / 45

Indicatori ai variatiei XI

Asimetria. Forma unei repartitii se poate aprecia si din punct de vedere algradului de asimetrie pe care-l prezinta. Asimetria repartitiei este cu atatmai mare cu cat diferenta dintre media aritmetica si modul este mai mare;diferenta este nula ın cazul repartitiilor unimodale, simetrice si care nusunt sub forma de U. Asimetria absoluta este

As = x −Mo,

iar cea relativa

Asr =x −Mo

s.

Aceasta cantitate este pozitiva atunci cand repartitia este asimetrica lastanga si negativa cand repartitia este asimetrica la dreapta. Dacamediana este localizata mai precis decat modulul se poate folosi formula:

Asr =3(x −Me)

s.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 42 / 45

Indicatori ai variatiei XII

Coeficientul de asimetrie intercuartilic se calculeaza dupa formula

Asq =(Q3 −Me)− (Me −Q1)

Q3 −Q1.

El variaza ıntre -1 si 1, fiind nul pentru repartitii perfect simetrice. Valorile±1 se obtin pentru repartitii cu asimetrii foarte accentuate, cand medianasi una dintre cuartile coincid.Coeficientii lui Pearson sunt:

β1 =m2

3

m32

(skewness),

β2 =m4

s4(kurtosis).

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 43 / 45

Indicatori ai variatiei XIII

Pentru studiul asimetriei se folosesc si urmatorii indicatori introdusi deFisher:

γ1 =√

β1 =m3

s3,

numit asimetrie si

γ2 = β2 − 3 =m4

s4− 3,

numit exces.

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 44 / 45

Bibliografie I

Robert Johnson –Elementary Statistics, 4th edition, PWS-Kent, 1984

Mircea Malita, Corneliu Zidaroiu – Incertitudine si decizie, EdituraStiintifica si enciclopedica, Bucuresti, 1980.

Gheorghe Mihoc, G. Ciucu, V. Craiu – Teoria probabilitatilor si

statistica matematica, Editura Didactica si pedagogica, Bucuresti,1970.

Radu Trımbitas - Metode statistice, Presa Universitara Clujeana,Cluj-Napoca, 2000

Daniel N.Pop (ULBS) Statistica descriptiva 02.febr.2016 45 / 45