curso estadistica descriptiva

61
I. ESTADISTICA DESCRIPTIVA I. ESTADISTICA DESCRIPTIVA Tablas de distribución de frecuencias. Tablas de distribución de frecuencias. (Frecuencias relativas y relativas acumuladas. )Graficas estadísticas (Frecuencias relativas y relativas acumuladas. )Graficas estadísticas Histogramas Histogramas Polígonos Polígonos Ojivas Ojivas Grafico de Torta o Pastel Grafico de Torta o Pastel Medidas de tendencia central Medidas de tendencia central Media Media Mediana Mediana Moda Moda percéntiles y cuartiles percéntiles y cuartiles Medidas de dispersión Medidas de dispersión Rango Rango Varianza Varianza desviación estándar desviación estándar coeficiente de variación coeficiente de variación Diagrama de cajas Diagrama de cajas. Actividad Actividad: Práctica en sala de cómputo. instrucciones sobre manejo de paquete : Práctica en sala de cómputo. instrucciones sobre manejo de paquete estadístico para descripción de datos estadístico para descripción de datos

Upload: carlmoron

Post on 05-Jul-2015

6.631 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Curso Estadistica Descriptiva

I. ESTADISTICA DESCRIPTIVAI. ESTADISTICA DESCRIPTIVA

Tablas de distribución de frecuencias. Tablas de distribución de frecuencias. • (Frecuencias relativas y relativas acumuladas. )Graficas estadísticas(Frecuencias relativas y relativas acumuladas. )Graficas estadísticas• HistogramasHistogramas• PolígonosPolígonos• OjivasOjivas• Grafico de Torta o PastelGrafico de Torta o Pastel

Medidas de tendencia centralMedidas de tendencia central• MediaMedia• MedianaMediana• ModaModa• percéntiles y cuartilespercéntiles y cuartiles

Medidas de dispersión Medidas de dispersión • RangoRango• VarianzaVarianza• desviación estándardesviación estándar• coeficiente de variacióncoeficiente de variación• Diagrama de cajasDiagrama de cajas..

ActividadActividad: Práctica en sala de cómputo. instrucciones sobre manejo de paquete : Práctica en sala de cómputo. instrucciones sobre manejo de paquete estadístico para descripción de datosestadístico para descripción de datos

Page 2: Curso Estadistica Descriptiva

1. Introducción:

• La palabra "estadística" suele utilizarse como colección de datos numéricos.- esto es el significado más vulgar de la palabra estadística. Se sobrentiende que dichos datos numéricos han de estar presentados de manera ordenada y sistemática. Una información numérica cualquiera puede no constituir una estadística, para merecer este apelativo, los datos han de constituir un conjunto coherente, establecido de forma sistemática y siguiendo un criterio de ordenación

Page 3: Curso Estadistica Descriptiva

Introducción:

En si, es una serie de técnicas ligadas con el fin de recolectar puede ser por medio de test, encuestas, censos, entre otras formas, un conjunto de datos. Luego organizar de manera cuantitativa o cualitativamente, según sea el caso. Presentar ya sea por tablas o por gráficos y finalmente analizar el conjunto de datos para sacar conclusiones y así poder tomar una buena decisión.

Page 4: Curso Estadistica Descriptiva

• Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población.

• Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo.

Introducción:

Page 5: Curso Estadistica Descriptiva

• A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico. Así por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres:

• Sexo, edad, nivel de estudios, profesión, peso, altura, color de pelo, etc.

• Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres.

Introducción:

Page 6: Curso Estadistica Descriptiva

Tipos de población• La población puede ser según su tamaño de dos

tipos: • Población Finita: cuando el número de

elementos que la forman es finito, por ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.

• Población Infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos... Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita.

Page 7: Curso Estadistica Descriptiva

PoblaciónPoblación• Ahora bien, normalmente en un estudio

estadístico, no se puede trabajar con todos los elementos de la población sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado número de elementos de la población, sin que en principio tengan nada en común; o una subpoblación, que es el subconjunto de la población formado por los elementos de la población que comparten una determinada característica, por ejemplo de los alumnos del centro la subpoblación formada por los alumnos de 3º eso, o la subpoblación de los varones.

Page 8: Curso Estadistica Descriptiva

Variables y Atributos.

• Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases:

• Variables cuantitativas. • Variables cualitativas o atributos

Page 9: Curso Estadistica Descriptiva

Variables cuantitativas.• Las variables cuantitativas son las que se describen por

medio de números, como por ejemplo el peso, altura, edad, número de suspensos…

• A su vez este tipo de variables se puede dividir en dos subclases:

• Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc.

• Cuantitativas continuas: aquellas que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualquier la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. Etc.

• No obstante en muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa.

Page 10: Curso Estadistica Descriptiva

• Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número. Por ejemplo sexo profesión, estado civil, etc. A su vez las podemos clasificar en:

• Ordenables: aquellas que sugieren una ordenación, por ejemplo la graduación militar, el nivel de estudios, etc.

• No ordenables: aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.

• CENSO. Decimos que realizamos un censo cuando se observan todos los elementos de la población estadística

Page 11: Curso Estadistica Descriptiva

TABLAS DE DISTRIBUCION DE FRECUENCIAS.

Es una técnica estadística para organizar datos en clases y cada una se les aplica la frecuencia correspondiente. Sirve para visualizar y organizar los datos. Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla en la que a cada valor de la variable se le asocian determinados números que representan el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable, etc. Estos números se denominan frecuencias: así tenemos los siguientes tipos de frecuencia:

Page 12: Curso Estadistica Descriptiva

• Frecuencia Absoluta: La frecuencia absoluta de una variable estadística es el número de veces que aparece en la muestra dicho valor de la variable, la representaremos por ni

• Frecuencia Relativa: • La frecuencia absoluta, es una medida que está influida

por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fi

Page 13: Curso Estadistica Descriptiva

Frecuencia Relativa:

Donde n = tamaño de la muestra

Page 14: Curso Estadistica Descriptiva

Porcentaje:

• La frecuencia relativa es un tanto por uno, sin embargo, hoy día es bastante frecuente hablar siempre en términos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.

%100•= ii FP

Page 15: Curso Estadistica Descriptiva

Frecuencia Absoluta Acumulada:

• Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Ni.

Page 16: Curso Estadistica Descriptiva

Frecuencia Relativa Acumulada:

• Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamaño de la muestra, y la denotaremos por Fi

N

NF ii =

Page 17: Curso Estadistica Descriptiva

Porcentaje Acumulado:

• Análogamente se define el porcentaje acumulado y lo vamos a denotar por pi como la frecuencia relativa acumulada por 100.

%100•= ii FP

Page 18: Curso Estadistica Descriptiva

EjemploEjemplo

• Veamos esto con un ejemplo: tomamos para ello los

datos relativos a las personas activas.

• En este ejemplo se puede ver fácilmente como se calculan estas frecuencias.

Personas activas

Número familias

Xi Ni Fi Pi Ni Fi Pi

1 16 16/50 32% 16 16/50 32%

2 20 20/50 40% 36 36/50 72%

3 9 9/50 18% 45 45/50 90%

4 5 5/50 10% 50 50/50 100%

Total 50

Page 19: Curso Estadistica Descriptiva

Tablas de frecuenciasTablas de frecuencias

• Existen dos formas diferentes de tablas de frecuencia, teniendo …

• Que la variable estadística tome pocos valores diferentes (ya sea grande o pequeño el tamaño de la muestra).

• Que, en una muestra de gran tamaño, la variable estadística tome muchos valores diferentes, ya se trate de variable estadística discreta como de variable estadística continua (este último caso es el más habitual).

Page 20: Curso Estadistica Descriptiva

En el primer caso no es necesario agrupar los datos, y la tabla de distribución presenta el siguiente aspecto (ordenando los datos de menor a mayor) :

Page 21: Curso Estadistica Descriptiva

• En el segundo caso por tratarse de variable continua o discreta pero con un número de datos muy grande, es aconsejable agrupar los datos en clases.

• Agrupamos los valores de la variable estadística en intervalos de clase contiguos y elegidos convenientemente para no perder mucha información. No existe un criterio claro de cuál debe ser el número de intervalos que debemos escoger, Norcliffe establece que el número de clases debe ser, aproximadamente igual a la raíz cuadrada positiva del número de datos. Normalmente, el número de intervalos de clase se suele fijar entre 5 y 15 y de tal manera que en cada clase se tengan, al menos, 5 observaciones. De todas formas el investigador los acomodará a las condiciones especificas del problema estadístico objeto de estudio (se tomarán tantos intervalos solapados como sean necesarios para recubrir todo el recorrido de la variable).

Page 22: Curso Estadistica Descriptiva

• Los extremos de los intervalos de clase se denominan extremos de clase y sus puntos medios marcas de clase(valor que nos representa la información que contiene un intervalo).

• Como cada observación debe quedar perfectamente encasillada en uno y sólo un intervalo de clase, debemos decidir a qué intervalos pertenecen los extremos de las clases, por lo que habrán de tomarse intervalos semiabiertos o tomando el extremo de cada clase con un decimal más que las observaciones. Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir de manera que el límite superior de una clase coincida con el límite inferior de la siguiente, y además, adoptando el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha.

Page 23: Curso Estadistica Descriptiva

• Por otro lado tenemos la amplitud de cada intervalo, que puede ser constante o variable. Si procuramos que todas las clases tengan la misma amplitud y los límites de cada clase sean números redondos (múltiplos p. ej. de 5) conseguiremos simplificar mucho los cálculos (siempre y cuando no se pierda demasiada información con estas consideraciones).

• Debemos observar un hecho importante, se entiende que cuando hacemos una agrupación en intervalos de clase, para nosotros solamente cuenta el número de observaciones que caen dentro de cada uno de los intervalos y no la colocación en su interior, es decir, suponemos que la distribución de estos valores en el intervalo es homogénea, en esto radica la pérdida de información que supone agrupar los datos de las observaciones.

Page 24: Curso Estadistica Descriptiva

Tabla de frecuencias de una variable estadística agrupada en intervalos.

Page 25: Curso Estadistica Descriptiva

(Frecuencias relativas y relativas acumuladas.)Graficas estadísticas

Ejemplo.• En la siguiente

tabla se muestra el total de vacunas aplicadas durante el verano de l991 en un estado de la República Mexicana.

Datos (vacunas)

f (en miles)

Fr(%) (redondeado

BCG 47 17

SABIN 111 41

DPT 73 27

SARAMPION 41 15

TOTAL 272 100

Page 26: Curso Estadistica Descriptiva

HISTOGRAMA.

• Es una representación grafica de una distribución de frecuencias por medio de rectángulos.

• Es un recurso común e importante para representar datos, consiste en una escala horizontal para valores de los datos que se están representando, una escala vertical de las frecuencias de dichos datos.

• El histograma es especialmente útil cuando se tiene un amplio número de datos que es preciso organizar.

• Histograma de frecuencia absoluta. (Xi y fi)• Histograma de frecuencia relativa (Xi y Fi)• Histograma de frecuencia relativa porcentual (Xi y hi)• Histograma de frecuencia relativa acumulada (Xi y Hi)• Con la distribución de frec. anterior se tiene:

Page 27: Curso Estadistica Descriptiva
Page 28: Curso Estadistica Descriptiva

POLIGONOS DE FRECUENCIA

• Es una representación grafica de la distribución de frecuencia que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros de las bases superares de los rectángulos del histograma.

Page 29: Curso Estadistica Descriptiva

OJIVA.

• Una grafica similar al polígono de frecuencias es la ojiva, pero esta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que estas, existen las ojivas mayor que y menor que.

• Una gráfica de distribución de frecuencias acumuladas es llamada una ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas.

Page 30: Curso Estadistica Descriptiva
Page 31: Curso Estadistica Descriptiva

Ojiva Porcentual ó Polígono de frecuencias

relativas acumuladas. • Se trazan los límites reales superiores contra las

frecuencias relativas acumuladas.

Page 32: Curso Estadistica Descriptiva

DIAGRAMA CIRCULAR, PASTEL O TORTA.

• Cuando lo que se desea resaltar son las proporciones que representan algunos subconjuntos con respecto al total, conviene utilizar la grafica o diagrama circular. Es un grafico en el que cada valor o modalidad se le asigna un sector circular de área proporcional a la frecuencia que representan.

• Es un gráfico que se basa en una proporcionalidad entre la frecuencia y el ángulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo central de 360°. Para construir se aplica la siguiente formula:

• X = frecuencia relativa * 360°/n frecuencia relativa

Page 33: Curso Estadistica Descriptiva

• Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona principalmente información acerca de las frecuencias de los datos de una manera entendible y sencilla.

• Se forma al dividir un círculo en sectores circulares de manera que:

• a) Cada sector circular equivale al porcentaje correspondiente al dato o grupo que representa.

• b) La unión de los sectores circulares forma el círculo y la suma de sus porcentajes es 100.

Page 34: Curso Estadistica Descriptiva

Datos (vacunas)

f (miles)

Fr(%) Grados

(redondeados)

BCG 47 17 .17 x 360 = 61

SABIN 111 41 .41 x 360 = 148

DPT 73 27 .27 x 360 = 97

SARAMPION 41 15 .15 x 360 =54

TOTAL 272 100 360

Page 35: Curso Estadistica Descriptiva
Page 36: Curso Estadistica Descriptiva

Diagramas de caja o boxplots

• los pasos para construirlo son los siguientes: • Dibujar y marcar un eje de medida horizontal • Construir un rectángulo cuyo borde izquierdo esta arriba

del cuarto inferior y cuyo borde derecho esta arriba del cuarto superior

• Dibujar un segmento de recta vertical dentro de la caja arriba de la mediana

• Prolongar rectas desde cada extremo de la caja hasta las observaciones más lejanas que estén todavía a menos de 1.5fs de los bordes correspondientes

• Dibujar un circulo abierto para identificar cada observación que caiga entre 1.5fs y 3fs del borde al cual esta más cercano estas se llaman puntos inusuales suaves

Page 37: Curso Estadistica Descriptiva

• Dibujar un circulo de línea llena para identificar cada observación que caiga a mas de 3fs del borde más cercano, estas se llaman puntos inusuales extremos

• Donde fs= cuarto superior – cuarto inferior• Este diagrama se usa cuando se necesita la mayor

información acerca de la distribución de los datos, la ventaja que posee con respecto a los demás diagramas es que este gráfico posee características como centro y dispersión de los datos, y la principal desventaja que posee es que no presenta ninguna información acerca de las frecuencias que presentan los datos

Page 38: Curso Estadistica Descriptiva

• PARAMETRO• Es un número que caracteriza a un conjunto de datos,

se clasifican en:• Parámetro de centralización• Miden alrededor de que valor se agrupan los datos.

Ejemplo, media, mediana, moda, cuarteles, percentiles, etc.

• Media• También llamado promedio o esperanza matemática, es

un numero calculado mediante ciertas operaciones a partir de los elementos de un conjunto de números, x1, x2,…, xn, y que sirve para representara este. Hay distintos tipos de media.

Page 39: Curso Estadistica Descriptiva

• Media Aritmética:• La media aritmética de una variable se define como la

suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresión:

Xi representa el valor de la variable o en su caso la marca de clase.

Page 40: Curso Estadistica Descriptiva

• Propiedades:• Si multiplicamos o dividimos todas las observaciones por

un mismo número, la media queda multiplicada o dividida por dicho numero.

• Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha cantidad.

• Además de la media aritmética existen otros conceptos de media, como son la media geométrica y la media

armónica.

Page 41: Curso Estadistica Descriptiva

• Media geométrica:• La media geométrica de n observaciones es la raíz de índice n

del producto de todas las observaciones. La representaremos por g.

• Media armónica:• La media armónica de n observaciones es la inversa de la media

de las inversas de las observaciones y la denotaremos por h

• Al igual que en el caso de la media geométrica su utilización es bastante poco frecuente.

Page 42: Curso Estadistica Descriptiva

• Mediana:• La mediana es el valor central de la variable, es decir,

supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra.

• Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.

• Cálculo de la mediana en el caso discreto: • Tendremos en cuenta el tamaño de la muestra. • Si n es impar, hay un término central, el término

que será el valor de la mediana.• Si n es par, hay dos términos centrales,

la mediana será la media de esos dos valores

Page 43: Curso Estadistica Descriptiva

• Ejemplo

N par N impar

1,4,6,7,8,9,12,16,20, 24,25,27 n=12

1,4,6,7,8,9,12,16,20, 24,25,27,30 n=13

Términos centrales el 6º y 7º 9 y 12

Término central el 7º , 12

Me=

Me=12

Page 44: Curso Estadistica Descriptiva

• Cálculo de la mediana en el caso continúo:• Si la variable es continua, la tabla vendrá en intervalos, por

lo que se calcula de la siguiente forma:

• Nos vamos a apoyar en un gráfico de un histograma de frecuencias acumuladas. De donde la mediana vale: donde ai es la amplitud del intervalo

• Veámoslo por medio de un ejemplo.• Supongamos los pesos de un grupo de 50 personas se

distribuyen de la siguiente forma:

Page 45: Curso Estadistica Descriptiva

• Como el tamaño de la muestra es n=50, buscamos el intervalo en el que la frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3º y aplicamos la fórmula anterior. Luego la mediana será

Me=

Li-1 Li Ni Ni

45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Page 46: Curso Estadistica Descriptiva

• MODA• La moda es el valor de la variable que tenga mayor

frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo.

• Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o polimodal según el caso.

• Por lo tanto el cálculo de la moda en distribuciones discretas o cualitativas no precisa de una explicación mayor; sin embargo, debemos detenernos un poco en el cálculo de la moda para distribuciones cuantitativas continuas.

Page 47: Curso Estadistica Descriptiva

• Apoyándonos en el gráfico podemos llegar a la determinación de la expresión para la moda que es:

• Otros autores dan una expresión aproximada para la moda que viene dada por la siguiente expresión:

• Veamos su cálculo mediante un ejemplo, para ello usaremos los datos del apartado anterior

Page 48: Curso Estadistica Descriptiva

Veamos su cálculo mediante un ejemplo, para ello usaremos los datos del apartado anterior

Li-1 Li Ni Ni

45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Utilizando la fórmula aproximada

Page 49: Curso Estadistica Descriptiva

Parámetros de localización.

• Cuartiles, deciles, percentiles

• Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra. Así en psicología los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categoría en función de la 53-1-u-puntuación obtenida.

Page 50: Curso Estadistica Descriptiva

• Cuartiles• Medida de localización que divide la población o muestra

en cuatro partes iguales.• Q1= valor de la variable que deja a la izquierda el 25%

de la distribución. • Q2= valor de la variable que deja a la izquierda el 50%

de la distribución = mediana. • Q3= valor de la variable que deja a la izquierda el 75%

de la distribución. • Al igual que ocurre con el cálculo de la mediana, el

cálculo de estos estadísticos, depende del tipo de variable.

Page 51: Curso Estadistica Descriptiva

• Caso i: variable cuantitativa discreta: • En este caso tendremos que observar el tamaño de la

muestra: n y para calcular q1 o q3 procederemos como si tuviésemos que calcular la mediana de la correspondiente mitad de la muestra.

• Caso ii: variable cuantitativa continua: • En este caso el cálculo es más simple: sea la distribución

que sigue: • Siendo el intervalo coloreado

. donde se encuentra el cuartil . . correspondiente:

[li-2 -- li-1) Ni-1 Ni-1

[li-1 -- li) Ni Ni

Y

Page 52: Curso Estadistica Descriptiva

• Deciles• Medida de localización que divide la población o muestra

en 10 partes iguales• No tiene mucho sentido calcularlas para variables

cualitativas discretas. Por lo que lo vamos a ver sólo para las variables continuas.

• Dk = decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución.

• Intervalo donde se encuentra el . . decil correspondiente:

[li-2 -- li-1) Ni-1 Ni-1

[li-1 -- li) Ni Ni

k = 1... 9

Page 53: Curso Estadistica Descriptiva

• Percentiles:• Medida de localización que divide la población o muestra

en 100 partes iguales• No tiene mucho sentido calcularlas para variables

cualitativas discretas. Por lo que lo vamos a ver sólo para las variables continuas.

• Pk = percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribución.

Intervalo donde se encuentra el . . . percentil correspondiente

[li-2 -- li-1) Ni-1 Ni-1

[li-1 -- li) Ni Ni

k=1... 99

Page 54: Curso Estadistica Descriptiva

• Ejemplo:• Como se puede observar la forma de calcular estas

medidas es muy similar a la del cálculo de la mediana.• Veamos el cálculo de algunas de estas medidas en el

ejemplo que estamos estudiando.• Vamos a calcular q1, q3, d3, y p45

Cálculo de q1: buscamos en la . . columna de las frecuencias . . . . . acumuladas el valor que supere al . 25% de n=50, corresponde al 2º . . intervalo.(50/4=12.5)

Li-1 Li Ni Ni

45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Page 55: Curso Estadistica Descriptiva

• Análogamente calculemos q3, buscamos ahora en la misma columna el correspondiente al 75 %de n que en este caso es el 4º intervalo (3.50/4=37.5)

• Veamos ahora el decil 3º. (Corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.

• Por último veamos el percentil 45 (45·50/100 = 22.5) corresponde al intervalo 3º.

Page 56: Curso Estadistica Descriptiva

Parámetro de dispersión.

• Las medidas de dispersión indican que tan lejos o tan cerca se encuentran unos datos de otros en una distribución de frecuencia. La medida representativa mas utilizada para analizar la dispersión de datos es la media. Las más importantes son el rango, la desviación media, la desviación típica o estándar, el coeficiente de variación, la varianza.

• Rango • Es la medida de dispersión que indica la distancia entre el

valor mayor y menor en un grupo de datos• Se denota como r. Realmente no es una medida muy

significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular.

Page 57: Curso Estadistica Descriptiva

• Desviación: • Es la diferencia que se observa entre el valor de la variable

y la media aritmética. La denotaremos por di.• No es una medida, son muchas medidas, pues cada valor

de la variable lleva asociada su correspondiente desviación, por lo que precisaremos una medida que resuma dicha información.

• Varianza: Es una medida de dispersión que se halla mediante la

suma de los cuadrados de la desviación respecto a las medias, divididas entre el número de datos. Es la media de los cuadrados de las desviaciones, y la denotaremos por si se trata de una muestra o también por si se habla de una población.

Page 58: Curso Estadistica Descriptiva

Aunque también es posible calcularlo como:

Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2.

Page 59: Curso Estadistica Descriptiva

• Desviación Típica:• Es la raíz cuadrada de la varianza, se denota por sx o x x.

45 55 6 6 50 300 -19,4 116,4 2258,16 15000

55 65 10 16 60 600 -9,4 94 883,6 36000

65 75 19 35 70 1330 0,6 11,4 6,84 93100

75 85 11 46 80 880 10,6 116,6 1235,96 70400

85 95 4 50 90 360 20,6 82,4 1697,44 32400

N= 50 3470 420,8 6082 246900

Page 60: Curso Estadistica Descriptiva

• Este estadístico se mide en la misma unidad que la variable

por lo que se puede interpretar mejor.

=

Dm=

=

C.v.=

Page 61: Curso Estadistica Descriptiva

• Coeficiente De Variación:• Es un estadístico de dispersión que tiene la ventaja de que

no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por c.v.

• Diagrama de cajas.????• Actividad: práctica en sala de cómputo. Instrucciones

sobre manejo de paquete estadístico para descripción de datos