analisis descriptivo de una sola variable

37
Análisis descriptivo y presentación de datos de una sola variable Universidad de San Carlos de Guatemala Facultad de Ingeniería Curso de Estadística Catedrático. MA ING Marco Vinicio Monzón MA ING Marco Vinicio Monzon

Upload: sammy-lopez

Post on 11-Jan-2016

31 views

Category:

Documents


0 download

DESCRIPTION

Estadistica Descriptiva

TRANSCRIPT

Page 1: Analisis Descriptivo de Una Sola Variable

Análisis descriptivo y presentación

de datos de una sola variable

Universidad de San Carlos de Guatemala Facultad de Ingeniería Curso de Estadística Catedrático. MA ING Marco Vinicio Monzón

MA ING Marco Vinicio Monzon

Page 2: Analisis Descriptivo de Una Sola Variable

Presentación Gráfica

de datos

MA ING Marco Vinicio Monzon

Page 3: Analisis Descriptivo de Una Sola Variable

Diagramas de pastel: Los diagramas de pastel (diagramas de pay) muestran la cantidad de datos que pertenecen a cada categoría como una parte proporcional de un círculo.

2.1 Gráficas, diagramas de Pareto

y diagramas de tallo y hojas.

Datos cualitativos:

Para la representación de datos cualitativos utilizamos gráficas de

Pastel y de barras para resumir los datos cualitativos, de atributo

o categóricos

Gráficas de Barras: Las gráficas de barras muestran la cantidad

de datos que pertenecen a cada categoría como áreas rectangulares

de tamaño proporcional.

MA ING Marco Vinicio Monzon

Page 4: Analisis Descriptivo de Una Sola Variable

Ejemplo # 1

En la tabla siguiente se muestra el número de casos de cada tipo de operación realizada

en el Hospital General, el año pasado.

Operaciones realizadas en el Hospital General el año pasado

Tipo de operación Número de casos

Torácica 20

Huesos y articulaciones 45

Ojos, oídos, nariz y garganta 58

General 98

Abdominal 115

Urológicas 74

Proctológicas 65

Neurocirugía 23

Total 498

MA ING Marco Vinicio Monzon

Page 5: Analisis Descriptivo de Una Sola Variable

Diagrama de Pastel

Operaciones realizadas en el Hospital

General el año pasado

Abdominal

22%

General

20%

Urológica

s

15%

Proctológicas

13%

Neurocirugía

5%

,Ojos, oídos

nariz y

garganta

12%

Huesos y

articulaciones

9%

Torácica

4%

MA ING Marco Vinicio Monzon

Page 6: Analisis Descriptivo de Una Sola Variable

Gráfica de barras

Operaciones realizadas en el Hospital General el año pasado

020406080

100120140

Torácic

a

Ojo

s, oíd

os,

nariz

y

garganta

Ab

dom

inal

Proctoló

gic

as

Tipo de operación

mero

de c

aso

s

Series1

MA ING Marco Vinicio Monzon

Page 7: Analisis Descriptivo de Una Sola Variable

Datos Cuantitativos Una razón fundamental para elaborar una gráfica de

datos cuantitativos es mostrar su distribución.

Distribución: Patrón de variabilidad mostrado por los datos de una variable.

La distribución muestra la frecuencia de cada valor de la variable.

Gráfica de puntos: Presenta los datos de una muestra mediante

la representación de cada porción

de datos con un punto ubicado a lo largo de una escala.

Esta escala puede ser vertical u horizontal.

La frecuencia de los valores está representada a lo largo

de la otra escala.

MA ING Marco Vinicio Monzon

Page 8: Analisis Descriptivo de Una Sola Variable

2.2 Distribuciones de frecuencia e

histogramas

Los listados de grandes conjuntos de datos no presentan una imagen valiosa. Algunas veces se desea condensar los datos en una forma más manejable. Esto puede lograrse con ayuda de una distribución de frecuencias.

Distribución de frecuencias

Listado, a menudo expresado en forma de diagrama, que asocia

cada valor de una variable con su frecuencia.

Hay dos tipos: agrupadas y no agrupadas.

MA ING Marco Vinicio Monzon

Page 9: Analisis Descriptivo de Una Sola Variable

Distribución de datos no

agrupados

3 2 2 3 2 4 4 1 2 2

4 3 2 0 2 2 1 3 3 1

La frecuencia f es el número de veces que aparece el valor x en la muestra.

La tabla anterior es una distribución de frecuencias no agrupadas.

“No agrupadas” porque cada valor de x en la distribución permanece solo.

Distribución de frecuencias no agrupadas

x f

0 1

1 3

2 8

3 5

4 3

MA ING Marco Vinicio Monzon

Page 10: Analisis Descriptivo de Una Sola Variable

Distribución de frecuencias de

datos agrupados

Cuando un gran conjunto de datos tiene

muchos valores x distintos, en lugar de unos

cuantos valores repetidos, es posible agrupar

los valores en un conjunto de clases y

elaborar una distribución de frecuencias

agrupadas.

MA ING Marco Vinicio Monzon

Page 11: Analisis Descriptivo de Una Sola Variable

Ejemplo de datos Agrupados

A fin de ilustrar este procedimiento para agrupar (o clasificar), se considerará una muestra de 50 calificaciones del examen

final del curso de estadística elemental del último semestre. En

la siguiente tabla se presentan las 50 calificaciones.

60 47 82 95 88 72 67 66 68 98

90 77 86 58 64 95 74 72 88 74

77 39 90 63 68 97 70 64 70 70

58 78 89 44 55 85 82 83 72 77

72 86 50 94 92 80 91 75 76 78

MA ING Marco Vinicio Monzon

Page 12: Analisis Descriptivo de Una Sola Variable

K = amplitud K = 1 + 3.32 log50 = 6.64

R = rango R = 98- 39 = 59

I = intervalo I = 59/6.64 = 8.89 = 9

Límite aparente Límite real f F

39 – 47 38.5 – 47.5 3 3

48 – 56 47.5 – 56.5 2 5

57 – 65 56.5 – 65.5 6 11

66 – 74 65.5 – 74.5 13 24

75 – 83 74.5 – 83.5 11 35

84 – 92 83.5 – 92.5 10 45

93 – 101 92.5 – 101.5 5 50

MA ING Marco Vinicio Monzon

Page 13: Analisis Descriptivo de Una Sola Variable

Marca de Clase Algunas veces denominada punto medio de clase, es el valor numérico

que está exactamente a la mitad de ésta y se encuentra al sumar los límites de clase y dividirlo entre 2. En la siguiente tabla se muestra una

columna adicional para la marca de clase, x.

Límite aparente Límite real f F M

39 – 47 38.5 – 47.5 3 3 43

48 – 56 47.5 – 56.5 2 5 52

57 – 65 56.5 – 65.5 6 11 61

66 – 74 65.5 – 74.5 13 24 70

75 – 83 74.5 – 83.5 11 35 79

84 – 92 83.5 – 92.5 10 45 88

93 – 101 92.5 – 101.5 5 50 97

MA ING Marco Vinicio Monzon

Page 14: Analisis Descriptivo de Una Sola Variable

Histograma Gráfica de barras que representa una distribución de frecuencias de

una variable cuantitativa.

Un histograma está integrado por los siguientes componentes:

1. Un título, que identifica la población o la muestra de interés.

2. Una escala vertical, que identifica las frecuencias que hay en las diversas clases.

3. Una escala horizontal, que identifica la variable x. los valores de los límites de clase o de las marcad de clase deben identificarse a lo largo del eje x. debe utilizarse el método de identificación con el que se presente mejor la variable.

50 calificaciones del examen final de estadística

elemental

0

2

4

6

8

10

12

14

1

calificación

frec

uenc

ia

43 52 7061 79 88 97

MA ING Marco Vinicio Monzon

Page 15: Analisis Descriptivo de Una Sola Variable

Tipos de Histogramas

0

1

2

3

4

5

6

1

Simétrico: Ambos lados de la

Distribución son idénticos.

Uniforme: cada valor aparece

con igual frecuencia.

MA ING Marco Vinicio Monzon

Page 16: Analisis Descriptivo de Una Sola Variable

Sesgado: una cola es más larga que la otra.

La dirección

del sesgo es del lado de la cola más larga.

En forma de J: no hay cola de

la clase con la

frecuencia más alta.

MA ING Marco Vinicio Monzon

Page 17: Analisis Descriptivo de Una Sola Variable

La frecuencia relativa

Es una medida proporcional de la frecuencia de un evento. Se encuentra al dividir la frecuencia de clase entre el número total de observaciones. La

frecuencia relativa puede expresarse como una fracción común, en forma decimal, o como un porcentaje.

Las frecuencias relativas son especialmente útiles cuando se comparan las distribuciones de frecuencias de dos conjuntos de datos de tamaños diferentes.

f fr F%

3 3/50 6%

2 2/50 4%

6 6/50 12%

13 13/50 26%

11 11/50 22%

10 10/50 20%

5 5/50 10%

MA ING Marco Vinicio Monzon

Page 18: Analisis Descriptivo de Una Sola Variable

Estadística descriptiva

numérica

MA ING Marco Vinicio Monzon

Page 19: Analisis Descriptivo de Una Sola Variable

2.3 Medidas de tendencia

central

Son valores numéricos que localizan, de alguna manera, el centro de un conjunto de datos. El término promedio a menudo

es asociado con todas las medidas de tendencia central.

Media aritmética:

Es el valor obtenido sumando las observaciones y dividiendo esta suma por el número

de observaciones

que hay en el grupo. Solamente puede utilizarse con variables cuantitativas.

Fórmula:

X= ∑ x

n

MA ING Marco Vinicio Monzon

Page 20: Analisis Descriptivo de Una Sola Variable

Ejemplo de media aritmética

Alumno Nota Procedimiento

Luís Fernando Molina 6.0 Se suman las notas 6.0+5.4+3.1+7.0+6.1=27.7

Maria Fernanda Castillo 5.4 Luego el total se divide por la cantidad de alumnos:

27.7/5=5.53

Cristina Monzón 3.1 La media aritmética en este problema seria 5.53

Álvaro Godoy 7.0

José Manuel Cofiño 6.1

Notas de 5 alumnos en una prueba

MA ING Marco Vinicio Monzon

Page 21: Analisis Descriptivo de Una Sola Variable

Mediana Es el valor de la variable que deja el mismo número de datos antes y después

que él.

Se representa con una “x” y se lee como “x tilde” o “mediana muestral”

Procedimiento para encontrar la mediana

Paso # 1: ordene los datos.

Paso # 2: determine la profundidad o posición de la mediana.

Paso # 3: determine el valor de la mediana

Fórmula: n + 1

2

Ejemplo:

Encuentre la mediana del conjunto de datos {6, 3, 8, 5, 3}

3, 3, 5, 6 y 8

5+ 1 = 3

2

La media es el tercer número desde cualquier extremo en los datos

ordenados en este caso 5.

MA ING Marco Vinicio Monzon

Page 22: Analisis Descriptivo de Una Sola Variable

Moda

Es el valor que cuenta con una mayor frecuencia en una distribución de datos.

Ejemplo:

Encontrar la moda de {12, 9, 8, 8, 7, 5, 5, 5, 4, 2}

2, 4, 5, 5, 5, 7, 8, 8, 9, 12

El número que más se repite es 5, por lo tanto la respuesta

seria 5

MA ING Marco Vinicio Monzon

Page 23: Analisis Descriptivo de Una Sola Variable

Rango Medio

Es el número que está exactamente a la mitad del camino entre el dato con menor valor min. y el dato con mayor valor Máx. Se encuentra

promediando los valores mínimo y máximo

Fórmula: Rango medio = Mín + Máx

2

Encuentre el rango medio de { 3, 3, 5, 6, 8}, Mín = 3 y Máx = 8

3 + 8 = 5.5

2

R­//El rango medio seria 5.5

MA ING Marco Vinicio Monzon

Page 24: Analisis Descriptivo de Una Sola Variable

2.4 Medidas de dispersión

Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Es la diferencia entre el valor mínimo y el valor máximo en un grupo de números.

Procedimiento:

•Ordenamos los números según su tamaño.

•Restamos el valor mínimo del valor máximo.

Ejemplo:

Encuentre el rango de la muestra {3, 3, 5, 6, 8}

Máx. - Mín. = 8 - 3 = 5

Rango

MA ING Marco Vinicio Monzon

Page 25: Analisis Descriptivo de Una Sola Variable

Desviación con respecto a la

media Es la media de las diferencias en valor absoluto de los valores a la media.

Es la diferencia entre el calor de x y la media

Cada valor individual x se desvía de la media por una cantidad igual a (x- x). Esta desviación (x - x) es cero x es igual a la media. La desviación (x-x) es positiva se x es mayor que x y negativa si es menor que x.

Fórmula:

DESVIACIÓN CON RESPECTO A LA MEDIA= ∑ x - X

n

Ejemplo:

Considere la muestra {6, 3, 8, 5, 3}

Se encuentra que la media es 5

Luego cada desviación, se encuentra retando 5 de cada valor x

Datos x 6 3 8 5 3

Desviación X - x 1 - 2 3 0 - 2

MA ING Marco Vinicio Monzon

Page 26: Analisis Descriptivo de Una Sola Variable

Varianza Muestral

Es la media de las desviaciones al cuadrado, calculada usando como divisor a n - 1.

Fórmula:

Varianza muestral = suma de (desviaciones) 2

número - 1

MA ING Marco Vinicio Monzon

Page 27: Analisis Descriptivo de Una Sola Variable

Desviación estándar muestral Es una medida de dispersión para variables de razón y de intervalo. Es una

medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la

variable.

Fórmula:

S = suma de (desviaciones) 2

número - 1

Limite

aparente

F M M- x (M-x)2 F(M-x)2

10-17 11 13.5 -10.8 116.64 1283.04

18-25 17 21.5 -2.8 7.84 133.28

26-33 6 29.5 5.2 27.04 162.4

34-41 2 37.5 13.2 174.24 348.48

42-49 2 45.5 21.2 449.44 898.88

50-57 1 53.5 29.2 852.64 852.64

58-65 1 61.5 37.2 1383.84 1383.84

5,062.56

= 5,062.56 = 39

11.39

Respuesta

MA ING Marco Vinicio Monzon

Page 28: Analisis Descriptivo de Una Sola Variable

2.5 Media y desviación estándar

de distribuciones de frecuencias

Promedio más conocido. Se representa por X (x barra o media muestral) la media se encuentra sumando todos los valores de la variable x, y dividiendo entre el número de estos valores n (tamaño de la muestra).

Para encontrar la media de una distribución de frecuencias se utiliza la siguiente fórmula:

Media muestral= x barra= suma de x/ número de

x

X= ∑x/n

Ejemplo:

Un conjunto de datos consta de 5 valores: 6, 3, 8,6 y 4.

Encuentre la media

= 6+3+8+6+4/5= 27/5= 5.4

Media:

MA ING Marco Vinicio Monzon

Page 29: Analisis Descriptivo de Una Sola Variable

Mediana

Valor de los datos que ocupa la posición

central cuando los datos se ordenan según

su tamaño, se representa por x (x tilde o

mediana muestral)

Ejemplo:

Encuentre la mediana del conjunto de datos: 6,3, 8, 5, 3

Paso1: los datos ordenados de manera creciente, son 3, 3, 5, 6 y 8

Paso2. Profundidad de la mediana

d(x)= n+1/2= 5+1/2= 3 (la tercera posición)

paso3. Es decir la mediana es el tercer numero desde cualquier extremo en

los ordenados, es decir 5.

MA ING Marco Vinicio Monzon

Page 30: Analisis Descriptivo de Una Sola Variable

Moda

Es el valor de x que ocurre más frecuentemente.

Ejemplo:

Encuentre la moda del siguiente conjunto (5, 6, 6, 7, 2, 3)

La moda es 6

MA ING Marco Vinicio Monzon

Page 31: Analisis Descriptivo de Una Sola Variable

Rango: Es la diferencia en valor entre los datos de

mayor valor (máx.) y de menor valor (min.)

Ejemplo:

Encuentre el rango de la muestra 3, 3, 5, 6, 8

Max-min= 8-3= 5

Varianza muestral: S2, es la media de las desviaciones al cuadrado, calculada usando

como divisor a n-1.

Varianza muestral= suma de (desviaciones)2/ número -1

S2 = ∑ (X-X)2/ n-1

MA ING Marco Vinicio Monzon

Page 32: Analisis Descriptivo de Una Sola Variable

Desviación Estándar S, es la raíz cuadrada positiva de la varianza.

S=√s2

S= √∑ (x-x )2

n-1

CV= Coeficiente de variación

S x100

x

MA ING Marco Vinicio Monzon

Page 33: Analisis Descriptivo de Una Sola Variable

2.6 Medidas de posición

Se usan para describir la posición que tiene el valor de un dato específico en relación con el resto de los datos.

Medidas de posición

Cuartiles Deciles Percentiles

MA ING Marco Vinicio Monzon

Page 34: Analisis Descriptivo de Una Sola Variable

Son los valores de la variable que dividen en

cuartos a los datos ordenados, cada conjunto de

datos posee 3 cuartiles.

25% 25% 25% 25%

Cuartiles

Q1 Q2 Q3

Formula: Qn= Qn\4

MA ING Marco Vinicio Monzon

Page 35: Analisis Descriptivo de Una Sola Variable

Ejemplo

Galones de gasolina que consumen los

taxistas al día 4, 8, 8, 9, 10, 12, 15

Qn= 1(7)/4= Q1= 1.75= 2

Q1=8

El 25% consume menos de 8 galones y el

75% consume más de 8 galones

MA ING Marco Vinicio Monzon

Page 36: Analisis Descriptivo de Una Sola Variable

Percentiles

Son los valores de la variable que dividen a un conjunto de datos ordenados en 100

subconjuntos iguales, cada conjunto de datos tiene 99 percentiles.

Pn= Pn/100

Ejemplo:

Pn= Pn/100= 60*7/100= 4.2=5

P60= 10

El 60 consume menos de 10 galones y el 40% consume más de 10 galones

MA ING Marco Vinicio Monzon

Page 37: Analisis Descriptivo de Una Sola Variable

Deciles

Son los valores de la variable que dividen a

un conjunto de datos ordenados en 10

subconjuntos iguales, cada conjunto de datos

tiene 9 deciles.

Dn: Dn/10

Dn= Dn/10 4*7/10= 2.8=3

Dn=8

El 40% consume menos de 8 galones y el

60% consume más de 8 galones.

MA ING Marco Vinicio Monzon