curso estadística industrial

91
- 1 - ESTADISTICA INDUSTRIAL PROCESAMIENTO Y ANALISIS ESTADÍSTICOS DE DATOS PROFESOR: RENÉ MALUENDA MOYA UNIVERSIDAD DE ANTOFAGASTA CHILE IQUIQUE: DICIEMBRE DEL 2011

Upload: hector-olivares

Post on 12-Dec-2015

32 views

Category:

Documents


8 download

DESCRIPTION

ESTART

TRANSCRIPT

Page 1: Curso Estadística Industrial

- 1 -

ESTADISTICA INDUSTRIAL

PROCESAMIENTO Y ANALISIS ESTADÍSTICOS DE DATOS

PROFESOR: RENÉ MALUENDA MOYA UNIVERSIDAD DE ANTOFAGASTA CHILE

IQUIQUE: DICIEMBRE DEL 2011

Page 2: Curso Estadística Industrial

- 2 -

Curso de Estadística Industrial

Podemos definirla como una ciencia que sustentada en el Método Científico y la Matemática se preocupa de: • Diseño y Planificación de la colecta de los datos • Recolección de los datos • Procesamiento de los datos • Análisis e interpretación de los resultados o información Con el objetivo de:

• Ayudar a tomar decisiones lo más acertadas posibles, teniendo como respaldo el conocimiento obtenido de la "situación estudiada" a través de los datos.

• Planificar acciones de mejora • Conocimiento básico del comportamiento de una situación problema

La definición anterior es la que llevada a un ciclo permanente permite "la mejora continua" de toda actividad humana.

La Estadística Descriptiva: Recibe este nombre cuando con la información obtenida sólo se pretende describir o caracterizar una variable o un grupo particular. Las conclusiones son válidas sólo para ese grupo en particular.

La Estadística Inferencial o Inductiva: Recibe este nombre ,cuando existe un proceso riguroso de definición de una muestra aleatoria a ser extraída del conjunto mayor, denominado Población o Universo, la cual tiene asignado un grado de confiabilidad y un error preestablecido. La muestra es obtenida de la población utilizando metodologías que aseguran la representatividad de la muestra respecto de la población.

La información obtenida de la muestra permite elaborar conclusiones válidas para todo el

Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra.

Es muy importante de tener en consideración, de que en la actualidad cualquier trabajo de De este contexto podemos desprender entonces que toda la Estructura y Beneficios que se espera de la Estadística descansan en los DATOS. Esto nos sugiere que el mayor esfuerzo posible lo debemos focalizar en la preocupación de obtener DATOS DE BUENA CALIDAD.

Page 3: Curso Estadística Industrial

- 3 -

Algunos aspectos a considerar para evaluar la calidad del dato:

• Capacidad de los equipos de medición utilizados

• Calibración de los instrumentos de medición

• Competencias del recurso humano que interviene

• Temporalidad

• Trazabilidad

• Etc, etc.- En resumen, realizar un análisis al Sistema de Medición que se utiliza o se va a implementar. La muestra está formada por un subconjunto de elementos de la población, que son obtenidos utilizando metodologías que aseguran la representatividad de la muestra respecto de la población. La información obtenida de la muestra permite elaborar conclusiones válidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra. Resulta tan relevante la importancia de la muestra para efectos de caracterización, conocimiento, descripción, etc. de la población o fenómeno en estudio, que la Ciencia Estadística tiene una disciplina denominada Muestreo Estadístico. Para colectar una buena muestra resulta de vital importancia, conocer a fondo el comportamiento de la Población, Universo, Lote, Proceso, etc.-

Page 4: Curso Estadística Industrial

- 4 -

1.- MUESTREO ESTADÍSTICO

En la Inferencia Estadística hay varios métodos, pero en cualquier caso es necesario utilizar una muestra que represente a la población, esto se consigue con las Técnicas de muestreo. Para estudiar una población se puede hacer de dos formas:

• Diremos que se ha realizado un estudio exhaustivo o censo cuando la investigación se ha hecho sobre todos y cada uno de los elementos o unidades de análisis que constituyen la población.

• Diremos que se ha realizado un estudio por muestreo cuando la investigación se ha realizado

única y exclusivamente sobre una muestra (un subconjunto limitado y convenientemente seleccionado de la población).

Distinguimos dos tipos fundamentales de muestreo:

• Muestreo probabilístico. En este tipo de muestreo, todos los individuos de la población pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y científico.

• Muestreo no probabilístico. En este tipo de muestreo, puede haber clara influencia de la

persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. Salvo en situaciones muy concretas en la que los errores cometidos no son grandes, debido a la homogeneidad de la población, en general no es un tipo de muestreo riguroso y científico, dado que no todos los elementos de la población pueden formar parte de la muestra. Por ejemplo, si hacemos una encuesta telefónica por la mañana, las personas que no tienen teléfono o que están trabajando, no podrán formar parte de la muestra.

Actividad 1: Conteste las siguientes preguntas en su cuaderno de trabajo: ¿Qué es el muestreo? ¿Qué diferencia hay entre realizar un censo o un estudio por muestro? ¿Y entre realizar un muestro probabilístico o no probabilístico?

Page 5: Curso Estadística Industrial

- 5 -

La primera tarea en diseñar un esquema de muestreo es definir la población del interés, y las unidades muestrales que se tomaran de esta población. Entenderemos como “población” a una colección de ítemes o variables que son de interés, y las “unidades de muestrales” son estos itemes o variables.

Definir la población del interés y de las unidades de muestrales es lo primero que se debe

realizar porque resulta obvio conocer la definición o extensión de la población, y las unidades muestrales naturales existentes. La población de interés puede ser el material que sale de la sección de aglomeración; o el material que está en una pila; o la solución que está en una piscina de reposo, etc.- La característica a medir u observar puede ser el “Porcentaje de Humedad”, “La concentración”; el tiempo de separación de fase

Sin embargo, en otras veces definiciones menos más o arbitrarias serán requeridas. Un

ejemplo de una situación es un catastro donde están todas las granjas la población en una región de un país y la variable del interés es la cantidad de agua usada para el regadío en una granja. Esto pone en contraste con la situación donde hay interés en el impacto de un derrame del aceite en la flora y de la fauna en playas. En este caso la extensión del área que pudo ser afectada puede no estar claro, y ello puede no ser obvio puesto no se sabe que longitud de la playa se va a utilizar como unidad muestral.

El derrumbe de una pila de lixiviación y caída de soluciones a un río cercano

El investigador debe entonces elegir subjetivamente el área potencialmente afectada, e impone

una estructura en términos de las unidades muestrales. Además, podría no ser adecuado el tamaño para la unidad e muestral. Un rango de longitudes de la playa puede servir igualmente bien, considerando el método que se utiliza para tomar las mediciones.

La opción de qué medición se hará, por supuesto que también introducirá algunas otras

decisiones subjetivas 1.1. Muestreo al azar Simple o Muestreo Aleatorio Simple (M.A.S)

Una muestra escogida mediante Muestreo Aleatorio Simple es aquella que es obtenida por un proceso que otorga a cada unidad muestral o unidad de análisis, la misma probabilidad de ser elegida. Será generalmente deseable elegir tal muestra sin reemplazo para no utilizar unidades muestrales más de una vez. Esto da resultados levemente más exactos que el muestreo con el reemplazo por el que las unidades individuales puedan aparecer dos o más veces en la muestra. Sin embargo, para las muestras que son pequeñas en comparación con el tamaño de la población, la diferencia en la exactitud obtenida no es grande.

La obtención de una muestra aleatoria simple es más fácil cuando se tiene a disposición un marco de muestreo, donde está una lista de todas las unidades en la población de donde se obtendrá la muestra. Si el marco de muestreo contiene las unidades numeradas a partir de la 1 a N, entonces una muestra aleatoria simple, de tamaño n, es obtenida sin reemplazo, sacando de la población los “n” números sorteado y asignados en el marco muestral, de manera tal que cada numero de la población marco sea igualmente probable ser elegido. Para muestreo con reemplazo, cada uno de los números 1 a N tienen misma probabilidad de aparecer en cada extracción o selección de una unidad muestral.

El proceso de seleccionar las unidades para utilizar en una muestra es facilitado a veces usando una tabla de números al azar tales como el que está demostrado en la tabla 2,1 Como ejemplo de cómo tal tabla puede ser utilizada, suponga que un área del estudio está dividida en 116

Page 6: Curso Estadística Industrial

- 6 -

cuadrantes según lo demostrado en el cuadro 2,1 y es deseable seleccionar una muestra escogida al

azar simple de 10 de estos cuadrantes sin reemplazo.

Figura 1 El área de estudio ha sido dividida en 116 cuadrantes que serán Utilizados como unidades muestrales.

El proceso de seleccionar las unidades para utilizar en una muestra es facilitado a veces usando una tabla de números al azar tales como el que está demostrado en la tabla 1. Como ejemplo de cómo tal tabla puede ser utilizada, suponga que un área del estudio está dividida en 116 cuadrantes según lo demostrado en la figura ,1 y es deseable seleccionar una muestra escogida al azar simple de 10 de estos cuadrantes sin reemplazo. Para hacer esto, en primer lugar se comienza en un lugar arbitrario en la tabla tal como el principio de la fila cinco. Los primeros tres dígitos en cada bloque de cinco dígitos se pueden entonces considerar, para dar la serie 698, 419, 008, 127, 106, 605, 843, 378, 462, 953, 745, etcétera. Los primeros diez números diferentes entre 1 y 116 constituirán una muestra aleatoria simple de cuadrantes: 8, 106, 80, 3, 99, 1, 75, 106, 34, 45.

Para seleccionar muestras grandes esencialmente se realiza el mismo proceso. Se puede realizar en una computadora usando números pseudo-random ( seudo aleatorios ).

Page 7: Curso Estadística Industrial

- 7 -

Tabla 1 : Tabla de números aleatorios

1252 9045 1286 2235 6289 5542 2965 1219 7088 1533 9135 3824 8483 1617 0990 4547 9454 9266 9223 9662 8377 5968 0088 9813 4019 1597 2294 8177 5720 8526 3789 9509 1107 7492 7178 7485 6866 0353 8133 7247 6988 4191 0083 1273 1061 6058 8433 3782 4627 9535 7458 7394 0804 6410 7771 9514 1689 2248 7654 1608 2136 8184 0033 1742 9116 6480 4081 6121 9399 2601 5693 3627 8980 2877 6078 0993 6817 7790 4589 8833 1813 0018 9270 2802 2245 8313 7113 2074 1510 1802 9787 7735 0752 3671 2519 1063 5471 7114 3477 7203 7379 6355 4738 8695 6987 9312 5261 3915 4060 5020 8763 8141 4588 0345 6854 4575 5940 1427 8757 5221 6605 3563 6829 2171 8121 5723 3901 0456 8691 9649 8154 6617 3825 2320 0476 4355 7690 9987 2757 3871 5855 0345 0029 6323 0493 8556 6810 7981 8007 3433 7172 6273 6400 7392 4880 2917 9748 6690 0147 6744 7780 3051 6052 6389 0957 7744 5265 7623 5189 0917 7289 8817 9973 7058 2621 7637 1791 1904 8467 0318 9133 5493 2280 9064 6427 2426 9685 3109 8222 0136 1035 4738 9748 6313 1589 0097 7292 6264 7563 2146 5482 8213 2366 1834 9971 2467 5843 1570 5818 4827 7947 2968 3840 9873 0330 1909 4348 4157 6470 5028 6426 2413 9559 2008 7485 0321 5106 0967 6471 5151 8382 7446 9142 2006 4643 8984 6677 8596 7477 3682 1948 6713 2204 9931 8202 9055 0820 6296 6570 0438 3250 5110 7397 3638 1794 2059 2771 4461 2018 4981 8445 1259 5679 4109 4010 2484 1495 3704 8936 1270 1933 6213 9774 1158 1659 6400 8525 6531 4712 6738 7368 9021 1251 3162 0646 2380 1446 2573 5018 1051 9772 1664 6687 4493 1932 6164 5882 0672 8492 1277 0868 9041 0735 1319 9096 6458 1659 1224 2968 9657 3658 6429 1186 0768 0484 1996 0338 4044 8415 1906 3117 6575 1925 6232 3495 4706 3533 7630 5570 9400 7572 1054 6902 2256 0003 2189 1569 1272 2592 0912 3526 1092 4235 0755 3173 1446 6311 3243 7053 7094 2597 8181 8560 6492 1451 1325 7247 1535 8773 0009 4666 0581 2433 9756 6818 1746 1273 1105 1919 0986 5905 5680 2503 0569 1642 3789 8234 4337 2705 6416 3890 0286 9414 9485 6629 4167 2517 9717 2582 8480 3891 5768 9601 3765 9627 6064 7097 2654 2456 3028

Page 8: Curso Estadística Industrial

- 8 -

Actividad 2.

1.- Supongamos que tenemos una población de 423 individuos, numerados desde el 1 a 423 y queremos obtener una muestra de cinco individuos. Utilice la tabla 2.1 para esta tarea. Inicie el recorrido ubicándose en el casillero de la segunda fila y tercera columna. Utilice los últimos tres dígitos en cada bloque.

2.- Seleccione de la población de 423 individuos, numerados desde el 1 a 423, una muestra aleatoria de cinco individuos. Utilice la rutina “Ran #” de su calculadora científica. Compare su resultado con los obtenidos por otros compañeros.

1.2 MUESTREO ALEATORIO ESTRATIFICADO

Es frecuente que cuando se realiza un estudio interese estudiar una serie de sub-poblaciones (estratos) en la población, siendo importante que en la muestra haya representación de todos y cada uno de los estratos considerados. El muestreo aleatorio simple no nos garantiza que tal cosa ocurra. Para evitar esto, se saca una muestra de cada uno de los estratos.

Este caso se presenta cuando a la “Unidad de Chancado” llega mineral desde dos o más puntos diferentes de la mina, y se desea realizar una estimación de la ley media resultante en el proceso de molienda.

También puede ser que un estanque de “acopio de soluciones” esté siendo alimentado por dos o más líneas independientes de PLS, que proceden de sectores de pilas de lixiviación diferentes, que pueden tener concentraciones diferentes. Las muestras tomadas servirán para estimar la concentración promedio en el estanque de acopio.

Hay dos conceptos básicos:

Estratificación: El criterio a seguir en la formación de los estratos será formarlos de tal manera que haya la máxima homogeneidad en relación a la variable a estudio dentro de cada estrato y la máxima heterogeneidad entre los estratos.

Afijación: Reparto del tamaño de la muestra en los diferentes estratos o sub-poblaciones. Existen varios criterios de afijación entre los que destacamos:

• Afijación igual: Todos los estratos tienen el mismo número de elementos en la muestra.

Esto significa si pensamos que una muestra va a estar conformado por 14 unidades de análisis y la población está constituida por dos estratos, entonces de cada estrato se seleccionarán de manera aleatoria 7 unidades de análisis.

Page 9: Curso Estadística Industrial

- 9 -

• Afijación proporcional: Cada estrato tiene un número de elementos en la muestra proporcional a su tamaño. Para cada estrato hay que hacer una proporción, por tanto basta con dividir el tamaño de la muestra entre el tamaño de la población y multiplicar por el tamaño de cada estrato. En la escena basta con introducir el tamaño de la población, el tamaño de la muestra y el tamaño de un estrato y obtendremos los elementos de la muestra que debemos elegir en ese estrato.

Por ejemplo, una empresa perteneciente a un Holding, está formada por 450 operarios, 35 administrativos, 40 supervisores y 12 ejecutivos. Se desea aplicar una encuesta para medir compromiso e identidad institucional. Supongamos que las personas a cargo del estudio dicen que la muestra estará formada por un 10% de los trabajadores de la empresa. Entonces la encuesta deberá de ser aplicada a 54 personas.

Del estrato operarios deberán de seleccionarse de forma aleatoria = 45450*54054

=

Del estrato administrativos deberán de seleccionarse de forma aleatoria = 45,335*54054

==

Del estrato supervisores deberán de seleccionarse de forma aleatoria = 440*54054

=

Del estrato ejecutivos deberán de seleccionarse de forma aleatoria = 12,112*54054

==

Actividad 3.-

1.- Supongamos que en un centro escolar de 1.100 alumnos, hay 350 alumnos en 1º medio, 300 en 2º medio; 250 en 3º de Bachillerato, y 200 en 4º; y queremos estudiar el número de alumnos que aprueban todas las asignaturas. Pensamos que puede haber diferencias entre los distintos niveles educativos, por lo que nos interesa que en la muestra estén representados todos los cursos. Si queremos elegir una muestra de 80 alumnos, para que todos estén representados, podemos realizar dos tipos de muestreos aleatorios estratificados:

a) Determine los tamaños muestrales en cada estrato utilizando “afijación igual” b) Determine los tamaños muestrales en cada estrato utilizando “afijación proporcional”

c) ¿Cómo cree usted que deberemos elegir después cuáles son los alumnos?

Page 10: Curso Estadística Industrial

- 10 -

2.- Una biblioteca pública está organizada en cinco secciones (en el cuadro adjunto se indica el número de libros existentes en cada sección). Con objeto de estimar el porcentaje de libros de edición española, se quiere seleccionar una muestra de un 5% del número total de libros, a través de muestreo estratificado aleatorio, considerando como estratos las secciones. Determinar el número de libros que habría que seleccionar en cada sección:

a) Considerando afijación igual. b) Considerando afijación proporcional.

Sección 1 Sección 2 Sección 3 Sección 4 Sección 5 500 860 1200 700 740

d) ¿ Qué se necesita en cada sección y cómo cree que deberemos elegir después cuáles son los libros que constituirán la muestra? • Afijación óptima : Consiste en obtener mayor cantidades de unidades muestrales de aquellos

estratos que presentan una mayor diversidad

1.3 MUESTREO ALEATORIO SISTEMATICO

Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Este tipo de muestreo se realiza fundamentalmente cuando es imposible contar previamente con

un listado de la población bajo estudio. Por ejemplo:

1. La cantidad de solución que pasa por un ducto o tubería ; 2. La cantidad de unidades que se embalan en una envasadora de frutas para exportar; 3. El material particulado que lleva una cinta o correa transportadora 4. La cantidad de árboles , especies etc.- que se encontrarán en un recorrido utilizando una

línea imaginaria (Transecta). 5. etc. , etc.

Es decir, todo aquello que refleje un producción en línea continua a través del tiempo. Podría

decirse entonces que el muestreo sistemático es una metodología de obtención de las unidades de análisis, y por lo tanto el cálculo de los estimadores e intervalos de confianza son los mismos que los vistos para el muestreo aleatorio simple.

Se debe tomar de forma aleatoria un punto de partida, y de ahí en adelante, seleccionar las

unidades muestrales a tiempo o espacios regulares. Generalmente este tipo de muestreo lo realizan los cortadores automáticos o torres de muestreo ,

que se ubican en los saltos de correa. A intervalos regulares de tiempo, se desplaza una “cuchara” o canaleta atravesando la cinta transportadora y recogiendo una pequeña cantidad de material, la que se va almacenando en un depósito. Este depósito es retirado al final o a la mitad de un turno y se lleva al laboratorio para a partir de este material recopilado, se prepare una muestra para ser analizada.

Page 11: Curso Estadística Industrial

- 11 -

Este procedimiento selecciona una muestra más representativa que el muestreo aleatorio simple , si los elementos más cercanos entre sí se asemejan más que aquellos que están más distantes.. Pero podría ser menos representativa que la muestra aleatoria simple en situaciones en que hay ciclos o periodicidad oculta en la población (venta de pasajes según temporada, volumen de ventas según días de la semana o del mes ,etc)

1.4 MUESTREO ALEATORIO por Conglomerado o Área

Requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles.

Ejemplo: Supongamos que una compañía de servicio de televisión por cable está pensando en abrir una

sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el porcentaje de familias que utilizarían sus servicios. Como no es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado. Por ejemplo, una unidad vecinal podría constituir un conglomerado

En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea

posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas, universidades y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.

Hay diferentes formas de trabajar con las unidades de análisis de los conglomerados, y según sea

el caso, reciben las siguientes denominaciones: Monoetápico: Cuando la característica definida para estudiar, se pesquisa en todas las unidades

que forman el conglomerado Bietápico: Cuando el conglomerado se subdivide en clases o áreas más pequeñas. Luego se

seleccionan al azar algunas de estas sub-áreas y en todas las unidades muestrales que forman estas sub-áreas se mide u observa la característica definida para estudiar

Page 12: Curso Estadística Industrial

- 12 -

Trietápico: También los conglomerados que forman la población en estudio contienen sub-áreas anidadas unas dentro de otras. Por ejemplo:

País Región Provincia Comuna Sector Unidad vecinal manzana hogares Entonces para llegar hasta el hogar, bajo muestreo por conglomerado, se debe pasar por siete

etapas de selección aleatoria Una situación parecida en cuanto a las etapas que hay realizar para reducir una muestra de

mineral para preparar una muestra que debe ser analizada en el laboratorio.

1.5 Otros Métodos de Muestreo no probabilísticos 1.5.1.- Muestreo Discrecional: A criterio del investigador los elementos son elegidos sobre lo que

él cree que pueden aportar al estudio. Ejemplo: muestreo por juicios; cajeros de un banco o un supermercado; Directores de colegios; Presidentes de organizaciones, etc.

1.5.2.- Muestreo Doble: Bajo este tipo de muestreo, cuando el resultado del estudio de la primera

muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra arroja un resultado definitivo, la segunda muestra puede no necesitarse. Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, será requerida la segunda muestra.

1.5.3.- Muestreo Múltiple: El procedimiento bajo este método es similar al expuesto en el

muestreo doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es más de dos muestras.

1.5.4.- Muestreo Opinático o Intencional: Este tipo de muestreo se caracteriza por un esfuerzo

deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.

1.5.5- Muestreo Casual o Incidental: Se trata de un proceso en el que el investigador selecciona

directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios.

Usos del Muestreo. El Muestreo es utilizado en diversos campos: 1- Política: Las muestras de las opiniones de los votantes se usan para que los candidatos midan

la opinión pública y el apoyo en las elecciones. 2- Educación: Las muestras de las calificaciones de los exámenes de estudiantes se usan para

determinar la eficiencia de una técnica o programa de enseñanza.

Page 13: Curso Estadística Industrial

- 13 -

3- Industria: La muestras de los productos de una línea de ensamble sirve para controlar la calidad.

4- Medicina: Las muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la

eficacia de una técnica, de un fármaco nuevo. 5- Agricultura: Las muestras del maíz cosechado en una parcela proyectan en la producción los

efectos de un fertilizante nuevo. 6- Gobierno: Una muestra de opiniones de los votantes se usaría para determinar los criterios del

público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. 7.- Minería: Las muestras de mineral extraídas de una zona específica, una vez procesadas

química y estadísticamente, permiten dimensionar la riqueza de un yacimiento y la viabilidad económica del proyecto (geoestadística)

Todo estudio estadístico a cerca de un Universo o población de interés utilizando información

muestral, precisa que la muestra sea representativa y asegure un nivel de confiabilidad Todos los puntos anteriores estuvieron destinados a definir y comprender lo que es una muestra y

la metodología o forma de extraer las unidades de análisis de manera de dar representatividad a la muestra.

También es importante destacar que con la información muestral podemos realizar inferencias

respecto de la población de donde fue extraída la muestra. Toda inferencia respecto del comportamiento de una variable o característica en estudio, basada

en información muestral, necesita asegurar un grado de confiabilidad y un error de muestral permitido. Estas dos últimas características influyen directamente en la cantidad de unidades de análisis que debe tener una muestra, o tamaño muestral.

Tipo de errores de muestreo y técnicas para su minimización

Page 14: Curso Estadística Industrial

- 14 -

1.6. Materiales e instrumentos para el muestreo Los instrumentos de muestreo adecuados son esenciales para realizar un buen muestreo y para las buenas prácticas de laboratorio. Pierre Gy recomienda cucharones y espátulas planos con lados paralelos (sin puntas) , para evitar el muestreo preferencial de partículas gruesas. Adicionalmente, debe considerarse y evitar la introducción de errores en el laboratorio, debidos a un mal diseño de cortadores rifler, espátulas y otras herramientas usadas en la preparación de submuestras para análisis (US EPA 1999, Gy 1992). A continuación se mencionan criterios generales para la selección de herramientas, así como ejemplos de algunos materiales comunes para el muestreo. a) Herramientas adecuadas: Entre los principales criterios a considerar para la selección de herramientas adecuadas de muestreo, se encuentran los siguientes:

• Tamaño de muestra necesaria para los análisis requeridos, con base en la(s) característica(s) o propiedad(es) de interés (sección 3.5, cuadro 9).

• Tipo de suelo (arenoso, arcilloso, etc.) y condiciones de humedad. • Profundidad máxima a la que se va a tomar la muestra (sección 3.5, cuadro 10). • .Accesibilidad al sitio de muestreo. • .Requerimientos del personal para su manejo.

b) Instrumentos para la toma de muestras: La selección de instrumentos adecuados es esencial para un buen muestreo y para un buen análisis de laboratorio. Para el caso de suelos contaminados con metales, los utensilios para el muestreo deben ser de plástico, teflón o acero inoxidable; entre los más comunes se encuentran: palas rectas y curvas, picos, barrenas y barretas, nucleadores, espátulas, navajas y martillo de geólogo.

c) Material de apoyo. Como material de apoyo durante un muestreo, es importante incluir: cartas topográficas, edafológicas, climáticas y geológicas, un plano cartográfico del sitio y mapas de carreteras. Adicionalmente, es recomendable incluir una libreta para anotaciones, una cámara fotográfica y la cadena de custodia para las muestras.

Page 15: Curso Estadística Industrial

- 15 -

d) Material para la orientación y ubicación de los puntos de muestreo y para medir la zona:

. Sistema global de posicionamiento (GPS)

. Cinta métrica

. Estacas, etc.

e) Material para guardar y transportar muestras. El material a emplear debe ser compatible con el material a muestrear, deber ser resistente a la ruptura y evitar reacciones químicas con la muestra y/o pérdidas por evaporación. El volumen del contenedor debe ser aproximadamente el mismo de la muestra, con la finalidad de minimizar el espacio vacío. Algunos de los materiales que pueden utilizarse para la colección de muestras son:

. Frascos de vidrio (boca ancha y angosta): compuestos semi-volátiles, pesticidas y metales . Tubos Viales de vidrio (tienen tapa rosca): compuestos volátiles. . Contenedores de polietileno: conductividad.

f) Conservación de muestras. Los recipientes en los que se colectaron las muestras deben sellarse adecuadamente. En general, es recomendable evitar en lo posible el uso de agentes químicos para conservar muestras de suelo. Para su conservación es conveniente mantenerlas en lugares frescos (4 a 6 °C) y oscuros. g) Material de seguridad y limpieza. Deben incluirse guantes de látex, agua desionizada, lentes de seguridad, toallas de papel, mascarilla para polvos y franelas. h) Material para etiquetar y marcar las muestras:

. Etiquetas adheribles o adhesivas . Marcador indeleble . Cinta adhesiva . Bolígrafos o lápices

La teoría de Gy para el “muestreo de materiales particulados” proporciona las bases para extraer una muestra a partir de un material y ayuda a definir el tamaño necesario para caracterizar un material como el suelo. La teoría relaciona directamente el tamaño de partícula de un material con el tamaño de la muestra a tomar para una unidad a evaluar, de tal manera que la cantidad de material necesario para el análisis de parámetros específicos puede determinarse a través de conceptos desarrollados en la misma (US EPA 1999, Mason 1992, Gerlach y Nocerino 2003).

Page 16: Curso Estadística Industrial

- 16 -

2. Procesamiento de datos muestrales Univariados Los datos muestrales son la fuente vital de la información que nos permite conocer el comportamiento de los procesos. Es por ello que necesitamos conocer algo más acerca de la naturaleza de ellos. Considerando todos los puntos anteriores, es necesario decir que el avance en la tecnología de los medios informáticos permite cada vez más el uso eficiente del dato para tener información y aprender de los procesos a través de los datos que entregan sus variables de control. Estructura y Tipos de Datos Estadísticos:

El dato: es la “materia prima” con que trabaja la Estadística. En términos muy generales los datos se pueden referir a características observables, las cuales pueden ser:

Cualitativas o atributos Cuantitativas o variables, las cuales a su vez se subdividen en: Discretas y Continuas Características cualitativas: - Grado de calidad de un cátodo de cobre: Hight Grade, Estándar, Low Grade - Tipo de Mineral Sulfuro. - País de destino de un embarque. - Marca de un vehículo Variables Discretas, se originan cuando la variable expresa un conteo (Nº entero) - Cantidad de personas ausentes al trabajo diariamente en una empresa - Cantidad de artículos defectuosos en un lote - Cantidad de Cátodos defectuosos en una cosecha - Cantidad de gramos por litro en una solución Variables Continuas, que se originan cuando la variable expresa una medición - Humedad de un aglomerado - Tiempo utilizado para reparar una falla - Peso , Estatura de una persona - Temperatura , Ph ,etc. de una solución que pasa por un ducto o tubería

¿Dónde almacenamos los datos?

La respuesta a esta interrogante a veces puede no ser simple, pero en general los datos se guardan o almacenan en lo que denominamos o definimos como Base de Datos. Hay empresas que disponen de softwares especializados para el manejo de los datos que obtienen de sus procesos. Pero una forma de trabajar con los datos puede ser una planilla electrónica, como Excel, que resulta enormemente eficiente. A modo de ejemplo:

Page 17: Curso Estadística Industrial

- 17 -

Matriz de los Datos

Cuando se realiza un estudio cualesquiera sobre un conjunto finito de "n" unidades muestrales, normalmente existe una variada gama de características que se colectan y que se expresan en los términos vistos anteriormente, digamos entonces de manera genérica, que se determinan o especifican "p" variables.

Lo anterior permite construir la llamada "Base de Datos”, que de manera muy general

podemos decir que es un arreglo tipo matricial que tiene "n" filas y "p" columnas. El propósito de la matriz de datos es presentar los datos de la manera "más depurada posible"

para proceder a su procesamiento y obtener información.

¿Qué información nos pueden entregar los datos? Con el objetivo de describir y caracterizar el comportamiento (tendencia) de una variable la información estadística puede ser entregada a través de:

Medidas de resumen: De tendencia central De variabilidad De posicionamiento De deformación

Tablas de distribución de frecuencias

Gráficos estadísticos

Dependiendo del tipo o naturaleza del dato, es la calidad y forma de entregar la información.

Page 18: Curso Estadística Industrial

- 18 -

La primera preocupación es aprender a estructurar una base de datos, utilizando un software para su posterior procesamiento. La primera y más elemental forma de tener información y una visión resumida de los datos es a través de la "tablas estadísticas " y los "Gráficos estadísticos". Por supuesto que estas formas de resumir y presentar información dependen de la naturaleza del tipo de dato. 2.1 Procesamiento de datos cualitativos Cuando los datos son cualitativos, la tabla tiene la siguiente estructura: Ejemplo Un vendedor de vehículos nuevos resumió en la tabla siguiente, los automóviles vendidos según la cantidad de cilindros:

Clase Numero de Cilindros

Frecuencia Absoluta f i

Frecuencia Relativa h i %

Frecuencia Absoluta

Acumulada Fi

Frecuencia Relativa

Acumulada Hi %

1 3 1 0,65 1 0,65 2 4 104 67,10 105 67,74 3 5 3 1,94 108 69,68 4 6 30 19,35 138 89,03 5 8 17 10,97 155 100,00

Esta tabla debe de ser interpretada

Page 19: Curso Estadística Industrial

- 19 -

Número de Cilindros34568

0,65%

67,10%1,94%

19,35%

10,97%

Actividad 4. La tabla siguiente muestra la venta de automóviles japoneses, en el año 1990.

Clase Marca del Vehículo

Frecuencia Absoluta f i

Frecuencia Relativa h i %

Frecuencia Absoluta

Acumulada Fi

Frecuencia Relativa

Acumulada Hi % 1 Datsun 12 2 Honda 9 3 Mazda 9 4 Nissan 1 5 Subaru 2 6 Toyota 11

• Complete las otras columnas de la tabla

• Redacte algunas conclusiones que se pueden obtener de ella

• Construya un gráfico de barras

Es muy importante colocar, tanto a la “tabla de datos” como al “gráfico estadístico”, un nombre que describa de forma breve, concisa e inequívoca la situación que presenta. Gráfico de Pareto.

Cuando se trata de graficar tablas que presentan la distribución o comportamiento de variables cualitativas, hoy en día se está usando en el campo de la mejora de la calidad y la productividad un grafico muy interesante llamado Gráfico de Pareto.

En términos muy generales, los problemas de calidad en el sector procesos industriales o de

manufactura se presentan como pérdidas (productos defectuosos y su costo). En el sector servicios, la falta de calidad también se puede tratar de cuantificar a través de las opiniones obtenidas de los usuarios y el desglose de las causas que motivan el descontento.

Page 20: Curso Estadística Industrial

- 20 -

Resulta muy importante aclarar el patrón de la distribución de la pérdida. La mayoría de las pérdidas se deberán a unos pocos tipos de defectos, y estos defectos pueden atribuirse a un número reducido de causas. Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi todas las pérdidas, concentrando todo el esfuerzo en esas causas particulares y dejando de lado por el momento otros muchos defectos triviales. El uso del diagrama de Pareto permite solucionar este tipo de problema con eficiencia.

En 1897, el economista italiano V. Pareto presentó una fórmula que mostraba que la distribución

del ingreso es desigual. En 1907, el economista norteamericano M . C. Lorenz expresó una teoría similar por medio de diagramas. Estos dos economistas indicaron que una proporción muy grande del ingreso está en manos de muy pocas personas. En el campo de La mejora de la Calidad y la Productividad, el Dr. J.M. Juran aplicó el método de l diagrama de Lorenz como fórmula para clasificar los problemas de calidad en los pocos vitales y los muchos triviales, y llamó a este método análisis de Pareto. Señaló que, en muchos casos, la mayoría de los defectos y de su costo se deben a un número relativamente pequeño de causas.

El gráfico de Pareto es fundamentalmente un grafico de barras, donde ellas se presentan de

mayor a menor altura (dependiendo de la frecuencia absoluta o del peso relativo del ítem dentro del total.

A continuación se muestra una tabla de datos con defectos en una pieza manufacturada, donde

se le han colocado a cada uno de ellos los pesos o ponderaciones. Muchas veces dichas ponderaciones son valores en moneda nacional de lo que significa ese defecto.

Tipo de defecto

Código Número de defectos

Costo $

Burbuja Burb 20 150Fractura Frac 10 300Mancha Manc 6 50Rajadura Raj 4 250Rayado Raya 42 250Tensión Tens 104 40otros Otro 14 60Total 200

Con estos datos se pueden realizar los dos Gráficos de Pareto. Uno donde no intervengan los

costos unitarios, y el otro donde intervengan dichos costos. Para construir una grafica de Pareto donde no intervienen los costos, se debe construir una

tabla con la siguiente estructura.

Page 21: Curso Estadística Industrial

- 21 -

Etiqueta Clase

Recuento Puntaje Ponderado

Puntaje acumulado

Porcentaje Porcentaje acumulado

Tens 104 104 104 52,00 52,00 Raya 42 42 146 21,00 73,00 Burb 20 20 166 10,00 83,00 Otro 14 14 180 7,00 90,00 Frac 10 10 190 5,00 95,00 Manc 6 6 196 3,00 98,00 Raj 4 4 200 2,00 100,00

Total 200 200

El gráfico de barras asociado a esta tabla es entonces

Esto nos lleva a la visualización de que, por ejemplo, el 73% de los problemas que se presentan en unidades de producto defectuoso, la mayor importancia la tienen la “tensión” o las “rayaduras”.

Para construir una grafica de Pareto donde intervienen los costos, se debe construir una tabla con la siguiente estructura.

Etiqueta Recuento Ponderación Puntaje Ponderado

Puntaje Acumulado

Porcentaje Porcentaje Acumulado

Raya 42 250 10500 10500 46,05 46,05 Tens 104 40 4160 14660 18,25 64,30 Frac 10 300 3000 17660 13,16 77,46 Burb 20 150 3000 20660 13,16 90,61 Raj 4 250 1000 21660 4,39 95,00 Otro 14 60 840 22500 3,68 98,68 Manc 6 50 300 22800 1,32 100,00 Total 200 22800

Page 22: Curso Estadística Industrial

- 22 -

El gráfico de barras asociado a esta tabla es entonces

2.2 Procesamiento de datos cuantitativos

Cuando el tipo de dato que entrega la variable en estudio es una Cantidad (entera o decimal), podemos tener información estadística de ella a través de tres vías:

1. Tablas Estadísticas 2. Medidas o Indicadores de resumen cuantitativos 3. Gráficos Estadísticos Las razones principales para agrupar los datos en tablas estadísticas son:

• Determinar o calcular las distribuciones de frecuencias (Tablas Estadísticas), contar con algunos descriptores numéricos de la distribución ( Medidas de Resumen) ,

• Representar gráficamente los resultados (Gráficos Estadísticos), para determinar el comportamiento o tendencias del fenómeno que interesa analizar.

2.2.1.- Las tablas estadísticas de datos cuantitativos que son el resultado de mediciones en las unidades de análisis, se caracterizan porque generalmente las mediciones se agrupan dentro de intervalos numéricos. Las tablas se explicarán por sí mismas enteramente. Como los gráficos, se ha de dar suficiente información en el título y en los encabezamientos de columnas y filas de la tabla para permitir que el lector identifique fácilmente su contenido. Como el título será por lo general lo primero que se lee en detalle, deberá suministrar toda la información esencial sobre el contenido de la tabla y deberá especificar el tiempo, lugar, material ó estudio experimental y relaciones que se presenten en la tabla.

Page 23: Curso Estadística Industrial

- 23 -

Tabla de Frecuencias para Ley Cobre total, tomadas en muestras diarias en Toquepala Clase Limite Límite

Inferior Superior Marca de

Clase X i

FrecuenciaAbsoluta

f i

Frecuencia Relativa h i

Frec. Absol. Acumulada

F i

Frec. Relativa Acumulada

Hi 1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,86

1,60

3 42 45 81 78 20 24 28 32 9

11 5

21,89%

3 45 90

171 249 269 293 321 353 362 373 378

79,19%

Total 378 Es necesario definir lo que representan las columnas de la tabla de distribución de frecuencias:

• Marca de clase “ Xi”: Es el punto medio del intervalo que contiene a los datos.

• Frecuencia Absoluta “f i” : Indica la cantidad de muestras que están contenidas en ese intervalo.

• Frecuencia Relativa “h i” : Indica el porcentaje de muestras que están contenidas en ese

intervalo. Se calcula dividiendo la frecuencia absoluta del intervalo por la cantidad total “n” de datos (378) y luego este cuociente se multiplica por 100

• Frecuencia Absoluta acumulada “Fi”: Representa la cantidad de datos que se van acumulando

desde el primer intervalo hasta los intervalos representan valores mayores. Por eso se interpreta F5 como que hay 248 muestras de mineral que tienen ley de cobre total entre 1,38% y 1,58%

• Frecuencia Relativa acumulada “H i”: Representa el porcentaje de datos que se van

acumulando desde el primer intervalo hasta los intervalos representan valores mayores. Por eso se interpreta H 5 como que un 65,6% de las muestras de mineral tienen ley de cobre total entre 1,38% y 1,58%. Se calcula dividiendo la frecuencia absoluta acumulada hasta ese intervalo por la cantidad total “n” de datos y multiplicando este cuociente por 100

Actividad 5.-

Complete las otras columnas de la tabla de distribución de frecuencia anterior.

Page 24: Curso Estadística Industrial

- 24 -

Interpretaciones y análisis que pueden hacer con una tabla de frecuencia

1. El 6º intervalo con su frecuencia absoluta : • Hay 20 muestras que tienen una ley superior o igual a 1,58% e inferior a 1,62 %

2. La marca de clase del 6º intervalo con su frecuencia absoluta : • Hay 20 muestras que tienen una ley promedio de 1,60% 3. El 4º intervalo con su frecuencia relativa : • Un 21,89% de las muestras tienen una ley promedio rendimiento superior o igual 1,50% e Inferior a 1,54% 4. La marca de clase del 4º intervalo con su frecuencia relativa • Un 21,89% de las muestras tienen una ley promedio de 1,52% 5. La frecuencia absoluta acumulada hasta el 7º intervalo • Hay 293 muestras con una ley superior o igual a 1,38% e inferior a 1,66% 6. La frecuencia relativa acumulada hasta el 7º intervalo. • Un 79,19 % de las muestras tienen una ley superior o igual a 1,38% e inferior a 1,66 %

Page 25: Curso Estadística Industrial

- 25 -

Actividad 6.- La tabla siguiente muestra el rendimiento en millas por galón, de vehículos que se fabrican y circulan en Estados Unidos de Norteamérica Clase Limite Límite

Inferior Superior Marca de

Clase X i

Frecuencia Absoluta

f i

Frecuencia Relativa h i

Frec. Absol. Acumulada

F i

Frec. Relativa Acumulada

Hi

1 2 3 4 5 6 7 8

15 18 18 21 21 24 24 27 27 30 30 33 33 36 36 39

10 20 13 14 10 6 9 3

a) Complete las otras columnas de la tabla de distribución de frecuencia anterior.

b) Una vez que completó las columnas de la tabla anterior, Interprete lo siguiente

1 El 4º intervalo con su frecuencia absoluta: 2 La marca de clase del 2º intervalo con su frecuencia absoluta: 3 El 4º intervalo con su frecuencia relativa: 4 La marca de clase del 4º intervalo con su frecuencia relativa 5 La frecuencia absoluta acumulada hasta el 6º intervalo 6 La frecuencia relativa acumulada hasta el 6º intervalo.

Page 26: Curso Estadística Industrial

- 26 -

2.2.2. Medidas de resumen de datos cuantitativos:

Son valores o descriptores numéricos que representan el comportamiento global o de tendencia de la característica que se estudia.

Según el objetivo o propósito que tienen estas medidas se pueden clasificar en cuatro grandes grupos:

• Tendencia Central (Promedio Aritmético, Promedio Geométrico , Modo, Mediana), • Medidas de Variabilidad (Rango, Varianza, Desviación Estándar, Error Estándar,

Coeficiente de Variación), • Medidas de Posicionamiento (Cuartil 1, Cuartil 2, Cuartel 3), • Medidas de Deformación (Sesgo; Curtosis ).

2.2. 2.1.- Medidas de Tendencia Central:

Son aquellos valores tienden a ubicarse en la parte Central del Recorrido o campo de variación de la Variable, es decir, más o menos en la mitad del intervalo definido entre el valor mínimo y el valor máximo observado.

Se consideran Medidas de Tendencia Central el promedio aritmético, el promedio geométrico,

la mediana.

2.2.2.1.1.- Promedio aritmético Esta medida de resumen de un conjunto de datos que no están tabulados, se obtiene al sumar todos los datos y luego ese total se divide por la cantidad de datos. En símbolos esto se representa por

n

xX

ni

ii∑

=

== 1 Desde i = 1, 2, 3, ……, n

Los datos siguientes son mediciones diarias de la cantidad de cloro (en ppm) en una solución denominada purga.

97 77 97 110 113 115 97 116 86 98 106 99 97 103 109 102

El campo de variación de la variable es : Valor mínimo = 77 ; valor máximo = 116 El promedio aritmético es

375,10116

162216

)102109..........115113110977797(==

+++++++=X ppm de cloro

Como se puede observar, este valor está ubicado más o menos en el centro del campo de variación de la variable. De ahí entonces de que el promedio aritmético sea una medida de tendencia central. Sin embargo cuando los datos ese encuentran agrupados en tablas de frecuencias con intervalos, la

Page 27: Curso Estadística Industrial

- 27 -

forma de calcular el promedio es un tanto diferente. Se debe multiplicar cada valor de la marca de clase “Xi” por la frecuencia absoluta “f i“de ese intervalo. Luego se suman todos estos productos y se divide por la cantidad de datos “n” que hay en la tabla.

Es decir n

fXX

ti

iii∑

=

=

∗= 1

Para ejercitar esta expresión, calcularemos el promedio aritmético de la ley de cobre total de las muestras tomadas en el mineral de Toquepala. (Ubicado en el Sur de Perú, en la precordillera de los Andes a aproximadamente 2900 mts sobre el nivel del mar)

Clase Limite Límite Inferior Superior

Marca de Clase

X i

FrecuenciaAbsoluta

f i

X i

. f i

1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9

11 5

1,40 x 3 = 1,44 x 42 = 1,48 x 45 = 1,52 x 81 = 1,56 x 78 = 1,60 x 20 = 1,64 x 24 = 1,68 x 28 = 1,72 x 32 = 1,76 x 9 = 1,80 x 11= 1,84 x 5 =

n = 378 Total = Entonces el mineral procesado tiene una ley media de cobre total igual: ………………………% Siguiendo la metodología, anterior calcule el promedio aritmético de los datos agrupados en la tabla de frecuencia siguiente. En esta tabla se muestra los valores de concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II región de Chile Clase Limite Límite

Inferior Superior Marca de

Clase X i

Frecuencia Absoluta

f i

X i

. f i

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

1 2 8

14 27 9 6 3

La concentración promedio del PLS de este proceso de: _________________ grs / litro

Page 28: Curso Estadística Industrial

- 28 -

2.2.2.1.2.- La mediana:

El promedio aritmético debe ser una de las medidas de tendencia central más conocidas y utilizadas. Sin embargo, es una medida que se ve influenciada por datos que a veces son anómalos, en el sentido de que pueden aparecer valores que se salen del rango o comportamiento habitual de lo que normalmente se registra. Esto tiene mayor importancia en cuanto menor es la cantidad de datos que se procesan.

Debido a lo anterior es que a veces surge como alternativa otra medida de tendencia central

más robusta o menos sensible a la presencia de estos valores anómalos o atípicos Esta medida se denomina mediana

Este es una medida de Tendencia Central cuyo valor separa el conjunto de datos en dos

mitades. Cada una de ellas es un 50%. Es decir, entre el valor mínimo de la variable y la Mediana hay un 50 % de los datos; por consiguiente, entre la Mediana y el valor máximo de la variable está el otro 50% superior.

Para calcular la mediana es necesario ordenar los datos de menor a mayor. En el caso de que la cantidad de datos sea un número impar, la mediana se obtiene ubicando el

valor que está en el centro. En el caso de que la cantidad de datos se un número par, la mediana se obtiene como el

promedio de los dos valores centrales. Esta medida tiene la ventaja de ser menos sensible que el promedio aritmético a la presencia

de valores anómalos, ya que sólo tiene en cuenta el orden de los datos y no su magnitud. Es decir no se altera mayormente si un valor o dato tiene un error grande de medida o de

trascripción. Al comparar el valor de la mediana con el promedio aritmético, si hay mucha diferencia entre

ellas, esto es una señal que la distribución de los datos es más bien asimétrica o heterogénea. Por ejemplo, veamos los datos de las mediciones diarias de la cantidad de cloro (en ppm) en una solución denominada purga.

97 77 97 110 113 115 97 116 86 98 106 99 97 103 109 102

Estos mismos datos ordenados de mayor a menor, dan como resultado:

77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 Como hay un número par de datos, entonces la mediana es el promedio de los dos valores centrales. Es decir , la mediana es igual (99 + 102) / 2 . El resultado es 100,5 Supongamos que por algún motivo obtuvimos un valor extremo o atípico igual a 138. Entonces los datos quedan ordenados de la siguiente manera:

77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 138 102

Page 29: Curso Estadística Industrial

- 29 -

Como hay una cantidad impar de datos, entonces la mediana es el valor central, siendo en este caso el 102. Es decir, que el contenido de cloro en el 50% inferior de las muestras de purga fluctúa entre 77 gms/litro a 102 grms / litro. El contenido de cloro en el 50% superior de las muestras de purga fluctúa entre 102 gms/litro a 138 grms / litro

Si se hubiese calculado el promedio aritmético de los datos, incluyendo el valor atípico de 138, entonces se tendría que la cantidad promedio de cloro en la purga sería de 103,53 grms / litro.

Al comparar el valor de la mediana con el promedio aritmético, si hay mucha diferencia entre ellas, esto es una señal que la distribución de los datos es más bien asimétrica

Sin embargo cuando los datos ese encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular la es un tanto diferente.

En la tabla de distribución frecuencia de la de la ley de cobre total , debemos ubicar la columna de frecuencias absolutas acumuladas. Entrando por esta columna , ubicar hasta que intervalo tenemos acumuladamente el 50 % de los valores de la variable. A este intervalo le llamaremos intervalo mediano.

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

Frec. Absol. Acumulada

F i 1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9

11 5

3 45 90

171 249 269 293 321 353 362 373 378

El intervalo mediano sería el nº 5 , pues hasta aquí ya está acumuladamente el 50 % de los datos

X~ = Med = Límite Inferior del Intervalo Mediano + ii

ia

f

Fn

×⎟⎟⎟⎟

⎜⎜⎜⎜

⎛ − −12

Donde: 1−iF es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo mediano

if Es la frecuencia absoluta del intervalo mediano. ia Es la amplitud del intervalo mediano

Page 30: Curso Estadística Industrial

- 30 -

Calculando la mediana de la tabla de datos anterior tenemos:

X~ = 1,54 + 1,55 04,078

171189=×⎟

⎠⎞

⎜⎝⎛ −

%

Actividad Práctica 7:

Concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II región de Chile

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

Frec. Absol. Acumulada

F i

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

1 2 8

14 27 9 6 3

n= 70 1.- En la tabla anterior complete la columna de las frecuencias absolutas acumuladas Fi 2.- Ubique el intervalo mediano 3.- Siguiendo la metodología descrita en el ejemplo anterior, calcule la mediana 4.- Interprete el significado de la mediana Cabe destacar que la Mediana es una Medida de Tendencia Central que puede calcularse, en el caso de que los datos estén tabulados y que ya sea el primer intervalo, o el último intervalo o ambos sean intervalos abiertos. Un intervalo es abierto cuando decimos " menos de 45 " , "más de 150 " , por ejemplo. Una vez calculado el promedio y la mediana, podemos comparar ambas medidas de resumen, pues dan una orientación acerca del comportamiento de la distribución de los datos, de carácter empírico. Esto se denomina estudio del sesgo o de la simetría de la distribución de los datos, y por lo tanto de la variable en estudio. - Cuando el Promedio es mayor que la Mediana, entonces se dice que la curva que

representa la distribución de los datos tiene un sesgo positivo. Esto se refleja en el hecho de que la curva tiene una cola más larga hacia el lado derecho. En términos prácticos, significa que hay una cierta tendencia a tener valores anómalos o atípicos altos en la medición de la variable. - Cuando el Promedio es menor que la Mediana, entonces se dice que la curva que

representa la distribución de los datos tiene un sesgo negativo. Esto se refleja en el hecho de que la curva tiene una cola más larga hacia el lado izquierdo. En términos prácticos, significa que hay una cierta tendencia a tener valores anómalos o atípicos bajos en la medición de la variable.

Page 31: Curso Estadística Industrial

- 31 -

- Cuando el Promedio es igual que la Mediana, entonces se dice que la curva que representa la distribución de los datos es simétrica. Esto se refleja en el hecho de que la curva tiende a tener una forma de campana. Desde el punto de vista del análisis estadístico de los datos, en muchos casos esta es una ventaja pues tiende a facilitar su caracterización. 2.2.2.1.3.- Promedio Geométrico Esta medida de resumen también se considera como de tendencia central. Es una alternativa de cálculo cuando la comparación entre el promedio y la mediana nos lleva a concluir que la distribución de la variable tiene un sesgo positivo o negativo relativamente fuerte o importante. De forma empírica se sabe que cuando se analiza la distribución del tamaño de partículas en muestras de material particulado, o el tamaño de las partículas en suspensión en muestras de aire, tendremos una curva de distribución que presenta un sesgo positivo. (Cola más larga hacia la derecha) Para disminuir la diferencia o la importancia de los valores anómalos o atípicos extremos de la variable, y aprovechando las propiedades de los logaritmos, se transforman los datos originales aplicándoles la función logaritmo. Esta medida corresponde al valor que tomaría la variable si se calculase la media aritmética de los logaritmos de los datos en lugar de los valores directos.

X g = Inv Log { n

XLog i

ni

i)(

1∑=

= }

Actividad Práctica 8: Calcularemos el promedio geométrico de las mediciones diarias de la cantidad de cloro (en ppm) en una solución denominada purga. Incorporaremos un valor atípico en la parte alta

77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 148 1.- Usando una calculadora científica haremos la siguiente operación, que nos permite obtener la suma de los valores transformados a “logaritmos”:

01347,21722899,34

17)148log............98log97log97log97log97log86log77(log

)(1 ==

++++++++=

∑=

=

n

XLog i

ni

i

2.- Al valor “2,01347” debemos calcularle el antilogaritmo, para obtener el promedio geométrico: SHIFT log 2,01347 = y se obtiene 103,15 Esta cantidad significa que la cantidad promedio de cloro en la purga es de 103,15 ppm. El promedio aritmético de estos mismos datos es de 104,12 ppm. La mediana es de 102.

SHIFT log =

Page 32: Curso Estadística Industrial

- 32 -

Estas medidas de resumen de una variable del proceso son una importante información para realizar las estimaciones de una producción semanal, mensual, para las personas que tienen a cargo esta responsabilidad.

Cuando los datos se encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular el promedio es un poco diferente. Primero se debe multiplicar cada valor de la frecuencia absoluta “f i“ de ese intervalo, por el logaritmo de la marca de clase “Xi”. Luego se suman todos estos productos y se divide por la cantidad de datos “n” que hay en la tabla. Seguidamente se le calcula antilogaritmo a este cuociente.

Es decir

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡∗

=∑=

=

n

fXX

ti

iii

1)(log

Antilog

Clase Limite Límite Inferior Superior

Marca de Clase

X i

FrecuenciaAbsoluta

f i

(log X i )x f i

1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9

11 5

(log 1,40) x 3 = 0,43838 (log 1,44) x 42 = 6,65122 (log 1,48) x 45 = 7,66178 (log 1,52) x 81 = 14,72933 (log 1,56) x 78 = 15,06372 (log 1,60) x 20 = 4,08240 (log 1,64) x 24 = 5,15625 (log 1,68) x 28 = 6,30866 (log 1,72) x 32 = 7,53691 (log 1,76) x 9 = 2,20961 (log 1,80) x 11 = 2,80800 (log 1,84) x 5 = 1,32409

n = 378 Suma Total = 73,96716

)19568.0log(37896716,73 Antilog AntiX =⎥⎦

⎤⎢⎣⎡= .

Pulsando las teclas de su calculadora científica 0.19568 = 1,57 % Recordemos que la tabla anterior presenta la ley de cobre total de las muestras tomadas en el mineral de Toquepala. Como anteriormente se calcularon: 1.- Promedio Aritmético: 1,57% 2.- Mediana: 1,55% 3.- Promedio Geométrico: 1,57% El análisis de estas tres medidas de resumen nos indican la distribución del % de la ley de cobre en Toquepala tendrían una clara tendencia a tener una distribución relativamente simétrica.

SHIFT log

Page 33: Curso Estadística Industrial

- 33 -

Actividad Práctica Personal 9

La tabla siguiente muestra la distribución de la concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II región de Chile

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

(log X i )x f i

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

1 2 8

14 27 9 6 3

n= 70 1.- Complete en la tabla anterior la columna con las marcas de clases de cada intervalo 2.- Complete la columna “(log X i ) x f i” 3.- Obtenga la suma total de la columna (log X i ) x f i 4.- Divida esta suma total por n= 70 5.- Al valor obtenido en e punto anterior, calcule el antilogaritmo de dicha cantidad. Este es el Promedio Geométrico de la concentración del PLS 6.- Compare los valores del promedio aritmético, el promedio geométrico y la mediana. Obtenga Conclusiones al respecto. Nota muy Importante: Modernos Softwares estadísticos utilizados para el procesamiento de datos incorporan otras medidas robustas, similares a la mediana, que dejan fuera del cálculo estadístico un cierto porcentaje de valores de la variable en sus extremos inferiores y superiores. Debemos de mencionar por ejemplo:

• Media Recortada en 100α% Es el promedio de los valores de la variable después de remover una fracción α de los valores de los datos más pequeños y la misma fracción de los mayores:

Donde

Page 34: Curso Estadística Industrial

- 34 -

Statgraphics recorta por omisión el 5% de cada extremo. Esto será profundizado cuando se desarrolle el concepto de Percentiles. Pienso que desde 1% a un 5% a eliminarse en cada extremo, puede ser adecuado, cuando exista presencia de valores anómalos o atípicos. Estos valores son detectados con un gráfico denominado “Gráfico de Caja y Bigotes, el que será presentado y analizado más adelante en este curso. Esta medida de resumen parece interesante de calcular y analizar cuando la cantidad de datos supera las 200 mediciones. • Media Winsorizada Es una medida robusta que se obtiene calculando la media muestral después de haber remplazado con copias de x(r+1) y x(n-r) los valores de los datos que se eliminarían en una media recortada:

La media truncada y la media Winsorizada son ambas menos afectada por valores extremos que la media aritmética. De ahí el nombre de medidas robustas de Tendencia central. 2.2.2.2.- Medidas de Variabilidad:

Estas medidas cuantifican la variabilidad, la diversidad, la dispersión de los valores de la variable respecto de una medida de tendencia central.

Están orientadas a cuantificar el grado o magnitud de cómo los datos se dispersan en torno a una medida de tendencia central. Generalmente se usa como valor de referencia el promedio aritmético. Mucha dispersión es señal de poca uniformidad u homogeneidad en los datos. Por el contrario poca dispersión, es señal de homogeneidad en los datos. Las medidas de variabilidad más ampliamente conocidas y utilizadas son 2.2.2.2.1.- Campo de Variación. Rango

El Campo de Variación de cualquier variable cuantitativa es el intervalo numérico formado por el valor mínimo de la variable como extremo inferior y el valor máximo de la variable como extremo superior. Es decir, [X mínimo, X máximo]

El Rango Es una medida de variabilidad muy fácil de calcular, pues es la diferencia entre el mayor valor de la variable y el menor valor de la variable:

R = Xmáximo -- Xmínimo

2.2.2.2.2.- Varianza.

Es el promedio aritmético de los desvíos cuadráticos de los valores de la variable respecto de su promedio aritmético.

Page 35: Curso Estadística Industrial

- 35 -

2

2 1( )

i n

ii

x X

=

=

−=∑

(Varianza poblacional)

O también como

2

2 1( )

i n

ii

x X

=

=

−=

∑ (Varianza muestral)

Cabe destacar que los desvíos del valor de la variable respecto de su media aritmética deben

de ser elevados al cuadrado, pues si se suman sin hacer esta operación, el resultado de la suma es cero. La expresión anterior es aplicable cuando los datos no están tabulados Actividad Los datos siguientes representan las partes por millón de cloro en el electrolito rico de un proceso de lixiviación en pilas, durante dos semanas seguidas, en una faena minera de la Segunda Región de Chile 31 28 30 29 28 30 29 29 27 28 27 28 28 28

El promedio aritmético de los datos es de 28,57 ppm. Este valor resulta vital para proceder a calcular la varianza. Entonces el valor de la varianza poblacional se calcula de la siguiente manera

[ ] 2449,1144286,17

14)57.2828(...........)57.2830()57,2828()57,2831( 2222

2 ==−++−+−+−

=σ ppm2

El valor de la varianza muestral tiene el mismo numerador. El denominador es siempre la

cantidad de datos menos 1. Se calcula de la siguiente manera:

[ ] 3407,1134286,17

13)57.2828(...........)57.2830()57,2828()57,2831(ˆ

22222 ==

−++−+−+−=σ ppm2

Al analizar las fórmulas que permiten calcular estas varianza, se puede observar que el dividir por “n” o por “n-1”, sólo tiene importancia cuando la cantidad de datos es pequeña. En estadística se consideran pocos datos para caracterizar el comportamiento de una variable cunado se tienen 30 o menos datos.

El problema que tiene esta medida de resumen es que las unidades resultantes quedan como valores cuadráticos. Pero para zanjar esta dificultad, es que se le puede extraer raíz cuadrada.

Si los datos se presentaran resumidos en una tabla de distribución de frecuencia, la fórmulas anteriores deben de incluir la frecuencia absoluta de cada intervalo. Es decir:

Page 36: Curso Estadística Industrial

- 36 -

n

fxxni

iii∑

=

=

⋅−= 1

2

2)(

σ n

fxxni

iii∑

=

=

⋅−= 1

2

2)(

σ

Actividad Práctica Personal 10.

Distribución de la concentración de cobre, en grms / litro, en 70 muestras de soluciones PLS de un proceso de lixiviación en pilas en una Empresa de la II Región de Chile

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

(Xi – 4,81)2 x fi

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75

1 2 8

14 27 9 6 3

(3.65 – 4.81)2 x 1 = 1.3456 (4.25 – 4.81)2 x 8 = 2.5088

Calcule la varianza de la concentración de cobre, en muestras de soluciones de PLS. Siga las instrucciones. El promedio aritmético, calculado anteriormente, es de 81.4=X grm / lts 1.- Complete la columna “(Xi – 4,81)2 x fi” 2.- Obtenga la suma total de esta columna 3.- Divida esta suma total por 70. El resultado de este cuociente es la varianza poblacional. Si divide la suma total por 69, tendrá la varianza poblacional 2.2.2.2.3.-Desviación Estándar

Es la raíz cuadrada de la varianza. Tiene una gran importancia pues es la cuantificación de la precisión de la medición de la variable.

2S σ= ; 2ˆS σ=

Se utiliza, entre otras aplicaciones, para construir intervalos de confiabilidad, que contendrán los valores límites extremos (mínimos y máximos), en torno a los cuales oscilará un parámetro de una población en Estudio. Si el perfil de la curva que representa a un conjunto de datos y tuviese la forma de una campana, estamos seguros que:

▪ Aproximadamente un 68,27 % de las veces, la medición individual estará en el intervalo X ± Desv. Estándar. ▪ Aproximadamente un 95 % de las veces, la medición individual estará en el intervalo X ± 2 Desv. Estándar.

Page 37: Curso Estadística Industrial

- 37 -

Ejemplo 1.- La desviación estándar de la serien de datos

[ ] 2449,1144286,17

14)57.2828(...........)57.2830()57,2828()57,2831( 2222

2 ==−++−+−+−

Es igual a 1157.12449.1 ==σ ppm. También 1579.13407.1ˆ ==σ Entonces una medición que se haga en el electrolito rico de este proceso tiene un 95% de confianza de estar entre X ± Desv. Estándar. = 28.57 ± 2 * 1.1579, Es decir, con 95% de confiabilidad la medición a obtener debería estar entre [26,2 y 30,9] ppm de cloro. Actividad Práctica 11. 1.- Calcule la desviación estándar de la concentración de cobre de las 70 muestras de PLS 2.- Determine un intervalo de confiabilidad de 95% para una medición de la concentración de cobre en la solución de PLS. 2.2.2.2.4.-. Coeficiente de Variación

Es una medida de la variabilidad o de la dispersión relativa de una variable, en relación con su promedio aritmético. Tiene la propiedad de ser adimensional. Por lo tanto sirve para comparar el menor o mayor grado de homogeneidad de una variable respecto de otra. Por ejemplo, si medimos en un conjunto de muestras su concentración y su Ph , deseamos saber cuál de ellas presenta un mayor grado de homogeneidad.

C.VX = %100*Xσ

Mientras más cercano a cero es el C.VX , mayor grado de homogeneidad tiene la variable. Generalmente C.V por debajo del 5% en una variable, es signo de un alto grado de

homogeneidad. Si supera el 15% , es signo de una significativa tendencia a la heterogeneidad. El coeficiente de variación para las ppm de cloro en las 14 muestras de electrolito rico, es igual

%91,3%10057.28

1157.1. == xVC X

Lo cual puede indicar mucha estabilidad en esa variable del proceso. Si existe poca

variabilidad, entonces es un proceso estadísticamente controlado.

2.2.2.2.5.- Error Estándar

Suele representarse por “ e.e “ y es la desviación estándar dividida por la raíz cuadrada del número de datos.

e.e = nσ

Page 38: Curso Estadística Industrial

- 38 -

Permite construir intervalos de confiabilidad para el promedio aritmético de los datos. A mayor número de datos, “n”, menor es el error estándar y por lo tanto más estrecho o

preciso será el intervalo de estimación para EL PROMEDIO.

Por ejemplo. En intervalo formado por X ± 1.96 ee , nos dice que el promedio aritmético de la variable, calculado a partir de una muestra de tamaño “n” , estará en un 95 % de las veces, dentro del intervalo X ± 1.96 ee. Actividad Práctica 11:

Si las 378 muestras de óxido de cobre obtenidas en el mineral de Toquepala entregan un promedio aritmético de 1. 57% . Una Desviación Estándar de 0.101%.

1.- Calcule el Coeficiente de variación del mineral de oxido de cobre procesado 2.- Si se tomara una muestra aleatoria de 9 muestras, determine un intervalo de confianza para dicho promedio muestral. 2.2.2.2.6.- Estandarización

Se puede considerar una medida de variabilidad pues mide la posición relativa del dato respecto del promedio aritmético de la variable, expresada en unidades de desviación estándar. Es

decir ( )i

ix Xz

Desviación Estándar−

= = σ

XX i −

Generalmente los puntajes estandarizados fluctúan entre -3 a +3. Estos valores son adimensionados, por lo que resultan altamente útiles cuando se quiere realizar una comparación entre dos o más variables de un mismo producto, para saber en cual de ellas está mejor o peor, respecto de ciertos estándares establecidos. También resulta de mucha utilidad cuando se necesita transformar valores de una variable expresados en cierta escala, en unidades de otra escala. Cuando se grafican estos datos estandarizados, el perfil de la curva que generan es parecido a una campana. 2.2.2.2.7.- Desviación Media: (D.M) Otra forma de medir el comportamiento global de la dispersión que presentan los datos de una variable es a través de la Desviación Media. Al igual que la desviación estándar, se compara cada valor de la variable con su promedio aritmético, en términos absolutos, y luego se obtiene el promedio

de estas comparaciones absolutas. Es decir, 1.

i n

ii

x XD M

n

=

=

−=∑

Page 39: Curso Estadística Industrial

- 39 -

Si los datos estuviesen tabulados en una tabla de distribución de de frecuencias, con escala o nivel de medición de intervalos numéricos, entonces la expresión que permite calcular la desviación media es

1*

.

i k

i ii

x X fD M

n

=

=

−=∑

Donde k es la cantidad de intervalos de la tabla.; fi es la frecuencia absoluta

de cada intervalo. Si la distribución de los datos presenta un perfil de curva parecido a una campana, es decir si es Normal, entonces un 57,5 % central de las observaciones quedan dentro del intervalo X ± D.M. Es decir un poco más de la mitad de los datos quedan concentradas dentro de un intervalo de una unidad de la desviación media a uno y otro lado del promedio.

Lo importante tal vez, es que el conocer la desviación media permite comprender mejor la medida más importante de dispersión, que es la desviación típica o estándar. Actividad Práctica 12: Calcule la desviación media de la variable” ppm de arsénico” en muestras de agua de la Segunda Región

Nº Interv Limite Intervalos Marca deClase (Xi)

FrecuenciaAbsoluta fi

ii fXX *)( −

1 45 60 52,5 9 2 60 75 67,5 47 3 75 90 82,5 43 4 90 105 97,5 19 5 105 120 112,5 15 6 120 135 127,5 8 7 135 150 142,5 8 8 150 165 157,5 2 Total 151

Nota muy Importante:

Modernos Softwares estadísticos utilizados para el procesamiento de datos incorporan ahora otras medidas de variabilidad que en el pasado no se utilizaban, debido tal vez a la complejidad del cálculo matemático. Al igual que las medidas robustas de tendencia central,dejan fuera del cálculo estadístico un cierto porcentaje de valores de la variable en sus extremos inferiores y superiores. Debemos de mencionar por ejemplo:

• Sigma Winsorizada en 100α%

Es una estimación Winsorizada de la variabilidad alrededor de la media Winsorizada:

Page 40: Curso Estadística Industrial

- 40 -

• DAM: Es la Desviación Absoluta Mediana:

Se compara cada valor de la variable con la Mediana de los datos, en términos absolutos, y

luego se obtiene el promedio de estas comparaciones absolutas. Es decir, 1.

i n

ii

x XD M

n

=

=

−=∑ %

• Sbi : Es una estimación basada en una suma ponderada de cuadrados alrededor de la

mediana muestral:

2.2.2.3- Medidas de Posicionamiento.

Después de hacer un ordenamiento de menor a mayor en los datos de la variable en estudio, se proceden a ubicar aquellas posiciones porcentuales de la cantidad de datos que dejan entre sí un 25%. Es decir , son tres valores que separaran la totalidad de los datos en cuatro partes que contienen igual cantidad los datos . Xmínimo Xmáximo Cuartil Mediana Cuartil Inferior Superior 25 % 75 % 50 % 75 % 25 % 2.2.2.3.1.- Cuartiles Cuartil Inferior o Primer Cuartil. Es un valor que limita o separa el 25 % Inferior de los valores de la variable del 75 % Superior.

Para el 25 % inferior, representa el Máximo valor de ese tramo. Para el 75 % superior, representa el Mínimo valor de ese sector.

Cuartil Superior o Cuarto Cuartil. Es un valor que limita o separa el 75 % Inferior de los valores de la variable del 25 % Superior.

Para el 75 % inferior, representa el Máximo valor de ese tramo. Para el 25 % superior , representa el Mínimo valor de ese sector.

Page 41: Curso Estadística Industrial

- 41 -

Entre el Cuartil Inferior y el Cuartil Superior se produce un intervalo, cuya diferencia produce el denominado Rango Intercuartílico , que es una medida de variación del 50 % central de los valores de la variable.

Sextiles

También algunos softwares modernos incorporan en su menú propuesto, el concepto de Sextiles. Estos son 5 valores de que dividen el campo de variación de los datos de la variable en 6 partes con igual cantidad de datos. Por ejemplo el Primer Sextil (1/6 Sextil) deja bajo si, el 16,67 % de los datos. El Sextil Superior (1/6 Sextil) deja bajo sí, el 83,33% de los datos y sobre sí el 16,67% de los datos 2.2.2.3.2.- Percentiles Se procede a un ordenamiento de los datos de la variable de menor a mayor.

Proporcionan valores límites que separan los datos , de manera tal que el Percentil 10, por ejemplo, nos indica que un 10% de los valores de la variable está por debajo de dicho valor y un 90 % de los datos está por sobre el valor del percentil 10.

El Percentil 80, por ejemplo, nos indica que un 80 % de los valores de la

variable están por debajo de dicho valor, y el 20% restante está por sobre el valor del percentil 80. También pulsando el sector derecho del ratón, puede acceder a otras opciones de cálculo de percentiles.

X mínimo X máximo P10 P90 Los valores correspondientes los Percentiles 10 y 90 , producen un intervalo que contiene el

80% Central de todos los valores de la variable. 2.2.2.4.- Medidas de Deformación :

Son medidas de resumen que cuantifican fundamentalmente dos elementos de la distribución de los datos: La asimetría y la Curtosis. 2.2.2.4.1. La Asimetría o Sesgo:

Cuantifica el grado de asimetría de una distribución, es decir, cuánto se aparta de la Simetría. Cuando este valor es "cero" , sugiere que los datos están simétricamente distribuidos en torno a una medida de Tendencia Central , que generalmente es el Promedio Aritmético o la Mediana. Valores positivos para el Sesgo, indican que la "cola superior" o derecha de la curva que representa a los datos, es más larga. Presencia de datos "anómalamente" altos. Por el contrario., valores negativos indican que la "cola inferior" o lado izquierdo de la curva es más larga, presencia de datos “anómalamente bajos”.

Page 42: Curso Estadística Industrial

- 42 -

Sesgo > 0 , curva sesgada a la derecha o sesgo positivo.

Sesgo <0, curva sesgada a la izquierda o sesgo negativo. Existe una variada gama de algoritmos para cuantificar el grado de asimetría de la distribución

de los datos. Una importante medida del Sesgo de una distribución de los Datos de una variable es el

llamado coeficiente momento de sesgo "g1". Cuando la cantidad “n” de ellos está 4 ≤ n ≤149.

Donde es la Media Aritmática de la variablex ; : Desviación EstándarS

Si n ≥ 150, entonces

31

1 3

( )i nii

X Xngσ

=

=−

=

Un valor cercano a 0 correspondería a una muestra de datos casi simétrica. Un sesgo positivo

indica una cola superior más larga que la inferior, mientras que un sesgo negativo indica una cola inferior más larga.

Page 43: Curso Estadística Industrial

- 43 -

El estadístico Alemán Karl Pearson propone dos fórmulas empíricas para cuantificar el Sesgo.

1º coeficiente de Sesgo de Pearson : σ

) Moda ( −X

2º coeficiente de Sesgo de Pearson : σMediana) (3 −X

Otra medida del Sesgo en términos de Cuartiles es: (Cuartil Superior - Mediana) - (Mediana - Cuartil Inferior ) Cuartil Superior - Cuartil Inferior Otra medida del Sesgo en términos de Percentiles ( Percentil 90 - Mediana ) - (Mediana - Percentil 10) Percentil 90 - Percentil 10 Para curvas perfectamente simétricas, tal como una campana, b1 y a3 valen cero.

Sesgo Estandarizado o tipificado. Cuando la cantidad de datos colectados para la variable en estudio es igual o superior a 150 ,

se puede asumir "normalidad estadística". Resulta de vital importancia saber que tan alejado o próxima está el Sesgo de la variable con respecto de la Distribución Normal Estándar. A veces el supuesto de normalidad estadística simplifica y ayuda enormemente el análisis e interpretación estadística de los datos. Cuando el valor del Sesgo Estandarizado queda fuera del intervalo -2 , +2 significa que el Sesgo de los datos colectados es significativamente diferente de un Sesgo Normal. Valores negativos, son indicadores de una "Cola" más grande hacia el lado izquierdo, respecto de una medida de Tendencia Central. Por el contrario, un valor positivo indicaría una "cola" más larga hacia el lado derecho de la curva.

El valor del Sesgo estandarizado se obtiene dividiendo el valor del sesgo por el factor n6

,

es decir Sesgo estandarizado 11 6 /

gzn

=

2.2.2.4.2.- Curtosis Esta medida de resumen cuantifica el grado de "alargamiento" o "achatamiento " . En otros términos, cuan aguzada o puntiaguda es la curva de la distribución de los datos, en general por referencia a la normal. La curtosis suele denotarse por g2

Mientras más alargada o aflautada es la curva, se dice leptocútica. Mientras más aplastada o achatada es la curva, se dice platicúrtica

Este coeficiente se calcula mediante el siguiente algoritmo:

Page 44: Curso Estadística Industrial

- 44 -

Un valor cercano a 0 correspondería a una distribución normal con forma casi de campana. Una curtosis positiva ( mayor que cero), indica una distribución que es más picuda en el centro

y tiene colas más largas que la normal. Una curtosis negativa (menor que cero), indica una distribución que es más aplanada que la normal con colas más cortas. Esta medida generalmente es relevante sólo para caracterizar muestras de datos simétricos. Curtosis tipificada o estandarizada : Significa Curtosis Estandarizada . Este coeficiente que sirve para comparar el grado de apuntamiento de la curva de los datos, con respecto a este mismo coeficiente en caso de Distribución Normal. Cuando este valores está fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadística, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad.

El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por n24

Es decir 22 24 /

gzn

=

Al nivel de significancia del 5%, se podría declarar que una curtosis es estadísticamente

significativa cuando 22 24 /

gzn

= cae fuera del intervalo (-2, +2).

Otra medida de curtosis que suele utilizarse para el 80 % central de los valores de la variable,

es el coeficiente κ (Kappa), denominado Coeficiente Percentil de Curtosis.

Κ = )(2)(

1090

2575

PercentilPercentilPercentilPercentil−−

Este coeficiente, en el caso de la Distribución Normal vale 0,263 Para ejemplificar un listado con todas las Medidas de Resumen analizadas, se mostrará la

forma de obtenerlas:

1. Recupere su archivo de datos "93Cars" 2. Procese la variable "MPG Highway"

Actividad Práctica 12 Obtenga todas las Medidas de Resumen Estadístico para la variable mpg

Page 45: Curso Estadística Industrial

- 45 -

Analice, interprete y obtenga algunas conclusiones para el comportamiento de la variable, considerando los valores de las medidas de resumen dadas por Statgraphics 2.2.3.- Gráficos asociados a una tabla de distribución de Frecuencias, con escalas de intervalos.

Una de las maneras de presentar Información estadística es la presentación gráfica. El

análisis de los datos tabulados, en cualquiera de las formas establecidas anteriormente, resulta casi imposible, debido a las múltiples comparaciones que se tienen que hacer con las cifras y el escaso tiempo que a veces se dispone para ello.

Teniendo en consideración de que los gráficos en Estadística resultan de vital importancia

para explicar situaciones presentadas o resumidas en tablas con información resumida puesto que nos permiten:

• Tener una visión global y condensada del comportamiento de la variable. • Observar posibles tendencias , • apreciar su campo de variación, etc.,

Debemos tener un especial cuidado en saber construirlos y luego analizarlos.

En términos muy generales, un gráfico debe ser: Sencillo y auto-explicativo; Escalas adecuadas en los ejes de coordenadas a objeto de evitar las distorsiones y con ello evitar malas interpretaciones. Al final del presente capítulo.

Ejemplos ilustrativos serán desarrollados en este capítulo

2.2.3.1 Histograma de Frecuencia :

Los datos obtenidos de una muestra sirven como base para decidir sobre la población de la cual provienen. Mientras más grande sea la muestra, más información obtendremos sobre la población. Aumentar el tamaño de la muestra también implica un aumento en la cantidad de datos, y esto puede llegar a hacer difícil comprender la población a partir de esos datos, aún cuando se organicen en tablas.

En ese caso necesitamos una metodología alternativa que nos permita comprender la

población de un vistazo. Un histograma responde a esta necesidad.

La organización de un buen número de datos en un tabla de frecuencia y luego la confección de un histograma nos permite comprender el comportamiento de la población de manera objetiva.

Es tal vez uno de los gráficos más utilizados. Se construye en un sistema coordenado formado por dos rectas perpendiculares entre si, que se denomina Plano Cartesiano. La recta o Eje Horizontal se denomina EJE “X “,y la recta o Eje Vertical se denomina EJE “Y” Está formado por barras que nacen desde el eje X, con un ancho igual a la amplitud del intervalo y de altura en el eje Y igual a la frecuencia absoluta del intervalo (o su frecuencia relativa, %).

Page 46: Curso Estadística Industrial

- 46 -

2.2.3.2.- Polígono de frecuencia

Este gráfico muestra un perfil de la curva asociada a la distribución de los datos. Consiste en representar puntos (x , y ) en el Plano de manera que en el eje horizontal (X ) ubiquemos la marca de clase o punto medio del intervalo, y en el en eje vertical (Y) la frecuencia absoluta o relativa correspondiente a la marca de clase. Luego se une los puntos con segmentos de recta.

2.2.3.3.- Ojiva o Curva de Concentración de Frecuencias Acumuladas Consiste en la representación de una curva (con segmentos de recta), cuyas ordenadas tienen tantas unidades como elementos existan de la distribución hasta el punto determinado. Para su construcción se emplea colocando en el eje horizontal los intervalos ; el eje vertical, las frecuencias acumuladas o relativa. La Ojiva es un gráfico que permite obtener de manera muy aproximada el valor de cualquier Percentil. Se debe trazar una línea perpendicular al eje vertical que pase por un porcentaje deseado, y prolongarla hasta que corte la curva de las frecuencias acumuladas. Desde aquí, bajar una perpendicular que corte el eje horizontal. . Este punto representa el valor del percentil.

Page 47: Curso Estadística Industrial

- 47 -

2.2.3.4.- Gráfico de Caja y bigotes. (Box -and-Wisker Plot) Es un diagrama de caja que presenta los tres cuartiles, y los valores mínimo y máximo

de los datos sobre un rectángulo, alineado horizontal o verticalmente. El rectángulo delimita el rango intercuartílico con la arista izquierda ( o inferior) ubicada en el primer cuartil (Cuartil Inferior) , Q1 , y la arista derecha ( o superior) en el tercer cuartil (Cuartil Superior) , Q3 , . Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo cuartil (mediana) .De cualesquiera de las aristas del rectángulo se extiende una línea , o bigote , que va hacia los valores extremos. Estas son observaciones que se encuentran entre cero y 1.5 veces el rango intercuartílico a partir de las aristas del rectángulo. Las observaciones que están entre 1,5 y 3 veces el rango intercuartílico a partir de las aristas del rectángulo recibe el nombre de valores atípicos (outliers). Las observaciones que están más allá de 3 veces el rango intercuartílico a partir de las aristas del rectángulo, reciben el nombre de valores atípicos extremos . Para representarlos, el software utiliza unos cuadraditos, tal como se ve en la siguiente figura: (Cuando se utiliza Statgraphics para construir este gráfico,al hacer click sobre ellos aparece en la pantalla el número o línea del archivo, en que están registrados)

Page 48: Curso Estadística Industrial

- 48 -

2.2.3.5.- Gráfico de Probabilidad ( Normal Probability Plot ):

Los métodos gráficos resultan muy útiles cuando se elige una distribución de probabilidad para describir una población (variable) partiendo de datos colectados (muestra) con ese propósito. La gráfica de probabilidad es un método gráfico para determinar si los datos muestrales se ajustan a una distribución propuesta con base en un examen visual subjetivo de los datos. En este caso se trata de observar si los datos colectados nos indican cuan posible es de que la variable pueda asumir el modelo de Probabilidad Normal.

En el caso de que la distribución normal describa de manera adecuada los datos, los puntos

de la gráfica se ubicarán de manera aproximada a lo largo de una línea recta ; Si los puntos se desvían de manera de manera significativa de una línea recta , entonces el modelo propuesto no es el apropiado. Habitualmente, la determinación de si la gráfica de los datos es o no una línea recta, es subjetiva.

2.2.3.6.- Gráfico de simetría

Este gráfico muestra la simetría de la variable en estudio. Ordena los datos de menor

a mayor. Se seleccionan los datos que están a la izquierda o a la derecha del valor mediano o mediana (Separa el conjunto de datos en dos mitades o 0% ) y cada punto es graficado mostrando su respectiva distancia de la mediana. Si la distribución de los datos es simétrica (sesgo cero), los puntos estarán muy cerca de la línea recta diagonal en el gráfico.

Si la distribución tiene positivo, los puntos estarán desviados por sobre la línea diagonal.

Si tiene sesgo negativo, habrá puntos desviados por debajo de la línea diagonal.

Page 49: Curso Estadística Industrial

- 49 -

Actividad Práctica Personal 12.

Distribución de la concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II Región de Chile A partir de la tabla anterior, construya: 1.- Un Histograma de frecuencia 2.- Un Polígono de frecuencia 3.- Un gráfico de distribución de frecuencias acumuladas. Determine un intervalo para el comportamiento del 80% central de los Valores de la variable

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i 1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75

1 2 8

14 27 9 6 3

Page 50: Curso Estadística Industrial

- 50 -

III Procesamiento de Datos Bidimensionales Datos Bidimensionales En muchas oportunidades una "unidad de análisis" es medida u observada desde diferentes ángulos o puntos de vista. Es decir se observan ciertos atributos, como también se miden ciertas variables. Ello genera una matriz de "n" filas y "k = 2 " columnas. En muchos problemas existe una relación inherente entre dos o más variables, y resulta necesario explorar la naturaleza de esta relación. Al explorar esta relación, podemos tener una medición cuantitativa de ella, la que dependerá de la naturaleza de las variables en estudio. Puede darse el caso de que las dos variables en estudio u observación sean cualitativas, como es el caso de "tuno " y "tipo de defecto", por ejemplo. Puede darse el caso de una de la variable sea cualitativa y la otra sea cuantitativa, como es el caso de "origen de procedencia " de un vehículo y "rendimiento", por ejemplo. Puede ser de que ambas variables sean cuantitativas, como es el caso de "Rendimiento" de un vehículo” (Km / lt)) y "peso del vehículo". Por lo tanto las posibilidades de formas de tabulación, las medidas cuantitativas asociadas y los gráficos asociados dependerán de la naturaleza de las variables en estudio. 3.1. - AMBAS VARIABLES SON CUALITATIVAS Un problema que se encuentra frecuentemente en el análisis de datos de conteos o enumerativos, trata de la independencia de dos métodos (variables) de clasificación de los eventos observados. Para ello en una primera instancia debemos tabular estos datos bidimensionales, generando una tabla denominada tabla de asociación o de contingencia. De esta tabla puede extraerse una variada cantidad de información. Por ejemplo, queremos clasificar los Tipos de Defectos encontrados en las unidades producidas en una planta manufacturera, según el Turno de producción. El archivo de datos tendría más o menos la siguiente presentación.

Unidad

Tip_Defect Turno

1 A 1 2 B 3 3 C 2 4 D 1 5 B 2 . .

308 C 2 309 A 1

Page 51: Curso Estadística Industrial

- 51 -

3.1.1.- Tabla de Asociación o de Contingencia

Al realizar el procedimiento de Tabulación Cruzada, obtendrá una Tabla básica, la cual puede ser interpretada y analizada de varias formas. Por ejemplo porcentajes respecto del total de la tabla; porcentajes respecto del total por columnas, porcentajes respecto del total `por filas. Valores esperados en cada celda bajo supuesto de independencia estadística, que se verá más adelante .etc.- Tabla de Frecuencias: Distribución de los Tipos de Defectos, según Turno Fila Turno 1 Turno 2 Turno 3 Total ---------------------------------------- A | 15 | 26 | 33 | 74 | 4,85% | 8,41% | 10,68% | 23,95% ---------------------------------------- B | 21 | 31 | 17 | 69 | 6,80% | 10,03% | 5,50% | 22,33% ---------------------------------------- C | 45 | 34 | 49 | 128 | 14,56% | 11,00% | 15,86% | 41,42% ---------------------------------------- D | 13 | 5 | 20 | 38 | 4,21% | 1,62% | 6,47% | 12,30% ---------------------------------------- Columna 94 96 119 309 Total 30,42% 31,07% 38,51% 100,00% El contenido en el interior de las celdas representa las frecuencias absolutas Conjuntas En los márgenes de la tabla aparecen los totales por filas, y los totales por columnas.

Interpretaciones:

f i j : Representa la frecuencia conjunta de la fila "i" con la columna "j". f 32 = 34. Significa que hay 34 unidades que tienen el " tipo de defecto C " y que fueron Producidos durante el "turno 2".

f i . : Representa el total en la fila " i” f 1. = 74. Significa hay 74 unidades que tienen el " tipo de defecto A “, cualesquiera Sea el turno f . j : Representa el total en la columna " j " f . 2 = 96. Significa que hay 96 unidades defectuosas que fueron producidas durante El Turno 2.

Page 52: Curso Estadística Industrial

- 52 -

Porcentaje de la Tabla: Los porcentajes que aparecen en la tabla están en relación al Total "n" de datos de la tabla. Porcentaje de fila: Los porcentajes que aparecen en la tabla están en relación al Total por fila. Es decir el total en cada fila, es el divisor de cada uno de los elementos que la componen. Porcentaje de columna: Los porcentajes que aparecen en la tabla están en relación al total por columna. Es decir el total en cada columna, es el divisor de cada uno de los elementos que la componen. Existe una limitación importante a considerar al utilizar statgraphics como soporte para construir Tablas de Asociación entre dos variables. Ello dice relación con los niveles de clasificación de las variables en estudio, los que no deben exceder de 20. Resumen Estadístico: En los resultados del procesamiento estadístico de las variables que arroja el software, aparece una ventana con el nombre Resumen Estadístico. Al ponerla en primer plano se destacan dos importantes indicadores:

Coeficiente de Contingencia- Esta estadística mide el grado se asociación entre los valores de las variables fila y columna en una escala de 0 a 1, es basada en la prueba estadística usual chi-cuadrada. Este coeficiente, por su definición, no puede en general alcanzar el valor 1.

Cramer’s V - Esta estadística mide el grado de asociación entre los valores de las variables fila y columna en una escala de 0 a 1, es basada en la prueba estadística usual chi-cuadrada. A diferencia de la estadística coeficiente de contingencia, esta puede alcanzar el valor..

Para una tabla de 2 filas y dos columnas 2

` Cramer s Vnχ

=

Page 53: Curso Estadística Industrial

- 53 -

Para tablas con r filas y c columnas, 2

` [ ( , ) 1]

Cramer s Vn Mínimo r c

χ=

Actividad Práctica Personal 13.- Abra el archivo “93 Cars” del la Carpeta Data de Statgrapgics, y haga una análisis de las variables cualitativas “Type” (filas) con “Air Bags”. Obtenga la tabla de asociación e interprete los resultados. Obtenga el gráfico de barras agrupadas. También puede darse el caso de que los datos ya estén tabulados y se necesiten analizar. Se debe tener un archivo de datos donde las columnas identifiquen los niveles de clasificación de la variable, y sus valores deben ser números enteros. Deberá definirse en otra columna, los niveles de clasificación de la otra variable, que será categórica. A modo de ejemplo, haremos un archivo con los datos de la tabla anterior para mostrar como que da la pantalla la pantalla principal.

3.1.2.- Gráficos relacionados con tablas de asociación

Ya sea que la tabla se haya obtenido a partir de datos no tabulados o sea simplemente el ingreso de una tabla de datos con una estructura de archivo, los gráficos más importantes son: Diagrama de Barras: Gráfico de barras agrupadas. Gráfico plano, bidimensional Histograma Tridimensional: Gráfico tridimensional, colocando como plano referencial las dos Variables en estudio. Actividad Práctica Personal 14.-

Con los datos mostrados en la tabla anterior tabla anterior, haga un archivo en Statgraphics y Obtenga la tabla de asociación e interprete los resultados. Obtenga la tabla de asociación e interprete los resultados. Obtenga el gráfico de barras agrupadas.

Page 54: Curso Estadística Industrial

- 54 -

Actividad Práctica Personal 15. Una compañía opera cuatro máquinas en tres turnos al día. De los registros de producción, se obtienen los datos siguientes sobre el número de fallas. M á q u i n a s

TURNO A B C D 1 41 20 12 16 2 31 11 9 14 3 15 17 16 10

a).- ¿Qué porcentaje de las fallas son producidas por las máquinas B ó C? b).- ¿Cuál es turno que produce la mayor cantidad de fallas?, ¿Cuál es el porcentaje? c).- ¿Cuál es la probabilidad de que el artículo fallado haya sido producido el en Turno o en la

Máquina A? d).- De lo producido en la Máquina A, ¿qué porcentaje corresponde al Turno 1? e).- De lo producido en el Turno 2, ¿qué porcentaje corresponde a la Máquina D?

Page 55: Curso Estadística Industrial

- 55 -

3.2.- AMBAS VARIABLES SON CUANTITATIVAS En muchos fenómenos o problemas existe una relación inherente entre dos o más variables, y resulta necesario explorar la naturaleza de esta relación. Por ejemplo, muchos de los productos farmacéuticos y alimenticios tienen fechas de expiración estampadas en etiquetas o estampadas en los envases. En el caso del pan, yogurt y de otros productos alimenticios, la fecha de expiración indica la fecha en la que el producto ya no está fresco y su consumo ocasiona un riesgo para la salud de las de personas. En el caso de medicamentos como los analgésicos o las medicinas contra el resfriado, la fecha de expiración indica a partir de cuando el producto comienza a perder su efecto para el propósito indicado. También, a modo de ejemplo, en un proceso químico supóngase que el rendimiento del producto está relacionado con la temperatura de operación del proceso. El poder de detergencia de un detergente está relacionado con la temperatura del agua, etc.- ¿Cómo se determina éstas fechas de expiración de los productos? ¿Cuál es la temperatura que maximiza el rendimiento? La respuesta es con Análisis de Regresión. 3.2.1.- Análisis de Regresión. El Análisis de Regresión es una metodología estadística para la modelización e investigación de la relación entre dos o más variables. Permite hacer un resumen de los datos y cuantificar la naturaleza y fuerza de la relación entre una variable dependiente o respuesta (Y), y una o más variables independientes o predictoras (X). A modo de ejemplo, considérense los datos de la tabla siguiente: y es la pureza del oxígeno producido en un proceso de destilación químico; x es el porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación

Para tener una idea a cerca del comportamiento conjunto de estas dos variable, debemos graficar este conjunto de puntos en el plano coordenado (X, Y). Se genera un gráfico denominado diagrama de dispersión o nube de puntos. El análisis de este diagrama de dispersión indica que , si bien una curva no pasa exactamente por todos los puntos , existe una fuerte evidencia de que los puntos están dispersos de manera aleatoria alrededor de un modelo matemático y = f (x). Es decir, el porcentaje de pureza del oxígeno (y) es función o depende del nivel de hidrocarburo (X).

Page 56: Curso Estadística Industrial

- 56 -

El modelo matemático más simple, es la "función lineal" o simplemente, la línea recta.

Y = a + b X

a : Es el intercepto o el valor de la ordenada en el origen , es decir el valor de Y cuando X = 0. b : Es la pendiente de la recta, y representa el cambio que experimenta la ordenada Y, por unidad de cambio en la abcisa X.

El modelo anterior es un modelo matemático de carácter determinista, puesto que al sustituir un valor de X en la ecuación, el valor de Y queda determinado y no se considera margen alguno para el error.

Los modelos deterministas resultan apropiados para propósitos predictivos, sólo cuando lo

errores de predicción son pequeños. Cuando los errores de predicción son grandes, que es por ejemplo el caso de los pronósticos

en la administración de negocios, hay que tomarlos en cuenta y reflejarlos en el modelo, y además, dar alguna idea de su magnitud.

El modelo Estadístico o matemático probabilístico, contiene una o más componentes aleatorias, que se agregan a la parte determinista del modelo matemático para tomar en cuenta el error aleatorio o inexplicado de la predicción.

Y = a + b X + ε

El modelo anterior recibe el nombre de Modelo de Regresión Lineal Simple, ya que sólo tiene una variable independiente o Regresor. En algunas ocasiones, los modelos de este tipo surgen de una relación teórica. En otras, no hay ningún conocimiento teórico de la relación existente entre "x" e "y", entonces la selección del modelo se basa en el análisis del diagrama de dispersión. En estos casos, el modelo de regresión se considera como un modelo empírico.

La variable aleatoria ε, supone las siguientes propiedades

1.- El valor esperado de ε, o su promedio, es igual a cero. 1

ˆ( )i n

i ii

y y

=

=

−=∑

= 0

2.- La varianza de la variable aleatoria ε es mínima, constante e igual a

2

2 1

ˆ( )i n

ii

y y

=

=

−=∑

3.- Cualquier par de errores aleatorios jiεε , correspondientes a dos observaciones yi , yj son independientes

En otras palabras, se supone que el promedio o valor esperado de "y" está relacionado

linealmente con "x" y que los valores observados de "y" se desviarán por encima y por debajo de esta línea en una cantidad aleatoria ε.

Page 57: Curso Estadística Industrial

- 57 -

Además, se ha considerado que la distribución de los errores respecto a la línea recta será idéntica, sin que importe el valor de "x”, y que para cualquier par de errores hay independencia entre sí.

La gráfica de los datos anteriores es:

Los coeficientes a , b Y = a + b X + ε , se determinan utilizando un programa denominado regresión lineal, que tienen incorporadas las calculadoras científicas.

Debemos establecer un criterio para tratar de minimizar las desviaciones de los puntos con la recta que se ajusta mejor, es decir, establecer un criterio para " el mejor ajuste" que parezca intuitivamente razonable, objetivo, y que según ciertas condiciones, ofrezca la mejor predicción de "y" para un valor dado de "x".

Un criterio de "bondad" utilizado es el denominado principio de los mínimos cuadrados.

Básicamente consiste en escoger como la recta de mejor ajuste a la que: 1.- El promedio de los errores (desviaciones de los valores observados " y" respecto de los pronosticados o estimados) se igual a cero.

2.- La suma de los errores elevados al cuadrado sea mínima 3.2.2.- Análisis de Correlación A veces se desea obtener un indicador de la intensidad o la fuerza de la relación lineal entre dos variables cuantitativas "x" e "y", que no dependa de sus respectivas escalas de medición. Se designará por medida de correlación lineal entre x e y. 3.2.2.1.- Coeficiente de Correlación Lineal de Pearson La medida de correlación lineal utilizada comúnmente en Estadística se llama Coeficiente de correlación lineal de Pearson.

Page 58: Curso Estadística Industrial

- 58 -

La expresión de cálculo matemático es:

Este valor también es obtenido del programa de Regresión Lineal que traen las calculadoras científicas. 1.- Un valor positivo para rxy implica que la recta sube de izquierda a derecha en el diagrama de dispersión. Relación directa entre las variables

2.- Un valor negativo para rxy implica que la recta baja de izquierda a derecha en el diagrama de

dispersión. Relación Inversa entre las variables

3.- Un valor de rxy igual a cero implica de que no hay correlación lineal entre x e y.

Page 59: Curso Estadística Industrial

- 59 -

3.5 Modelos NO Lineales Reducibles a lineal Una relación entre dos variables puede ser aproximadamente lineal cuando se estudia en un intervalo relativamente limitado, pero puede ser marcadamente curvilínea si se amplia el intervalo. Un ejemplo de ello lo tenemos al obtener valores experimentales de la presión P de una masa dada de gas, correspondiente a varios valores de volumen V. Es de suma utilidad, representar los datos originales en un Diagrama de Dispersión, para darnos cuenta de la existencia de alguna tendencia a alguna "curvatura". La selección de la forma de la ecuación de regresión que mejor expresa una relación curvilínea no siempre es problema simple. Existe un gran número de tipos de curvas que pueden expresarse por ecuaciones matemáticas.

Lo que debemos tener en cuenta para la elección del modelo que mejor interpreta a los datos, es elegir del conjunto de ecuaciones dadas, aquel modelo que en términos absolutos tenga el mayor coeficiente de correlación rxy, como también el mayor coeficiente de determinación R2. Este criterio de selección está justificado por el hecho de que al aumentar el coeficiente de correlación (en términos absolutos), disminuye el error estándar de la estimación del modelo.

3.5.1.- La expresión de cálculo matemático para el Coeficiente de Correlación Lineal es:

Generalmente este coeficiente se multiplica por 100%

Mide el grado de asociación lineal entre Y y X en un rango que va de -1 (perfecta correlación lineal negativa) a +1 (perfecta correlación lineal positiva). Si el modelo fuese no lineal, pero reducible a lineal, también cuantifica el grado de asociación que hay entre las variables, respecto del modelo al cual se ajustaron los datos. 3.5.2.- El Coeficiente de Determinación R2

El valor de R2 multiplicado por 100% se interpreta como el porcentaje de la variabilidad en la respuesta que es explicada por la variable predictora X a través del modelo de regresión. Tiene por lo tanto un carácter más general que el coeficiente de correlación lineal.

La variación total en la variable respuesta se define como:

El término ∑=

=

−ni

iii Yy

1

2)ˆ( se llama variación no explicada (por el modelo). Pues se comportan de

Page 60: Curso Estadística Industrial

- 60 -

un modo caótico, impredecible.

El término ∑ − 2)ˆ( YY se llama variación explicada (por el modelo).

Significa entonces que la variación total es igual a la suma entre la variación no explicada y la variación explicada.

El Coeficiente de Determinación, R2 , es entonces el cuociente entre la variación explicada por el modelo y la variación total.

R2 =

∑=

=

=

=

ni

ii

ni

i

Yy

YY

1

2

1

2

)(

)ˆ( 0 ≤ R2 ≤ 1

Además del criterio enunciado anteriormente para escoger la forma de la curva, es deseable

tener alguna teoría dada por especialistas que trabajen en el campo de la materia del tema por lo que se colectaron los datos. Además, también es de mucha utilidad, revisar si se cumplen los supuestos enunciados anteriormente en lo errores para la validez de la estimación.

OBSERVACIÓN: Abusos comunes de la regresión

La Regresión se emplea mucho y, con frecuencia, de mala manera. Mencionaremos brevemente algunos abusos comunes de la regresión. Debe tenerse cuidado al seleccionar las variables con las que se construyen las ecuaciones de regresión, así como al determinar la forma del modelo. Es posible determinar relaciones estadísticas entre variables que no están relacionadas desde un punto de vista práctico. Por ejemplo, puede intentarse relacionar la resistencia al esfuerzo de los puntos de soldadura con los valores día de un cierto tipo de moneda. Incluso puede parecer que una línea recta proporciona un "buen ajuste " de los datos, pero la relación es poco razonable. La observación de una fuerte relación entre variables no necesariamente implica la existencia de una relación causal entre ellas. Sólo los experimentos diseñados son los únicos que ofrecen una vía para determinar relaciones causales

Las relaciones de regresión son válidas sólo para los valores del regresor que están dentro del rango de los datos originales. La relación lineal supuesta de manera tentativa, o el modelo que en general se ha ajustado a los datos, puede ser válida dentro del rango original de X, pero tal vez no lo sea al momento de la extrapolación ( Es decir , si se emplean valores de X que están fuera del rango de los que fueron utilizados para la regresión). Esto es porque si se toman valores de X que están fuera del rango de los colectados, menos certidumbre (más incertidumbre) se tiene sobre la validez del modelo propuesto. Los modelos de regresión no son necesariamente válidos para fines de extrapolación.

Page 61: Curso Estadística Industrial

- 61 -

3.5.3.- - Error Estándar de la Estimación Si denotamos por y el valor estimado para Y, para valores dados de X , a través del modelo ajustado , una medida de la dispersión respecto de la Recta de Regresión de Y sobre X , viene proporcionada por la expresión :

El error estándar de la estimación tiene propiedades análogas a las de la Desviación Típica o Estándar. Por ejemplo , si construimos rectas paralelas a la de Regresión de Y sobre X a distancias verticales respectivas1 y/xσ ; 1,96 y/xσ ; 3 y/xσ de ella, si "n" (tamaño de la muestra) es lo suficientemente grande , que estarían incluidos entre esas rectas aproximadamente el 68 %, 95 % y 99 % de los puntos muestrales.

Para pequeñas muestras, será útil un error típico de estimación modificado

Para más adelante, podremos cambiar el denominador " (n - 2) “, por uno más general que es " (n - p ) " , donde "p" indica el número de parámetros que se estimaron en el modelo. (En el caso de los modelos lineales y no lineales reducibles a lineal, se estiman dos parámetros)

La relación curvilínea entre las variables, que es acusada por el Gráfico de Dispersión que se construye a partir de los datos originales, nos puede llevar a buscar: a) Modelos que no son lineales en los parámetros, pero que mediante una transformación (logarítmica por ejemplo), se los hace lineales. b) Modelos que son lineales en los parámetros, y entonces recurrimos a los polinomios de grado dos o más, en la variable independiente. c).- Modelos intrínsecamente no lineales que son aquellos que no se pueden linealizar mediante una transformación. Los correspondientes análisis se denominan regresiones no lineales.

Una vez transformados los datos, es aconsejable realizar un nuevo diagrama de dispersión y observar si ahora los datos presentan tendencia a alinearse en torno a una recta.

Las Transformaciones tienen por objetivo proporcionar un procedimiento más fácil de ajuste

y/o procedimientos válidos de estimación y prueba.

A continuación, a modo de ejemplo, se dará una lista de modelos no lineales en los parámetros que haciendo uso de una transformación podemos linealizarlos.

Page 62: Curso Estadística Industrial

- 62 -

Una vez transformados los datos, es aconsejable realizar un nuevo diagrama de dispersión y

observar si ahora los datos presentan tendencia a alinearse en torno a una recta. Las Transformaciones tienen por objetivo proporcionar un procedimiento más fácil de ajuste y/o procedimientos válidos de estimación y prueba.

Page 63: Curso Estadística Industrial

- 63 -

3.6.- Modelos Polinómicos

En el caso de curvas polinómicas, el diagrama de dispersión de los datos originales generalmente presenta cierto punto máximo, como también mínimo. Al ajustar curvas polinomiales, el investigador se interesa usualmente en un segmento dado del intervalo total representado por la ecuación.

Recordemos que:

En este caso, el mejor indicador del grado de asociación de las variables, respecto del

modelo utilizado es el coeficiente de determinación. Deberá entonces de utilizarse necesariamente un software estadístico que ajuste a los datos un

modelo polinómico más adecuado. Los cálculos matriciales generalmente son complejos y no exentos de errores.

Page 64: Curso Estadística Industrial

- 64 -

Actividad de Aplicación Práctica

Taller de Regresión y Correlación

1.- La resistencia del papel utilizado en la fabricación de cajas de cartulina (Y), está relacionada con la concentración de madera dura en la pulpa original (X). Bajo condiciones controladas una planta piloto fabrica 16 muestras, cada una con un lote diferente de pulpa , y mide la resistencia a la tensión

Y: 101.4 117.1 106.2 146.9 146.8 133.9 123.0 125.1 145.2 134.3 144.5 143.7 146.9 X : 1.0 1.5 1.5 2.0 2.2 2.4 2.5 2.8 2.8 3.0 3.0 3.2 3.3

2.- La tabla siguiente entrega las edades y las presiones sanguíneas (en sístole) de 12 mujeres. Edad ( X) 56 42 72 36 63 47 55 49 38 42 68 60_____ Pr. Sang. (Y) 147 125 160 118 149 128 150 145 115 140 152 155 3.- El número de bacterias por unidad de volumen "Y" en un cultivo tras "X" horas se presenta en la siguiente tabla de datos: Nº de horas (X) 0 1 2 3 4 5 6____ Nº de bacterias ( Y) 30 45 63 90 130 200 300 4.- El tiempo necesario para detener un coche después de percibir un peligro, es el tiempo de reacción ( el tiempo entre la percepción del peligro y la `aplicación de los frenos) , más el tiempo de frenada ( lo que tarda en detenerse bajo la acción de los frenos ) . La tabla siguiente muestra las distancias (Y) en pies , y las velocidades (X) de los coches en millas por hora Velocidad (X) 20 30 40 50 60 70 Distancia Frenado 54 90 138 206 292 396 5.- Las siguientes mediciones se efectuaron en 20 áreas geográficas. La variable "X" es la medición combinada de contaminación del aire y agua en la zona. La variable "Y" es la medición del estado de salud de los residentes del área.. Entre mayor sea el valor de X, hay mayor contaminación. Entre mayor sea el valor de Y, la salud de las personas es más precaria.

Page 65: Curso Estadística Industrial

- 65 -

6.- Los siguientes valores representan 15 lecturas que indican el volumen de tráfico y la concentración de monóxido de carbono tomado en un laboratorio para determinar la calidad del aire en una cierta ciudad. X : Volumen del tráfico (Automóviles por hora), Y : CO (ppm)

7.- Valores de Clorofila , Fósforo y Nitrógeno, tomados de varios lagos y diversos tiempos . Se sugiere Buscar Modelos de Regresión

Page 66: Curso Estadística Industrial

- 66 -

Un experimento Binomial es un experimento aleatorio que consiste de "n" ensayos tipo Bernoulli repetidos, que posee las siguientes propiedades 1.- Los ensayos son independientes

2.- Cada ensayo tiene sólo dos resultados posibles, denominados "Éxito" (p) y " Fracaso" (q = 1 - p )

3.- La probabilidad de éxito en cada ensayo, permanece constante

4.- Modelos de Probabilidad Discretos y Continuos que frecuentemente se utilizan en Control de Procesos.- Recordemos que una variable aleatoria discreta es aquella que cuenta el número de veces que se presenta una cierta característica en un conjunto de n observaciones. Cuando el valor que tome la característica está sólo en una de dos posibilidades, se dice que la variable tiene un comportamiento dicotómico o Bernoulli. Por ejemplo:

1.- Una unidad producida pude estar dentro de especificaciones o fuera de especificaciones.

2.- Una unidad de trabajo puede estar operativa o no operativa. 3.- Un trabajador puede estar presente en a su lugar de trabajo o estar ausente.

Debemos de definir lo que nos interesa obtener como resultado del ensayo o experimento, puesto ello definirá lo que llamaremos la probabilidad de “éxito estadístico” , que denominaremos con la letra “p”. El “no éxito estadístico” lo denominaremos con la letra “q”. Entonces veremos que p + q = 1 4.1.- MODELOS DE PROBABILIDAD DISCRETOS 4.1.1.- Distribución Binomial La base de esta distribución son los ensayos Bernoulli , que es un experimento aleatorio que tiene sólo dos resultados posibles , denotados por "éxito" (p ) y "fracaso" (q) . Definición .

La expresión ( ; ; )P X k n p= , significa: “La probabilidad de encontrar exactamente k éxitos , en una muestra de n unidades, donde la probabilidad de éxito en cada prueba es igual a p” El cálculo de esta probabilidad se hace mediante la expresión ( ; ; ) (1 )n k n k

kP X k n p C p p −= = ⋅ ⋅ − k = 0 ,1 , 2 , …….n

Page 67: Curso Estadística Industrial

- 67 -

La función de probabilidad acumulada es :

P(X ≤ k ) = 0

(1 )j k

n j n jk

jC p p

=−

=

−∑

Ejercicio: La probabilidad de que cada muestra de agua esta contaminada con una cierta "sustancia rara" es de un 10%. Suponga que las muestras son independientes con respecto a la presencia de dicha sustancia. Se toman 20 muestras en oportunidades diferentes.

a) Calcule la probabilidad de exactamente dos muestras estén contaminadas.

( 2; 20; 0,1)P X n p= = = =20 2 20 22 0,1 (1 0,1)C −⋅ ⋅ − = 190 ×0.01 × 0.150095 = 0.2852

b) Calcule la probabilidad de que hayan entre 2 y 5 muestras inclusive , contaminadas P( 2 ≤X ≤ 5 ) = P(X = 2 ) + P ( X = 3 ) + P ( X = 3 ) = 0.1901 + 0.0898 + 0.0319 = 0.597

c) Calcule la probabilidad de que hayan tres o más muestras contaminadas. P ( X ≥ 3 ) = 1 - P( X ≤ 2 ) = 1 - [ P ( X = 0 ) + P ( X = 1 ) + P ( X = 2 ) ] = Ejercicio: verifique estos resultados usando Centurión XVI. 1 4.2.- Distribución Hipergeométrica. La Distribución Binomial se basa en el supuesto de que el tamaño N de la Población es Infinito y de que la muestra aleatoria se toma con reemplazo, de manera de que las observaciones posibles sean independientes entre sí. La probabilidad de éxito en cada ensayo o prueba permanece así invariable para toda observación sucesiva. Pero cuando la población es de tamaño finito conocido , "N" , y la muestra aleatoria se toma sin reemplazo, la probabilidad de éxito , "p", cambiará para cada nueva observación. En tales circunstancias, se tendrá una distribución de probabilidad que se llama Distribución Hipergeométrica. Si se sacan "n" elementos sin reemplazo de una Población o Lote que contiene N1 elementos de una clase y N2 elementos de otra clase, y estas dos clases son mutuamente excluyentes y colectivamente exhaustivas , entonces:

1 2

1 2( ; ; ; )N Nk n k

Nn

C CP X k n N NC

−= = N 1 + N 2 = N , tamaño de la población

Representa la probabilidad de tener exactamente k objetos en la muestra de tamaño n , que provienen de la clase N1. Las expresiones con la letra C con sus subíndices y supra índices representan las combinaciones posibles de obtener, desde el punto de vista del análisis combinatorio.

Page 68: Curso Estadística Industrial

- 68 -

Ejemplo: Un embarque de sustancias químicas llega en 20 depósitos, de los cuales hay cuatro que no cumplen con normativas vigentes. Si se eligen una muestra de tres depósitos para hacer una inspección de la pureza del producto a).- ¿Cuál es la probabilidad de que la muestra contenga un depósito que no cumple la normativa?

1 2( 1; 3; 4; 16)P X n N N= = = = = = 203

162

41

CCC

= 0,4211

b).- ¿Cuál es la probabilidad de que la muestra contenga entre uno y dos depósitos que no cumple la normativa?

P (X=1) + P(X=2) = 203

162

41

CCC

+ 203

161

421

CCC

=

b).- ¿Cuál es la probabilidad de que al menos un depósito de los que no cumplen la normativa esté en la muestra? P( X ≥ 1 ) = 1 - P ( X = 0 ) = 1 - 0,4912 = 0.5088 Ejercicio: verifique estos resultados usando Centurión XVI. 1 4.3.- Distribución de Poisson Este modelo es aplicable a muchos procesos en los que hay un "recuento" por unidad de tiempo, espacio o área, volumen. Por ejemplo el número de defectos por unidad observada ; el número de vehículos que pasan por un lugar en una cierta unidad de tiempo; el número de partes por millón en una muestra de As en una muestra de agua; el número promedio de personas que un cajero atiende cada 15 minutos; el número de partes defectuosas por lote embarcado desde la fábrica para ensamblaje; El número de defectos de aislamiento del alambre eléctrico por cada diez metros. Todos los procesos anteriores se caracterizan por el número de éxitos esperados por unidad de tiempo, espacio, volumen, etc. Su función de cuantía es

!)(

kekXP

k λλ −

== Donde λ es el parámetro que expresa el número esperado

( o promedio) por unidad de tiempo , espacio , etc. " e " es un constante , cuyo valor aproximado es de 2,7183 Ejemplo: La contaminación es un problema en la fabricación de discos de almacenamiento óptico. El número de partículas contaminantes que aparecen en un disco óptico tiene una distribución Poisson, y el número promedio de partículas por centímetro cuadrado de superficie del medio de almacenamiento es 0,1. El área de un disco bajo estudio es de 100 centímetros cuadrados. a).- ¿Cuál es la probabilidad de encontrar 12 partículas en el área del disco? El número esperado de partículas en un área de 100 cm2 es igual a 100*0,1 = 10 partículas / cm2 Este es el valor de λ en la distribución de Poisson. Entonces:

Page 69: Curso Estadística Industrial

- 69 -

12 1010( 12; 10)12!

eP X λ−

= = = = 0,095

b).- ¿Cuál es la probabilidad de encontrar entre 7 y 12 partículas en el área de l disco?

=≤≤ )127( XP ∑=

=

−12

7

10

!10k

k

k

ke

= P(X=7) + P(X=8)+ P(X=9)+ P(X=10)+P(X=11)+P(X=12)=

0,0901 + 0,1126 + 0,1251 + 0,1251 + 0,1137 + 0,0948 = 0,6614. c).- ¿Cuál es la probabilidad de encontrar 3 o más partículas en el área del disco? P(X ≥ 3 ) = 1 - P( X ≤ 2) = 1 - [ P(X=0) + P(X=1) + P(X=2) ] =

= 1 - [0,000045 + 0,000454 + 0,002270] = 0,99723 Ejercicio: verifique estos resultados usando Centurión XVI. 1 Taller de aplicaciones: 1.- Muchos Jefes encuentran que algunas personas que contratan no son lo que afirman ser. La detección de solicitantes para un trabajo que falsean la información en sus solicitudes, ha generado un nuevo tipo de negocio: Los servicios de verificación de antecedentes. Estas empresas han llegado a la conclusión de que alrededor de un 35 % de todos los antecedentes examinados, no eran verídicos. a)..- Calcule la probabilidad de que de 20 solicitantes, hayan entre 7 y 10 con antecedentes falseados, inclusive. b).- ¿Cuál es la probabilidad de que en 10 solicitantes , la cantidad de antecedentes falseados sea superior o igual a tres ? 2.- Una persona pasa todos las mañanas a la misma hora por un cruce de vía don de el semáforo está en verde el 20% de las veces. Suponga que cada mañana representa un ensayo independiente. a).- En cinco mañanas consecutivas, ¿Cuál es la probabilidad de que el semáforo esté en verde exactamente un día? b).- En 20 mañanas consecutivas, ¿Cuál es la probabilidad de que el semáforo esté en verde entre tres y siete veces? c).- En 20 mañanas consecutivas, ¿Cuál es la probabilidad de que el semáforo esté en verde seis o más veces? 3.- La producción diaria de 850 partes manufacturadas contiene 50 que no cumplen con los requerimientos del cliente. De este lote se escogen al azar 15 partes. a).- ¿Cuál es la probabilidad de que dos o menos partes no cumplan los requerimientos? b).- ¿Cuál es la probabilidad de que entre uno y cuatro partes no cumplan con los requerimientos?

Page 70: Curso Estadística Industrial

- 70 -

4.- Un lote de piezas (tuberías) idénticas contiene 100 de ellas de un proveedor local y 200 son de un proveedor de otra región. a).- Si se eligen cuatro piezas al azar, ¿Cuál es la probabilidad de que todas provengan del proveedor local? b).- Si se eligen 5 piezas al azar, ¿Cuál es la probabilidad de 3 o más provengan del proveedor de fuera la región? 5.- Las fallas superficiales de un alambre delgado de cobre (defectos) se presentan de manera aleatoria. Sea X la variable aleatoria que cuenta el número de fallas superficiales por cada 100 metros. El departamento de Control de Calidad de la empresa hace un estudio y llega a la conclusión de en promedio hay 2,3 defectos por cada 100 mts. a).- Calcule la probabilidad de que si se analizan 100 mts. de alambre, se encuentre entre 2 y 4 fallas. b).- Determine la probabilidad de tener al menos dos fallas en 200 metros de alambre

Page 71: Curso Estadística Industrial

- 71 -

4.1.- MODELOS DE PROBABILIDAD CONTINUOS Distribución de Probabilidades Normal Existen muchos modelos de probabilidad de variable aleatoria continua. Uno de los modelos es la Distribución Normal de Probabilidades , que ocupa un lugar destacado en la Inferencia Estadística. La importancia de la Distribución Normal se puede resumir en estas consideraciones esenciales:

1. Numerosas variables observadas en la naturaleza se ajustan a este modelo de probabilidad. 2. Se ha encontrado que ciertos componentes , partes y montajes de maquinarias tienen 3. distribución normal, en cuanto a las medidas de su fiabilidad. 4. La distribución muestral de muchos estadígrafos muestrales , como el promedio aritmético por

ejemplo, tiene una distribución aproximadamente normal e independientemente de la configuración de la distribución de la población. Esto hace que en determinado momento se prefiera tomar muestras de un tamaño relativamente grande, para invocar con ello la normalidad estadística.

5. La función normal es una excelente aproximación a otras varias distribuciones muestrales. Por ejemplo , la Binomial , Poisson se aproximan a la normal al aumentar "n"

Su Función de densidad es la expresión:

2

2

2)(

2

2

21);;( σ

μ

πσσμ

−−

==x

exXf

La forma gráfica de esta distribución es como la de una campana , por lo que también se le conoce con el nombre de Campana de Gauss.

La forma grafica de la distribución depende de sus dos parámetros: El promedio μ (medida de tendencia central) y la varianza 2σ (medida de variabilidad). Existen varias formas graficas según sean las combinaciones que se tengan entre sus dos parámetros:

1.- Igual promedio, distinta varianza. 2.- Distinto promedio, igual varianza. 3.- Distintos promedios, distintas varianzas.

Page 72: Curso Estadística Industrial

- 72 -

La Distribución Normal Típica, representa todas las variables aleatorias normales. Se logra estandarizar cualquier variable realizando la siguiente transformación, denominado puntaje típico o estándar.

dardEsDesXXZ

tan.)( 1 −=

Ejemplo: Una planta dedicada a la fabricación de insumos para la minería elabora un producto denominado “Tronex Plus”. Una variable crítica en este producto es su velocidad de detonación. El departamento de Control de Calidad de la empresa dice que este producto en esta variable presenta una velocidad promedio de 4390 m/seg y una desviación estándar de 185 m/seg. Asume que esta variable tiene un comportamiento que se ajusta a la distribución normal de probabilidades. a).- ¿Qué porcentaje de la producción esta por debajo de los 4000m/seg? P(X < 4000). Para resolver este problema necesitamos estandarizar la variable y luego en una tabla de distribución normal típica o estándar, determinar el valor de probabilidad que es menor al valor estandarizado.

Es decir, 11,2185

)43904000(−=

−=Z ; P ( Z < -2,11) = 0,0174

La respuesta es que la probabilidad de que el producto tenga una VOD por debajo de los 4000 m/seg, es de 0,0175 lo que equivale a decir que 1,75 % de producción está por debajo de dicho valor de corte b) .- ¿Qué porcentaje de la producción supera los 4500 m/seg? Esta pregunta se escriba de forma simbólica de la siguiente forma P(X > 4500 ). Pero dada que la función de distribución acumula valores de menor a mayor es que siempre debemos hacer el cálculo de la siguiente manera

P(X >4500 ) = 1 – P ( X ≤ 4500) = 1 – 0,7291 = 0,2761 Si no se dispone de una tabla de distribución normal, podemos usar la planilla Excel

Es decir que un 27,61% de la producción estará por sobre los 4500 m / seg

Page 73: Curso Estadística Industrial

- 73 -

c).- Si la pregunta fuese ¿qué porcentaje del producto tiene VOD entre los 4200 y los 4700 m / seg? Es decir, de forma simbólica tenemos que expresar P( 4200 ≤ X ≤ 4700 ). Para hacer este cálculo debemos de hacer que P( 4200 ≤ X ≤ 4700 ) = P( X < 4700) – P( X < 4200). Usando Excel para cada una de las probabilidades obtenemos: P( 4200 ≤ X ≤ 4700 ) = P( X < 4700) – P( X < 4200)= 0,9531 - 0,1522 = 0,8009. Es decir, que un 80,1% del producto esta entre esos los valores indicados. d) Pero también podemos estar interesados en saber , por ejemplo, ¿Dentro de que valores se sitúa la variable VOD del Producto Tronex Plus en el 90% central de los casos?. Es decir, aquí se formuló una pregunta “como al revés “ de las otras,. Por esta razón es que debemos usar una distribución normal inversa. Además tener presente que en este caso debemos recurrir al concepto de Percentiles. Es decir: X mínimo X máximo P5 P95

Page 74: Curso Estadística Industrial

- 74 -

Taller de aplicación: 1.- Una industria de fertilizante fabrica un cierto producto que tiene una porcentaje promedio de pureza de un 92 % y una desviación estándar de un 2 % . Suponga que la variable “% de pureza “ se comporta como una distribución normal con los parámetros antes indicados. a).- ¿Cuál es la probabilidad de que el producto tenga un % de pureza de un 94 % o más? b).- ¿Cuál es la probabilidad de que el producto tenga un % de pureza entre 91 % y 95 %? c).- ¿Cuál es la probabilidad de que el producto tenga un % de pureza menor 90 %? 2.- Una empresa dedicada a la fabricación de Nitrato de Amonio, como producto para la gran minería, utilizado en la fragmentación de roca, tiene como variable crítica en este producto la velocidad de detonación. Se sabe que el proceso entrega como resultado en esta variable un comportamiento modelizado por la distribución normal de probabilidades con un promedio de 2270 m/seg y una desviación estándar de 150 mt/seg. Si el producto supera los 2400 mt/ seg es considerado de categoría "A" Si el producto está entre 2050 mt/seg y 2399 es considerado de categoría "B" S el producto tiene menos de 2050 mt/ seg es considerado de categoría "C" a).- Si la planta fabrica 1000 toneladas días, ¿cuál es el valor esperado de toneladas en cada una de las tres categorías durante un año de producción? b).-¿Cuáles son las velocidades de detonación que fabrica el proceso un 80 % central de las veces? c).- Se sabe que alrededor de un 10 % de las ventas, de producto con baja velocidad de detonación es utilizado como componente de un fertilizante, ¿cuál es la velocidad de detonación máxima del producto para este uso? 3.- Una empresa dedicada a la fabricación de Carboncillo, como producto para las empresas generadoras de energía eléctrica, tiene como variable crítica en este producto el porcentaje de ceniza. Se sabe que el proceso entrega como resultado en esta variable un comportamiento modelizado por la distribución normal de probabilidades con un porcentaje promedio de ceniza de 4,5 % y una desviación estándar de 0,9 %. Si el producto tiene menos 3,3 % de ceniza es considerado de categoría "A". Si el producto está entre 3,5 % y 5,3% es considerado de categoría "B". Si el producto tiene más de 5,3 % de ceniza, es considerado de categoría "C". El valor de la tonelada de producto “A” es de U$ 400; la tonelada de producto B es de U$ 360; la de producto C, es de U$ 300.

a).- Si la empresa produce 600.000 toneladas anuales, ¿cuál es el valor esperado en cada una de las categorías? Respuesta: A: ....................... ; B : ............................... y C: ......................

b).-¿Cuáles son los ingreso esperado durante el año, en la venta de este producto?. Respuesta: .............. c).- Se sabe que alrededor de un 25 % de las ventas , de producto con mucha ceniza es utilizado como componente de placas aislantes, ¿cuál es el porcentajes mínimo de ceniza en el producto para este uso? Respuesta: .............. d).- En el 80% central de las veces, cuales son los % de ceniza que tienen el carboncillo producido.

Page 75: Curso Estadística Industrial

- 75 -

5.- INFERENCIA ESTADÍSTICA PARAMETRICA

5.1.- Definiciones Preliminares El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o para obtener conclusiones sobre una Población, Lote, Proceso. Estos métodos utilizan la información contenida en una muestra de la Población, Lote, Proceso para obtener conclusiones.

La inferencia estadística la podemos dividir en dos grandes áreas:

1).- Estimación de parámetros 2).- Prueba de hipótesis y construcción de intervalos de confiabilidad 3).- Pruebas de bondad de ajuste de los modelos utilizados De lo anterior, podemos desprender de que la calidad de la información obtenida, como también la acertividad de la decisión tomada, dependen esencialmente de la muestra. (Que es de donde obtenemos la información una vez procesados los datos). Población, Lote, Proceso. En muchos problemas estadísticos, es necesario utilizar una muestra de observaciones tomadas de la población de interés con objeto de obtener conclusiones acerca de ella Muestra

Está formado por la totalidad de las observaciones en las cuales se tiene cierto interés

Es un subconjunto de observaciones colectadas bajo rigurosos métodos de selección, que permiten asegurar la representatividad de la muestra, respecto de la Población

Page 76: Curso Estadística Industrial

- 76 -

Para que las inferencias sean válidas, la muestra debe ser representativa de la población. Un mecanismo de selección que asegura la representatividad es la aleatorización. En consecuencia la selección de una muestra es un experimento aleatorio, y cada observación de la muestra es el valor observado de una variable aleatoria. Las observaciones en la población determinan la distribución de probabilidad de la variable aleatoria. La calidad de las medida(s) o valor(es) obtenidos de las muestras dependen , entre otros factores , de los equipos de medición ( exactitud , precisión , capacidad, etc.) . Una muestra representativa, evita que se produzca una información sesgada. 5.2.- Estimación Estimador, Estadística

Estimación Puntual

Propiedades de los estimadores:

1.- Insesgado : Un estimador debe arrojar , en promedio, valores muy próximo al verdadero valor del parámetro. 2.- Mínima Varianza : Si se consideran todos los estimadores insesgados de del parámetro θ , el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza mínima. 3.- Consistentes : A medida de que el tamaño de la muestra aumenta , (n N), el estimador tiende a coincidir con el parámetro. 4.- Eficientes : Si se utilizan dos estadígrafos o estimadores del mismo parámetro , aquel

cuya distribución muestral tenga menor error estándar , es un estimador más eficaz que otro . 5.- Suficiente : Un estimador suficiente del parámetro θ , es aquel que agota toda la

información pertinente sobre θ de que se pueda disponer en la muestra.

Las variables aleatorias ( X1 , X2 ,............., Xn) constituyen una muestra aleatoria de tamaño "n" si : 1.- Las Xi son variables aleatorias independientes 2.- Todas las Xi tienen la misma distribución de probabilidad

Un Estimador, Estadística es cualquier función de las observaciones contenidas en una muestra aleatoria. Por ejemplo: 1. El promedio aritmético de los valores muestrales. 2. La proporción muestral de casos con una determinado atributo

Page 77: Curso Estadística Industrial

- 77 -

Por ejemplo , el promedio μ ( desconocido) de la Población , puede ser estimado a través del

promedio aritmético de la muestra, X , también puede ser estimado por la Mediana de la muestra, X~ . Pero X tiene menor varianza que X~ .( Es decir , X es más eficiente que X~ ). Uno de los mejores métodos para obtener un estimador puntual de un parámetro es el método de Máxima Verosimilitud. Tal como su nombre lo señala, el estimador será el valor del parámetro que maximiza la función de verosimilitud. (No será expuesto en el presente desarrollo, pero puede ser revisado en Textos de Estadística Matemática o de Probabilidades y Estadística) 5.3.- Distribuciones de muestreo

Por ejemplo, la distribución de probabilidad del promedio aritmético X , se conoce como distribución de muestreo o distribución muestral de la media. La distribución de muestreo de una estadística depende de la distribución de la población , del tamaño de muestra y del método utilizado para seleccionar la muestra. Teorema del Límite Central

Error Estándar

Por ejemplo el promedio aritmético X , tiene un error estándar de n

2σ.

La distribución de probabilidad de un estimador o estadística recibe el nombre de Distribución de muestreo

Si X1 , X2 , X3,..........., Xn es una muestra aleatoria de tamaño " n " tomada de una población (finita o infinita ) , con promedio " μ " y varianza finita " 2σ " , si X es la media muestral , entonces la forma límite de la distribución del promedio X es :

n

XZ2σ

μ−=

Cuando n ∞ , es la Distribución Normal Estándar

El error estándar de un estimador o estadística es la desviación estándar de su distribución de muestreo. Si el error estándar involucra parámetros desconocidos cuyos valores pueden estimarse, la sustitución de estas estimaciones en el error estándar da como resultado un error estándar estimado

Page 78: Curso Estadística Industrial

- 78 -

Pero en muchas oportunidades el parámetro 2σ debe ser estimado por la varianza muestral,

Obteniéndose entonces un error estándar estimado igual a n

S 2

.

El error estándar da alguna idea sobre la precisión de la estimación 5.4.- Prueba de Hipótesis e intervalo de confianza

En muchos problemas de Ingeniería, Ciencias de la Salud, Ciencias Naturales, Ciencias Sociales, Administración y Negocios, etc. requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de Hipótesis, y el procedimiento de toma de decisión sobre la hipótesis se conoce como Prueba de Hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la Ingeniería, etc. pueden formularse como problemas de prueba de hipótesis. Es conveniente considerar la prueba de hipótesis estadísticas como la etapa de análisis de datos de un experimento comparativo, en el que el profesional de la salud está interesado , por ejemplo, en mejorar un rendimiento promedio en un proceso ,después de haber hecho una innovación en el mismo, probar la efectividad de un tratamiento, de un plan preventivo, etc. La finalidad es probar hipótesis con respecto a los parámetros de las dos situaciones. En la prueba de hipótesis intervienen siempre dos hipótesis denominadas como:

H0: Denominada como hipótesis nula o hipótesis de prueba. H1: Denominada hipótesis alternativa

La estructura general de una Prueba de Hipótesis, la podemos resumir en el siguiente cuadro

H0 : 0θθ =

v/s H1 : 0θθ f

H0 : 0θθ =

v/s H1 : θ < 0θ

H0 : 0θθ =

v/s H1 : θ ≠ 0θ

Hipótesis alternativa Hipótesis alternativa Hipótesis alternativa unilateral derecha unilateral izquierda bilateral

Una hipótesis estadística es una proposición sobre los parámetros de una o más Poblaciones, Lotes, Procesos, etc.

Page 79: Curso Estadística Industrial

- 79 -

Los procedimientos de pruebas de hipótesis dependen del empleo de la información que se obtiene al procesar los datos contenidos en una muestra aleatoria de la población de interés. Es por esto que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas.

Dado que estamos trabajando con información muestral para aceptar o rechazar la hipótesis de prueba, es que debemos asumir que podemos cometer alguno de estos dos tipos de errores denominados: Error Tipo I , Error Tipo II

Este es el tipo de Error con el que usualmente se realiza la prueba de Hipótesis Al utilizar una muestra para obtener conclusiones sobre una población existe el riesgo de llegar a una conclusión incorrecta.

Cuando se toma una decisión referente a una hipótesis basada en la teoría de la

probabilidad, ésta puede ser: Decisión Correcta: • Se acepta una hipótesis cuando es verdadera. • Se rechaza una hipótesis cuando no es verdadera. Decisión Incorrecta • Error Tipo I (α).- Se rechaza un hipótesis que es verdadera, es decir, se rechaza la

Hipótesis Nula (H0) cuando en realidad es cierta. • Error Tipo II (β).- Se acepta una hipótesis que no es verdadera, es decir, no se

rechaza la Hipótesis Nula (H0) cuando es falsa y se debiera rechazar.

El Error Tipo I se define como el rechazo de la Hipótesis nula H0 cuando ésta es verdadera. Este error generalmente se designa por α y fluctúa 0 < α ≤ 0,1. En muchos experimentos industriales se usa α = 0,05 y se denomina nivel de significancia.

El Error Tipo II, se define como la probabilidad de aceptar la hipótesis nula H0 cuando ésta es falsa. Este error generalmente se designa por β y fluctúa entre 0 < β ≤ 0,1

La Potencia de una prueba estadística es la probabilidad de rechazar la hipótesis nula H0 , cuando la hipótesis alternativa es verdadera ( con probabilidad 1 – β ). Es en realidad su poder de discriminar correctamente.

Page 80: Curso Estadística Industrial

- 80 -

Para mayor claridad observamos el siguiente cuadro:

Decisión Condición

ACEPTAR

RECHAZAR

H0 es (V) Decisión Correcta 1 - α

Error de Tipo I α

H0 es (F) Error de Tipo II β

Decisión Correcta 1 - β

De estos dos errores el más frecuente es β, pero el más difícil de controlar; de ahí que el más usado en la práctica es α. REGIÓN DE REGIÓN DE REGIÓN DE REGIÓN DE ACEPTACIÓN RECHAZO RECHAZO ACEPTACIÓN El nivel de significación debe ser especificado antes de que una prueba sea hecha, de otra manera, el resultado obtenido en la prueba puede influir en la decisión.

Los niveles de significación más utilizados son: α = 0,05 y α = 0,01

Al emplear un nivel de significación del 5% tenemos la confianza del 95% de que hemos tomado una decisión correcta, aunque pudimos estar equivocados en un 5%. El error de Tipo II (β) se puede determinar solamente respecto a un valor específico incluido en el rango de la Hipótesis Alternativa (H1).

La región crítica o de rechazo es la medida del resultado del proceso de una muestra es mayor o igual que un valor fijado (Valor Crítico), entonces se rechaza la hipótesis nula (H0); como también se rechaza en el caso que la medida menor que un valor fijado.

El nivel de significación (α) es la máxima probabilidad de cometer un error de Tipo I especificado en una prueba de hipótesis.

Page 81: Curso Estadística Industrial

- 81 -

5.4.1.- Etapas básicas a considerar en la prueba de hipótesis:

A continuación se enunciarán un conjunto secuenciados de procedimientos a tener en consideración, para prueba de hipótesis en el caso de muchos problemas prácticos.

1.- Del contexto del problema, identificar el parámetro de interés. 2.- Establecer la hipótesis nula, H0. 3.- Establecer una apropiada hipótesis alternativa, H1.

4.- Seleccionar un nivel de significancia α , para probar la hipótesis H0.

5.- Establecer una estadístico de prueba apropiado. 6.- Establecer la Región de Rechazo para el estadístico de prueba, que está

señalada por la hipótesis alternativa ( < , > , ≠ ). 7.- Calcular todas las cantidades o estimadores a partir de los datos muestrales, para

Sustituirlas en la expresión del estadístico de prueba, obtener el valor correspondiente. 8.- Decidir si debe o no rechazarse H0 y expresar o redactar esto, en el contexto del

problema.

5.4.2.- Aplicaciones de la Distribución Normal en la Prueba de Hipótesis y la construcción de intervalos de confianza. En forma muy general, podemos decir que la distribución normal se aplica en temas relacionados con la inferencia estadística cuando la Variable en estudio tiene un comportamiento que es modelizado por esta distribución, se conoce el valor del parámetro denominado varianza , o el tamaño de la muestra es suficientemente grande , como para invocar que el estadígrafo muestral tiene un comportamiento normal. 5.4.2.3.- Prueba de hipótesis e intervalo de confianza acerca una proporción " p”. En muchos problemas de ingeniería, se tiene interés en una variable aleatoria que sigue o se comporta como una distribución Bernoulli. Por ejemplo, considérese un proceso productivo que fabrica artículos que son clasificados como aceptables o defectuosos; o bien un proceso de monitoreo que controla una variable específica mediante una lectura muestral, y la muestra se clasifica como contaminada ( + ) o no contaminada (- ). En salud, una persona enferma o está sana; Tiene una afección o no la tiene. El parámetro binomial " p " representa la proporción de artículos ( o muestras ) defectuosos (contaminados) producidos.

H0 : p = p0

Estadístico de prueba

H1 : p < p0

H1 : p > p0

H1 : p ≠ p0 Z0bs =

nqpppˆˆ

)ˆ( 0−

Page 82: Curso Estadística Industrial

- 82 -

El valor p es la proporción de unidades con la característica buscada. Entonces X = n * p es la cantidad de unidades muestrales con la característica buscada. El valor p0 es la proporción que hipotéticamente existe en la población. El valor " n p0 " representa entonces el valor esperado de unidades con la característica buscada, en la muestra de tamaño "n”. Intervalo de Confianza para p de nivel (1 - α)

Tamaño de la muestra

nppZp )ˆ1(ˆˆ 2/1

−± −α

2

0

00 )1()1(⎟⎟

⎜⎜

−+−=

ppppZppZ

n βα prueba bilateral

2

0

002/ )1()1(⎟⎟

⎜⎜

−+−=

ppppZppZ

n βα prueba unilateral

5.4.2.4.- Prueba de hipótesis acerca de la diferencia entre dos proporciones " p1 y p2”. Las pruebas de hipótesis del punto 7.4.2.2 pueden extenderse al caso donde existen dos Parámetros binomiales de interés (por ejemplo p1 y p2) y se desea probar que son iguales o que difieren en una cantidad δ .

Esta prueba de hipótesis, para asegurar la convergencia a la distribución normal de los parámetros muestrales, necesita que los tamaños de las respectivas muestras tomadas independientemente en cada una de las poblaciones sean de tamaño grande (preferentemente superior o igual a 100).

Los estimadores de las proporciones poblacionales son 1p = 1

1

nX

, 2

22ˆ

nXp = y que

Tienen distribuciones aproximadamente normales.

Para probar la hipótesis H0, se debe calcular π = 21

21

nnXX

++

, donde X1 y X2 representan las

cantidades de unidades, en cada una de las muestras, que poseen la característica en estudio.

H0 : p1 - p2 = δ

Estadístico de prueba

H1: p1 - p2 < δ

H1 : p1 - p2 > δ

H1 : p1 - p2 ≠δ

Z Obs =

)11)(1(

)ˆˆ(

21

21

nn

pp

+−

−−

ππ

δ

Page 83: Curso Estadística Industrial

- 83 -

Intervalo de confianza de nivel (1 - α )

Tamaño de la muestra

21 ˆˆ( pp − ) ± Z1 – α/2 21

11)(1(nn

+−ππ

( )

221

2

22112121

)(2/))((pp

qpqpZqqppZn

++++= βα

La fórmula que permite calcular el tamaño muestral está dada en el caso de realizar una prueba de hipótesis con alternativa unilateral. En el caso de que se desee realizar una prueba bilateral ( ≠ ), entonces es necesario remplazar Z α por Z α/2

5.4.3.- Aplicaciones de la Distribución t - Student en la Prueba de Hipótesis y la construcción de intervalos de confianza. Cuando se prueban hipótesis a cerca del promedio μ de una población cuando 2σ es desconocida, es posible utilizar los procedimientos antes descritos, siempre y cuando el tamaño de la muestra sea grande. Sin embargo, cuando la muestra es pequeña y 2σ es desconocida, debe plantearse una hipótesis sobre la forma de la distribución subyacente con la finalidad de obtener un procedimiento de prueba. En muchos casos, una hipótesis razonable es que la distribución que modeliza el comportamiento de los datos, es normal. Pero en el caso de muestras pequeñas y varianza desconocida, se ha desarrollado una distribución denominada “t – de Student”. También se origina como el cuociente de dos distribuciones, donde una de ellas es la distribución normal. De hecho, la distribución “t – de Student“ tiene una forma muy parecida a la Normal. (Tabla al final del texto) Muchas de las poblaciones que se encuentran en la práctica, quedan bien aproximadas por la distribución normal, razón por la cual esta hipótesis conduce a un procedimiento de prueba de gran aplicabilidad. De hecho, un alejamiento moderado de la normalidad estadística tiene poco efecto sobre la validez de la prueba. Cuando la hipótesis no es razonable, entonces puede especificarse otra distribución (Exponencial , Weibull , lognormal , etc.) y usar algún método general para la construcción de pruebas de hipótesis con la finalidad de obtener un procedimiento válido , o también pueden utilizarse pruebas no- paramétricas que son válidas para cualquier distribución estadística. 5.4.3.1.- Prueba de hipótesis e intervalo de confianza para el promedio “μ “ Supóngase que la población tiene una distribución normal con media “μ” y varianza 2σ , con ambos parámetros desconocidos. Se desea probar la hipótesis de que μ es igual a una constante μ0. Necesitamos la información muestral del promedio aritmético X y la varianza muestral S2.

H0 : μ = μ0 Estadístico de prueba Intervalo de confianza

H1 : μ < μ0

H0 : μ > μ0

H0 : μ ≠ μ0 TObs =

nS

uX2

0

ˆ)( −

υα ,2/1−±TX n

S 2ˆ

Page 84: Curso Estadística Industrial

- 84 -

T1 - α/2 ,ν , es un valor obtenido de una tabla que contiene la distribución t - student y el valor ν = n - 1. Este símbolo nos indica los grados de libertad de la distribución, los cuales están indicados en la fila de la tabla. Es igual al número de datos muestrales menos 1. Para rechazar la hipótesis H0, a favor de H1 , se debe cumplir que el valor del estadístico de prueba caiga en la región de rechazo indicada por la hipótesis alternativa H1

Además, recordemos que 1

)(ˆ

2

11

2

−=∑=

=

n

XXS

ni

i ; n

XXS

ni

ii∑

=

=

−= 1

2

2)(

En términos prácticos, cuando el cuociente

nS

uX2

0

ˆ)( −

está fuera del intervalo [-2; +2], entonces

debemos concluir teniendo como lo respaldo lo planteado en la hipótesis alternativa H1.

5.4.3.2.- Prueba de hipótesis e intervalo de confianza para la diferencia entre los promedio de dos poblaciones, basada en dos muestras independientes Ahora se considerará una prueba de hipótesis sobre la diferencia de los promedio µ1 - µ2 = δ, de dos distribuciones normales donde las varianza 2

1σ y 22σ son desconocidas pero no significativamente

diferentes (iguales), estimadas a través de sus respectivas varianzas muestrales 21S y 2

2S . Las muestras obtenidas de cada población son independientes entre si. Tal como se indicó en la prueba homónima en puntos anteriores, se requiere la hipótesis de normalidad para desarrollar el procedimiento de prueba, pero los alejamientos o distanciamientos moderados de la normalidad estadística no tendrán efectos adversos sobre el procedimiento (Concepto de prueba robusta). H0 : µ1 - µ2 = δ

Estadístico de Prueba

H1 : µ1 - µ2 < δ

H1: µ1 - µ2 > δ

H1: µ1 - µ2 ≠ δ

Tobs =

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−+−+−

−−

2121

222

211

21

112

ˆ)1(ˆ)1(

)(

nnnnSnSn

XX δ

El valor del Estadístico de prueba se compara con valores obtenidos de una Tabla Estadística de la distribución t-Student , adjunta al final del texto, según se la hipótesis alternativa H1 que se esté utilizando. Los grados de libertad, son iguales al tamaño de la muestra menos 1.

Page 85: Curso Estadística Industrial

- 85 -

Sin embargo, en términos prácticos cuando Tobs =

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−+−+−

−−

2121

222

211

21

112

ˆ)1(ˆ)1(

)(

nnnnSnSn

XX δ está fuera del

Intervalo [-2; +2], entonces debemos concluir teniendo como lo respaldo lo planteado en la hipótesis alternativa H1, para la diferencia entre los valores promedios de las poblaciones. El intervalo de confianza de nivel (1-α ) , para la diferencia entre los promedios poblacionales µ1 - µ2 , está dado por

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−+−+−

±− −2121

222

211

);2/1(2111

2

ˆ)1(ˆ)1()(

nnnnSnSn

TXX υα

Los grados de libertad ν para la distribución son ν = 221 −+ nn

Cuando se comparan dos muestras, DISPONIENDOSE DE LOS DATOS ORIGINALES, el software nos da en el mismo procedimiento dos métodos de comparación: Uno paramétrico, y otro no paramétrico.

• El test de comparación de medias o de promedios, es un test paramétrico, pues supone normalidad estadística en los datos y aplica la distribución “t de Student”.

• El test de comparación no-paramétrico utilizado en este caso, no tiene o no hace ningún

supuesto acerca de la distribución de los datos. Por eso se dice que es de distribución libre o libre de distribución. Utiliza el test denominado de Mann-Whitney, “W”, para comparar las medianas de las dos muestras. Este test se realiza combinando las dos muestras, ordenando los valores de menor a mayor, y comparando la media de los rangos de las dos muestras en los datos combinados.

H0: Se supone que la mediana de ambas muestras son iguales H1: Tiene las tres posibilidades de hipótesis alternativas, para comparar las medianas de ambas

muestras Ejemplos: 1.- Se tomaron dos muestras de presión sistólica ( en mm Hg ) a sujetos sanos (X) y en sujetos enfermos (Y), obteniéndose los siguientes datos: Sanos (X) : 146 138 135 140 152 160 138 137 135 139 142 Enfermos (Y) : 164 176 165 172 169 171 152 142 148 ¿Podría ud. Afirmar que la presión sistólica media de los sujetos enfermos es mayor que la de los sujetos sanos?. Realice todos los pasos de la prueba de hipótesis y use α = 0.05

Page 86: Curso Estadística Industrial

- 86 -

2.- Se investiga la temperatura de flexión bajo carga para dos tipos diferentes de tubería de plástico. Para ello se toman dos muestras aleatorias. Se registran las temperaturas de flexión observadas. Los resultados son los siguientes: Tipo 1 Tipo 2 206 193 192 188 207 210 205 185 177 176 198 197 185 188 206 200 189 194 187 189 178 194 213 205 200 201 197 203 180 192 192 198 190 180 a).- ¿Existe alguna diferencia estadísticamente significativa entre las temperaturas promedios de flexión bajo carga para los dos tipos de tubería?. Realice todos los pasos de la prueba de hipótesis y use Alfa = 0.05 b).- Determine un intervalo de confianza del 90 % para la diferencia entre los promedios de temperatura de flexión. c).- Determine un intervalo de confianza del 95 % para la temperatura de flexión promedio de la tubería 1. 9.5.- Prueba de hipótesis e intervalo de confianza para la diferencia entre los promedio de dos poblaciones, basada en dos muestras dependientes o pareadas. En el que caso las muestras obtenidas de cada población son dependientes entre si, como ejemplo , cuando la misma muestra es sometida a análisis por laboratorios diferentes que utilizan la misma metodología ; la misma unidad muestreada es sometida a una medición pre y post ; puede ser también cuando las observaciones sobre las dos poblaciones de interés se recopilan por pares , tomadas bajo condiciones homogéneas, pero estás pueden cambiar de un par a otro . Esta prueba recibe el nombre de prueba " t pareada”. Se calcula la diferencia entre cada par de observaciones di = X i - Yi desde i = 1 , 2.........n. Con los valores de di, se obtiene su promedio aritmético para remplazarlos en el estadístico de prueba

Page 87: Curso Estadística Industrial

- 87 -

El valor del Estadístico de prueba se compara con valores obtenidos de una Tabla Estadística de la distribución t-Student , adjunta al final del texto, según se la hipótesis alternativa H1 que se esté utilizando. Los grados de libertad, son iguales al tamaño de la muestra menos 1. El intervalo de confianza de nivel (1- α ) , para la diferencia entre los promedios poblacionales µ1 - µ2 está dado por:

Ejemplo: Quince hombres adultos trabajadores de una Empresa Minera de la II Región, cuyas edades fluctúan entre los 35 y 50 años, participaron en un estudio para evaluar el efecto de la dieta y el ejercicio sobre los niveles de colesterol total en la sangre. El colesterol total fue medido al inicio del estudio en cada trabajador, y tres meses después de participar en el estudio y de haber cambiado la alimentación a una dieta baja en grasas, se obtuvieron los siguientes resultados:

a).- ¿Estos datos apoyan la afirmación de que la dieta baja en grasas y el ejercicio aeróbico son de gran valor en la disminución de los niveles de colesterol total en la sangre ? b).- Construya un intervalo de confianza del 95 % , para establecer la reducción promedio conseguida en el estudio , por los trabajadores 9.6.- Aplicaciones de la Distribución Chi-Cuadrado. La distribución de probabilidad Chi-cuadrado, o distribución 2χ , fue descrita por primera vez por Karl Pearson alrededor del año 1900. Es una variable aleatoria y que a la vez se utiliza como estadígrafo de contraste o de prueba, al igual que las distribuciones Normal, t de Stdudent. Tiene amplias aplicaciones y variadas utilizaciones, las que entre las más frecuentes se cuentan:

o Prueba de hipótesis e intervalos de confianza para la varianza de la población o Prueba de Independencia en tablas de contingencia o de asociación o Prueba de la Bondad de Ajuste

Page 88: Curso Estadística Industrial

- 88 -

9.6.1.- Prueba de hipótesis e intervalos de confianza para la varianza de una sola población. En algunas oportunidades se necesitan pruebas sobre la varianza o la desviación estándar de una población (dispersión) o distribución. Supóngase que se desea probar la hipótesis de la varianza de una población normal 2σ es igual a un valor específico, por ejemplo 2

0σ . De una muestra aleatoria de tamaño "n" extraída de la población,

se calcula el valor 2S

El valor del Estadístico de prueba se compara con valores obtenidos de una Tabla Estadística de la distribución Chi-cuadrado , adjunta al final del texto, según se la hipótesis alternativa H1 que se esté utilizando.

Los grados de libertad, al igual que en la distribución t –Student, son iguales al tamaño de la

muestra menos 1. Un intervalo de confianza de nivel (1 - α ) para la varianza de la población está dado por la

expresión

22/

22

22/1

2 ˆ)1(ˆ)1(

αα χσ

χSnSn −

≤≤−

Ejemplo: La desviación estándar de cierto proceso de producción es de 4 pulgadas. Se sospecha que la varianza se ha hecho demasiado grande(a aumentado). Se toma una muestra de 9 partes producidas en dicho proceso y sus medidas son:

50 , 57 , 52 , 54 , 58 , 59 , 58 , 56 , 55

La prueba de hipótesis, de forma simbólica, tiene la siguiente estructura: H0 : 2σ = 4 v / s H1 : 2σ > 4 a un nivel de significancia α = 0,05

Page 89: Curso Estadística Industrial

- 89 -

9.6.2.- Prueba de Independencia en tablas de contingencia o de asociación En muchas ocasiones, los "n" elementos de una muestra tomada de una población pueden clasificarse de forma conjunta de acuerdo con dos criterios o variables diferentes. Sea estas variables " R " y " C ". Es decir, podemos observar en cada elemento dos variables, que generalmente tiene como respuesta una característica cualitativa o atributo.

La tabla estadística que se genera se denomina tabla de contingencia o de asociación, que tiene " i " filas y " j " columnas Resulta de interés saber si existe algún grado de dependencia o de asociación entre los niveles de clasificación de las variables.

Por ejemplo, se desea averiguar si hay alguna asociación estadísticamente significativa entre "Nivel de Formación Académica "y el "Rendimiento Laboral". Si existe alguna asociación estadísticamente significativa entre el " Ausentismo Laboral " y la " Edad " , etc. “ La hipótesis nula a probar es la de que las Variables " R " y " C " son independientes. Esto es de que no hay asociación o relación entre las dos variables. La hipótesis alternativa es la negación de la hipótesis nula. Bajo el contexto de la hipótesis H 0 , es decir de independencia entre las variables , es de esperar que la Probabilidad Conjunta entre las variables se igual al producto de las probabilidades Marginales de cada una de ellas, es decir

P ( Ri , Cj ) = P ( Ri ) x P ( Cj) Los valores de las frecuencias conjuntas en cada una de las casillas, se comparan con los valores esperados para cada casilla. Los valores esperados para cada casilla se calculan multiplicando los totales en cada fila por los totales en cada columna y luego este producto se divide por el total " n " de la tabla Por ejemplo el valor esperado conjunto en la columna 2 , fila 3 ( 23f ) se obtiene multiplicando el total de fila 2 por el total en la columna 3 . Luego dividir por el total de datos

Es decir , nfff 32

23ˆ •• ×=

Se probará la hipótesis H 0 comparando cada frecuencia conjunta observada con su

respectiva frecuencia esperada. El estadístico de prueba es :

∑∑= =

−−

−=

J

j

K

k ij

ijkj f

ffij

1 1

22

)1)(1( ˆ)ˆ(

(χ (Estadístico de Prueba)

Page 90: Curso Estadística Industrial

- 90 -

Aquí el contraste es unilateral y el valor del estadístico de prueba se compara con el valor obtenido de una tabla de Distribución Chi-cuadrado con grados de libertad igual al producto (número de filas - 1)x( número de columnas - 1) , para un nivel de confianza específico Desarrollo de Ejercicios de Aplicación.

Supóngase, que se desea averiguar si hay alguna asociación significativa entre el nivel de formación académica y el rendimiento laboral

Rendimiento Enseñanza Humanista-Científica

Enseñanza Técnica Profesional

Técnica Universitaria

Excelente 10 40 10 Bueno 30 30 20

Regular 10 30 20 En primer lugar se debe construir la tabla con las frecuencias esperadas

Rendimiento Enseñanza Humanista-Científica

Enseñanza Técnica Profesional

Técnica Universitaria TOTAL

Excelente 15 =(50 X60)/200 30=(100 X60)/200 15=(50 X60)/200 60 Bueno 20=(50 X80)/200 40=(100 X80)/200 20=(50 X80)/200 80

Regular 15=(50 X60)/200 30=(100 X60)/200 15=(50 X60)/200 60 TOTAL 50 100 50 200

El Estadístico de Prueba es

+−

+−

+−

=15

)1510(30

)3040(15

)1510( 2222Obsχ ..........+

15)1520( 2− = 17,5

En la tabla de distribución 2χ al final del texto, encontramos que para un nivel de confianza

del 95 % y con grados de libertad υ υ = (número de filas - 1) x( número de columnas - 1) = υ 2 x 2 = 4 el valor es de 9,48773.

Por lo tanto se debe rechazar la hipótesis nula de que no existe relación significativa entre la formación académica de los empleados y su rendimiento laboral El Coeficiente de Contingencia es una medida del grado de interrelación, asociación o dependencia de las clasificaciones en una tabla de contingencia que se calcula de la siguiente forma

NCC

Obs

Obs

+= 2

2

.χχ

donde N es el Total de datos

Cuanto mayor es el valor del C.C , mayor es el grado de asociación entre las variables

En este caso el C.C = 2005.175.17

+ = 0,0897. Este coeficiente varía entre cero y uno.

Page 91: Curso Estadística Industrial

- 91 -

Para tablas de contingencia con "i" filas y "j" columnas, el mayor valor que puede tomar dicho

coeficiente es k

k )1( − donde k = mínimo{ i, j}.

La Correlación de Atributos es una medida del grado de dependencia, asociación o interrelación entre los niveles de medición (atributos o clasificaciones) de las variables que definen la tabla. Un coeficiente de esta naturaleza es el Coeficiente V de Cramer`s

V = )1(

2

−× kNObsχ

donde k = mínimo { i , j}.

En este ejemplo el V = )13(200

5.17−×

= 0,2092