04 analyze w2 correlation_regression sp. six sigma analyze

INSTITUTO PARA LA CALIDAD © 2008. Prohibida su reproducción total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia

Universidad Católica del Perú.

Six Sigma Entrenamiento Green Belt

Correlación/Regresión

Medir Controlar Mejorar Analizar Definir Reconocer



Sobre este módulo . . .

Six Sigma, Una búsqueda para la perfección del proceso

Ataca la variación y logra objetivos

El análisis de correlación es usado para cuantificar

el grado de asociación entre variables

El análisis de regresión es usado para cuantificar

la relación funcional entre variables

\DataFile\Correl.mtw

\DataFile\RegressAnova.mtw

\DataFile\Correg Your Turn.mtw



Que aprenderemos . . . • Correlación

– Como medir una relación lineal entre dos variables

– Como interpretar el coeficiente de correlación r de Pearson

• Regresión

– Y = f(X): como encontrar la función que relacione una variable dependiente , Y, con una variable independiente, X (regresión lineal simple)

– Como interpretar el coeficiente de determinación, R-Sq

– Como interpretar la tabla ANOVA para regresión lineal simple

– Como analizar residuales



ADMINISTRACIÓN

Una compañía de software desea conocer la relación entre la

llamadas en cola de espera y el tiempo de servicio.

FABRICACIÓN

Un encargado de calidad quiere predecir la resistencia de un

moldeado plástico realizando un ensayo destructivo de un

“cupón”

DISEÑO

Un ingeniero químico, diseñando un nuevo proceso, desea

investigar la relación entre las variables clave de entrada y la

pérdida de amonio en pilas

Ejemplos del Mundo Real



Términos Correlación

Usada cuando ambas Y y X son continuas

Mide la fuerza de la relación lineal entre Y y X

Métrica: r, coeficiente correlación Pearson (r varia entre -1 y +1)

– Relación positiva perfecta, r = 1

– No existe relación, r = 0

– Relación negativa perfecta, r = -1

Regresión

Regresión linear simple usada cuando ambas Y y X son continuas

Cuantifica la relación entre Y y X (Y = b0 + b1X)

Métrica: Coeficiente de Determinación, R-Sq (varia desde 0.0 a 1.0 o 0% a 100%)

– Si ninguna variación de Y es explicada por X, R-Sq = 0.0 %

– Si toda variación en Y es explicada por X, R-Sq = 100 %



Coeficientes de correlación: Ilustración

1031021011009998

-98

-99

-100

-101

-102

-103

X

-Y

SCATTERPLOT OF Y VERSUS X

220210200

210

200

190

180

X

Y


r = 0.0

r = -1.0

103 102 101 100 99 98

103

102

101

100

99

98

X

Y


r = +1.0



Correlación: Ejemplo Minitab

• El voltaje, correspondiente a una misma fuente de suministro, es medido por la Estación 1 y Estación 2

• Determinar la correlación existente, en la medición del voltaje, entre las dos estaciones

Desarrollo:

• Abrir Datafile\CORREL.mtw (los datos se muestran en la Data Window)

• Ir a Stat > Basic Statistics > Correlation…

Station 1 Station 2

8.6 8.7

8.8 9.0

9.0 9.1

9.1 9.3

9.0 9.1

9.1 9.2

9.1 9.2

9.2 9.4

9.1 9.2

9.1 9.2

9.0 9.2

8.8 9.0

9.0 9.2

9.1 9.2

9.4 9.6

9.3 9.5

8.8 9.0

9.2 9.4

9.0 9.08.8 8.9



Correlación : Ejemplo Minitab

(Continuación)

1. Seleccione C1 Station 1

and C2 Station 2

2. Presione Select

3. Observe ‘Station 1’ y

‘Station 2’ como

Variables:

4. Seleccione Display p-

values

5. Seleccione OK

1

2

5

4

3



Station 2

Sta

tio

n 1

9.69.49.29.08.88.6

9.4

9.3

9.2

9.1

9.0

8.9

8.8

8.7

8.6

8.5

Scatterplot of Station 1 vs Station 2

Correlación : Ejemplo Minitab (Continuación)

Correlaciones: Estación 1, Estación 2

Correlación de Pearson de Estación 1 y Estación 2 = 0.959

P-Value = 0.000

Desde la Ventana de Sesión de

Minitab

Hipótesis Nula (H0):

NO existe correlación

entre Estación 1 y

Estación 2

(H0 es falso porque p

es menor que 0.05)

Graph > Scatterplot…



Usada para ajustar líneas y curvas a los datos cuando los

parámetros (b’s) son lineales

Las líneas ajustadas

– Cuantifica la relación entre la variable predictora (X) (ingreso)

y variable respuesta (Y) (salida)

– Ayuda a identificar las pocas X´s vitales (“filtrado”)

– Permite predicciones de la respuesta Y a partir del

conocimiento de la predictora X

– Identifica el impacto de controlar una variable de proceso de

entrada (X) en una variable de proceso de salida (Y)

Produce una ecuación de la forma:

Análisis de regresión lineal simple

Y población, la a ientecorrespond valor del

)ajustado'valor ("estimadoun es Y donde

Xb+b=Y 10



Regresión: Ejemplo Minitab • El voltaje en la Estación 1 se correlaciona con

el voltaje en la Estación 2.

• A un Green Belt le dan la tarea de predecir el voltaje en la Estación 2 a partir del voltaje en la Estación 1

Desarrollo: • Abrir Datafile\CORREL.mtw (los datos se

muestran en la Data Window)

• Ir a Stat > Regression > Fitted Line Plot…

Station 1 Station 2

8.6 8.7

8.8 9.0

9.0 9.1

9.1 9.3

9.0 9.1

9.1 9.2

9.1 9.2

9.2 9.4

9.1 9.2

9.1 9.2

9.0 9.2

8.8 9.0

9.0 9.2

9.1 9.2

9.4 9.6

9.3 9.5

8.8 9.0

9.2 9.4

9.0 9.08.8 8.9



Regresión: Ejemplo Minitab (Continuación)

1. Seleccione C1 Station 1

and C2 Station 2

2. Presione Select

3. Observe ‘Station 1’ como

Response (Y): y ‘Station 2’

como Predictor (X):

1

2

3

4

4. Seleccione Linear como

Type of Regression Model

5. Seleccione OK

5



Station 2

Sta

tio

n 1

9.69.49.29.08.88.6

9.5

9.4

9.3

9.2

9.1

9.0

8.9

8.8

8.7

8.6

S 0.0557288

R-Sq 92.0%

R-Sq(adj) 91.5%

Fitted Line PlotStation 1 = 1.020 + 0.8729 Station 2

Regresión: Ejemplo Minitab (Continuación)

Ecuación de la predicción

Coeficiente de Determinación: use R-Sq para la regresión lineal simple (una X)

Línea ajustada: obedece la ecuación de la predicción



Regresión lineal de la Estación 1 en Estación 2 Como se relaciona la Estación 1 dependiente a la Estación 2

independiente o cual es la regresión de la Estación 1 en Estación 2?

Desde la Ventana de Sesión, la ecuación de la regresión es:

Estación 1 = 1.020 + 0.8729 Estación 2

− La intersección, b0, es donde la línea ajustada (Línea de regresión) cruza el eje Y , donde X = 0

− La pendiente, b1, es “ascenso sobre incremento” ó DY/DX

Los coeficientes b0 y b1 son estimadores de los parámetros de la población b0 y b1 ; son coeficientes lineales.

Intersección, b0 Pendiente, b1



Origen de la ecuación de la regresión

4 0 5 0 6 0 7 0 8 0 9 0 1 0 0

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0

Ítems Solicitados (X)

Tie

mp

o p

ara

Fa

ctu

rar

(Y

)

Diagrama de Dispersión

???

¿Cual es la mejor línea de ajuste entre el Tiempo para facturar y los ítems solicitados?

La mejor línea de ajuste

pasa por las medias de

Y y X (mostrada por la

cruz)



4 0 5 0 6 0 7 0 8 0 9 0 1 0 0

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0

Líneas de ajuste y residuales El “método de

cuadrados mínimos” minimiza la suma de

los cuadrados de los

residuales

Las ecuaciones

resultantes para la

intersección y

pendiente se

denominan

ecuaciones normales

Método de cuadrados mínimos

Ítems Solicitados (X)

Tie

mp

o p

ara

fa

ctu

rar

(Y

)

Residual, r = Valor Observado – Valor predicho

r



4 0 5 0 6 0 7 0 8 0 9 0 1 0 0

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0

Líneas de ajuste y Residuales

Método de cuadrados mínimos (Continuación)

Ítems solicitados (X)

Tie

mp

o d

e fa

ctu

rar

(Y

)

Un residual puede ser

positivo, negativo o cero

Positivo: punto por

encima de la línea

de ajuste

Cero: punto en la

línea de ajuste

Negativo: punto

bajo la línea de

ajuste

Residual Positivo

Residual Cero

Residual Negativo



Significancia Estadística

• Una tabla de análisis de varianza (ANOVA) nos informa sobre la significancia estadística del análisis de regresión

• La hipótesis nula, H0 indica: la regresión es el resultado de variación por causas comunes.

Si H0 es verdadera, entonces no hay regresión estadística significativa y la mejor predicción de Y es el valor medio de Y

• Como antes, el valor p es usado para evaluar la hipótesis nula: si p es menor que 0.05, la hipótesis nula es falsa, y la regresión es estadísticamente significativa

Desarrollo:

• Use Datafile\REGRESSANOVA.mtw • Ir a Stat > Regression… >Regression



ANOVA para regresión lineal simple

1. Seleccione Options

2. Seleccione Pure Error

en Lack of Fit Tests

3. Seleccione OK

2

3

1



Observe la ANOVA (Ventana de Sesión Minitab)

Analysis of Variance

Source DF SS MS F P

Regression 1 32.123 32.123 722.31 0.000

Residual Error 12 0.534 0.044

Lack of Fit 3 0.212 0.071 1.98 0.188

Pure Error 9 0.322 0.036

Total 13 32.657

• La suma de los cuadrados (SS) para la regresión implica cada valor predicho de Y menos la media de Y

• La SS para Error Residual implica cada valor observado de Y menos el valor predicho de Y, esto es, el residual

– SS para error residual puede ser luego descompuesto en SS carencia de ajuste y SS error puro

– SS error puro es la variación interna del subgrupo y SS carencia de ajuste es el Residual menos el SS error puro

ANOVA para regresión lineal simple

Ninguna carencia del ajuste: p >= 0.05

Regresión es significativa: p < 0.05



Regresión lineal simple

La regresión lineal simple es una técnica

analítica que permite deducir

la línea recta a través de un conjunto de

datos que minimizan la suma de distancias

al cuadrado entre cada punto de datos y la

línea

Los valores Y de esta línea se conocen

como (se pronuncia Ysombrero)

Y

, la diferencia entre el valor

real y el valor de línea ajustada,

se denomina “residuo” o “error”

YY ˆ-i

(X1,Y1)

(X2,Y2)

(X3,Y3)

(X4,Y4)

X

Y

YYi

Y

residuo



Regresión lineal simple

La parte analítica del desarrollo de un modelo de regresión consta de tres elementos:

Determinación del modelo de regresión = b0 + b1x

Análisis de varianza del modelo (ANOVA)

Evaluación de “lo bueno” que es el modelo

Trabajaremos en cada uno de ellos en las siguientes diapositivas

Y



Determinación del modelo de regresión

Y

(X1,Y1)

(X2,Y2)

(X4,Y4)

(X3,Y3)

X

Y

X b Y b 1 0 =

xx

xy

1SS

SSb =

Donde:

Minitab calcula la ecuación del

modelo de regresión como:

XbbY 10 =



Análisis de la varianza del modelo

El análisis de la varianza permite comparar la variación explicada por el modelo de regresión con la variación no explicada

El análisis de la varianza es un proceso de 5 pasos:

Paso 1: Determinar las sumas de cuadrados (SS)

Paso 2: Determinar los grados de libertad (DF)

Paso 3: Determinar los cuadrados medios (MS)

Paso 4: Calcular la estadística f (f)

Paso 5: Evaluar el valor p (p) Ejemplo de tabla de análisis de varianza:

Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9



Paso 1: Total de las sumas de cuadrados

La distancia entre cada punto

de datos (Yi) e Ybarra se determina, se

eleva al cuadrado y se suma.

Este valor corresponde al total

de las sumas de cuadrados (SST)

y representa toda la variación

en los datos de respuesta.

Matemáticamente, esto es:

=

=

n

1i

2i )YY(SST

YY4

YY1

YY3

YY2

Y

(X1,Y1)

(X2,Y2)

(X4,Y4)

(X3,Y3) Y

X

Y

Ejemplo de tabla de análisis de varianza:

Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9



Paso 1: Regresión de las sumas de cuadrados

A cada valor X, la distancia entre Ysombrero e Ybarra se determina, se eleva al cuadrado y se suma.

Este valor corresponde a la Suma de cuadrados (SSR) de la Regresión y representa la variación en los datos explicados

por el modelo de regresión.


Y

Y

(X1,Y1)

(X2,Y2)

(X4,Y4)

(X3,Y3)

X

Y

YY4

YY2

YY3

YY1


Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9

=

=

n

1i

2)YY(SSR



Paso 1: Error de las sumas de cuadrados

La distancia entre cada punto de datos

(Yi) e Ysombrero se determina,

se eleva al cuadrado y se suma.

Este valor corresponde a la suma de

cuadrados del error (SSE)

y representa la variación en los datos no

explicados por el modelo de regresión.


(X1,Y1)

(X2,Y2)

(X4,Y4)

(X3,Y3)

YY 44 YY3

Y

YYY 33

YY 22

YY 11

X


Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9

n

=

= 1 i

2 i ) Yi ˆ Y ( SSE



Paso 2: Grados de libertad

Los grados de libertad se determinan como:

• dfTot = número de observaciones - 1

• dfReg = número de términos estimados a través del modelo - 1 (por ejemplo, bo, b1, etc.)

• dfError = dfTot- dfReg


Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9



Paso 3: Cuadrados Medios

Los Cuadradados Medios se determinan como:

• Cuadrado Medio de la Regresión

• Cuadrado Medio del error

Regdf

SSRMSR =

Errordf

SSEMSE =


Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9



Paso 4: Calcular la estadística f

Calcular la estadística f como la relación de MSR con respecto a MSE

MSE

MSRf =


Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9



Paso 5: Evaluar el valor p

• Determine el valor p basado en la estadística f, dfReg y dfError (Minitab lo hará por nosotros), para determinar si el modelo es estadísticamente significativo

• La hipótesis nula (h0) consiste en que b1 = 0


Fuente DF SS MS f p

Regresión 1 14.458,9 14.458,9 293,08 0,000

Error 21 1.036,0 49,3

Total 22 15.494,9



Análisis de residuales • Los residuales son usados para comprobar si la ecuación

de predicción (modelo) es adecuada • En los diagramas de residuales, tres formas de diagrama

indican un modelo inadecuado • Las formas de los diagramas serán dramáticas – no

sutiles!

• Desarrollo • Abrir Datafile\Residuals • Ir a Stat > Regression > Fitted Line Plot…

1. Abanico 2. Bandas que se inclinan

hacia arriba o abajo 3. Bandas curvas

Nota: Fitted Line Plot…. no tiene Lack of Fit Test.



Análisis de residuales (Continuación)

1

2

4

3

1. En el cuadro de diálogo

Fitted Line Plot ,

Seleccione Graphs…

2. Seleccione gráfico Four

in One

3. Seleccione OK

4. Seleccione OK




Minutes

Un

its

200150100500

20

15

10

5

0

S 1.78117

R-Sq 89.7%

R-Sq(adj) 89.2%

Fitted Line PlotUnits = - 2.343 + 0.08993 Minutes

R-Sq es 89.7% La regresión es significativa ¿Podemos hacerlo mejor? ¿Como se ven los residuales?




Residual

Pe

rce

nt

5.02.50.0-2.5-5.0

99

90

50

10

1

Fitted Value

Re

sid

ua

l

1612840

4

2

0

-2

Residual

Fre

qu

en

cy

43210-1-2-3

8

6

4

2

0

Observation Order

Re

sid

ua

l

24222018161412108642

4

2

0

-2

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Units



RESI1

Pe

rce

nt

543210-1-2-3-4

99

95

90

80

70

60

50

40

30

20

10

5

1

Mean

0.479

-9.69595E-15

StDev 1.742

N 24

AD 0.336

P-Value

Probability Plot of RESI1Normal


Residual

Pe

rce

nt

543210-1-2-3-4

99

95

90

80

70

60

50

40

30

20

10

5

1

Normal Probability Plot of the Residuals(response is Units)

Los residuales deben tener una distribución normal.

¿Es así?

Primero, guarde los residuales, luego

Stat > Basic Statistics > Normality Test…

p > 0.05

Se puede asumir que

los residuales son

normales




Fitted Value

Re

sid

ua

l

181614121086420

4

3

2

1

0

-1

-2

-3

Residuals Versus the Fitted Values(response is Units)El gráfico de Residuales vs.

Ajustes muestra una forma curva.

Pruebe Stat > Regression > Fitted Line Plot… y

seleccione Quadratic.

Select Graphs > Four in One Plot.




Minutes

Un

its

200150100500

20

15

10

5

0

S 1.26903

R-Sq 95.0%

R-Sq(adj) 94.5%

Fitted Line PlotUnits = 2.672 - 0.02075 Minutes

+ 0.000466 Minutes**2

Mejorando la adecuación del modelo, incrementó R-Sq de 89.7% a 95.0%

Residual

Pe

rce

nt

3.01.50.0-1.5-3.0

99

90

50

10

1

Fitted Value

Re

sid

ua

l

2015105

2

1

0

-1

-2

Residual

Fre

qu

en

cy

210-1-2

6.0

4.5

3.0

1.5

0.0

Observation OrderR

esid

ua

l24222018161412108642

2

1

0

-1

-2

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Units

¿Como se ven los residuales?



Su turno

• Abra Datefile\CORREG YOUR TURN

• Analice los conjuntos de datos: 1. Existe correlación entre las variables?

2. Cuál es la ecuación de predicción?

3. Es la regresión estadísticamente significativa?

4. Muestra el análisis de residuales algo inusual ?

Otro desarrollo:

Stat > Regression > Regression… > Options… > Lack of Fit Tests

Seleccione Pure Error cuando sus datos están replicados

Seleccione Data Sub setting cuando sus datos no están replicados



Hemos aprendido . . . • Correlación

– Como medir una relación lineal entre dos variables

– Como interpretar el coeficiente de correlación r de Pearson

• Regresión

– Y = f(X): como regresionar una variable dependiente , Y, en una variable independiente, X (regresión lineal simple)

– Como interpretar el coeficiente de determinación, R-Sq

– Como interpretar la tabla ANOVA para regresión lineal simple

– Como analizar residuales

04 analyze w2 correlation_regression sp. six sigma analyze

Documents