revista colombiana de estadística nobdigital.unal.edu.co/15505/1/10120-18583-1-pb.pdf · 1=1 1=1 k...
TRANSCRIPT
Revista Colombiana de Estadística
No.35
U N A G E N E R A L I Z A C I Ó N DE LA ESTADÍSTICA D F B e t a EN
M O D E L O S DE R E G R E S I Ó N LINEAL S I M P L E
Luis FRANCISCO RINCÓN" Y LUIS ALBERTO LÓPEZ'
''Profesor Asociado del Departamento de Matemáticas y Estadística de la Universidad Nacional de Colombia. e-mail;[email protected] 'Profesor Asociado del Departamento de Matemáticas y Estadística de la Universidad Nacional de Colombia, e-mail: llopezQciencias.ciencias.unal.edu.co Proyecto de investigación financiado por COLCIENCIAS y CINDEC.
RESUMEN En este trabajo se presenta una metodología para el cálculo de la estadística DFBeta, cuando se quiere medir la influencia que ejerce un grupo de k observaciones A: < n, en la estimación de los parámetros obtenidos via mínimos cuadrados, para un modelo de Regresión Lineal Simple.
PALABRAS CLAVES. Mínimos Cuadrados , Regresión Lineal Simple , Resi-duades, outliers, ajuste, puntos influyentes.
l . I N T R O D U C C I Ó N
En BELSLEY et al (1980) se presenta como medida de diagnóstico en Regresión,
la estadística DFBeta(i) que mide la influencia que ejerce la i-ésima observación sobre
el estimador de mínimos cuadrados del vector 0 = {0o, ...,0p) asociado a un modelo
de Regresión lineal. Cuando se remueve la i-ésima observación esta estadística se
obtiene a partir de la expresión:
DFBeta (i) = , '' a , 1 < « < " 1 - /»,,
con c, la línea t de la matriz c = (.VA') ^ A'', e, = V'¿ - Yi, y ha el i-ésimo elemento
en la diagonal de la matriz H = X (X'X)~ ^ X' la cual se conoce como " Matriz Hat",
28 Luis Francisco Rincón y Luis .Alberto López
nombre dado por TUKEY (1977).
La remoción de un conjunto de k observaciones y su influencia en la estimación de
los parámetros no ha sido estudiada cuando se usa como método de diagnóstico la es
tadíst ica D F B e t a ; en BECKMAN and COOK (1983), MARASINGHE (1985), PAUL
and FUNG (1991), se presentan algunas alternativas basadas en otros estadísticos, que
no conducen a evaluar los cambios en los parámetros, sino los cambios en los cuadra
dos medios del error. Considerando la importancia que tiene la estadística D F B e t a ;
al medir los cambios que ejerce una observación sobre los parámetros del modelo, se
presenta en este trabajo una generalización que notaremos D F B c t a ( \ , . . . . k ) ; y que
permite medir la influencia de k observaciones en la estimación de los parámetros
asociados a un Modelo de Regresión Lineal Simple.
2. C Á L C U L O D E L A E S T A D Í S T I C A D F B e t a ( l , . . . , K )
Para el modelo de Regresión Vi = a -|- 0 . \ i -I- e¿, ? = 1, 2 , . . . , n. con A'¿ vector de
valores conocidos , y e, vector de errores independientes e idénticamente distribui
dos iV (O, (T-), sin pérdida de generalidad interesa medir la influencia que ejercen las
primereis k observaciones en la estimación de los parámetros via mínimos cuadra
dos. Pa ra ello modificamos la componente y, en cada una de elleis, con constantes
arbitrarias 7,, i = I k definiendo
y. = \
t/, -I- t i si ¿ = 1. . . . , k
Di si k < i < n
Los nuevos estimadores a" y 3 ' . obtenidos por mínimos cuadrados del modelo niodi
UNA GENERALIZACIÓN DE LA ESTADÍSTICA DFBeta EN MODELOS ... 29
ficado satisfacen: k k
o* = ^^jr- - ^ * + "
k • = ' ( 1 )
0- = -^ + 0
i s l
siendo á y 0 las estimaciones obtenidais via mínimos cuadrados del modelo original.
Para las nuevas estimaciones, los nuevos residuales é' = y* — y,* safisfacen:
k
e'i - ¿i = i i ( l - ha) - ^ •>; h,j sí 1 < ¿ < n
'^ ' (2)
é'j - éj = - ^ -Tihij si k < j < n 1 = 1
siendo /i,j el elemento de la i-ésima fila y de la j-ésima columna de la matriz H. Los
desarrollos algebraicos necesarios para obtener 1 y 2 se presentan en los apéndices 1
y 2 respectivamente.
La expresión 2 permite determinar constantes de ajuste 7, que hacen e' = O para
i = I, ...,k, como solución del sistema :
ib
- ¿i = 7i (1 - fia) - ^ Jjhij con ¿ = 1, ...,k (3) i * j
Las cuales coinciden con las constantes de ajuste del modelo de DRAPER and JOHN
(1981) diseñado para detectar un grupo de k outliners.
Dado que estimar el modelo después de ajustar las respuestas Y] con las constantes
7i para 1 < ¿ < ^. equivale a estimar el modelo después de eliminar las k observaciones
30 Luis Francisco Rincón y Luis Alberto López
seleccionadas, y como la estimación de los parámetros después del ajuste es función
de la estimación inicial y de las constantes de ajuste, esto permite la construcción de
la estadística
DFBe ta ( l ib) = U ' - a ; 0 ' - / j )
con
0 ' -
> . 1 = 1
n
-/3 =
i, 2^^.( ' . 1 = 1
1 = 1 k
^ > . ( . r . - r l
_ » = 1 n
1 = 1
- r )
-
í ?
(4)
Estadística que mide el efecto en la estimación de los parámetros obtenidos por
mínimos cuadrados, cuando se eliminan o corrigen las primerais k observaciones.
3 .APLICACIÓN
Usando la estadística DFBeta (1, ...,Ár) definida en (4) explícitamente se presentan
los cálculos para medir el efecto de eliminar las dos primeras observaciones en un
modelo de Regresión Lineal Simple. La aplicación de (3) proporciona el sistema:
¿1 = T2'ii2 - 7 i (1 - / l l l )
¿2 = 7 l / » 2 1 - 7 2 ( 1 - /í22)
cuya solución
/ii2e2 4-(1 -/>22)ei (1 -/>ii)e2 +'»2iei 71 = T , — : — m — r — ; — r ? - ^ 12 = - ; ( l - / « l l ) ( l - / « 2 2 ) - M 2 ' ( l - / > l l ) ( l - / l 2 2 ) - / í l 2
UNA GENERALIZACIÓN DE LA ESTADÍSTICA DFBeta EN MODELOS... 31
permite caracterizar la estadística
DFBeta (1,2) 7i + 72 7i (-f 1 - Jc) + 72 (- 2 - x) _ 71 (xi - x)-\- 72 (2:2 - x) _ x;
\ E (-.-*)' E (-•-*)'
i = l /
Los cálculos anteriores se pueden generalizar para obtener la estadística DFBeta (i, j )
de cualquier pareja de observaciones ( O Í , O J ) i / j definiendo:
cuando
^« _ ^ _. 7 . ( T . - J ) + 7 j ( r j - r ) ¿
I i = hijéj 4- (1 - hjj)éi (1 - hi i )ej -h hjiCi
( l - h u ) { l - h , j ) - h l ' " (1 - h i i ) ( l - h j j ) - h l
y asi
DFBeta (i, j ) = 7.- + 7j iiJXj - x ) + t i JXj - i ) -. l i jx i - x ) - \ - l j ( x j - i ) x;
- \ 2
\ Y.^xi-i) Y.^Xi--xf •:=i /
Al considerar las opciones
-Signo y tamaño de las constantes de ajuste 7¿,7j.
-Posición de la observación con respecto a i .
Se puede deducir si el efecto individual de una observación anula el efecto de otra,
32 Luis Francisco Rincón y Luis Alberto López
o sí los efectos individuales se suman presentándose efecto adit ivo de la pareja de
observaciones sobre la estimación.
4 . E J E M P L O N U M É R I C O
Como ilustración numérica para los datos de Mickey, Dunn y Clark (1967) citados
en DRAPER and JOHN (1981), se presenta en la tabla I calculada en una hoja
electrónica:
-La constante de ajuste 71 y la estadística
DFBeta (1) = (á* - á ; 0 ' - p ) = (Ai - ^1, Bi - B ) , para cada obser
vación.
-Las constantes de ajuste 71 y 7,- y la estadística
DFBeta (I, i) ^ (a* - á ; 0 ' - 0 \ = (A2 - A, B2 - B ) , para las posi
bles parejas ( 0 i , O.), » > 2.
-Las constantes de ajuste 71,72 y 7t y la estadística DFBeta{ l ,2 , i ) =
l á ' — á;0* — 0] = (A3 — A, B3 — B ), para todas las posibles ternas
iO i ,02 ,Oi ) , í > 3 .
-El residual éj para cada observación.
-Los resultados del análisis de varianza del Modelo inicial.
Algunas conclusiones que se derivan de los resultados ofrecidos y que se presentan
en las dos tablas siguientes son:
-Se observa que es la octavaobservación con DFñe ía (í) = (—4.244,03478),
la de mayor influencia sobre la estimación de los parámetros , si fuera
UNA GENERALIZACIÓN DE LA ESTADÍSTICA DFBeta EN MODELOS... 33
eliminada, tablal. Esta influencia se debe a su posición con respecto a x,
ya que su residual ég = —5,54 no es de los más altos.
-En la tabla 1 se observa también que la primera observación aunque
presenta el residual más alto, éi = 30.285 no ofrece la mayor influencia en
la estimación si fuera eliminada.
-Con la hoja electrónica es muy sencillo calcular la estadística DFBeta (i, j )
de la pareja conformada por las observaciones i,y j para un i dado. Basta
subir la observación t al primer lugar de la tabla para obtener la es
tadística DFBeta de todas las parejas con la i-ésima observación como
primera componente . Realizado el procedimiento, es decir, calculada la
estadística DFBeta para todas las posibles parejas, se presenta la tabla
2, en donde la pareja conformada por las observaciones 7 y 8 del listado
original, es la de mayor influencia en la estimación de los parámetros, con
DFBeta ( i , j ) = (-12.01,1.0399).
34 Luis Francisco Rincón y Luis .Alberto López
'- S
»ñ| » n
1
^ •» i~ r- — — o o r- r- «^ « 'O >o T ^ — r , ñ «i" r ñ —' <=. " ^
s
(*í
§ ^ «rt
g; m o Cv
CN
o m r-0 0
m o o V - 1
VO OO
•«f f ^ t r \
VO
VO
o o a s o o o s o o t " "~ { ^ ^ — w_ CJ_ f*\ r n Q
I r^' f*C cs r í —* « ' T
— — — o o 9 9 9 9 9 ^ 9 9 9 9 9 9 9 9 9 9 9 9 9
00 00 _ _ • o — m < r i — — ' O v ' O , v o ' r ^ r - M M ^ f * ' *
r í " . "= Q o o •* °- ~
<*) •« í? o
r o
O
-
r-m ' i w i
-* o
»rt o S! f * í
...
VO
m m 0 0 0 0
o
M •<t VO T i • t
O
r~ " T OV T f VO
O
f> l 90
CT. O
»rt f f ^
/ r-. o
r i <Jv
«r. t-~
O
<7\
^ i r t OV
O
so' m —* —, <^ c* •^. M r^ — ^ . - . _ r>i 00 ' ^ O
00 00 t ^ »ri "/^ 00 o M Cv — o Q r o
^ . 00 r 4 ^ • ' 0 \ "«f —^ o « ' „ ' C4 (^ 00 t n
— \ 0
'O 00 0 \ so
o c *
^ O f * ^ > ^ ^ v ^ ^ T ^ r ^ ^ o o a s t ^ r 0 - * ' ^ ^ o s * r \ ' 0 0 •^^ " , ' " . ^ w-T " . *^, *^. ^ . w-T 'O ' so ' ^ ' • .— «X" ^ ' so" ^ ' —. w-r v^ »/^ trT tr\ <^ tr\ >r\ tr\
CQ <
— ^ r - ^ - c í ' - ' O — ' ' ^ ^ ^ o o ^ 0 f o ^ * 0 ' — • — '— r * O s O \ s o o o r < * r \ — o r ^ t ^ f 0 ^ 0 < s ' 0 < ? \ m f o c < f*^^- — o o o s o c \ r ^ - ^ ^ - ^ a > ' ' ^ o s o s — ' f o r o f o «X) f , 00 00^ \o^ 00^ ^ ' c s 00 o s «^^ ^ ^ ^ ^ • ^ •^^ "r i "^^ -^^ •*_ o ' o O^ ^ O^ o ' r o o —«' ^ ' —' ^ " —' —' '-'^ —' — —'" —' fo fO rt fo fO PO fo fO fo r o PO PO PO PO fO PO r o fo
íi H g
n <. o H
g a
t ^ 00 Cv vO O »ri C l TT 00 — O O Cs «o ro PO — r^
H ¡1 U
—' T
P O P O O O P O O O i O - » f O o o o o o s ^ f s r - r ^ r ^ - ^ — C s C s O f l ^ O - ; — o o — ^ o . Q* O o o o ^ - ^ - í=>' *
•<i- 1 - 00 o r- 00 o ^ o — o —
00 PO 00 s o 00 00 « r< PO <rt 00 so so - ^ 00 Tf «r^ v p »n «r. r -
o o o o o o o o o
-í. o 9 9 9 9 9 9 9 9 9 9 9 9 OC 00 PO c>
so -o «o Cv
00 PO PO (S -^ 00 M s o w ^ C v c í ' - ' O O C ' í Q O o r - ' O ' O o r - — sotp^^í^po C s ' « r c v p o c v o o f o ^ ' o r < 0 ' 5 — r í c ^ c í ^ ^ - * f o v ^ s o ^ ' r í c < o r * < * \ ^ — * r < ' 0 ^ - o s t ^ o o o o « r i
^ . . " ^ •*!, ' -T rí — í , ^' o ^ o Q —" d" o" o o' p'
, - . « ^ « f . ^ ^ ^ ( 3 . ^ ^ « f ^ ^ f ^ ^ , 0 — (SOOíOíOOO v O ' O P o o o i ^ ' t ^ h - — ' t ^ o o o f o < s r « o o o s c s c \ * r í
o P O r O C V f - í v O » O v f t * r i « ^ O O C s W v o r < v O O O v - t O O Q Q£ 12 - 2 . ro' 00 - r oo' o ^t - . r í «^ ^ . 9. " ^ r í ^í* '
• • • — > - « • - « C \ s ú ' « r > ^ ^ r o •*«
« ^ ^ r ^ t ~ - — p o ^ r - o o o o o o o o v O ' o r í o o ^ i / ^ f ^ c ^ r ^ o o —
¡ 3 P O P O ^ ' « / ^ ^ p o r í w ^ * o ' V M - v r ^ o ^ « ^ r ^ c > o s o o " P O — — — « o o ~ r ^ m ^ ^ "* > T r ^ í ^ " » >W ^T " t » ^ ww r»-i ^— ^ - •—" Í,.^ S ^ ^_J
—' —* PO —' rí — —* rí —' M rí rí ^ rí rí rí" rí cí rí rí fO PO PO PO PO PO ^ \ f^ PO PO PO r o PO PO PO PO r o PO PO
m <
a «« ES
< ^ <
r ^
^ ol 9
1 ^ * *r\l =?•
00 00 n VO 00 VO t-- r^ 00 c s o — <n m fO PO r^ rr o o o o o o
9 9 9 9 '=> 5 c í <s c s TT — r -
PO C^ "TI 00 o t ^ Cv »rv
c s c s fO - ^ v^ Cv VD so CS o ^ ' X"
«O — r^ r- ^o
. r - o "*» w^ o
— o o — O — ' Q O O o < : ¡ r , - o o 9 S - -
o o o o o -'. o
O O O O M M O v — r í r - r ^ v ^ M Í S O v ^ o o o o v o r ^ ^ ^ m o O ' 0 » ' ^ v ^ « ^ o o r t v o f ^ — r i c s — m o e ^ ^ o - - • — — O - ^ M O — — o
9 ^- 9 - 9 9 9 9 9 9 9 _ v O » r , « r , t ^ v o v - t — n v O v O T f r ^ v o . - M t ^ — Í S f ^ C í C í — v o v o o o v o ' t M O » r v m w ^ a v r ^ ' < t - r « r - v o r « v o v o o
^ O O y ^ - ^ ' M — — m C v ^ r t C v v - í t ^ - . f — V O ^ - ' t f ^ a v O v v O
•*• _ • I r 4 . - — ' t ' . - "•. f. 9 fe m r í n — — ' —
VO — vo oo VO í*^
r ; C l m r f VO L 2 — 2 00 00 00 00 ^ r^
r - f — < " TI- "
f; 2 s; 2 S 2 » ü ü Cv _ ü « "
x u 2 2 = : : r - S " - < ^ 2 8 : : o z o o z _ 2 2 00 1^ — vri o o o
Z — ^ ^ ' ^ • ^ • ' ^ v o i ^ o o c v
UNA GENERALIZACIÓN DE LA ESTADÍSTICA DFBeta EN MODELOS. 35
w •«.
<
i
s
s
o K r* «ñ ^ -V n — »A ro — O.
p«- ^ v n PO ? S s ^ 0 8 0 — 9* o o' o*
t»-* iW fO
Í S PO VO ^
!? 8 O se T OO rs ov <o »n fO — (N r* v£ —r o /-»* ÍS ^ »o — Q* 3 í —. 2 «o « \ ' ^ . «n fO ' 0 0 • — . - — - -
ro (N C> PO Q gv TT io Ov Cv r * vri
>n m >A fS
^ o o r ^ s o r ^ « / ^ v o « — v o í s r » » - — P S Q
-f ÍS <s O O CS
m «A W% 00 w-1 íS vn
VO* vO' vo"
I § I g pí vo pí r* (O* vo' vo* vtf
^ * i P» fS 00
r K -
> >
á s s — fS —
vo ea
PQ k
r* ov —
5
s*
o » r ^ a w i ^ í o v o — — v n o o o o — o \ o — r ^ r - ' T — O v ' 0 ( s r - 0 ( S O v i o w ^ 3 ' r ' r * ' ^ r « - f S f O m s o f O f * - p o r ^ r í — v n ^ r s — c » « n ( S f t í O í S v o v o — v o r ^ p ^ — ' v n p ^ O v ^ H o o í O ^ ' ^ ^ ^ ^ ' V P » ' _- _- _- _ 00 ^- ^- - - -• - _• _ - - • - _- __-
(S íS C •V 'T Ov r* p^ r-
5 3 8
S S
vo vO vo vn ^ — C* f ( • HH ^ K p^ 00 r» ' o vn "n pn 2 '- O O O
" o 9 9" 9 9-<p qT 9* o " 9' o" o «9 í, o
vn ÍS fs <s
< <
s
00
Si 9 T
s.
íO <o ÍN PN
fs ^ — r4 ^ Cd C» r-— r- FJ fO o r ^ v n í j i í O ' n ' t S — r ^ F j f o
í O 3 O v v h ^ ( * í S 0 O — — 'T ( s o v n i n p M P o o v o — ^ o * 9 T 9 - 9
P m vn n V íO "n ÍS ( s
2 S S 9 í V n o — — 9 9 9' 9' 9' S S « 3 « S
3 3 S 2 = S. vo' v¿' V íS* í-í —
i v o í S f s r ^ — r s t s r i O S í ' í i n F ^ ^ V ' O ^ ' S r r o o í o í O O O v f S O O d v — — . - — P - f O O O O g •<j- f* ^^ ^^ F- '3 . ^ , vo - - v^ ^^ Ov" C* Ov' r*' V V r«í f^ ps' —* —"
^ s I
>• p S 5 ; 2 3 ; § « S ¡ S 8 s ; S 8 £ |
í x s s s z z i - D Q f i s o v ^ í a r o v S o o n i s s s s ?
g _ r j m v « ^ v o r ~ « ! O v 2 r 2 C : 2 2 £ E 2 2 S FÍ Q
36 Luis Francisco Rincón y Luis Alberto López A P É N D I C E 1
Dadeis las observaciones modificadeis (xi, y*) i = 1,..., n con
y. = < yi + Tt para 1 < « < it
y, para k < i < n
los nuevos estimadores mínimos cuadrados á* y 0 del modelo Y
satisfacen: n
^ ( x . - ¿ ) ( y - - y - )
a -\- 0X -\- e
/?• = i ^
E(-.-á ' = y ' -{-0*x
como k n
i = l 1 = 1
se deduce que:
^ ( r . - r ) j y . + 7 . _ y - i ^ 7 . )+ ^ {x,-l)\ y . - y - ^ ' ^ l ,
0' = 1 = 1 / • = > + !
1 = 1 It k n k
E(r.-r)(!, .-y)-i ^ 7. E ( r . - í ) + E 7.(í^.-í) 1 = 1 t = l t = l 1 = 1
n
1 = 1
E(r.-í)(y.-») y^7.(g.-*) = -i=i 1- -l=i
n • n
1=1 I S l
^ 7 , ( x , - j )
= /? + i = l
Eu.-^)^
UNA GENERALIZACIÓN DE LA ESTADÍSTICA DFBeta EN MODELOS ... 37
y reemplazemdo 0* se obtiene:
= (..it.)-/ .A \
5^(^.-í)'
«Í + ^ E T ' - ^ ^ '
A P É N D I C E 2
Los nuevos residuales é* = j/,* — j/í con yj' = á* + x , , satisfacen:
!
(y.- + 7.) - (« • -I- /?•!<) sí 1 < i < ¿
yi - id* + 0*x^ si ¿ < i < n
Se deduce que para 1 < i < A;
é* = (y . - i -7 . ) -
t 2_.'^i{xi-x)
^ + ^ E 7 . - ^ i = l E(^'-*)'
»=i
2_]7i(a:.-¿)
^+^^7 ; Í \ 2
\ • = » E(^'-*)
/
38 Luis Francisco Rincón y Luis .\lberto López
en consecuencia
e'i - éi = 7. - ¿ E "''•• ~ ^ (• ' ~ ^ E ix.-í)- '
7- + E^0 ^ ^ ( j , - .r)
( j - . - í ) - "
\
I _ i _ {r.-f)-'
E' '-*''
como para cada i -^ j
' I l . ~>i ( x j - x) (x , - ¿) _ - + ñ - U
E(^'-
(Xj - x ) ( X i - x ) n
E(''-^)' I j h i j
! = 1
se obtiene finalmente
f. = 7 . (1 - h i , ) - E ' ^ J ^ ú 1 < / <Á;
UNA GENERALIZACIÓN DE LA ESTADÍSTICA DFBeta EN MODELOS ... 39
Los demás residuales é'j para cada j con k < j < n satisfacen:
k
k ^ M x . - í )
= ¿j - ¿ E')'- - ^ (*j - ^ 1 = 1
• s i k
= «; -Yl ' ^ ' ^ ' i ¡=i
R E F E R E N C I A S
Beckman, R.J. and Cook R.D. (1983).Outlíers.Thechnometric, Vol 25, pag 119.
Belsley, D. et all (1980). Regression Diagnostics. Identífyíng influencial data and sourses of colínearity. John Wiley.
Draper, N.R. and John, J.A. (1981). Influential observation and outliers in regression. Technometrics, Vol 23, pag 21
Marasinghe, G (1985). A multístage procedure for detecting several outliers in linear regression. Technometrics, Vol 27, pag 395.
Paul, S.R. and Fung, K.Y. (1991). A generalized extreme studentízed residual. Múltiple outliers detection procedure in linear regression. Technometrics, Vol 33 pag 339.
Tukey, J. (1977) Exploratory Data analysis. Addison Wesley.