modelo de regressão linear: aspectos teóricos e computacionais

Upload: rodrigo-lins-rodrigues

Post on 18-Jul-2015

141 views

Category:

Documents


0 download

DESCRIPTION

Monografia do Bacharelado em Estatística da Universidade Estadual da ParaíbaMonografia que aborda técnicas de análise de regressão linear utilizando o software estatístico R.

TRANSCRIPT

UniversidadeEstadualdaParabaCentrodeCienciaseTecnologiaDepartamentodeMatematica,EstatsticaeComputac aoRodrigoLinsRodriguesModeloderegressaolinear: aspectosteoricosecomputacionaisCampinaGrande10deDezembrode2008RodrigoLinsRodriguesModeloderegressaolinear: aspectosteoricosecomputacionaisTrabalhoAcademicoOrientadoapresentadoaocursodeBachareladoemEstatsticadoDepartamentodeMatem atica, EstatsticaeComputac ao do Centro de Ciencias e Tecno-logiadaUniversidade Estadual daParabaem cumprimento ` as exigencias legais para ob-tenc aodottulodebacharelemEstatstica.Orientador:GustavoHenriqueEstevesCampinaGrande10deDezembrode2008RodrigoLinsRodriguesModeloderegressaolinear: aspectosteoricosecomputacionaisTrabalhoAcademicoOrientadoapresentadoaocursodeBachareladoemEstatsticadoDepartamentodeMatem atica, EstatsticaeComputac ao do Centro de Ciencias e Tecno-logiadaUniversidade Estadual daParabaem cumprimento ` as exigencias legais para ob-tenc aodottulodebacharelemEstatstica.Aprovadoem: / /BancaExaminadora:Prof.Dr. GustavoHenriqueEstevesOrientadorProf.Dr. RobsonPequenodeSousaUniversidadeEstadualdaParabaProf.DrJoaoGildeLunaUniversidadeEstadualdaParabaDedicat oriaPrimeiramenteaDeus,portermedadoavidaetodososdonsqueproporcioaramarelaizarasatividadesatehojeconcludas.A minha famlia, em especial aos meus Pais (Jairo Rodrigues da Silva e Maria do So-corro Lins Rodrigues) e minha irma Ravenna Lins Rodrigues, por sempre me incentivaremedarfor casparaevoluirnocampopessoaleprossional.AminhanamoradaSimoneLins, por seuapoioeamor incondicional emtodos osmemoentosdifceisefelizesquepassei.Atodososamigosquezduranteagraduacao.AgradecimentosAonal destetrabalho, sintoanecessidadedeagradecer ` as pessoas quediretaouindiretamentecontriburamparasuarealizac ao.Emprimeirolugaraminhafamlia,peloapoioeincentivoemtodososmomentosdaminhavida,sejamelesquaisforam.AminhanamoradaSimoneLins,peloamorecarinhodedicadosamimnesses5anosqueesteveaomeuladoeportudoqueelarepresentaparamim.AosmeusamigosF abio, Carlos, RivelinoeElisangela, peloapoio, pelosconselhos,pelasalegriasdivididaseexperienciasvividas, ecomosquaiseuaprendi eaprendoatehoje.Ao professor Gustavo Henrique pela boa vontade e ajuda, na orientacao deste trabalhoquefoidegrandeimportancia.Aosprofessoresquefazempartedaminhabanca: RobsonPequenodeSousaeJo aoGildeLuna.AcidadedeCampinaGrandepormeacolherduranteotempodeestudo.Eatodosaquelesque, diretaouindiretamente, colaboraramparaqueestetrabalhochega-seaatingiraosobjetivospropostos.ResumoAan alisederegress ao eumadastecnicasmaisutilizadasparaainferenciadedados. Osmodelosderegress aolinearsimplestempornalidadeexplicarumavari avelrespostadeinteresseemfunc aodeoutravariavel chamadavari avel explicativa. Essesmodeloss aoutilizadosemtodasas areasdoconhecimento, aexemplodaEstatsticaondeamaioriadosmetodosdean aliseseutilizadateoriaderegressao. Diantedestecontexto, oobje-tivodestetrabalhofoi apresentarquaisosprincipaisaspectoste oricosecomputacionaisrelacionados `a inferencia estatstica em modelos de regress ao linear simples. Inicialmente,foi feitoumaabordagemte oricasobreregressaolinear simples ondeforamexploradost opicosimportantestaiscomo: Metodosdeestimac ao;Testesdehipoteses;Intervalosdeconanca; An alisederesduos; An alisedevari ancia; Representa coesgracaseTecnicasdeajustedeparametros. Aposessaabordagemte orica,foiutilizadoumbancodedadosdosoftwareestatsticoR,amdedemonstrarcomputacionalmentetodasastecnicasdean alisederegress aoabordadasnateoria. Aescolhadosoftware, tevealemdomotivorelacionadocomofatodeesteserumsoftwarelivre, podendosercopiadoedistribudolivremente, ofatodeserumalinguagemclara, simplesedegrandeexibilidadepermi-tindoquesimplescomandosconstruamfunc oespoderosasdeanalisededados,deixandoassimnossacontribuic aoparaestudanteseprofessoresquedesejamconhecereaplicaraan alisederegress aoutilizandoosoftwareestatsticoR.Palavras-chave: An alisederegress ao,SoftwareR,Estatsticacomputacional.AbstractRegressionanalysisisoneofthemostusedstatisticalmethodsforstatisticalinferenceinreal problems, the simple linear regression model has the main focus to explain a responsevariableasalinearfunctionoftheanothervariable, knownasexplicative, thesemodelsare used in all scientic areas. In Statistics, most of the real applications use the regressiontheory,inthiswaythemainpurposeofthisworkwastopresentthemaintheoreticandcomputational issuesrelatedtotheinferenceinsimplelinearregressionanalysis, wherein this approach we clarify important topics like: estimation methods, hypothesis testing,condenceintervals,residualanalysis,analysisofvariance,graphicalrepresentationsandtechniquestothemodeltting. Afterthetheoreticalfoundation,weusedanRdatabaseforcomputationallyshowall theregressiontechniquespresentedinthetheory. TheRchoicewas supportedbythefact that it is aclear, simpleandexiblecomputationallanguage, together with the fact that it is free software, what turn possible to freely copyanddistributeit. ThesecharacteristicsmaketheRsoftwareapowerfultooltoconstructdata analysis functions,thus leaving our contribution to students and teachers who wanttoknowandapplyaregressionanalysisusingstatisticalsoftwareR.Keywords: Regressionanalysis,Rsoftware,ComputationalStatistics.SumarioListadeFigurasListadeabreviaturas1 Introducao p. 132 FundamentacaoTe orica p. 152.1 MarcoHistorico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 152.1.1 PrincipaisAplica coes . . . . . . . . . . . . . . . . . . . . . . . . p. 162.2 Regress aoversuscorrela cao . . . . . . . . . . . . . . . . . . . . . . . . p. 162.3 Regress aoLinearSimples. . . . . . . . . . . . . . . . . . . . . . . . . . p. 172.3.1 Aequac aolinear . . . . . . . . . . . . . . . . . . . . . . . . . . p. 182.3.2 ModeloMatem aticovsModeloEstatstico . . . . . . . . . . . . p. 182.3.3 PressupostosdoModelo . . . . . . . . . . . . . . . . . . . . . . p. 202.3.3.1 Estimac aopormnimosquadrados . . . . . . . . . . . p. 212.3.3.2 Estimac aoporm aximaverossimilhanca . . . . . . . . p. 232.3.4 Propriedadesdosestimadoresdee . . . . . . . . . . . . . . p. 252.3.5 Decomposi caodavariabilidadetotal . . . . . . . . . . . . . . . p. 272.3.6 Esperan casdassomasdeQuadrados . . . . . . . . . . . . . . . p. 282.3.6.1 CoecientedeDeterminacaoR2. . . . . . . . . . . . . p. 322.3.6.2 CoecientedeDeterminacaoAjustadoR2. . . . . . . p. 332.3.7 IntervalosdeConanca. . . . . . . . . . . . . . . . . . . . . . . p. 342.3.7.1 Intervalosdeconancapara. . . . . . . . . . . . . . p. 342.3.7.2 Intervalosdeconancapara. . . . . . . . . . . . . . p. 352.3.8 Testesparaafaltadeajuste . . . . . . . . . . . . . . . . . . . . p. 352.4 An alisedeResduos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 382.4.1 Representac aogr aca. . . . . . . . . . . . . . . . . . . . . . . . p. 382.4.2 N aolinearidadedafun caoderegressao . . . . . . . . . . . . . . p. 382.4.3 Oserrosnaotemvari anciaconstante . . . . . . . . . . . . . . . p. 392.4.4 Ostermosdoerron aos aoindependentes . . . . . . . . . . . . . p. 402.4.5 Omodeloajustabemmas, umaoupoucasobservacoess aodis-crepantesouinuentes . . . . . . . . . . . . . . . . . . . . . . . p. 402.4.6 Oserrosn aoseguemdistribuicaonormais . . . . . . . . . . . . p. 412.5 Transformac aodevariaveis. . . . . . . . . . . . . . . . . . . . . . . . . p. 422.5.1 Func aopotencia . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 422.5.2 Func aoexponencial . . . . . . . . . . . . . . . . . . . . . . . . . p. 432.5.3 Func aohiperbolica . . . . . . . . . . . . . . . . . . . . . . . . . p. 442.6 EstatsticaComputacional . . . . . . . . . . . . . . . . . . . . . . . . . p. 462.6.1 SoftwareEstatsticoR . . . . . . . . . . . . . . . . . . . . . . . p. 473 Aplicacao p. 493.1 An alisederegress aoutilizandooR . . . . . . . . . . . . . . . . . . . . p. 493.1.1 Sobreobancodedados . . . . . . . . . . . . . . . . . . . . . . . p. 493.1.2 Estimandoomodelolinear(lm) . . . . . . . . . . . . . . . . . . p. 503.1.3 Plotandoogr acodedispersao(plot). . . . . . . . . . . . . . . p. 513.1.4 Testedesignicancia(summary) . . . . . . . . . . . . . . . . . p. 513.1.5 Intervalodeconanca . . . . . . . . . . . . . . . . . . . . . . . p. 523.1.6 Resduosetestesdiagn osticos . . . . . . . . . . . . . . . . . . . p. 533.1.7 Transformacoesdevariaveis . . . . . . . . . . . . . . . . . . . . p. 544 Conclusao p. 61Referencias p. 62ListadeFiguras1 Gracosdedispers ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 182 Gracodomodelomatem atico. . . . . . . . . . . . . . . . . . . . . . . p. 193 Modelolinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 194 Gracocoecientededeterminacao . . . . . . . . . . . . . . . . . . . . p. 335 Gracodafaltadeajuste . . . . . . . . . . . . . . . . . . . . . . . . . . p. 356 Gracodosvaloresestimadosxresduos . . . . . . . . . . . . . . . . . p. 387 Ilustracaoden aolinearidadenomodeloderegressaolinearsimples. (a)e(b)modelolinearinadequado. (c)e(d)modelolinearadequado . . . p. 398 Ilustracaodevari anciadostermosdoerron aoconstantenomodelo . . p. 399 Gracodenaoindependenciadoserros . . . . . . . . . . . . . . . . . . p. 4010 Gr acocomobservacoesdiscrepantes . . . . . . . . . . . . . . . . . . . p. 4111 Gr acodafunc aopotencia. . . . . . . . . . . . . . . . . . . . . . . . . p. 4212 Gr acodafunc aoexponencial . . . . . . . . . . . . . . . . . . . . . . . p. 4313 Gr acodafunc aohiperbolica,tipoI . . . . . . . . . . . . . . . . . . . p. 4414 Gr acodafunc aohiperbolica,tipoII.. . . . . . . . . . . . . . . . . . . p. 4515 Gr acodafunc aohiperbolica . . . . . . . . . . . . . . . . . . . . . . . p. 4516 Gr acodedispers aoentreSpecieseEndemics . . . . . . . . . . . . . . p. 5117 Gr acotestesdiagn osticos . . . . . . . . . . . . . . . . . . . . . . . . . p. 5318 Gr acoEstimacaodoparametropelometododeBox-Cox . . . . . . p. 5519 Gr acoDiagramadedispersaoentreComprimentodocorpoeconcen-trac aodemerc urio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5620 Gr acodediagn ostico . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5721 Gr acoEstimacaodoparametropelometododeBox-Cox. . . . . . p. 5822 Gr acoDiagramadedispersaopelometododeBox-Cox. . . . . . . p. 5923 Gr acodediagn osticoparaomodeloajustado . . . . . . . . . . . . . p. 60ListadeabreviaturasANOVA-Analysesofvariancegl. -GrausdeliberdadeSQtot-SomadosQuadradosTotaisSQreg-SomadosQuandradosdaRegress aoSQres-SomadosQuandradosdosResduosSQep-SomadosQuadradosdoerropuroSQfa-SomadosQuadradosdafatadeajuste131 IntroducaoDados podem ser obtidos de v arias maneiras, e a maneira como os dados s ao obtidos,bemcomosuanaturezaespeccasaofatores que determinamaanalise, esses dadospodemser obtidos apartir deexperimentos planejados, observacoes defenomenos danatureza, levantamentos etc. Qualquer que seja a maneira pela a qual os dados s ao obtidoseles conteminformacoes arespeitodealgumfenomeno, queprecisamser organizadas,analisadas e interpretadas. Os dados s ao medidas de alguma propriedade ou caractersticade um fen omeno em estudo (CHATTERJEE; BERTRAM, 1991). Nesta monograa a an alisededadosabordadosseraaan alisederegress aolinearsimples, omodelolinearsimplese acorrelac aos aoduas tecnicas estreitamente relacionadas que envolvemumaformade estimacao, essas tecnicas se referem` aestimacaode umarelac aoque possaexistirentreduasoumaisvari aveisnapopulac ao. Maisespecicamente, aan alisederegressaocompreendeaan alisededadosamostraisparasaberseecomoduasoumaisvari aveisrelacionam-se umas com as outras numa populac ao. De acordo com Souza (2001) a an alisede correla cao linear d a um n umero que resume o grau de relacionamento linear entre duasvari aveis, j aaan alisederegress aotemcomoresultadoumaequac aomatematicaquedescreve o relacionamento entre essas vari aveis, a equac ao pode ser usada para estimar oupredizer, valoresfuturosdeumavariavel quandoseconhecemousesupoemconhecidosvaloresdaoutravari avel.Aan alisedecorrelac aoe util emtrabalhoexploratorio, quandoumpesquisadorouanalistaprocuradeterminarquaisvariaveissaopotencialmenteimportanteseointeresseest a basicamente no grau ou forca do relacionamento. Em educac ao e psicologia, freq uen-tementesed amaiorenfaseaograuouforcadorelacionamento, emoutrasareas, comoadministrac ao,economia,pesquisamedica,agricultura,ofocoprincipalestananaturezado relacionamento (isto e, a equac ao de predi cao) e a an alise de regress ao e o instrumentoprincipal. Osdadosparaaan alisederegress aoecorrelac aoprovemdeobservac oesdevari aveis emparelhadas, istosignicaquecadaobservac aooriginadois valores, paraaregress aosimples, umparacadavariavel (MATOS, 1998). Porexemplo,umestudoque14envolva caractersticas fsicas pode focalizar a idade e a altura de cada indivduo, as duasvari aveisdeinteresse-idadeealturadecadapessoa-saoent aoemparelhadas,paraumproblemadetresvariaveis, cadaobservacaooriginatresvalores, porexemplo, alemdaidadeealturadecadapessoa,podemosincluirtambemopesonaan alise.Estasan alisespodemclassicar-sequantoaon umerodevariaveisouquanto` aquali-dade da relac ao. Quanto ao n umero temos as simples: quando uma variavel independenteexplicabemofen omenoouasm ultiplas: quandoofenomenoexigemaisdeumavariavelindenpendenteparasuaboaexplicac ao. Quanto` aqualidadetemosaslineares: quandoosfen omenospodemserrazoavelmentebemexplicadosporequacoesdo1ograu,ouNaolineares: quando os fen omenos nao podem ser adequadamente explicados por equac oes do1ograu,exigindofuncoesdeordemsuperior.Dentrodessecontexto, oobjetivogeral destamonograafoi demonstrarastecnicasdean alisederegressaodentrodeumaabordagemcomputacional utilizandoosoftwareestatsticoR. Aindacomopartedoobjetivo, desenvolvemos aplicac oes dessas tecnicasutilizando os dados do livro Faraway (2004) am de demonstrar a aplicabilidade da analisederegressaolinearsimplesnoambitocomputacionaleteorico.152 FundamentacaoTe orica2.1 MarcoHistoricoOtermoregress aoecorrelacaonaoetaonovocomoparece,masondeecomosurgi-ramostermoscorrelac aoeregress ao?FoiFrancisGalton(1822-1911),primodeCharlesDarwin, quem usou pela primeira vez esses termos, cujo trabalho inuenciou a EstatsticaeaPsicologia. GaltonpublicouolivroGenioHereditario, em1869, ondeaplicoucon-ceitos estatsticos aproblemas dahereditariedade. Galtoncouimpressionadocomadistribuic aonormal aplicadaa areadebiologiapor Quetelet, quemostranolivroOhomemMedio,queaestaturadedezmilsujeitosseguiamumadistribuic aonormal,ousejaamaioriadossujeitostinhamsuasestaturasemtornodamediaequeumn umero,cada vez menor, vai sendo encontrado ` a medida que se afasta da media. O primeiro relatoondeGaltonusouotermocorrelacaofoiem1888.As tecnicas modernas de determinacao da validade e da conabilidade de testes, bemcomoosmetodosdaan alisefatorialsaoresultadosdiretosdadescoberta,porGalton,dacorrelac ao, produzidaquandoeleobservouqueascaractersticastendemaregredirnadirec aodamedia(SOUZA,2001).Galton cunhou o termo regressao quando observou que lhos de homens altos, n ao s ao,emmedia,taoaltosquantoospais,enquantoqueoslhosdehomensmuitobaixossao,emmedia, maisaltosdoqueospais. Eleconcebeuumaformagr acaderepresentaraspropriedades basicas do coeciente de correlac ao. Ele aplicou o seu metodo de correlac aoa varia coes de medidas fsicas, por exemplo, mostrou a correlac ao entre a altura do corpoeocomprimentodacabeca. SeualunoKarlPearsondesenvolveuaf ormulamatem atica,queusamos hojeequetemoseunomeemhomenagem. Osmbolodocoecientedecorrelac aor,vemdaprimeiraletraderegress ao,emreconhecimentosaGalton.162.1.1 PrincipaisAplicac oesEnquantoastecnicasderegressaosaolargamenteutilizadasnasatividadesemqueoplanejamentodofuturoproximoefundamental (particularmentenasadministrac aodasorganizac oes), as tecnicas decorrelacaotemusofrequentenas chamadas ciencias docomportamento, taiscomoeduca cao, psicologiaesociologia. Taistecnicaspodemseraplicadasparasedeterminareavaliararela caoexistenteentrevariaveisdiversas,como,por exemplo, a distribuic ao do consumo de cerveja pelos meses do ano, os gastos gerais doorcamentodeumafamliaemfunc aodesuarendamensaledon umerodedependentes,avariac aodaproduc aoagrcoladeumaregiaoemrazaodousodediferentestiposdefertilizantes, aimportac aoeconsumodepetr oleoemcomparac aocomaproduc aodeveculosautomotores, oaumentonasvendasdevidoaumanovacampanhapublicit ariae/ounosprecoseateon umerodenascidosemfevereirodadoon umerodecasamentosemmaio.2.2 RegressaoversuscorrelacaoEstreitamenterelacionada, poremconceitualmentediferentedaan alisederegressao,e a analise de correlacao, cujo objetivo b asico e medir a intensidade ou grau de associa caolinear entre duas vari aveis aleatorias (GUJARATI, 2000). O coeciente de correlac ao geral-mente representado pela letra eseuestimadorporr, medeaintensidadedaassociac aolinearentreasvari aveis.Porexemplo, podeserdeinteresseacharumaestimativardacorrelac ao, entreoh abitodefumareaocorr enciadec ancerdepulm ao, entreasnotasemexamesdeEstatsticaeMatem atica, entreasnotasnocol egioenafaculdade, etc.Naan alisederegress aoemprincpio, n aoexisteinteresseemestimaressaassociac ao, massim, preverovalordavari avelrespostacombasenosvaloresfixadosdavari avel(ouvari aveis)independente.Assim,naregress aopodeserdeinteresseestimaranotamediarecebidapelosalunosem uma prova de Estatstica com base na nota de uma prova de Matem atica, ou com basenon umerodehorasdeestudo. Valeapenaressaltaralgumasdiferen casfundamentaisentre regress aoe correlac ao. De acordocomDmenta(1988) naan alise de regressaoh aumaassimetrianaformacomoasvari aveisdependenteeindependentesaotratadas.Sup oe-se que a vari avel dependente e aleat oria e segue uma distribuicao de probabilidadeeavari avel(ouvariaveis)independentetemvaloresxadosemamostragemrepetida.Eimportantesalientarquevari aveisindependentespodemserintrinsecamentealeatorias,mas, paransdeanalisederegressaoadmite-sequeseusvaloress aoxadospormeiodeamostragemrepetida, convertendo-seassimemxas. Poroutrolado, naan alisedecorrelac aotrata-sequaisquer duas variaveis simetricamente, semhaver distinc aoentrevari avel dependente e independente, sendo as duas vari aveis consideradas aleat orias, comdistribuic aobivariada.172.3 RegressaoLinearSimplesAregress aolinearsimplesconstitui umatentativadeestabelecerumaequa caoma-tem atica linear (linha reta) que descreva o relacionamento entre duas vari aveis (CURRAL,1994). H a diversas maneiras em que as equa coes de regress ao s ao utilizadas, em situacoesemqueasduasvariaveismedemaproximadamenteamesmacoisa, masumadelasere-lativamentedispendiosa, oudifcil delidar, enquantoqueaoutranao. Porexemplo, aresistenciaeadurezadeummetal podemestarrelacionadas, demodoquelheconhe-cendoadurezapodemos estimar-lhearesistencia. Seotestederesistenciadestroi ometal,enquantoqueotestededurezan aoodestr oi,umapessoainteressadaemestimararesistenciaobviamentepreferir aconarnosresultadosdotestededurezaparaestimararesistencia. Analidadedeumaequac aoderegress aoseriaent aoestimarvaloresdeumavari avel,combaseemvaloresconhecidosdaoutra.Outra utilizac ao das equa coes de regressao e explicar valores de uma variavel em ter-mosdaoutra. Istoe, podemos suspeitar deumarela caodecausaeefeitoentreduasvari aveis. Porexemplo, umeconomistapodetentarexplicarasvariac oesnaprocuradeautom oveisusadosemtermosdedesemprego. Umagricultorpodesuspeitarqueaquan-tidadedefertilizanteporeleusadatenhainuenciadoasafra. Adist anciadefrenagemdeumcarroeinuenciadaporsuavelocidade. Deve-senotar, entretanto, queal ogicadeumarela caocausaldeveadvirdeteoriasexternasao ambitodaestatstica. Aanalisede regress ao apenas indica qual relacionamento matem atico pode existir, se existir algum(TOLEDO et al.,1985).Aindaumaterceiraaplicac aodaregressao: predizervaloresfuturosdeumavari avel.Porexemplo,costuma-seaplicar testesaempregadosouestudantespotenciais,paraava-liaropotencialdesucessonaescolaounoemprego.Edepresumirquehajaumrelacio-namento matem atico entre o resultado do teste e o potencial futuro. Embora tais rela coespossam assumir uma grande diversidade de formas, discutiremos apenas as equac oes line-ares. As equacoes lineares sao importantes porque servem para aproximar muitas relac oesda vida real, e porque sao relativamente f aceis de lidar e de interpretar. Outras formas daan alise de regressao, tais como regress ao m ultipla (mais de duas vari aveis) e regress ao cur-vilnica(nao-linear)envolvemextens oesdosmesmosconceitosusadosnaregressaolinearsimples.182.3.1 AequacaolinearDuasimportantescaractersticasdaequac aolinears aoocoecienteangulareocoe-cientelineardaretaemdeterminadoponto. Umaequac aolineartemaforma:yi= +xi + i, i = 1, 2, ..., n,ecoecientelineardareta, eocoecienteangulareneotamanhodaamostra. Avari avel Y eavari avel quedeveserpredita(vari avel respostaoudependente), eXeovalorpreditor(vari avelindependente,explicativaoucovari avel)isto e,preferencialmentedeve-se utilizar Xcomo a variavel mais acessvel (mais facil de ser obtida) e Ya vari avelmenosacessvel (maisdifcil deserobtida).Eimportanteteremmentequenemtodasassituac oessaobemaproximadasporumaequacaolinear(GUJARATI, 2000). Porisso,emgeral enecess ariodesenvolverumtrabalhopreliminarparadeterminarseummodelolinear e adequado. O processo mais simples consiste em fazer o diagrama de dispersao dosdados, isto e, vericar se os valores de X e de Y, (x1, y1), (x2, y2), ..., (xn, yn) apresentadosevidenciadaexistenciadeumarelac aolinearentreelas.Figura1: Gracosdedispers aoQuandoosdadosn aopodemseraproximadosporummodelolinear,asalternativass aoprocurarummodelonaolinearconveniente, outransformarosdadosparaaformalinear. Porexemplo, aconvers aodeumaoudeambasasescalasemlogaritmosdaporvezesummodelolinear. IstoprovavelmenteocorreriacomosdadosdaFigura1(a). Nasec ao2.5abordaremoscommaisdetalhesalgumasdessastransforma coes.2.3.2 ModeloMatematicovsModeloEstatsticoConsidere duas vari aveis x e y tais que y= f(x), dado um conjunto de valores xi ondei=1,2,...,n,oscorrespondentesvaloresdeyi= f(xi)saoconhecimentosexatamente.19Figura2: Gracodomodelomatem aticoExemplo: y= 1 +xsejamosvaloresxi= (1, 2, 3, 4)Figura3: ModelolinearEssetipodesituac aoconguraummodelomatem aticooudeterminstico.Emumaan alisederegress ao, geralmenteavari avel respostaeafetadapor variasvari aveis.Y= f(X1, X2, ..., Xk, Xk+1, ..., Xk+m),onde, porvariosmotivos, n aoconseguimosobservarasvariaveisXk+1, ..., Xk+m. Entao,analisamos y como func ao apenas das k primeiras variaveis, sendo que permanece um erro(ouresduo),i,devidoan aoutiliza caodasoutrasmvari aveis.Assim,omodelocaria:yi= f(x1i, x2i, ..., xki) + iondei = 1, 2, ..., nseapenasumavari avelexplicativa eobservada,temos:yi= f(x)i +i) i = 1, 2, ..., nOs erros itambem podem ser devidos a erros obtidos no processo de mensurac ao davari aveldependente,issoconguraummodeloestatstico.202.3.3 PressupostosdoModeloAoestabeleceromodeloderegress aolinearsimples,pressupomosque:1. Arelac aoentreXeYelinear2. OsvaloresdeXs aoxos,isto e,Xn ao eumavariavelaleat oria3. Amediadoserros enula,isto e,E(i) = 0, i=1,2,...,n4. Paraumdadovalor xde X, avarianciados erros iesempre 2, denominadavari anciadoerro,logotemos:V ar(i) = E(2i) [E(i)]2= E(2i) = 2Nestecaso,dizemosqueoerro ehomoced astico.5. Oerroemumaobservac aoe naocorrelacionadocomoerroemqualquer outraobserva cao,isto e,Cov(i, j) = E(i, j) E(i).E(j) = E(i, j) = 0i, j,comi = jparai, j= 1, 2, ..., n6. Oserrosseguemumadistribui caonormalNapr atica, asuposicao6naoe necessariaparase estimar os parametros e ,comoveremosaseguir,atravesdosestimadoresdemnimosquadrados,entretanto,ela efundamental para a construcao de testes de hip oteses e intervalos de conanca (ESTEVES,2008).Quandoasuposi cao4naoforrazo avel,ouseja,quandooserross ao,ouparecemser,heteroced asticos devemos usar o metodo dos mnimos quadrados ponderados, que veremosmaisadiante.Dadasassuposic oesdomodelo,especialmente1, 2e3,podemosverque:E(yi) = E( +Xi +i) = E() + E(Xi) + E(i)E(yi) = +xi.21Ouseja,asmedias(ouvaloresesperados)deyiest aosobreareta +xi.Pelassuposicoes4e6temosqueparacadavalorxadoxideX, osvaloresdeyiseguemumadistribuic aodeprobabilidadenormalcommesmavari ancia,2,isto e,yi N( +xi; 2).Umavezqueomodelofoiespecicadoeassuposic oesforamfeitas,devemosestimarosparametrosdaregressao,e.2.3.3.1 EstimacaopormnimosquadradosDeacordocomHomann(2006),oprimeiropassonaanalisederegressao eobterasestimativasaebdospar ametrosedaregress aorespectivamente. Osvaloresdessasestimativas ser aoobtidos apartir deumaamostradenpares devalores (xi, yi) (comi = 1, 2, ..., n),quecorrespondemanpontosnumgraco.Isto e, dados n pares de observac oes (xi, yi) das variaveis X e Y , i = 1, 2, ..., n queremosencontrarumaequac aodotipo: yi= a + bxi, i = 1, 2, ...nonde yi,aebs aoosestimadoresdeE(yi),e,respectivamente.Paracadapar(xi, yi)observado,podemosestabeleceraseguinterela cao:ei=yi yi= yi-(a+bxi),parai = 1, 2, ..., nondeoseis aochamadosderesduosoudesviosdomodelo.Naestimac aopormnimosquadrados, queremosencontraraebqueminimizamasomadosquadradosdosresduos. Ouseja,queremostornarmnimaaexpress ao:Z=n

i=1e2i=n

i=1[yia bxi]2=n

i=1[y2i 2ayi2byixi + 2abxi + a2+ (bxi)2]= na2+n

i=1y2i 2an

i=1yi2bn

i=1yixi + 2abn

i=1xi + b2n

i=1x2i.Paraminimizarestaexpress aoemaeb,teremosasderivadasemrelac aoaaeb:22Za= 2na 2n

i=1yi + 2bn

i=1xi,Zb= 2n

i=1yixi + 2an

i=1xi + 2bn

i=1xi,eigualandoessasequac oesazero:na +bn

i=1xi=n

i=1yi(2.1)ai=1

nxi + bn

i=1x2i=n

i=1yixi(2.2)Que e conhecido como sistema de equa coes normais. Agora basta resolver este sistemaparaaeb. Daequacao2.1temosque:a =

ni=1yib

ni=1xin= y b xa = y b x.Daequac ao2.2temos:n

i=1yi.xian

i=1xi= bn

i=1x2i,esubstituindoaexpress aodeatemos:bn

i=1x2i=n

i=1yixi(

ni=1xi)(

ni=1yi)n+b(

ni=1xi)2n=n

ni=1yixi(

ni=1xi)(

ni=1yi) + b(

ni=1xi)2n= nbn

i=1x2i b(n

i=1xi)2nn

i=1yixi(n

i=1yi)(n

i=1xi)= b(nn

i=1x2i (n

i=1xi)2) = nn

i=1yixi(n

i=1yi)(n

i=1xi)Logo,temosque23b =n

ni=1yixi(

ni=1yi)(

ni=1xi)n

ni=1x2i (

ni=1xi)2ou b =

ni=1yixi(

ni=1 yi)(

ni=1 xi)n

ni=1x2i (

ni=1 xi)2nObservequebaindapodeserescritodev ariasoutrasformas:b =

ni=1yixi(

ni=1 yi)(

ni=1 xi)n

ni=1x2i (

ni=1 xi)2n=

ni=1(xix)(yiy)

ni=1(xix)2=

ni=1(xix)yi

ni=1(xix)2=

ni=1xi(yiy)

ni=1(xix)2)onde,Sxx =n

i=1x2i (

ni=1xi)2ne Sxy=n

i=1xiyi(

ni=1xi)(

ni=1yi)nLogo,temos:b =SxySxx, a = y bx e y= a +bxi2.3.3.2 EstimacaopormaximaverossimilhancaNa subsec ao anterior mostramos como encontrar os estimadores de e pelo metodode mnimos quadrados, agora veremos, para o mesmo modelo, a construcao desses mesmosestimadoresporm aximaverossimilhanca.yi= +Xi +i, i = 1, 2, ..., nOndeassumimosqueoserrosseguemumadistribuicaoN(0, 2), i.i.d. Apartirdatemosqueyi N( + xi, 2)Ent aoafunc aodedistribui caodeyiedadapor:24f(yi) =12exp122 .(yixi)2Apartirdosdadosobservados(xi, yi), i=1, ..., ntemosqueafunc aodeverossimi-lhanca edadapor:L(, , 2; x1, ..., xn) =n

i=1(22)122 (yixi)2= (22)n2.exp122

ni=1(yixi)Agora maximizar L(, , 2; x) e o mesmo que maximizar l(, , 2; x) = log[L(, , 2; x)]= n2log(22) 122n

i=1(yi xi)2Agora, paramaximizarLoul, temosquederivaremrelac aoa, , e2igualarasequac oesazeroeresolverosistemadeequa coesresultantes.l=12n

i=1(yi xi)l=12n

i=1(yixi x2i)l2= n22+122.n

i=1(yi x2i)Igualandoasequa coesazerotemosqueencontrara,be 2queresolvemosistema:n

i=1yi= na +bn

i=1xi(2.3)n

i=1yixi= an

i=1xi +bn

i=1x2i(2.4)12 2= [1 2n

i=1(yi xi)2n] = 0 (2.5)Observandoosistemaanterior vemos queas equac oes 2.3e2.4n aodependemde 2esaoaxatamenteiguaisaosistemadeequac oesnormaisdometododeestimac aodemnimos quadrados. Ent ao do mesmo jeito que zemos naquele caso, a partir das equac oes2.3e2.4vemosque:a = y bxb =SxySxx,25Sxy=n

i=1xiyi(

ni=1xi)(

ni=1yi)ne Sxx =n

i=1x2i (

ni=1x2i)nLogo, vemosqueosestimadoresaebdeedem aximaverossimilhancas aoexa-tamenteosmesmosestimadoresdemnimosquadrados. Agora, voltandonossaatenc aoparaaequa cao(III)temos:12 2n

i=1(yia bxi)2n = 01 2n

i=1(yia bxi)2= n 2=1nn

i=1[yi(a + bxi)2Como j a sabemos como calcular a e b, o sistema que maximiza l est a resolvido. Comovimosanteriormente,temosque yi= a +bxieyiyi= yia bxi= ei,logo: 2=1nn

i=1e2i=1nn

i=1(yi y)2Comopodemos observar, estimamos e por mnimos quadrados semnemnoslembrar dequetnhamos queestimar 2. Naestimac aopor maximaverossimilhancaencontramososmesmosestimadoreseeaindaencontramosumpossvel estimadorpara 2que e dado pela media dos quadrados dos resduos entretanto, como veremos, esteestimador eviesado.2.3.4 PropriedadesdosestimadoresdeeAgora que encontramos os estimadores de e , vamos vericar algumas carac-tersticas deaebparaconstruir as suas distribuic oes deprobabilidade. Inicialmente,vamoscalcularaesperan caeavari anciadeb. Comovimos:b =SxySxx=

ni=1xiyi(

ni=1 xi)(

ni=1 yi)n

ni=1x2i (

ni=1 xi)2n=

ni=1(xix)yi

ni=1(xix)2Agora,comoyi= + xi +i,temosque:b =

ni=1(xix)( + xi +i)Sxx=

ni=1(xix)Sxx+

ni=1xi(xix)Sxx+

ni=1

i(xix)Sxx26Porem,vemosque:n

i=1(xix) =n

i=1xi nx =n

i=1xin

i=1xi= 0Sxx =n

i=1(xix)2=n

i=1(xix)(xix) =n

i=1xi(xix) xn

i=1(xix)Sxx =n

i=1xi(xix)Ent ao,b = +

ni=1

i(xix)SxxCalculandoaesperan cadeb,E(b) = +

ni=1(xix)E(i)Sxx= .Logo E(b) = e b e um estimador nao viesado de , agora vamos calcular a varianciadeb,temosque:V ar(b) = V ar() + V ar_ni=1(xix)iSxx_

ni=1(xix)2V ar(i)(Sxx)2=2Sxx(Sxx)2V ar(b) =2SxxComovimosb eumacombinac aolineardevari aveisaleat oriascomdistribuic aonor-mal,ent ao etambemnormalcommediaevari ancia2Sxx,logo,b N_,2Sxx_Agora,vamosveramesmaconstruc aoparaoestimadorade.Comovimosa = y bx,logo:a =

ni=1yinbx =

ni=1( +xi + i)nbxa =nn+

ni=1xin+

ni=1

inbx +x +

ni=1

inbx,27logoE(a) = + x +E(

ni=1

inE(bx)E(a)= +xi +

ni=1 E(i)nE(b)xE(a) = .Ent ao,a eumestimadorn aoviesadode. Agoravamoscalcularavar(a).V ar(a) = V ar() + V ar(x) + V ar_ni=1

in_+V ar(bx)V ar(a) =n2n2+x22Sxx= _1n+x2Sxx_V ar(a) = 2_1n+x2Sxx_Ecomonocasodeb,temosque:a N_, 2_1n+x2Sxx__2.3.5 DecomposicaodavariabilidadetotalDeacordocomasubsec aoanterioriremosdecomporavariabilidadetotal.SQres =n

i=1(yi yi)2=n

i=1(yia bxi)2=n

i=1(yiy +bx bxi)2=n

i=1[(yiy) b(xix)]2=n

i=1(yiy)2+b2n

i=1(xix)22bn

i=1(xix)(yiy)=n

i=1(yiy)2+b2Sxx 2bSxy=n

i=1(xix)2+SxySxxSxySxxSxx 2bSxy=n

i=1(yiy)2+bSxy 2bSxy=n

i=1(yiy)2bSxySQres = SQtot SQreg28SQtot=SQreg+SQresLogo,a soma de quadrados total e a soma de quadrados de regress ao mais a soma dequadradodosresduos.2.3.6 EsperancasdassomasdeQuadradosAgorairemos calcular as esperancas das tres somas dequadrados, comecandoporSQreg.SQreg= bSxy=S2xySxx= b2Sxxlogo,E(SQreg) =E(S2xy)Sxx(2.6)Porem,comovimosanteriormente,temosque:yi= +xi + i(2.7)y= +x +(2.8)Fazendoasequac oes(2.7)-(2.8),temos:(yiy) = (xix) + i Multiplicandopor(xix)emambososladoseaplicandoasoma:n

i=1(xix)(yiy) = n

i=1(xix)2+n

i=1(xix)in

i=1(xix)Sxy= Sxx +n

i=1(xix)iS2xy= 2S2xx + [n

i=1(xix)i]2+ 2Sxx

(xix)iEnt ao:E(S2xy) = 2S2xx + E[n

i=1(xix)i]2+E[2Sxxn

i=1(xix)i] = 2S2xx +2Sxx29Sxx(2Sxx + 2)VoltandoparaaEquac ao2.6temosque:E(SQreg) =E(S2xy)Sxx=Sxx(2Sxx + 2)Sxx= 2Sxx +2= 2+2SxxParaasomadequadradostotal,vemosdaequac aoque:SQtot =n

i=1(yiy)2=n

i=1[(xix) + i]2]=n

i=1[2(xix)2+ (i)2+ 2(xix)(i)]= 2Sxx +n

i=1(i)2+ 2

(xix)i2

(xix)Logo,tomandoaesperanca,temosque:E(SQtot) = 2Sxx + E[n

i=1(i)2]comonocasodeSxxeSyytemosque:n

i=1(i)2=n

i=12i (

ni=1

i)2nEenm:E[n

i=1(i)2]n2n2n= 2(n 1)Voltandoparaaequac aotemosque:30E(SQtot) = 2Sxx +2(n 1)= (n 1)2+2SxxAgoraparaasomadequadradosderesduosatravesdadecomposic aodasomadequadradostotal,temosque:E(SQres) = E(SQtotal) E(SQreg)= 2Sxx + 2(n 1) 2Sxx 2= 2(n 2).Portanto,E(SQresn) =1n(n 2)2,eoestimador 2para2eviesado. PoremS2=SQresn2eumestimadorn aoviesadode2,jaque:E(S2) = E(SQresn 2) =1n 2(n 2)2= 2Apartirdessesresultadosdassomasdequadrados, se=0, podemosdemonstrarque:SQtot2temdistribuic aoqui-quadradocomn 1graudeliberdade(2n1)SQres2tem distribuicao qui-quadrado comn2 graus de liberdade (2n2), independentedeque=0SQreg2temdistribuic aoqui-quadradocom1graudeliberdade(21)Entretando, essesresultadosn aoser aodemonstrados. Apartirdessasdistribui coes,denimos os quadrados medios dividindo a respectiva soma de quadrados pelos respectivosgrausdeliberdade:QMtot =SQtotn 131QMreg=SQreg1= SQregQMres =SQresn 2Agora,umavezqueomodelofoiajustadoetodososparametrosestimados,surgemalgumasperguntastaiscomo:1. Existerealmentealgumarelac aolinearentreXeY ?2. Comopodemosresponderissoestatisticamente?Pararesponderapergunta(1), observamosque, se=0, n aoexisterelac aolinearexplicandoY emfunc aodeX.Paraapergunta(2),se= 0,comovimosanteriormente,SQreg2 21eSQres2 2n2eatravesdeumresultadodateoriadeprobabilidademostramosque:F=SQreg1SQresn2=QMregQMres F1,n2comovimosanteriormente,temosque:E(QMreg) = E(SQreg) = 2Sxx +2e E(QMres) = 2ou seja, em media QMreg e igual a 2Sxx+2. Se = 0, ambos s ao em media iguaisa2,eF= 1. Se = 0vemosqueE(QMreg) > E(QMres)eF> 1.Assim, aestatsticaFeumaestatsticaparatestarH0: =0contraH1: =0.QuantomaiorovalordeF,maiorevidenciaafavordeH1.Apartirda,procedemosaan alisedevari anciadomodelolinear,dadopelatabelaaseguir:Tabela1: An alisedevari anciadomodeloderegressaolinearsimplesCausasVariacao G.L S.Q Q.M FRegress ao 1 bSxy bSxyQMregQMresResduo n 2 Syy bSxySyybSxyn2Total n 1 Syy32Entretando, aindaexisteoutramaneiradesetestarH0: =0contraH1: =0.Lembremosque, sobassuposic oesusuaisdomodeloderegressaolinearsimples, temosqueb N(;2Sxx),logo,Z1 =bSxx N(0, 1)Porem,naoconhecemosoverdadeirovalorde2eusamosoestimador.(n 2)S22 (n2), onde S2= QMreslogo:t=b SSxx tn2.Enm,paratestarH0: = 0contraH1: = 0,vemosque:t=bSxxS tn2,eentaobastaencontraropontocrticoparaumnveldesignic ancianatabeladatoucalcularop-valordoteste. Deformaequivalente,sequisermostestarH0: = 0contraH1: = 0usamosaestatstica:tb =Sxx(n0)S tn2Demaneiraequivalente, comoa N(, 2(1n+x2Sxx)), usamosomesmoraciocnioparatestarH0: = 0contraH1: = 0. Ousejaaestatstica:t=a0S_1n+x2Sxx tn2,epodemosusarestaestatsticaparatestarH0comnveldesignic ancia.2.3.6.1 CoecientedeDeterminacaoR2Apartir dadecomposic aodasomadequadrados total, denimos ocoecientededeterminac aoouexplica caodomodelo,que edadopor:33r2=SQregSQtot=bSxySxxEssa quantidade indica a proporc ao da varia cao de yi que e explicadapela regressao.Note, aindaqueSQtot 0, SQreg 0eSQres 0poiseless aosomasdequadrados.Alemdisso,peladecomposi caodasomadequadrados,temosque:SQtot = SQrest +SQregLogo, SQreg SQtot, e ent ao 0 R2 1. Tambem e possvel mostrar que R2medeoquadradodacorrelac aoentreyie yi. Logo, quantomaisproximode1estiverovalordeR2, melhoreoajustedomodeloequantomaispr oximode0(zero), pioreoajuste,umexemploseriaumaaplicac aoondeocalculodeR2tivesseumvalor0, 818,nestecaso81, 8%davariac aototaldeyeexplicadapelomodeloderegressaolinearsimples.Podemossintetizargracamente,atravesdaFigura4.Figura4: Gracocoecientededeterminacaoonde: y= yi= (y) e o modelo mais simples. T e a diferenca entre os pontos observadose a media (variacao total dos ys). Reg e o desvio da regress ao. Variac ao de yatribuda ax. Chamamosdevariac aoexplicada. Res eavariacaoresidual. Parten aoexplicadapelomodelo.2.3.6.2 CoecientedeDeterminacaoAjustadoR2Como vimos anteriormente, o valor do coeciente de determinac ao e uma medida qued aindciossobreaqualidadedoajustedomodeloobtido,poremeimportanteenfatizarqueamedidaR2dependedon umerodeobservac oesdaamostra, sendoqueeletendeaaumentaramedidaquendiminui.Especialmente, para n =2 temos R2=1, j a que dois pontos determinamuma unica reta. Para tentar contornar este problema,denimos o coeciente de determinacaocorrigidoparagrausdeliberdade,masantesobservemosaseguintetransformacao:341 R2= 1 SQregSQtot=SQtot SQregSQtot=SQresSQtotDividindoassomasdequadradospelosrespectivosgrausdeliberdade, denimosocoecientededeterminacaocorrigidopelosgrausdeliberdade:1 R2=SQresn2SQtotn1=n 1n 2(1 R2).Logo,R2= R21 R2n 2Agora,R2eumanovamedidadaqualidadedeajustedomodelo,notequeR2< R2.AlemdissoR2podeassumirvaloresnegativos.2.3.7 IntervalosdeConancaOutraformaparaseavaliar asignic anciados resultados obtidos paraaeb, ques aoosestimadoresdee, respectivamente, eatravesdautilizacaodeintervalosdeconanca(ICs).2.3.7.1 IntervalosdeconancaparaParaconstruirumI.Cparacom(1 )%deconanca, temosqueencontrarumvalort/2,talque:P_t/2 gfit = lm(Species Endemics, data=gala)> gfitCall:lm(formula = Species Endemics, data = gala)Coefficients:(Intercept) Endemics51-21.048 4.072OcoecientechamadoInterceptcorrespondeaoadaretaderegressao, aopassoqueocoecienteidenticadocomoEndemicscorrespondeaobdaretaderegressao(coeficienteangular).3.1.3 Plotandoogracodedispersao(plot)Gracos de dispersao mostram as relacoes entre os valores numericos em varias seq uenciasde dados ou plotam dois grupos de n umeros como uma seq uencia de coordenadas XY. No nossoexemplo plotamos as variaveisSpecies contraEndemics, atraves do graco podemos vericarvisualmente que existe uma relacao de linearidade entre as duas variavies, no entanto o gracoe apenas uma medida descritiva, o que nao nos permite conrmar uma armacao concreta, logoutilizamos medidas de inferencia para comprovar os resultados explicitados pelo graco.O graco e feito atrave da fucao plot (Species, Encemics) e esta representado na Figura16, logo apos podemos adicionar a reta de regressao no graco de dispesao utilizando a fun caoabline() e o modelo linear como argumento, como a fun caoabline() e de nvel mais baixo, enecessario que o graco ja esteja plotado.> plot(Species,Endemics)> abline(gfit)Figura16: Gracodedispers aoentreSpecieseEndemics3.1.4 Testedesignicancia(summary)Ainforma caosobretestesdesignicaciaeoserrosassociadosaosparametrosdomodelolinear pode ser obtida com a funcaosummary()52> summary (gfit)Call:lm(formula = Species Endemics, data = gala)Residuals:Min 1Q Median 3Q Max-71.791 -15.894 3.507 12.088 78.200Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -21.0480 7.1138 -2.959 0.00622 **Endemics 4.0721 0.1899 21.443 c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899)[1] 3.683108 4.461092533.1.6 ResduosetestesdiagnosticosUmaseriedegracosestaodisponveisnafuncaoplot(lm)paraotestedepremissasdomodelo linear. Esta funcao gera quatro gracos em serie, de modo que pode ser interessante gerarum a um ou colocar todos os gracos de uma vez. Para este m,vamos mostar como colocarm ultiplos gracos em uma unica pagina. Para isto, precisamos modicar os parametrosmfcoloumfrow. Estesparametrospermitemadetermina caodequantosgracosdevemaparecerpor pagina, fazendo com que os gracos gerados na sequencia sejam adicionados nas colunas oulinhas pre-determinadas pelos parametros, na Figura 17 temos:> par(mfrow=c(2,2),pch=16)> plot(gfit)Figura17: GracotestesdiagnosticosNa Figura 17 encontramos quatro gracos diferentes que nos ajudam a vericar as premissasdo modelo. O graco do canto superior esquerdo (Residuals vs Fitted) corresponde aos resduoscomparados aos valores preditos pelo modelo. Neste graco e possvel observar tendencias nosresduos, comonao-linearidadeoumesmoheteroscedasticidade(esta, noentando,seramelhorvericada por outro graco). No exemplo,nao encontramos nenhuma tendencia clara e a dis-tribui cao dos resduos parce simetria em torno da linha. O segundo graco (normal Q-Q plot)mostra o graco de quantis para os resduos, onde podemos vericar a normalidade dos resduos.Nonossoexemplo, temosospontosdistribudosdemodoaproximadamentelinear, oquesu-54gerequeosresduosapresentamumadistribui caonormal. Oterceirograco(Scale-LocationPlot) mostra a distribuicao da raiz do modulo dos resduos em compara cao aos valores preditos.Este graco permite a vericacao da tendencia de heteroscedasticidade em que a magnitude davariacao dos resduos esta correlacionada com os valores preditos.3.1.7 TransformacoesdevariaveisA analise que vimos no topico anterior mostra uma situa cao em que as premissas do modelolinear foram todas aceitas e o modelo foi bem ajustado. No entando, encontraremos situa coesemqueaestruturadaamostragem, anao-linearidadeouaestruturadoerro(seguindoumadistribui caodiferentedanormal)exigemaaplica caodetecnicasespeciaismaisapropriadas.Por outrolado, seaestruturadoerronaoenormal, mas segueumadistribui caoesperadaconhecida (como Poisson ou Binomial), podemos utilizar modelos lineares generalizados (fun caoglm(). Estes, no entando, sao mais complexos que os lineares gerais e nao serao tratados nessamonograa.Uma op cao que temos em algumas situacoes e transformar a variavel dependente (ou ambas)de modo a linearizar a rela cao, normalizar o erro ou homogeneizar as variancias. Uma serie detransformacoes de dados esta disponvel no R, sendo que uma maneira interessante de determinara transforma cao necessaia para o conjunto de dados e a fun cao boxcox(lm). Esta funcao utilizaumprocecimentodeestima caoporverossimilhan camaximademodoacalcularumvalorde, quedeneotipodetransformacaomaisapropriadaparaavariaveldependentedomodelolinear. Esta transformacao e denida de modo que um valor de = 1 determina que nenhumatransformacaoenecessariaparaesteconjuntodedados, quando=0umatransformacaologartmica e a melhor opcao, e quando = 0, 5 a transforma cao raiz quadrada e mais indicada.PodemosacessaratranformacaoBox CoxnoRapartirdafun caoboxcox(lm)disponvelnopacoteMASS. Vamosexperimentaroprocedimentonoconjuntodedadosqueacabamosde analisar nos capitulos anteriores e ver o resultado. Primeiro e necessario carregar o pacote[MASS], o qual e instalado junto com oR base:> library(MASS)[1] TRUEPodemos agora utilizar a fun cao boxcox() para calcular o estimado e visualizar o resultadogracamente, como representado na Figura 18.> par (mfrow=c(1,2))> boxcox(gfit)> boxcox(gfit, lambda=seq(-0.5,1.5,by=0.1))55Figura18: GracoEstimac aodopar ametropelometododeBox-CoxA Figura 18 sugere que o com maior verossimilhan ca seria um pouco menor que 0, 5. Noentando, percebemos que o 1 encontra-se dentro do intervalo de conan ca de 95%, de modo quepodemos escolher neste caso, nao efetuar nenhuma transforma cao.E importante nunca efetuartransformacoes desnecessarias no conjunto de dados, visto que as mesmas dicultam um pouco ainterpretacao dos parametros, modicando a escala das variaveis. Como os gracos diagnosticosparaesteexemplojamostramlinearidadedarelacao, normalidadeehomoscedasticidadedosresduos, e melhor optar por nao modicar.E interessante agora examinar-mos um outro exemplo em que sera interessante mocar aescala da variavel dependente para linearizar a relacao. Vamos carregar um conjunto de dadosde exemplo chamadogemfish.txt, que apresenta duas variaveis e 242 observa coes, que corres-pondem a comprimentos de indivduos (variavel Len) de uma especie de peixe autraliana (Rexeasolandri) e o conte udo de merc urio (mg/Kg) em tecidos (variavel Merc). O arquivo relativo a esteconjunto de dados foi obtido no site (http://aerg.canberra.edu.au/envirostats/bm/introduction.htm).Carregamos o arquivo e visualizamos a dispersao entre o conte udo de merc urio e o comprimentode peixes:> gemfish = read.table("gemfish.txt", header=T)> plot(gemfish$Len,gemfish$Merc, xlab= "Comprimento (cm)", ylab="Concentrac~aode mercucio em tecidos (mg/Kg)", pch=16,cex.lab=1.3)O graco gerado e observado na Figura 19Pelo diagrama de dispersao mostrado na Figura 19, percebemos que a rela cao entre as duasvariaveis nao e linear. Podemos ajustar um modelo linear aqui, mas ja podemos imaginar queo resultado nao sera muito satisfatorio:> summary (lm.gemfish)56Figura19: GracoDiagramadedispersaoentreComprimentodocorpoeconcentrac aodemerc urioCall:lm(formula = Merc Len, data = gemfish)Residuals:Min 1Q Median 3Q Max-0.77551 -0.22482 -0.06595 0.13670 1.98830Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -1.426346 0.105996 -13.46 par(mfrow=c(1,2))> boxcox(lm.gemfish)> boxcox(lm.gemfish, lambda=seq(-0.2,0.1,by=0.01))O resultado e apresentado na Figura 21.Nesta gura, o intervalo de conan ca para a estimativa do parametro inclui o 0, que sig-nicaria uma transformacao logartmica (apesar de nao ser o valor com maior verossimilhan ca).Comoatransformacaologartmica ebastanteconhecida, eprefervelutiliza-la,poisseramaisfacil interpretar na escala decimal onde a variavel foi medida.Na pratica, nao temos como saber se o resduo e aditivo ou multiplicativo. A melhor opcaoe experimentar a transformacao e ver se os resduos passam a atender as premissas do modelolinear.58Figura21: GracoEstimac aodopar ametropelometododeBox-Cox.Vamosagorarefazeroajustedomodeloderegressaotransformandoavariavel Mercemlogaritmos naturais usando a funcaolog():> lm;logfish = lm(log(Merc) Len, gemfish)> summary(lm.logfish)Call:lm(formula = Merc Len, data = gemfish)Residuals:Min 1Q Median 3Q Max-1.07019 -0.21346 -0.01326 0.18690 1.50932Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -4.166968 0.095181 -43.78 plot(gemfish$Len, log(gemfish$Merc), xlab="Comprimento (cm)",ylab="log(Concentrac~ao de mercurio)", cex.lab=1.3,pch=16)> abline(lm.logfish,lwd = 2)> lines(new.x$Len, pred.logfish[,3], lty=2,lwd=2)> lines (new.x$Len, pred.logfish[,2],lty=2,lwd=2)Figura22: GracoDiagramadedispers aopelometododeBox-Cox.O graco de diagnosticos para este modelo obtido pelo comando plot(lm.logfish) Figura23 mostra que a aplicacao do logaritmo linearizou a rela cao entre as variaveis e normalizou osresdos, fazendo com que os dados atendessem `as premissas do modelo linear. A transformacaode variaveis deve ser realizada com cautela, principalmente com relacao `a interpretacao diretados parametros e `a compara cao de modelos. Em algumas situacoes,a melhor opcao e utilizarmodelos apropriados como o linear generalizado,que nao e foco do nosso trabalho. O modelolineardavariaveltransformadapodesermaisdifcildeinterpretar, vistoqueocoecientederegressao nos mostra uma taxa de aumento no logaritmo natural da concentracao de merc urionostecidosemrelacaoaoaumentonotamanhocorporaldospeixesenaotemoscomoinferirmaisnadasobreoprocessobiologicoresponsavel peloac umulodemerc urionostecidosdospeixes maiores.Poroutrolado, sequisermosfazerumgracocomacurvaestimadanaescalaoriginal,podemos transformar de volta as predi coes, assim como os intervalos de conanca para a escaladecimal, usando a fun caoexpe().Noentanto, seopropositodomodeloestatsticoforsimplesmenteapredicaodevaloresdeconcentracaodemerc urioapartir docomprimentodospeixes, omodelocomavariavel60Figura23: Gracodediagnosticoparaomodeloajustadotransformada funciona muito bem. Existem situacoes em que e necessario tambem modicar aescaladavariavelindependente. Nestecaso,naotemoscomoinferiratransformacaootimaapartir do metodo de Box-Cox, e temos que tomar um cuidado especial se estivermos realizandoumaregressaom ultipla, poisasescalasdediferentesvariaveisindependentespodemrequererdiferentes transformacoes e a comparacao de coecientes de regressao pode ser difcil.614 ConclusaoDiante deste trabalho pode-se concluir que a analise de regressao e de grande valia para areasonde atividades em que o planejamento do futuro e fundamental,nos dias atuais e impossvelpensar em analise de regressao sem o uso de computadores devido a complexidade de calculos erepresentacoes gracas que sao necesssarias durante as analises.Apesar donossoenfoqueter sido, aanalisederegressaolinear explanandoautilizacaodosoftwareR, naodeixamosdeabordartodaateoriaquecompoeestatecnica, poisacredi-tamosqueautiliza caodeumaferramentaestatsticasemoaprofundamentoteoricodenadatemserventia, poisomanuseiodeumsoftwareestatsticodevetersemprecomosuporteumadequado conhecimento das tecnicas estatsticas envolvidas, deve ser feita nao esquecendo-se deumaressalvaimportante: ocomputadornaoraciocina, enaopodeformularjulgamentos, jul-gamento este que podemos armar ser o papel fundamental do estatstico, onde a compreensaodosprincpiosdaestatstica epre-requisito`acorretainterpretacaoderesultadosobtidospelosoftware. Alem disso, o aprofundamento de conhecimento sobre o software R ainda e bastanterecente, no entanto o nosso objetivo ao delinear e escrever algo sobre esta tematica foi antes detudo, um esforco de familiariza cao com a ferramenta, de modo a explorarmos as potencialidadesebenefciosdomesmo,edeixarnossacontribuicaoparaestudanteseprofessoresquedesejamconhecer e aplicar a analise de regressao utilizando o software estatstico R.62ReferenciasALVES, H.; CUNHA, L. M. Uma introducao a alguns aplicativos, numa abordagem inicial dosdados. In: . [S.l.]: Software Estatstico, 2006.CHATTERJEE, S.; BERTRAM, P. . Regression analysis by example. [S.l.: s.n.], 1991.CURRAL, J. Statistics Packages: A General Overview. [S.l.]: Universidade de Glasgow, 1994.DMENTA, J. Elementos de Econometria. [S.l.]: Atlas, 1988.ESTEVES, G. H. Notas de aula. 2008.FARAWAY, J. J. Linear Models With R. [S.l.]: Chapman and Hall/CRC, 2004.GUEDES, T.; MARGINS, A. Projetodeensino- aprenderfazendoestatstica. [S.l.]:Universidade Estadual de Maringa, 2005.GUJARATI, D. N. Econometria Basica. [S.l.]: .Markron Books, 2000.HOFFMANN, R. An alise de regressao: Uma Introducao `a Econometria. [S.l.]: Editora Hucitec,2006.MATOS, O. C. Econometria Basica - teorias e aplicacoes. [S.l.]: Atlas, 1998.SILVASOUZA,G.da.Introdu caoaosModelosdeRegressaoLineareNao-Linear.[S.l.]:Embrapa Producao de Informacao, 2001.TOLEDO, G. L.; ANDRADE MARTINS, G. de; FONSECA, J. S. da. Eststica Aplicada. [S.l.]:Atlas, 1985.