obesidade e phda infantil: modelo de regress~ao log stica · 3.9 diagramas em caixa do imc por...

Obesidade e PHDA infantil:

Modelo de Regressao Logıstica

Raquel Maria Jacinto Escola

Dissertacao para obtencao do Grau de Mestre em

Matematica e Aplicacoes

Juri

Presidente: Prof. Doutor Antonio Manuel Pacheco PiresOrientadora: Profa . Doutora Maria da Conceicao Esperanca AmadoVogais: Doutora Sandra Monica Borges de Figueiredo Fernandes Pinto

Profa . Doutora Isabel Maria Alves Rodrigues

Novembro 2009

Resumo

Nos ultimos anos, a PHDA (Perturbacao de Hiperactividade e Defice de Atencao) tem sidoconsiderada como uma das patologias neurodesenvolvimentais mais frequentes em criancasde idade escolar, paralelamente, o numero de criancas com excesso de peso tem vindo aaumentar. Deste modo e importante, por um lado, identificar grupos de risco, ou seja,criancas com maior predisposicao a sofrerem de obesidade e, por outro lado, inferir umapossıvel relacao entre essas duas caracterısticas, ou seja, dado que uma crianca e obesa seraque isso tera consequencias negativas para a sua saude fısica e mental. Assim, com estetrabalho pretende-se investigar a existencia de uma associacao entre a obesidade e PHDAem criancas em idade escolar numa determinada regiao urbana. Em particular, pretende-seavaliar a existencia de factores associados a ambas as caracterısticas e relacionados comhabitos de vida (sono, televisao, actividade desportiva).

Numa primeira fase aplicou-se o modelo de regressao logıstico classico para a variavelresposta (obesidade) classificada em duas categorias (obeso e nao obeso). Em seguida usou-se um modelo de regressao logıstica politomica de forma a contemplar as varias categoriasda variavel obesidade quando nesta se incluem categorias como o excesso de peso, pre-obesidade, peso normal e baixo peso. Na analise de diagnostico do modelo dicotomicoclassico foram detectadas alguns valores atıpicos (outliers) o que conduziu a uma serie detentativas de ajuste de um modelo logıstico dicotomico robusto.

Palavras-chave: Modelo de Regressao Logıstica Dicotomico, criterios AIC e BIC, Razaode Chances, Modelo de Regressao Logıstica Robusto, Teste de bootstrap, TesteQuasi-deviance, Modelo de Regressao Logıstica Politomico.

ii

Abstract

In recent years, ADHD (Hyperactivity Disorder and Attention Deficit) has been consideredas one of the most common psychiatric disorders in school age children; at the same time,the number of overweight children has been increasing. Therefore, it is important identifyrisk groups and, moreover, to infer a possible cause-effect ..., that is, considering that a childis obese, the child will have negative consequences in his physical and mental health. Thus,this study seeks to find possible links between obesity and ADHD in school-age children ina certain urban area. For instance we intend to evaluate the existence of associated lifestylerelated to both disorders (sleep, television, sport).

In this study we have applied, first of all, the classic dichotomous logistic regressionmodel for the dependent variable (obesity) classified in two categories (obese and non-obese). Then we have applied the polytomous logistic regression model to take account ofthe various categories of obesity, when this variable includes categories such as overweight,pre-overweight, normal weight and underweight. In the analysis of the dichotomous classicdiagnostic model we detected some outliers which led to a series of attempts to fit a robustdichotomous logistic model.

Keywords: Dichotomous Logistic Regression Model, AIC and BIC criteria, Odds Ratio,Robust Logistic Regression Model, Bootstrap Test, Quasi-deviance Test, PolytomousLogistic Regression Model.

iv

Agradecimentos

Este trabalho deve muito a algumas pessoas e instituicoes, por diferentes razoes e, emparticular, gostaria de agradecer:

A minha orientadora, Professora Doutora Conceicao Amado, pela orientacao, amizade,disponibilidade, palavras de apoio e interesse demonstrados que foram cruciais na realizacaodesta dissertacao.

A Dra Monica Pinto, e restante equipa do Centro de Desenvolvimento do Hospital D.Estefania, pelo apoio e pelos dados gentilmente cedidos para a realizacao deste trabalho.Em especial a Dra Marta Oliveira e Dra Ema Leal, internas de pediatria deste hospital, quecolaboraram neste projecto.

Ao Instituto Superior Tecnico, ao seu Departamento de Matematica e a todos os profes-sores que me acompanharam por toda a atencao e apoio prestado ao longo destes anos.

Aos meus colegas e amigos pela amizade, alegria, partilha e companheirismo revelado aolongo destes anos.

Ao meu namorado pelo apoio incondicional, paciencia e confianca depositada nas minhascapacidades e trabalho.

Finalmente, aos meus pais e irma pela solida formacao, amor, compreensao, confianca...necessaria para realizar os meus sonhos.

Raquel Escola

vi

Indice

Resumo ii

Abstract iv

Agradecimentos vi

Lista de Figuras x

Lista de Tabelas xii

1 Introducao 1

2 Conceitos Introdutorios 3

2.1 Obesidade infantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 PHDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Outros estudos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Delineamento do estudo e analise das variaveis 9

3.1 Objectivos e pressupostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2 Analise preliminar dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2.1 Analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2.2 Associacao entre variaveis . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Modelos de Regressao Logıstica 35

4.1 Modelo de Regressao Logıstica Simples . . . . . . . . . . . . . . . . . . . . . 36

vii

4.2 Regressao Logıstica Multipla . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2.1 Modelo de Regressao Logıstica Multipla . . . . . . . . . . . . . . . . 37

4.2.2 Ajustamento do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.2.3 Regressao Logıstica Polinomial . . . . . . . . . . . . . . . . . . . . . 41

4.3 Inferencias sobre os parametros de regressao . . . . . . . . . . . . . . . . . . 42

4.4 Interpretacao dos coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.5 Metodos de seleccao de modelo . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.5.1 Criterios para a seleccao do modelo . . . . . . . . . . . . . . . . . . . 50

4.5.2 Procedimentos de seleccao . . . . . . . . . . . . . . . . . . . . . . . . 51

4.6 Diagnosticos do Modelo de Regressao Logıstica . . . . . . . . . . . . . . . . 52

4.6.1 Resıduos do Modelo de Regressao logıstica . . . . . . . . . . . . . . 53

4.6.2 Representacoes graficas para Diagnostico . . . . . . . . . . . . . . . 55

4.6.3 Deteccao de observacoes influentes . . . . . . . . . . . . . . . . . . . 56

4.7 Metodos Robustos aplicados a modelos de regressao logıstica . . . . . . . . 58

4.7.1 Inferencias nos Parametros de Regressao . . . . . . . . . . . . . . . . 59

4.7.2 Teste Quasi-Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.7.3 Teste de Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.8 Modelo de Regressao Logıstica Politomica . . . . . . . . . . . . . . . . . . . 63

4.8.1 Estimativa de maxima verosimilhanca . . . . . . . . . . . . . . . . . 65

4.8.2 Interpretacao dos coeficientes de regressao estimados . . . . . . . . . 66

4.8.3 Avaliacao do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Apresentacao dos Resultados 67

5.1 Modelo de regressao logıstica dicotomico . . . . . . . . . . . . . . . . . . . . 67

5.1.1 Interpretacao dos coeficientes de regressao . . . . . . . . . . . . . . . 69

5.1.2 Diagnostico sobre adequacao do modelo . . . . . . . . . . . . . . . . 71

5.1.3 Outliers e observacoes influentes . . . . . . . . . . . . . . . . . . . . 72

5.1.4 Modelo de Regressao logıstico robusto . . . . . . . . . . . . . . . . . 73

viii

5.2 Modelo de regressao logıstica politomica . . . . . . . . . . . . . . . . . . . . 74

6 Conclusoes 79

Referencias Bibliograficas 81

A Inqueritos e macros em R 83

A.1 Inqueritos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

A.2 Macros em R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

A.2.1 Estatıstica Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

A.2.2 Associacao entre variaveis . . . . . . . . . . . . . . . . . . . . . . . . 90

A.2.3 Modelo de Regressao Logıstica Dicotomico . . . . . . . . . . . . . . 92

A.2.4 Funcoes Auxiliares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

A.2.5 Modelo de Regressao Logıstica Robusto . . . . . . . . . . . . . . . . 95

A.2.6 Modelo de Regressao Logıstica Politomico . . . . . . . . . . . . . . . 102

ix

Lista de Figuras

3.1 Histogramas e densidades estimadas (kernel) para as variaveis Peso Actual(a direita) e Peso ao Nascer (a esquerda). . . . . . . . . . . . . . . . . . . . 14

3.2 Graficos do IMC e do peso ao nascer (em kg). . . . . . . . . . . . . . . . . . 15

3.3 Graficos do IMC e da PHDA por Genero. . . . . . . . . . . . . . . . . . . . 15

3.4 Diagramas em caixa do IMC por Idade e por Genero. . . . . . . . . . . . . 16

3.5 Diagramas em caixa do IMC por nıveis da Escolaridade da Mae e o do IMCpor nıveis de escolaridade do Pai. . . . . . . . . . . . . . . . . . . . . . . . . 17

3.6 Diagramas em caixa do IMC por numero de horas de Sono por dia (a es-querda) e a mesma informacao mas separada por genero (a direita). . . . . 18

3.7 Grafico do numero de horas de Sono por dia e % de Obesos em cada intervalohorario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.8 Histogramas do Numero de horas a ver TV (por dia) quando tinha 2-3 anose actualmente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.9 Diagramas em caixa do IMC por agrupamento de Numero de horas a vertelevisao quando tinha 2-3 anos (a esquerda) e do IMC por agrupamento doNumero de horas a ver televisao actualmente (a direita). . . . . . . . . . . . 21

3.10 Graficos do numero diario de horas despendidas a jogar jogos electronicos. . 22

3.11 Histograma do numero de horas de exercıcio fısico por semana (a esquerda) ediagramas em caixa do IMC por intervalo horario de exercıcio fısico (a direita). 23

3.12 Histograma do numero de refeicoes por dia (a esquerda) e diagramas emcaixa do IMC por numero de refeicoes por dia (a direita). . . . . . . . . . . 24

3.13 Habitos alimentares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.14 Diagrama de barras da frequencia com que come entre as refeicoes (a es-querda) e diagramas em caixa do IMC por essa frequencia (a direita). . . . 25

x

3.15 Diagrama de barras da frequencia com que come doces (a esquerda) e dia-gramas em caixa do IMC por essa frequencia (a direita). . . . . . . . . . . . 25

3.16 Grafico da frequencia com que bebe sumos e diagramas de barras IMC porBebe sumos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.17 Diagrama de barras da frequencia com que come batatas fritas (a esquerda)e diagramas em caixa do IMC por come batatas fritas (a direita). . . . . . . 26

3.18 Diagrama de barras das frequencias dos quatro habitos alimentares analisados. 27

3.19 Diagrama de barras da variavel PHDA categorizada em quatro nıveis e dia-gramas em caixa do IMC pelas diferentes categorias do PHDA. . . . . . . . 27

3.20 Diagramas em caixa do IMC por categorias do PHDA e por genero. . . . . 28

3.21 Diagrama de dispersao do peso actual versus o peso ao nascer (kg), comdiagramas de caixas nas margens, com a linha de regressao e a linha suavizadapor mınimos quadrados pesados. . . . . . . . . . . . . . . . . . . . . . . . . 29

3.22 Matriz de graficos de dispersao com indicacao do coeficiente de correlacao dePearson para as variaveis indicadas. . . . . . . . . . . . . . . . . . . . . . . 32

5.1 Graficos dos resıduos de desvio e de Pearson contra as probabilidades esti-madas do Modelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.2 Grafico dos pontos de alavanca padronizados e da estatıstica de Cook para oModelo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

xi

Lista de Tabelas

2.1 Classificacao do IMC em quatro categorias. . . . . . . . . . . . . . . . . . . 4

2.2 Classificacao do IMC por genero e por idade. . . . . . . . . . . . . . . . . . 4

3.1 Sumario do Peso ao Nascer e do Peso Actual (em kg). . . . . . . . . . . . . 13

3.2 Frequencias observadas dos nıveis de escolaridade da mae e do pai. . . . . . 16

3.3 Frequencias observadas para a variavel Sono. . . . . . . . . . . . . . . . . . 17

3.4 Frequencias observadas do Numero de horas a ver televisao aos 2/3 anos eagora, por dia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.5 Frequencias observadas da variavel Numero de Horas de Exercıcio Fısico. . 19

3.6 Sumario do numero de refeicoes por dia. . . . . . . . . . . . . . . . . . . . . 20

3.7 Valores observados das frequencias de alguns habitos alimentares. . . . . . . 21

3.8 Testes de independencia para a PHDA e para o IMC e as restantes variaveisem estudo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1 Frequencias observadas da variavel resposta, incluindo os valores omissos queserao removidos da analise. . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.2 Medidas de seleccao dos modelos. . . . . . . . . . . . . . . . . . . . . . . . . 68

5.3 Estimativas dos erros de predicao para validacao cruzada. . . . . . . . . . . 69

5.4 Estimativas dos parametros do modelo, estimativas dos erros padrao, es-tatısticas de Wald e valor-p para o Modelo 3. . . . . . . . . . . . . . . . . . 69

5.5 Estimativas das razoes de chances e respectivos intervalos de confianca aprox-imados a 95% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.6 Estimativas dos parametros, estimativas dos erros padrao, estatısticas deWald e valor-p para o Modelo 3 sem outliers. . . . . . . . . . . . . . . . . . 73

xii

5.7 Estimativas dos valor-p utilizando os testes de Bootstrap e Quasi-Deviance. 74

5.8 Frequencias observadas da variavel resposta. . . . . . . . . . . . . . . . . . . 75

5.9 Medidas de seleccao dos modelos. . . . . . . . . . . . . . . . . . . . . . . . . 75

5.10 Resultados dos testes de razao de verosimilhanca. . . . . . . . . . . . . . . . 76

5.11 Estimativas dos parametros para o Modelo 4. . . . . . . . . . . . . . . . . . 76

5.12 Estimativas das Razoes de Chance para o modelo de regressao logısticapolitomico, Modelo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.13 Frequencia relativa da variavel Sono. . . . . . . . . . . . . . . . . . . . . . . 77

5.14 Frequencia relativa da variavel FreqDoces. . . . . . . . . . . . . . . . . . . . 78

5.15 Frequencia relativa da variavel BebeSumos. . . . . . . . . . . . . . . . . . . 78

5.16 Frequencia relativa da variavel ComeBatFritas. . . . . . . . . . . . . . . . . 78

5.17 Frequencia relativa da variavel PHDA1. . . . . . . . . . . . . . . . . . . . . 78

xiii

Capıtulo 1

Introducao

Na Europa existem cerca de 14 milhoes de criancas com excesso de peso, das quais 3 milhoessao obesas e todos os anos surgem, em media, 400 mil novos casos (International ObesityTaskForce - http://www.iotf.org).

Assim, torna-se cada vez mais importante entender as causas e sobretudo identificareventuais grupos de risco.

Com este trabalho pretende-se determinar grupos de risco de obesidade bem como encon-trar uma relacao entre a obesidade e a Perturbacao de Hiperactividade e Defice de Atencao(PHDA). Em particular, pretende-se averiguar a importancia de alguns habitos e estilos devida na prevalencia da obesidade infantil, bem como a existencia de uma relacao entre aobesidade e a PHDA. Para tal pretende-se encontrar um modelo que permita estabeleceruma associacao entre esses habitos, ou entre a PHDA, e um indivıduo ser ou nao obeso.Neste trabalho serao ainda aplicados metodos estatısticos classicos e robustos de forma aencontrar a melhor solucao. Por fim, pretende-se avaliar as alteracoes aquando da inclusaono estudo da variavel resposta com quatro categorias: Baixo Peso, Peso Normal, Excessode Peso e Obesidade.

Este trabalho foi realizado no ambito de uma parceria entre o grupo de Pediatria doHospital D.Estefania, em particular, Centro de Desenvolvimento do Hospital D. Estefania,e a Seccao de Probabilidades e Estatıstica do Instituto Superior Tecnico.

Os dados presentes em estudo foram recolhidos, no ano lectivo de 2008/2009, em Lisboajuntos dos pais e professores das escolas: basica 1ociclo no159 de Lisboa, basica 1ociclono181 de Lisboa, basica Alice Vieira, 1ociclo no36 de Lisboa, basica com jardim de infanciade Santa Maria dos Olivais, basica do 1ociclo Paulino Montez, basica no183 e basica 1ocicloInfante D.Henrique a todas as criancas entre os 6 e os 8 anos de idade (1o e 2o anos deescolaridade). Foram apenas consideradas as criancas com idades entre os 6 e os 8 anos(desde que nao apresentassem qualquer defice cognitivo ou patologia genetica identificada)obtendo-se um total de 403 criancas.

1

Para a realizacao deste estudo foram aplicados diversos tipos de questionarios. Em par-ticular, aos Pais foi aplicado o questionario de habitos nutricionais e estilos de vida, oquestionario de criterios de PHDA segundo DSM IV (Diagnostic and Statistical Manualof Mental Disorders - IV edition) e o questionario de Conner para Pais. Aos professoresfoi aplicado o questionario Conner para professores. Por fim foi realizada uma avaliacaoantropometrica incluindo peso e estatura e avaliacao da tensao arterial a todas criancas pre-sentes no estudo. Os questionarios referidos podem ser consultados no Anexo A na SeccaoA.1.

Para a obtencao dos dados em estudo foi ainda necessario solicitar autorizacao junto daDireccao do Hospital D. Estefania, e tomadas as devidas consideracoes relativas aos pro-cedimentos eticos a ter em conta neste estudo. Apos consentimento, foram estabelecidos oscontactos e requeridas as autorizacoes junto das escolas e respectivos professores. Seguida-mente, os pais foram informados dos objectivos da investigacao e solicitada autorizacao paraa recolha de dados junto dos seus filhos, bem como foi-lhes solicitado o preenchimento dosquestionarios referidos anteriormente. Uma vez recebida a respectiva autorizacao dos pais,foi explicado o procedimento a todas as criancas e realizadas as avaliacoes referidas acima.

Com o presente estudo pretende-se obter um modelo que permita detectar eventuais gru-pos/factores de risco que possam conduzir a problemas de obesidade. Assim, numa primeiraabordagem sera considerado um modelo de regressao logıstica com uma variavel respostadicotomica, obeso e nao obeso. Uma vez encontrado o melhor modelo sera estudada a suaadequacao e em seguida sera realizada a analise para deteccao de outliers e/ou observacoesinfluentes. Por fim, sera ainda estudada a robustez do modelo de regressao logıstica ajus-tado, isto e, ate que ponto os resultados obtidos sao sensıveis a observacoes discordantes ououtliers. Numa segunda abordagem sera considerado um modelo de regressao logıstica umpouco mais complexo onde a variavel resposta e politomica, ou seja, encontra-se classificadaem 4 categorias: baixo peso, peso normal, excesso de peso e obesidade.

No capıtulo seguinte sao introduzidos os conceitos base em estudo, bem como um breveresumo de outras abordagens realizadas em estudos sobre a mesma tematica. De seguidasao apresentados alguns resultados provenientes de uma analise preliminar aos dados.

2

Capıtulo 2

Conceitos Introdutorios

2.1 Obesidade infantil

Segundo a Organizacao Mundial de Saude (OMS), a obesidade e uma doenca em que o ex-cesso de gordura corporal acumulada pode atingir nıveis que afectam gravemente a saude.Este excesso de gordura resulta de sucessivos balancos energeticos positivos, isto e, a quan-tidade de energia ingerida e superior a quantidade de energia consumida. A obesidade euma doenca cronica, tratando-se da doenca nutricional mais prevalente a nıvel mundial econsiderada a epidemia do seculo XXI.

Nos ultimos anos tem-se vindo a registar um aumento da prevalencia da obesidade infantil.Segundo a Comissao Europeia, Portugal esta entre os paıses europeus com maior numerode criancas com excesso de peso. Em Portugal, mais de 30% das criancas entre os 7 e 9 anostem excesso de peso e cerca de 11% sao obesas, sendo o sexo feminino aquele que apresentavalores superiores Padez et al. (2004). Em termos regionais, o Alentejo e onde se verificauma maior prevalencia da obesidade1.

Normalmente, o rastreio da obesidade e feito segundo o Indice de Massa Corporal (IMC).Este nao e mais do que uma relacao entre o peso (kg) e a altura ao quadrado (m2) e edefinido da seguinte forma:

IMC =Peso

Altura2. (2.1)

Por forma a obter uma classificacao do IMC em baixo peso, peso normal, excesso depeso e obesidade foram ainda consideradas as curvas de percentis calculadas pelo NationalCenter for Health and Statistics (NCHS). Estas curvas sao as usadas em Portugal desde1981 ja que o processo de construir curvas de percentis para um determinado paıs e umprocesso moroso e dispendioso. Os dados utilizados para a construcao destas curvas sao

1http://www.hevora.min-saude.pt/docs/pediatria

3

obtidos em medicoes em criancas norte-americanas e sao obtidas atraves de procedimentosparametricos e nao parametricos de alisamento dos percentis empıricos. Para mais detalhesconsultar http://www.cdc.gov.

Uma vez calculado o IMC associado a cada crianca da amostra de trabalho e recorrendoas curvas de percentis referidas pode-se considerar a classificacao seguinte:

Tabela 2.1: Classificacao do IMC em quatro categorias.

Classificacao IMCAbaixo do Peso Abaixo do percentil 5Normal Entre o percentil 5 e 85Excesso de Peso Entre o percentil 85 e 95Obesidade Acima do percentil 95

Obtem-se assim a Tabela 2.2

Tabela 2.2: Classificacao do IMC por genero e por idade.

Idade IMC Raparigas IMC Rapazes Classificacao6 anos IMC < 13, 4 IMC < 13, 77 anos IMC < 13, 4 IMC < 13, 7 Abaixo do Peso8 anos IMC < 13, 5 IMC < 13, 86 anos IMC < 17, 2 IMC < 17, 27 anos IMC < 17, 6 IMC < 17, 4 Peso Normal8 anos IMC < 18, 3 IMC < 17, 96 anos IMC < 18, 8 IMC < 18, 47 anos IMC < 19, 6 IMC < 19, 2 Excesso de Peso8 anos IMC < 20, 7 IMC < 20, 36 anos IMC > 18, 8 IMC > 18, 47 anos IMC > 19, 6 IMC > 19, 2 Obesidade8 anos IMC > 20, 7 IMC > 20, 3

Varios estudos apontam, como principais causas para a obesidade infantil1: o comporta-mento alimentar (alimentacao excessiva e muito calorica), a falta de exercıcio fısico (seden-tarismo) e a predisposicao genetica (5 a 25% dos casos). Outros trabalhos revelam aindaque o risco de sofrer problemas de obesidade e cerca de 9% quando nenhum dos pais e obeso,aumenta para 50% quando um dos progenitores e obeso e para 80% quando ambos os paissofrem de obesidade. Os efeitos fısicos da obesidade infantil manifestam-se sobretudo nasactividades fısicas, em problemas respiratorios e em dificuldades em dormir. As criancas

1http://www.hevora.min-saude.pt/docs/pediatria

4

obesas sao, nao so mais susceptıveis a asma, como tambem a apneia do sono. Este ultimosintoma esta a tornar-se mais frequente a medida que a taxa de obesidade infantil aumenta,bem como os problemas de memoria e de aprendizagem, em criancas com disturbios dosono. A obesidade esta ainda associada ao aparecimento da Diabetes tipo 2, da hipertensaoarterial, do aumento do colesterol, da puberdade precoce e de problemas ortopedicos epsicologicos em criancas e adolescentes obesos.

2.2 PHDA

A PHDA ou Perturbacao de Hiperactividade e Defice de Atencao e um transtorno neurop-sicologico cronico, na sua grande maioria de origem genetica. Trata-se de uma perturbacaocaracterizada pelo comportamento hiperactivo, falta de atencao, impulsividade e dificuldadede concentracao. A crianca com PHDA distrai-se facilmente, apresenta dificuldades de con-centracao por longos perıodos de tempo, e irrequieta e impulsiva, e pode ser muito maisactiva do que e comum na sua idade. Estes comportamentos contribuem para problemassignificativos nao so nas relacoes com os outros como tambem na aprendizagem. E aindaimportante salientar que nem todas as criancas com defice de atencao sao hiperactivas. Aperturbacao fundamental e o defice de atencao a que se pode juntar a hiperactividade e aimpulsividade, ver, por exemplo, Barkley (1997) e Silva (2005). Ao contrario da obesidade,esta perturbacao e mais comum em rapazes do que em raparigas e afecta 3% a 6% dascriancas em idade escolar.

Em alguns estudos concluiu-se que em Portugal entre 6 e 8 mil criancas e adolescentesestejam medicadas para esta perturbacao. Em 2004, estimava-se que tres mil criancastomassem medicamentos para PHDA, enquanto que em 2003 eram apenas 400.

Existem varios subtipos de PHDA, dependendo da combinacao de sintomas que a criancaapresenta. Algumas criancas sao predominantemente hiperactivas ou impulsivas, enquantooutras apresentam significativas dificuldades de atencao, sem serem hiperactivas ou im-pulsivas. Contudo, a maioria das criancas com PHDA manifesta uma mistura destas ca-racterısticas. Em geral, pode classificar-se uma crianca com PHDA como desatenta seapresenta os seguintes sintomas:

• Dificuldade em seguir instrucoes;

• Dificuldade em manter a atencao nas actividades da escola e em casa (trabalho oujogo);

• Perde objectos necessarios as suas actividades (escolares e em casa);

5

• Parece nao ouvir (pais e professores);

• Nao presta atencao suficiente aos pormenores;

• Dificuldade em organizar tarefas e actividades;

• Esquece-se de coisas;

• Nao termina os trabalhos escolares;

• Distrai-se facilmente.

E uma crianca com PHDA classifica-se como hiperactiva/impulsiva se apresenta osseguintes sintomas:

• Corre ou trepa inapropriadamente (local ou altura);

• E irrequieta;

• Responde fora do contexto;

• Nao consegue brincar sossegada;

• Interrompe as pessoas que falam;

• Nao consegue estar sentada muito tempo;

• Fala demasiado;

• Tem dificuldades em esperar pela sua vez;

• Movimenta excessivamente as maos e os pes.

2.3 Outros estudos

Nos seguintes trabalhos foram encontradas outras abordagens ao estudo da relacao entreobesidade e a PHDA.

No trabalho Childhood Obesity and Attention Deficit/Hyperactivity Disorder: A newlydescribed comorbidity in obese hospitalized childer, Agranat-Meged et al. (2005), foram con-sideradas criancas em idade escolar hospitalizadas devido a obesidade. Usando estatısticasdescritivas os autores concluıram que existe uma forte ligacao entre obesidade infantil ePHDA. Mais ainda verificou-se que a PHDA podera ser um factor de risco para o desen-volvimento de maus habitos alimentares que por sua vez conduzirao a obesidade.

6

No artigo Obesity and ADHD may represent different manifestations of a common envi-ronmental oversampling syndrome: a model for revealing mechanistic overlap among cog-nitive, metabolic and inflammatory disorders, Bazar et al. (2006), os autores referem que aprevalencia destes dois disturbios tem vindo a aumentar. Este trabalho, baseado em mode-los descritivos, revela ainda que criancas expostas a televisao apresentam uma maior relacaoentre a obesidade e a PHDA devido a alteracao de habitos alimentares e a falta exercıciofısico. Novas experiencias tem contrariado antigas teses que afirmavam que a hiperactivi-dade da PHDA diminui o risco de obesidade, mais ainda, tem demonstrado a existenciade uma forte relacao entre a obesidade e a PHDA. Este artigo refere ainda que patologiascomo a obesidade, a PHDA, a depressao, o autismo, a hipertensao, a diabetes, a apneia dosono, entre outras podem advir de vias comuns e que os tratamentos utilizados para cadauma delas podem revelar-se beneficos para as outras.

Outra abordagem ao tema foi feita no artigo Overweight in Children and Adolescentin Relation to Attention-Deficit/ Hyperactivity Disorder: Results from a national sample,Waring e Lapane (2008), onde foi estudada a relacao entre criancas e adolescentes comexcesso de peso e que sofrem de PHDA. Os autores referem que dado que o excesso de pesoem criancas tem consequencias negativas na sua saude fısica e mental, entender e estudar osgrupos de criancas que podem estar em risco (de sofrerem de problemas de obesidade) podeajudar pais e pediatras a prevenir o desenvolvimento da obesidade infantil. Em particular,as criancas com PHDA poderao ser um desses grupos de risco. Neste estudo comparou-seinicialmente as caracterısticas entre criancas e adolescentes obesos e que sofrem de PHDAencontrando-se medicadas para esta perturbacao. Em seguida foram utilizados modelosde regressao logıstica politomica, estimando a razao de chances de forma a comparar aschances de baixo peso, risco de obesidade ou obesidade versus peso normal. Concluıramque criancas e adolescentes com PHDA que nao tomam medicacao apresentam maior riscode serem obesas relativamente a criancas e adolescentes com PHDA que se encontrammedicadas. Por outro lado, estas ultimas apresentam uma maior predisposicao a terempeso inferior ao normal relativamente a criancas e adolescentes que nao tem PHDA. Nesteartigo mostrou-se ainda que criancas e adolescentes com PHDA (nao medicadas) estao maispredispostas a sofrer de excesso de peso.

Por ultimo, no artigo Attention-Deficit/Hyperactivity Disorder and Obesity: A systematicReview of the literature, Cortese et al. (2008), e feita uma revisao bibliografica aos diversosestudos realizados sobre a relacao entre a obesidade e a PHDA. Experiencias realizadassugerem que os doentes obesos apresentam maior prevalencia de PHDA. Para alem disso, agrande maioria dos estudos indicam que pessoas com PHDA apresentam um peso acima donormal. Contudo, dados relativos a indivıduos obesos com PHDA sao ainda muito limita-dos. A perturbacao de hiperactividade e defice de atencao pode conduzir, segundo diversos

7

estudos, a um excesso de peso devido a maus comportamentos alimentares, impulsivos ecompulsivos sobretudo devido a hiperactividade. Alternativamente, outros estudos referemque tanto a obesidade como a PHDA podem ser a expressao de problemas neurobiologicossubjacentes.

8

Capıtulo 3

Delineamento do estudo e analise

das variaveis

3.1 Objectivos e pressupostos

Objectivo principal:

Investigar a existencia de uma associacao entre a obesidade e PHDA numa populacao decriancas em idade escolar.

Objectivos secundarios:

• Avaliar a existencia de factores associados a ambas as entidades relacionados comhabitos de vida (sono, televisao, actividade desportiva).

• Averiguar qual a importancia de alguns habitos de vida na prevalencia da obesidadeinfantil.

• Encontrar um modelo que permita estabelecer uma associacao entre esses habitos euma crianca ser ou nao obeso.

• Avaliar possıveis alteracoes resultantes da inclusao de uma variavel resposta politomica:Baixo Peso, Peso Normal, Excesso de Peso e Obesidade.

Populacao

Criancas entre os 6 e os 8 anos de vida (1o e 2o anos de escolaridade) residentes em regiaourbana.

Criterios de exclusao

Criancas com defice cognitivo ou patologia genetica identificada.

9

Area de aplicacao do estudo

Centro de saude dos Olivais e escolas primarias das respectivas areas de influencia.

Instrumentos utilizados

• Questionario de habitos nutricionais e estilo de vida;

• Questionario de criterios de PHDA segundo DSM IV e classificacao em subtipos;

• Questionario de Conner para pais;

• Questionario de Conner para professores;

• Avaliacao antropometrica incluindo peso e estatura e avaliacao da tensao arterial.

3.2 Analise preliminar dos dados

O conjunto de dados deste estudo consiste em informacao nutricional, habitos de vida eavaliacoes antropometricas relativas a 403 criancas, 217 (53.8%) do genero feminino e 181(44.9%) do genero masculino (5 criancas nao apresentaram resposta para esta variavel) comidades entre os 6 e os 8 anos residentes numa freguesia de Lisboa.

Descricao das variaveis em estudo (26)

De seguida descrevem-se sucintamente as variaveis em estudo assim como a indicacao danomenclatura usada para as definir.

• Idade (Idade) - indica a idade da crianca, em anos. Esta variavel assume apenastres valores, 6 (Idade6), 7 (Idade7) e 8 (Idade8). Intencionalmente so foi recolhidainformacao a criancas com estas idades.

• Genero (Genero) - O genero da crianca Feminino (Genero0), Masculino (Genero1).

• Peso ao Nascer (PesoNasc) - esta variavel representa o peso da crianca quandonasceu, em kg.

• Escolaridade da Mae (Mae) - indicacao do nıvel de escolaridade da mae da crianca,esta variavel tem cinco nıveis: Sem Escolaridade (Mae1), Primaria (Mae2), 9o ano(Mae3), 12o ano (Mae4) e Licenciatura (Mae5).

• Escolaridade do Pai (Pai) - indicacao do nıvel de escolaridade do pai da crianca,esta variavel tem cinco nıveis: Sem Escolaridade (Pai1), Primaria (Pai2), 9o ano(Pai3), 12 o ano (Pai4) e Licenciatura (Pai5).

10

• Irmaos rapazes (NRapaz) - numero de irmaos rapazes que cada crianca possui.

• Irmaos raparigas (NRapariga) - numero de irmas que cada crianca possui.

• Irmaos (Nirmaos) - numero total de irmaos que a crianca tem (NRapaz + NRa-pariga).

• Habito de Dormir (Sono) - esta variavel representa o numero de horas que cadacrianca dorme (em media) por noite, apresentando os seguintes intervalos: < 8h(Sono1), 8-10h (Sono2), 10-12h (Sono3).

• Visualizacao de Televisao aos 2 anos (TV2anos) - indicacao do numero dehoras (em media) que a crianca via televisao, por dia, quando tinha 2-3 anos deidade. Esta variavel apresenta os seguintes agrupamentos: < 1h (TV2anos1), 1-2h(TV2anos2), 2-3h (TV2anos3), 3-4h (TV2anos4), 4-5h (TV2anos5), 5-6h (TV2anos6),> 6h (TV2anos7).

• Visualizacao de Televisao actualmente (TVagora) - indicacao do numero dehoras (em media) que a crianca ve televisao por dia actualmente. Como a anterior estaagrupada em: < 1h (TVagora1), 1-2h (TVagora2), 2-3h (TVagora3), 3-4h (TVagora4),4-5h (TVagora5), 5-6h (TVagora6), > 6h (TVagora7).

• Jogos Electronicos (Jogar) - representa o numero de horas (em media) que acrianca despende no computador ou a jogar jogos electronicos, por dia. Esta variavelpossui os seguintes agrupamentos: < 1h (Jogar1), 1-2h (Jogar2), 2-3h (Jogar3), 3-4h(Jogar4), 4-5h (Jogar5), 5-6h (Jogar6), > 6h (Jogar7).

• Exercıcio Fısico (ExFisico) - esta variavel indica o numero de horas (em media)que a crianca despende na pratica de exercıcio fısico por semana. ExFisico1 (<1h),ExFisico2 (1-2h), ExFisico3 (2-3h), ExFisico4 (3-4h), ExFisico5 (4-5h), ExFisico6(5-6h), ExFisico7 (>6h).

• Numero de Refeicoes diarias (Nref) - numero de refeicoes por dia, 2 refeicoes(Nref1), 3 refeicoes (Nref2), 4 refeicoes (Nref3), 5 refeicoes (Nref4), mais de 5 refeicoes(Nref5).

• Come entre Refeicoes (ComeEntreRef) - esta variavel representa a resposta dacrianca a questao: “Come entre refeicoes?”, tendo as categorias: Nao (ComeEntr-eRef0) e Sim (ComeEntreRef1).

• Frequencia de Comer entre Refeicoes (FreqEntreRef) - esta variavel repre-senta a frequencia (semanal ou mensal) com que a crianca come entre as refeicoes.Esta variavel assume os seguintes nıveis: Nunca (FreqEntreRef0), 1 vez por mes (Fre-qEntreRef1), 1 vez por semana (FreqEntreRef2), 2 vezes por semana (FreqEntreRef3),

11

3 vezes por semana (FreqEntreRef4), 4 vezes por semana (FreqEntreRef5), 5 vezes porsemana (FreqEntreRef6), Diariamente (FreqEntreRef7).

• Come Doces (ComeDoces) - esta variavel representa a resposta da crianca aquestao: “Come doces?”, tendo as categorias: Nao (ComeDoces0) e Sim (Come-Doces1).

• Frequencia em Comer Doces (FreqDoces) - esta variavel representa a frequencia(semanal ou mensal) com que a crianca come doces, Nunca (FreqDoces0), 1 vez pormes (FreqDoces1), 1 vez por semana (FreqDoces2), 2 vezes por semana (FreqDoces3),3 vezes por semana (FreqDoces4), 4 vezes por semana (FreqDoces5), 5 vezes porsemana (FreqDoces6), Diariamente (FreqDoces7).

• Bebe Sumos (BebeSumos) - esta variavel representa a resposta da crianca aquestao: “Bebe sumos?”, tendo as categorias: Nao (BebeSumos0) e Sim (Bebe-Sumos1).

• Frequencia em Beber Sumos (FreqSumos) - esta variavel representa a frequencia(semanal ou mensal) com que a crianca bebe sumos, Nunca (FreqSumos0), 1 vezpor mes (FreqSumos1), 1 vez por semana (FreqSumos2), 2 vezes por semana (Fre-qSumos3), 3 vezes por semana (FreqSumos4), 4 vezes por semana (FreqSumos5), 5vezes por semana (FreqSumos6), Diariamente (FreqSumos7).

• Come Batata Frita (ComeBatFrita) - esta variavel representa a resposta dacrianca a questao: “Come batata frita?”, tendo as categorias: Nao (ComeBatFrita0)e Sim (ComeBatFrita1).

• Frequencia em Comer Batata Frita (FreqBFrits) - Nunca (FreqBFrits0), 1 vezpor mes (FreqBFrits1), 1 vez por semana (FreqBFrits2), 2 vezes por semana (Fre-qBFrits3), 3 vezes por semana (FreqBFrits4), 4 vezes por semana (FreqBFrits5), 5vezes por semana (FreqBFrits6), Diariamente (FreqBFrits7).

• Presenca ou Ausencia de PHDA (PHDA) - esta variavel indica se a crianca temou nao PHDA, tendo as seguintes categorias: Sem (PHDA0) e Com (PHDA1).

• Tipo de PHDA (TPHDA) - representa o tipo de PHDA que uma crianca comPHDA pode ter, esta variavel tem as seguintes categorias H (PHDAH), D (PHDAD)e C (PHDAC).

• Peso Actual (PesoActual) - peso actual da crianca em kg.

• Estatura Actual (Estatura) - estatura actual da crianca em cm.

12

• IMC (IMC) - esta variavel indica o valor do ındice de massa corporal calculadousando as medicoes antropometricas, peso e estatura actuais da crianca.

Para uma analise preliminar dos dados em estudo calcularam-se as medidas descritivasmais comuns e, em seguida, foram calculadas as correlacoes e a matriz de correlacao paraalgumas variaveis.

3.2.1 Analise descritiva

Nesta seccao sao analisadas as variaveis em estudo com recurso a histogramas, diagramasde extremos e quartis e a medidas descritivas como o mınimo (MIN), o maximo (MAX), amediana, a media aritmetica, o 1o e o 3o quartis (1o Q e 3o Q).

Os resultados apresentados ao longo deste trabalho foram obtidos com recurso ao softwareestatıstico R, R Development Core Team (2009), quer recorrendo a funcoes ja existentes,quer a funcoes implementadas na mesma linguagem.

Peso ao nascer vs peso actual

Estas duas variaveis sao importantes neste estudo ja que estao relacionadas com o calculo doIMC. Pela observacao dos histogramas da Figura 3.1 verifica-se que o padrao da distribuicaodo peso das criancas ao nascer e bastante distinto do peso actual.

Na Tabela 3.1 observa-se que o peso ao nascer mınimo do grupo de criancas em estudoe de cerca de 1.21kg enquanto que o peso maximo e de 6.60kg. Em relacao aos pesosactuais, este grupo de criancas apresenta um peso mınimo de 17.3kg e maximo de 69kg(este ultimo pertence a uma crianca com obesidade morbida). Pode concluir-se ainda que50% das criancas apresentam um peso ao nascer menor ou igual a 3.22kg e um peso actualmenor ou igual a 25.5kg. Em media, as criancas apresentam um peso ao nascer de 3.21kge um peso actual de 26.95kg.

A sigla NA que aparecera ao longo desta seccao representa os valores nao disponıveis, emgeral nao respostas.

Tabela 3.1: Sumario do Peso ao Nascer e do Peso Actual (em kg).

Min 1o Q Media Mediana 3o Q Max NAPesoNasc 1.21 2.84 3.21 3.22 3.56 6.60 35PesoActual 17.30 22.60 26.95 25.50 29.00 69.00 16

13

Figura 3.1: Histogramas e densidades estimadas (kernel) para as variaveis Peso Actual (adireita) e Peso ao Nascer (a esquerda).

IMC

Na Figura 3.2.1 encontram-se os diagramas de barras e de caixas relativo do IMC e doPeso ao Nascer separado por IMC. No grafico da esquerda representa-se a variavel IMCclassificada em 4 categorias, baixo peso, peso normal, excesso de peso e obesidade. Nografico da direita o IMC encontra-se classificado em obeso (que corresponde ao excesso depeso ou obesidade) e nao obeso (que corresponde ao peso normal ou baixo peso).

Na Figura 3.2.1 o grafico da direita parece revelar uma mediana do peso ao nascer ligeira-mente mais elevada no caso da crianca ser obesa ou apresentar excesso de peso. Da analisedo grafico de barras do IMC (a esquerda) conclui-se que a maioria das criancas (cerca de250) apresenta um peso normal.

14

Figura 3.2: Graficos do IMC e do peso ao nascer (em kg).

Genero e Idade

O IMC medio das 217 criancas do genero feminino e de 17.10, muito semelhante ao IMCmedio das 181 criancas do genero masculino, 17.13.

Figura 3.3: Graficos do IMC e da PHDA por Genero.

Os graficos da Figura 3.3 mostram, respectivamente, o numero de criancas em cada nıvelde ındice de obesidade e o numero de criancas com e sem PHDA, por genero. Nestes doisgraficos nao se revelam prevalencias fortes em nenhum dos generos.

O grafico apresentado na Figura 3.4 nao revela uma relacao evidente entre a idade e oındice de massa corporal. Nas 403 criancas observadas, 130 tem 6 anos e apresentam umIMC medio de 17.14, 189 tem 7 anos e apresentam um IMC medio de 17.13 e existem 81

15

Figura 3.4: Diagramas em caixa do IMC por Idade e por Genero.

criancas com 8 anos que tambem apresentam um IMC medio muito semelhante (17.12).

Nıvel de escolaridade dos Pais

Na Tabela 3.2 observa-se que, em geral, as maes apresentam um nıvel de escolaridadeligeiramente superior ao dos pais. Por outro lado, apenas nas maes se verifica a existenciade pessoas sem nenhum grau de escolaridade.

Tabela 3.2: Frequencias observadas dos nıveis de escolaridade da mae e do pai.

Sem Escolaridade Primaria 9o ano 12 o ano Licenciatura NAMae 2 61 134 95 103 8Pai 0 75 137 105 73 13

A analise dos diagramas em caixa apresentados na Figura 3.5 revela que o nıvel de es-colaridade dos pais parece influenciar pouco os valores do ındice de massa corporal dascriancas.

16

Figura 3.5: Diagramas em caixa do IMC por nıveis da Escolaridade da Mae e o do IMCpor nıveis de escolaridade do Pai.

IMC e Numero de horas de sono diarias

A maioria das criancas dorme entre 8 a 10 horas por dia. Pelos graficos apresentados naFigura 3.6 nota-se que o IMC possui uma mediana ligeiramente mais elevada no caso emque as criancas dormem menos de 8 horas por dia. E no agrupamento 8-10h que existecriancas com valores de IMC mais extremos.

Tabela 3.3: Frequencias observadas para a variavel Sono.

<8h 8-10h >10h NASono 64 284 52 3

Relativamente ao IMC e ao numero de horas de sono por dia por genero, observa-se quea mediana se encontra um pouco mais alta para os rapazes do que para as raparigas.

Na Figura 3.7 o grafico apresentado revela que existe uma maior percentagem de criancasobesas no grupo das que menos horas dormem por dia, sendo decrescente a percentagem decriancas obesas a medida que aumenta o numero de horas que dormem diariamente.

17

Figura 3.6: Diagramas em caixa do IMC por numero de horas de Sono por dia (a esquerda)e a mesma informacao mas separada por genero (a direita).

Numero de horas a ver televisao por dia

Pela analise da Tabela 3.4 e dos graficos apresentados na Figura 3.8 conclui-se que a maioriadas criancas via menos que 3 horas de televisao por dia (categorias 1, 2 e 3). Por outrolado, actualmente a maioria das criancas ve entre 1 e 2 horas de televisao diariamente.

Tabela 3.4: Frequencias observadas do Numero de horas a ver televisao aos 2/3 anos eagora, por dia.

<1h 1-2h 2-3h 3-4h 4-5h 5-6h >6h NATV2anos 122 116 106 34 15 1 1 8TVagora 76 187 82 37 12 4 1 4

Do grafico da direita, Figura 3.9, constata-se que cerca de 50% das criancas que ve entre5 a 6 horas de televisao por dia apresenta um IMC de 20 ou mais. Sendo este agrupamentoo que apresenta uma mediana correspondente a um IMC mais elevado. Nao e de estranharos diagramas em caixa associados ao intervalo horario > 6 horas, no grafico da esquerda, jaque apenas uma crianca, no conjunto de dados, possuiu esta caracterıstica, quer na variavelhoras a ver televisao agora quer na variavel horas a ver televisao aos 2,3 anos.

18

Figura 3.7: Grafico do numero de horas de Sono por dia e % de Obesos em cada intervalohorario.

Tabela 3.5: Frequencias observadas da variavel Numero de Horas de Exercıcio Fısico.

< 1h 1-2h 2-3h 3-4h 4-5h 5-6h > 6h NAFreq. 41 87 116 67 29 17 21 25

Numero diario de horas despendidas a jogar jogos electronicos

Pela analise dos graficos da Figura 3.10 verifica-se que a maioria das criancas joga jogoselectronicos menos de uma hora por dia. Observa-se tambem que nao existem criancas quejogam mais de 6 horas por dia.

Numero de horas a fazer exercıcio fısico por semana

Pela observacao da Tabela 3.5 constata-se que 50% das criancas praticam entre duas a treshoras, ou menos, de exercıcio fısico por semana. O histograma (a esquerda) representadona Figura 3.11 permite-nos ainda verificar que apenas cerca de 40 criancas praticam maisde 5 horas de exercıcio fısico por semana.

Os diagramas em caixa, a direita na Figura 3.11, apresentam medianas ligeiramentesemelhantes mas a dispersao do IMC e mais elevada nas criancas que praticam exercıciofısico ate 3 horas semanais.

19

Figura 3.8: Histogramas do Numero de horas a ver TV (por dia) quando tinha 2-3 anos eactualmente.

Numero de refeicoes por dia

Esta variavel, numero de refeicoes por dia, NRef, corresponde nao so as refeicoes principaismas tambem as intercalares. A informacao sobre o numero maximo de refeicoes so pode serdada em forma de intervalo, e corresponde a mais de 5 refeicoes por dia.

Tabela 3.6: Sumario do numero de refeicoes por dia.

Min 1o Q Media Mediana 3o Q NANRef 2 4 4.7 5 5 18

Pela analise da Tabela 3.6 verifica-se que 50% das criancas faz 5, ou menos, refeicoes pordia e que, em media, estas criancas fazem 4.7 refeicoes diarias.

Do histograma representado na Figura 3.12 (a esquerda) observa-se que a maioria dascriancas faz entre 4 e 5 refeicoes diariamente. Os diagramas em caixa, a direita na Figura3.12 parecem, a primeira vista, indicar que o IMC parece ser influenciado pelo numero derefeicoes apenas nas criancas que fazem duas refeicoes por dia. Mas este facto nao pode sercomprovado ja que existem apenas 3 criancas com essa caracterıstica na amostra. Verifica-se ainda uma maior dispersao nos valores do IMC para criancas que fazem 4 e 5 refeicoesdiarias.

20

Figura 3.9: Diagramas em caixa do IMC por agrupamento de Numero de horas a vertelevisao quando tinha 2-3 anos (a esquerda) e do IMC por agrupamento do Numero dehoras a ver televisao actualmente (a direita).

Tabela 3.7: Valores observados das frequencias de alguns habitos alimentares.

Nunca 1x/mes 1x/sem. 2x/sem. 3x/sem. 4x/sem. 5x/sem. Diariam. NA

FreqEntreRef 63 150 32 11 17 30 11 3 86FreqDoces 31 47 16 17 70 86 62 14 60FreqSumos 47 84 26 19 59 46 44 14 64FreqBat Fritas 30 8 5 5 26 68 120 82 64

Habitos Alimentares

Neste estudo foram considerados os seguintes habitos alimentares: come entre as refeicoes,come doces, bebe sumos e come batata frita. Todas estas variaveis sao dicotomicas (0 emcaso negativo; 1 em caso afirmativo). Para alem disso, considerou-se tambem a frequenciade cada um dos habitos alimentares referidos anteriormente.

Como se pode observar pela Tabela 3.7 e pela Figura 3.13 a maioria das criancas comeentre as refeicoes, come doces e batatas fritas e bebe sumos.

Come entre as refeicoes e frequencia

Da analise do diagrama de barras apresentado na Figura 3.14 observa-se que a maioriadas criancas come entre as refeicoes 1 vez por mes. Pela observacao do grafico da direita(Figura 3.14) nota-se que a mediana do IMC e ligeiramente mais elevada para os casos emque as criancas comem entre as refeicoes com muita frequencia (entre 3 vezes por semana ediariamente).

21

Figura 3.10: Graficos do numero diario de horas despendidas a jogar jogos electronicos.

Come doces e frequencia

O diagrama de barras apresentado na Figura 3.15 revela que a maioria das criancas comedoces 3 a 5 vezes por semana. Observando o grafico a direita, da mesma figura, nota-se queas criancas que comem doces apresentam uma mediana do IMC semelhante a das criancasque nao os comem. No entanto, existem criancas com valores de IMC mais extremos. Denotar que a crianca com maior valor de IMC pertence a categoria “nao come doces”.

Bebe sumos e frequencia

Pela observacao do grafico, a direita, na Figura 3.16 nota-se que a mediana do IMC eligeiramente mais elevada quando as criancas bebem sumos. De notar, ainda, que apesarde existirem menos criancas que nao bebem sumos a dispersao dos valores do IMC e maiordo que nas que bebem.

Come batatas fritas e frequencia

Na Figura 3.17 apresenta-se a esquerda o diagrama de barras e constata-se que, em geral,as criancas comem batatas fritas com bastante frequencia, 4 a 7 vezes por semana. Ografico a direita, nessa mesma figura, permite ainda verificar que o IMC apresenta valoresmais elevados quando as criancas comem batatas fritas.

Na Figura 3.18 apresenta-se o grafico onde se sumaria a frequencia dos habitos alimentaresconsiderados neste estudo.

22

Figura 3.11: Histograma do numero de horas de exercıcio fısico por semana (a esquerda) ediagramas em caixa do IMC por intervalo horario de exercıcio fısico (a direita).

IMC vs PHDA

O IMC e a PHDA sao as variaveis resposta que serao alvo de uma analise mais detalhadano proximo capıtulo.

O grafico representado na Figura 3.19 (a direita) permite constatar que o IMC e maiselevado quando as criancas apresentam algum tipo de PHDA, isto e, tem PHDA H, PHDAD ou PHDA C.

Na Figura 3.20 apresentam-se os varios diagramas de caixas do IMC por categoria dePHDA e genero da crianca, e mostra que as criancas com PHDA apresentam uma medi-ana de IMC mais elevada. Em particular, em criancas com PHDA, sao os rapazes quemapresenta uma mediana de IMC mais elevada.

23

Figura 3.12: Histograma do numero de refeicoes por dia (a esquerda) e diagramas em caixado IMC por numero de refeicoes por dia (a direita).

Figura 3.13: Habitos alimentares.

24

Figura 3.14: Diagrama de barras da frequencia com que come entre as refeicoes (a esquerda)e diagramas em caixa do IMC por essa frequencia (a direita).

Figura 3.15: Diagrama de barras da frequencia com que come doces (a esquerda) e diagramasem caixa do IMC por essa frequencia (a direita).

25

Figura 3.16: Grafico da frequencia com que bebe sumos e diagramas de barras IMC porBebe sumos.

Figura 3.17: Diagrama de barras da frequencia com que come batatas fritas (a esquerda) ediagramas em caixa do IMC por come batatas fritas (a direita).

26

Figura 3.18: Diagrama de barras das frequencias dos quatro habitos alimentares analisados.

Figura 3.19: Diagrama de barras da variavel PHDA categorizada em quatro nıveis e dia-gramas em caixa do IMC pelas diferentes categorias do PHDA.

27

Figura 3.20: Diagramas em caixa do IMC por categorias do PHDA e por genero.

28

3.2.2 Associacao entre variaveis

Por forma a averiguar a existencia de associacoes entre variaveis foram construıdos, ini-cialmente, diagramas de dispersao. Quando duas variaveis sao independentes, o respectivodiagrama de dispersao apresenta-se com uma mancha de pontos aleatoria ou quanto muitoum conjunto de pontos dispostos sobre uma recta horizontal. Se a relacao entre duasvariaveis for linear, o confronto de duas amostras num diagrama de dispersao deve apresen-tar um conjunto de pontos dispostos aproximadamente sobre uma recta. Em alguns casos,os desvios em relacao a recta sao mınimos, noutros casos os pontos apresentam-se bastantedispersos tornando difıcil identificar a relacao.

No presente estudo apenas existem tres variaveis para as quais fara sentido construir osdiagramas de dispersao. Assim, o peso ao nascer, o peso actual e o IMC sao as unicasvariaveis numericas em estudo, sendo que o peso actual e utilizado para determinar o IMC.Deste modo o diagrama de dispersao que interessa observar sera o diagrama de dispersaodo peso ao nascer versus o peso actual (ambos medidos em kg), ver Figura 3.21. Nestafigura destaca-se o peso exagerado (actual e ao nascer) de uma das criancas da amostraassim como uma relacao linear fraca entre essas duas variaveis.

Figura 3.21: Diagrama de dispersao do peso actual versus o peso ao nascer (kg), comdiagramas de caixas nas margens, com a linha de regressao e a linha suavizada por mınimosquadrados pesados.

Em seguida e necessario calcular as medidas de associacao, que normalmente requeremalguns pressupostos sobre o tipo de dados e o tipo de relacao entre as variaveis.

Por fim foram realizados testes de hipoteses por forma a averiguar se os valores dasmedidas de associacao observados sao significativos, ou seja, se e possıvel concluir estatisti-

29

camente a favor de uma associacao na populacao.

Medidas de associacao para dados numericos ou ordinais

Para dados numericos ou ordinais podem ser usadas varias medidas em particular o coefi-ciente de Pearson, o coeficiente de Kendall ou o coeficiente de Spearman.

Coeficiente de correlacao de Pearson

Este coeficiente de correlacao mede o grau de associacao linear entre duas variaveis me-didas numa escala de intervalos ou razoes.

Representado as amostras por X1, . . . , Xn e Y1, . . . , Yn, o coeficiente de correlacao dePearson e definido por

RP =∑n

i=1(Xi −X)(Yi − Y )√∑ni=1(Xi −X)2

√∑ni=1(Yi − Y )2

. (3.1)

Se as variaveis apresentarem uma distribuicao Normal e usual realizar um teste de hipotesespara averiguar se o coeficiente de correlacao e significativamente diferente de zero, o que sig-nifica nesse contexto que as variaveis sao independentes. Assim, consideram-se as seguinteshipoteses:

H0 : ρ = 0 vs H1 : ρ 6= 0 (3.2)

em que ρ representa o coeficiente de correlacao da populacao. Para este teste e necessarioque ambas as populacoes onde foram retiradas as amostras sejam normalmente distribuıdase que a relacao, caso exista, entre as variaveis seja linear.

O coeficiente de correlacao de Pearson para as variaveis peso actual e peso ao nascer e de20.67%.

Coeficiente de correlacao de Spearman

Se as variaveis se apresentarem medidas apenas numa escala ordinal ou apresentarem umarelacao nao linear mas monotona, ou seja, se uma aumenta a outra tem tendencia a aumentar(ou a diminuir), nao pode ser aplicado o coeficiente de Pearson, sendo nesse caso aplicado ocoeficiente de correlacao de Spearman. Mais ainda, quando existem condicoes para aplicaro coeficiente de Pearson mas nao e possıvel garantir os pressupostos da realizacao do testede hipoteses a esse coeficiente, recorre-se ao coeficiente de correlacao de Spearman.

Para a construcao deste coeficiente, consideram-se duas amostras de observacao ordenaveise substitui-se cada um dos seus valores pela sua ordem de ordenacao (rank). Feita esta subs-

30

tituicao o coeficiente de Spearman corresponde ao coeficiente de Pearson aplicado aos ranks.

Note-se que se a relacao entre as variaveis originais for monotona, a relacao entre os rankse necessariamente linear sendo assim possıvel calcular o coeficiente de correlacao de Pearson.

O coeficiente de correlacao de Spearman pode ser definido da seguinte forma:

RS = 1−6∑n

i=1D2i

n3 − n(3.3)

onde Di denota a diferenca de ranks correspondentes a cada par de observacoes (Xi, Yi) euma vez que as ordens variam entre 1 e o numero de observacoes, n.

Analogamente ao coeficiente de Pearson, e possıvel testar as hipoteses

H0 : ρ = 0 vs H1 : ρ 6= 0 (3.4)

No entanto, um coeficiente nulo nao implica independencia total. Assim, este teste e uti-lizado por forma a averiguar se a associacao (isto e, uma correlacao nao nula) entre asvariaveis e, ou nao, significativa.

Assim, aplicando este coeficiente a correlacao entre o peso actual e o peso ao nascer e de11.56%.

Coeficiente de correlacao de Kendall

Alternativamente ao coeficiente de correlacao de Spearman, acima descrito, pode-se uti-lizar o coeficiente de correlacao de Kendall.

Comparativamente ao coeficiente descrito anteriormente, este apresenta resultados maisprecisos no caso de amostras com dimensao muito reduzida e valores repetidos e pode sergeneralizado para correlacoes parciais (que sao correlacoes medidas entre duas variaveisapos remocao do efeito de uma possıvel terceira variavel sobre ambas). Embora o objectivodestes dois coeficientes seja o mesmo (medir a associacao), a forma de o fazer e distinta poisa interpretacao destes dois coeficientes (Kendall e Spearman) e bastante diferente e nao epossıvel comparar directamente valores provenientes de ambos.

Em geral, o coeficiente de correlacao de Kendall e definido como uma medida de con-cordancia entre dois conjuntos de classificacoes relativas a um conjunto de objectos ouexperiencias.

T =#concordancias−#discordanciasnumero total de pares possiveis

(3.5)

31

Neste contexto, o conceito de concordancia nao equivale a classificacoes iguais em ambos osavaliadores, mas sim qualquer par que aponte num sentido comum de classificacao. Destemodo, por forma a determinar o numero de concordancias e necessario ordenar as classi-ficacoes de acordo com um dos avaliadores e a partir daı contar os pares que vao no mesmosentido. Por fim, o denominador do coeficiente de Kendall toma o valor n(n−1)

2 onde n

representa o numero de objectos classificados.

Geralmente, e devido a sua interpretacao, este coeficiente e usado para avaliar a fiabilidadede observacoes obtidas por diferentes avaliadores ou instrumentos de medida. Assim, nestecaso, nao fara sentido aplicar este coeficiente.

Por forma a finalizar esta analise foi calculada a matriz de correlacao das variaveis pesoao nascer, peso actual e IMC:

Figura 3.22: Matriz de graficos de dispersao com indicacao do coeficiente de correlacao dePearson para as variaveis indicadas.

Com base na matriz de graficos de dispersao das 3 variaveis numericas em estudo, talcomo se esperava, o IMC apresenta uma forte correlacao com o Peso Actual ja que o IMCe calculado com base neste. Por outro lado, as variaveis peso actual e peso ao nascerapresentam tambem alguma correlacao positiva ainda que pouco evidente.

Medidas de associacao para dados categoricos

Para averiguar possıveis associacoes entre variaveis categoricas e necessario construir asrespectivas tabelas de contingencia. A partir de cada uma dessas tabelas e possıvel calcularuma estatıstica a partir da qual pode-se realizar um teste de hipoteses, denominado teste do

32

qui-quadrado, χ2 (para averiguar se as variaveis sao ou nao independentes) com as seguinteshipoteses:

H0 : as variaveis sao independentes vs H1 : as variaveis sao dependentes (3.6)

Assim, sendo valor-p o maior nıvel de significancia que leva a nao rejeicao de H0 (as variaveissao independentes), rejeita-se H0 para valores-p abaixo do nıvel de significancia considerado.Os nıveis de significancia usuais sao 1%, 5% e 10%.

Obtiveram-se entao os resultados apresentados na Tabela 3.8.

Tabela 3.8: Testes de independencia para a PHDA e para o IMC e as restantes variaveisem estudo.

PHDA1 IMCVariavel χ2 valor-p χ2 valor-pIMC (Binario) 0.3234 0.5696 - -Idade 2.4058 0.3003 0.1021 0.9503Genero 0.2597 0.6103 0.0869 0.7681PesoNasc 3.5094 0.8342 3.5345 0.8316Mae 6.2658 0.1802 3.4356 0.4877Pai 2.9774 0.3951 2.3251 0.5077NRapaz 1.938 0.8577 3.936 0.5587NRapariga 5.3721 0.3722 1.5229 0.9104Nirmaos 7.0134 0.4275 5.1732 0.6388Sono 1.8525 0.396 1.9674 0.3739TV2anos 1.2477 0.9745 9.2707 0.0987TVagora 7.4824 0.2785 5.5888 0.3483Jogar 2.7873 0.7327 6.8553 0.2316ExFisico 15.232 0.0185 9.0890 0.1686NRef 1.8755 0.7586 2.3367 0.6741ComeEntreRef 0.0110 0.9163 0.3504 0.5539FreqEntreRef 3.2717 0.8588 6.2456 0.5114ComeDoces 0.0634 0.8011 0.1416 0.7067FreqDoces 6.2725 0.5083 20.3227 0.0049BebeSumos 0.0606 0.8055 0.0503 0.8225FreqSumos 6.5813 0.4737 3.5244 0.8326ComeBatFrita 0.0222 0.8815 1.1159 0.2908FreqBFrits 6.7439 0.3452 3.0562 0.8018

No caso da PHDA, para todas as variaveis, excepto para a variavel Exercıcio Fısico, naoha evidencias suficientes para rejeitar a hipotese nula. Para a variavel Exercıcio Fısico, paraos nıveis de significancia 5% e 10% parecem existir evidencias para rejeitar a hipotese deindependencia (H0) com a variavel PHDA.

33

Para a variavel binaria IMC, as variaveis relativas ao numero de horas que a criancavia televisao quando tinha 2 ou 3 anos e a frequencia com que a crianca ingere docesparecem apresentar evidencias para se rejeitar a hipotese nula e, desta forma, concluir a favorda dependencia destas variaveis. Relativamente as restantes variaveis, nao ha evidenciassuficientes para rejeitar a hipotese nula.

34

Capıtulo 4

Modelos de Regressao Logıstica

Os modelos de regressao constituem uma das ferramentas estatısticas mais importantes naanalise estatıstica de dados quando o objectivo e modelar relacoes entre variaveis. O prin-cipal objectivo destes modelos e explorar a relacao entre uma ou mais variaveis explicativas(ou independentes) e uma variavel resposta (ou dependente). Esta relacao pode ser umafuncao linear ou nao linear. A variavel resposta pode ser do tipo contınuo ou discreto,estando o tipo de modelo de regressao dependente da natureza desta variavel. Os modelosde regressao mais usados sao os de regressao linear, no caso em que a variavel dependente econtınua, e o modelo de regressao logıstica, quando a variavel dependente e do tipo discreta(em geral, binaria ou dicotomica).

A regressao logıstica e uma tecnica estatıstica que tem como objectivo modelar, a par-tir de um conjunto de observacoes, a relacao entre uma variavel resposta discreta (emgeral, esta variavel e categorica mas naturalmente discretizavel), a partir de uma seriede variaveis explicativas numericas (contınuas, discretas) e/ou categoricas. Na pratica,situacoes que envolvem variaveis resposta do tipo categorico sao bastante comuns. Osmode los de regressao logıstica tem vindo a ser aplicados com bastante sucesso na analise deestudos epidemiologicos. Apesar desta ter sido a area original da aplicacao destes modelos,hoje em dia encontram-se referencias da sua utilizacao nas mais variadas areas da ciencia,tais como, financas (Walkling, 1985), educacao (Duchesne, 2003), criminologia (Weisburd eBritt, 2007) e engenharia (Khoshgoftaar e Allenedward, 1999).

Analogamente a regressao linear, os modelos dizem-se de regressao logıstica simples seenvolvem apenas uma variavel explicativa e de regressao logıstica multipla quando estaopresentes no modelo mais do que uma variavel explicativa. Para alem dessas designacoestambem se dividem estes modelos em regressao logıstica dicotomica (a variavel resposta ebinaria) e politomica (quando a variavel resposta possui mais do que duas categorias).

No presente trabalho sera aplicado inicialmente o modelo de regressao logıstica multiplacom a variavel resposta (IMC) dicotomica (obeso e nao obeso) e, em seguida, o modelode regressao politomica para explorar essa relacao quando se considera a variavel resposta(IMC) dividida em 4 categorias: baixo peso, peso normal, excesso de peso e obesidade.

35

Na seccao seguinte e introduzido o modelo de regressao logıstica simples por forma aclarificar alguns conceitos iniciais.

4.1 Modelo de Regressao Logıstica Simples

Considere-se uma variavel X, explicativa, e uma variavel resposta binaria, Y , tomando osvalores 0 ou 1 com probabilidades π e 1 − π, respectivamente. Assim, Y e uma variavelaleatoria com distribuicao Bernoulli com E[Y ] = π. Pode-se entao escrever o modelo deregressao logıstica simples da seguinte forma:

Yi = E[Y |xi] + εi (4.1)

Como a distribuicao do termo do erro εi depende da distribuicao Bernoulli de Yi, e maisapropriado enunciar o modelo de regressao logıstica do seguinte modo. Sejam Yi variaveisaleatorias independentes com distribuicao Bernoulli e com valores esperados E[Y |xi] = πi,em que:

E[Y |xi] = π(xi) = πi =eβ0+β1xi

1 + eβ0+β1xi(4.2)

onde β0 e β0 sao parametros desconhecidos e as observacoes X sao assumidas como cons-tantes. Alternativamente, se a variavel explicativa X e aleatoria, E[Y |X = xi] e visto comoum valor medio condicional, dado o valor de X = xi.

Apesar de varias funcoes terem sido propostas para modelos com respostas dicotomicassao as funcoes logısticas eβ0+β1xi

1+eβ0+β1xi, as mais usadas e daı o nome do modelo. Estas funcoes

possuem propriedades importantes quer do ponto de vista matematico (podem, por exemplo,ser linearizadas) quer do ponto de vista de interpretacao.

Uma transformacao fulcral no estudo dos modelos de regressao logıstica e a transformacaologit, que se define como:

π∗i = ln

[πi

1− πi

]= β0 + β1Xi. (4.3)

Esta transformacao assume especial importancia pois o modelo com esta transformacaopossui diversas propriedades do modelo de regressao linear. A funcao logit, π∗, e linear nosparametros, pode ser contınua e os seus valores podem variar em R. A razao π(.)

1−π(.), na

transformacao logit, da-se o nome de Odds (termo anglo-saxonico) ou Chance.

36

Suponha-se que se tem uma amostra seleccionada aleatoriamente constituıda por n paresde observacoes (xi, Yi), i = 1, 2, . . . , n, onde Yi indica o valor de uma variavel respostabinaria e xi o valor da variavel explicativa para a i-esima prova. Para alem disso, assuma-seque a variavel resposta foi codificada em 0 ou 1, representando a ausencia ou a presenca dacaracterıstica de interesse, respectivamente.

A estimacao dos parametros do modelo (4.2) e usualmente feita usando o metodo damaxima verosimilhanca1. Na seccao seguinte sera descrito como se processa a estimacaodos parametros por esse metodo.

4.2 Regressao Logıstica Multipla

4.2.1 Modelo de Regressao Logıstica Multipla

Em problemas de regressao logıstica e, muitas vezes, necessario dispor de mais do queuma variavel explicativa (ou independente) para obter um modelo mais adequado. Nessescasos esta-se perante o modelo de regressao logıstica multipla. Este e uma generalizacao domodelo de regressao logıstica simples a mais do que uma variavel independente, podendoestas tomar diferentes escalas de mensuracao.

No modelo de regressao logıstica multipla sao utilizadas p − 1 variaveis independentes,onde p > 2. Em extensao ao modelo de regressao logıstica simples, o logit do modelo e dadopor β0 +β1X1 + ...+βp−1Xp−1. Para simplificar as formulas, recorre-se a notacao matricial:

β =

β0

β1

...βp−1

X =

1X1

X2

...Xp−1

Xi =

1Xi1

Xi2

...Xi,p−1

,

O vector β(p × 1) e o vector de parametros, o segundo vector, X(p × 1), refere-se ao vectorde variaveis independentes e o vector de variaveis independentes para a i-esima observacaoe denotado por Xi(p × 1).

Tem-se entao:

X′β = β0 + β1X1 + ...+ βp−1Xp−1

X′iβ = β0 + β1Xi,1 + ...+ βp−1Xi,p−1,1Outros metodos possıveis sao: mınimos quadrados pesados nao iterativos e analise discriminante.

37

onde X′ denota a transposta de X.

Assim, o modelo (4.2) estende-se ao modelo de regressao logıstica multipla da seguinteforma:

E[Y |X] = π(X) =eβ0+β1X1+...+βp−1Xp−1

1 + eβ0+β1X1+...+βp−1Xp−1=

eX′β

1 + eX′β

=1

1 + e−X′β. (4.4)

Do mesmo modo, a transformacao logit, π∗ = ln(

π1−π

)conduz a funcao logit :

π∗ = ln

[π

1− π

]= X′β. (4.5)

Contudo, se algumas das variaveis independentes forem categoricas, sera inadequado in-cluir no modelo estas variaveis da mesma forma que se inclui as variaveis numericas pois osnumeros que representam cada categoria sao meramente identificadores, nao tendo qualquersignificado numerico. Deste modo, utiliza-se um conjunto de variaveis designadas indica-trizes ou dummy variables. Estas codificam as m categorias de uma variavel categorica emm− 1 variaveis indicatrizes, que apenas tomam valores 0 e 1. Considere-se agora a j-esimavariavel independente, Xj , e suponha-se que esta e composta por mj categorias. Assim, ologit para um modelo que contenha p− 1 variaveis onde a j-esima e discreta sera da forma:

π∗ = β0 + β1X1 + ...+mj−1∑i=1

βjiDji + ...+ βp−1Xp−1, (4.6)

onde as mj − 1 variaveis indicatrizes sao denotadas por Dji e βji refere-se aos coeficientesdessas variaveis, com i = 1, 2, ...,mj − 1.

No que se segue e, em geral, suprimida a informacao de que tipo de variavel se esta ausar.

4.2.2 Ajustamento do Modelo

Considere-se uma amostra de n observacoes independentes do par (Xi, Yi) com i = 1, 2, ..., n,em que Yi refere-se ao valor da variavel dicotomica no i-esimo caso e Xi representa o vectorde variaveis independentes do i-esimo caso.

Tal como para a regressao logıstica simples, considera-se o metodo de maxima verosimi-lhanca para estimar os parametros. Para este caso, o ajuste do modelo requer a estimacaodo vector de parametros β = (β0, β1, ..., βp−1).

38

Como cada Yi e uma variavel aleatoria com distribuicao Bernoulli vem

P (Y = 1|X = xi) = π(xi) = πi e P (Y = 0|X = xi) = 1− π(xi) = 1− πi, (4.7)

logo para um par (xi, yi) a sua contribuicao para a funcao de verosimilhanca e

fi(yi) = π(xi)yi(1− π(xi))1−yi = πyii (1− πi)1−yi , (4.8)

onde a variavel dependente, Yi, toma os valores 0 ou 1, reportando a ausencia ou presenca dacaracterıstica de interesse, respectivamente. Note-se que fi(1) = πi e fi(0) = 1− πi. Logo,a funcao fi(yi) representa apenas a probabilidade de Y = 1 ou Y = 0, condicionalmente aX = xi.

Assim, a funcao de verosimilhanca e da forma

L(β|(x,y)) =n∏i=1

fi(yi) =n∏i=1

πyii [1− πi]1−yi . (4.9)

As estimativas de maxima verosimilhanca de β, denotadas por β sao:

β = arg maxβ

L(β|(x,y)). (4.10)

O processo de maximizacao torna-se, matematicamente, mais facil se se usar a funcao delog-verosimilhanca, que e dada por:

lnL(β|(x,y)) = logn∏i=1

πyii [1− πi]1−yi

=n∑i=1

[yi ln πi + (1− yi) ln (1− πi)]

=n∑i=1

[yi ln

[πi

1− πi

]+ ln[1− πi]

]

=n∑i=1

[yiπ∗ + ln[1− πi]]

=n∑i=1

[yiX′iβ − ln[1 + eX′iβ]].

(4.11)

39

Por forma a encontrar os valores de β0, β1, ..., βp−1 que maximizam lnL(β|(x,y)) diferencia-se a funcao log-verosimilhanca em funcao dos p coeficientes e igualam-se essas expressoes azero. Assim, as p equacoes de verosimilhanca que se obtem da diferenciacao de (4.11) sao

n∑i=1

[yi − πi] = 0 e

n∑i=1

xij [yi − πi] = 0 para j = 1, 2, ..., p− 1, (4.12)

respectivamente para β0 e para cada um dos βi com i = 1, 2, ..., p− 1 parametros.

Para alguns coeficientes do vector β, as equacoes (4.12) nao sao lineares. Deste modo enecessario recorrer a metodos numericos (iterativos) de resolucao, estes metodos encontram-se disponıveis nos varios softwares onde a regressao logıstica esta implementada.

A estimativa de maxima verosimilhanca, isto e, o valor de β obtido pela maximizacao dafuncao de verosimilhanca, sera denotado por

β =

β0

β1

...ˆβp−1

,

a funcao logıstica ajustada e os respectivos valores ajustados podem ser expressos daseguinte forma:

π =eX′ ˆβ

1 + eX′ ˆβ

= [1 + e−X′ˆβ]−1, (4.13)

πi =eX′i

ˆβ

1 + eX′i

ˆβ= [1 + e−X′i

ˆβ]−1 (4.14)

ondeX′β = β0 + β1X1 + ...+ βp−1Xp−1 (4.15)

eX′iβ = β0 + β1Xi1 + ...+ βp−1Xi,p−1. (4.16)

Por uma questao de simplificacao de notacao nao se fara distincao, na notacao, entreestimador e estimativa, espera-se que fique claro a partir do contexto.

Para estimar as variancias e as covariancias dos estimadores dos coeficientes recorre-se a teoria de estimacao de maxima verosimilhanca, em particular, usando a matriz dassegundas derivadas da funcao ln L(β|(x,y)) obtem-se os estimadores para a variancia e para

40

a covariancia dos estimadores dos coeficientes do modelo. Assim, para j, l = 0, 1, 2, ..., p−1,tem-se

∂2ln L(β|(x,y))∂β2

j

= −n∑i=1

x2ijπi(1−πi) e

∂2ln L(β|(x,y))∂βj∂βl

= −n∑i=1

xijxilπi(1−πi). (4.17)

Considere-se agora a matriz (p× p) de informacao de Fisher, I(β), que contem os valoresnegativos dos termos dados pelas equacoes (4.17). Da inversa da matriz de informacaode Fisher obtem-se as variancias e as covariancias dos estimadores dos coeficientes, isto e,V ar(β) = Σ(β) = I−1(β). Em geral, nao e possıvel obter uma expressao explıcita para oselementos da matriz Σ(β), e e necessario usar a matriz dos estimadores para as varianciase para as covariancias de β, a matriz e denotada por s = Σ = [sij ] = [sβi, βj].

No seguimento deste trabalho, e util definir a matriz de informacao de Fisher estimada porI−1(β) = X

′WX em que X e uma matriz n× p composta pelos n vectores de observacoes

e W e a matriz diagonal n× n com elementos comuns em cada entrada, πi(1− πi). Assim,a matriz X e definida da seguinte forma:

X =

1 x11 . . . x1p

1 x21 . . . x2p

......

......

1 xn1 . . . xnp−1

, (4.18)

e a matriz W e dada por

W =

π1(1− π1) 0 . . . 0

0 π2(1− π2) . . . 0. . .

0 0 . . . πn(1− πn)

. (4.19)

4.2.3 Regressao Logıstica Polinomial

Em certas situacoes praticas, o modelo logıstico (4.4), que e usualmente referido comomodelo de 1a ordem, pode nao ser adequado para o ajustamento dos dados e podera sernecessario um modelo mais complexo. Um dos modelos possıveis e o modelo de regressaologıstica polinomial de ordem k, com funcao logit :

π′(x) = β0 + β11x+ β22x2 + ...+ βkkx

k

41

onde x denota a variavel explicativa centrada, x− x.

De referir tambem que outros modelos de regressao logıstica sao tambem possıveis deajustar, nomeadamente incluindo efeitos de interaccao (ver, por exemplo, Kutner et al.2005)

4.3 Inferencias sobre os parametros de regressao

Frequentemente e interessante determinar se um dado subconjunto de variaveis indepen-dentes pode ser omitido do modelo. Testar a significancia dos coeficientes associados asvariaveis independentes consiste em verificar se o modelo que inclui essas variaveis trans-mite mais informacao sobre a variavel resposta do que um modelo que nao as inclua. Emgeral, para averiguar a significancia dessas variaveis compara-se os valores observados comos valores esperados (preditos) para a variavel resposta para cada um dos dois modelos. Nocaso dos valores esperados serem mais precisos na presenca dessas variaveis no modelo (poroposicao ao caso em que os valores esperados sao mais precisos na ausencia dessas variaveis)pode-se confirmar a significancia das variaveis.

Os procedimentos de inferencia que sao apresentados em seguida contam com amostras degrande dimensao. Assim, para amostras grandes, sob condicoes normalmente aplicadas, osestimadores de maxima verosimilhanca para os coeficientes do modelo de regressao logısticasao aproximadamente normalmente distribuıdos, com um pequeno, ou sem, enviesamento, ecom variancias e covariancias aproximadas que sao funcoes das segundas derivadas parciaisdo logaritmo da funcao de verosimilhanca. Em particular, seja G a matriz (p × p) dasderivadas parciais de segunda ordem da funcao (4.18). Assim, G = [gij ] com i =0, 1, ..., p− 1 e j = 0, 1, ..., p− 1, onde,

gii = ∂2lnL(β)∂β2i

e gij = ∂2lnL(β)∂βi∂βj

.

Quando as derivadas parciais de segunda ordem de G sao avaliadas em β = β, ou seja,na estimativa de maxima verosimilhanca, o estimador aproximado da matriz de varianciase covariancias da regressao dos coeficientes estimados para a regressao logıstica pode serobtido como se segue:

s2β = ([−gij ]β=ˆβ

)−1. (4.20)

Tanto para os modelos de regressao logıstica simples (4.2) como para os modelos de regressaologıstica multiplo (4.11), as inferencias sobre os coeficientes da regressao sao baseadas no

42

seguinte resultado, aproximado:

βk − βksβk

a∼N(0, 1) k = 0, 1, ..., p− 1 (4.21)

onde N(0, 1) denota a distribuicao normal padrao e sβk e o estimador aproximado dodesvio padrao de βk obtido de 4.20.

Teste de Wald

Este teste pode ser definido no caso univariado e no caso multivariado e permite testara significancia de um ou mais coeficientes, respectivamente. Deste modo, o teste de Waldaverigua se uma variavel independente apresenta uma relacao estatisticamente significativacom a variavel dependente. Assim, o teste para um dado parametro da regressao, β, emgrandes amostras, pode ser construıdo baseado em (4.21). Deste modo, para as hipoteses:

H0 : βk = 0

H1 : βk 6= 0.

Uma estatıstica de teste apropriada sera, sob H0

TH0 =|βk|sβk

a∼SobH0

N(0, 1). (4.22)

E a regra de decisao, quando se fixa um nıvel de significancia, α, sera:

Se T ∗H0≤ Φ−1(1− α/2), nao rejeitar H0

Se T ∗H0> Φ−1(1− α/2), rejeitar H0,

onde t0 representa o valor observado da estatıstica de teste, sob H0, e Φ−1(1− α/2) repre-senta o quantil de probabilidade 1− α/2 da distribuicao normal padrao.

Estimacao do intervalo de confianca a (1− α)× 100% para um βk

A partir de 4.21 deduzem-se facilmente os limites aproximados de confianca (1−α)×100%para βk, vindo

βk ± Φ−1(1− α/2)sβk. (4.23)

43

Teste da razao de verosimilhancas

O teste da razao de verosimilhanca e baseado na comparacao entre modelos reduzidose modelos completos. Este teste e valido na presenca de amostras de grande dimensao epermite testar simultaneamente se varios coeficientes de regressao βk sao nulos. Em primeirolugar, considere-se o modelo de regressao logıstico completo ou saturado, C, ou seja, ummodelo que contem todas as variaveis independentes, com funcao resposta:

πC = [1 + e−X′βC ]−1 (4.24)

onde X′βC = β0 + β1X1 + . . . + βp−1Xp−1. Em seguida encontram-se os estimadores demaxima verosimilhanca de βC para o modelo completo, denotada por βC . Denota-se afuncao de verosimilhanca do modelo completo por L(C).

Se as hipoteses que se pretendem testar sao:

H0 : βq = βq+1 = · · · = βp−1 = 0

H1 : ∃k∈q,q+1,...,p−1 : βk 6= 0,

onde o modelo sem as p − q variaveis a serem testadas se denomina modelo de regressaologıstica reduzido (R). Assim, o modelo de regressao logıstica reduzido apresenta a funcaoresposta:

πR = [1 + e−X′βR ]−1 (4.25)

onde X′βR = β0 + β1X1 + . . .+ βq−1Xq−1.

Analogamente, para o modelo reduzido obtem-se a estimativa de maxima verosimilhancaβR. L(R) denota a funcao de verosimilhanca para o modelo de regressao logıstica reduzido.

Assim, a estatıstica de teste para o teste da razao de verosimilhancas, DEV , sob H0, edada por:

DEV = −2ln[L(R)L(C)

]= −2[lnL(R)− lnL(C)] (4.26)

Em geral, a estatıstica de teste DEV e denominada de Desvio (Deviance). Note-se quequanto menor for a razao L(R)

L(C) melhor e o modelo ajustado pois esta mais proximo domodelo completo, ou seja, quanto menor for o valor do desvio, melhor e o modelo ajustado.Assim, valores elevados de DEV sao consistentes com a hipotese H1. Mais ainda, sob a

44

hipotese H0 de que os p−q coeficientes do modelo sao nulos e para uma amostra de dimensaon suficientemente grande, DEV distribui-se aproximadamente segundo um Qui-Quadradocom p − q graus de liberdade. Deste modo, dado um nıvel de significancia α fixo, a regrade decisao e:

Se DEV ≤ χ2p−q(1− α), entao nao se deve rejeitar H0.

Se DEV > χ2p−q(1− α), entao deve-se rejeitar H0,

onde χ2p−q(1−α) representa o quantil de probabilidade (1−α) de um Qui-Quadrado com p−q

graus de liberdade. Se a hipotese nula nao e rejeitada, existem evidencias para concluir quetodos os p− q coeficientes sao nulos. Por outro lado, se H0 for rejeitada existem evidenciaspara se concluir que pelo menos um dos p− q coeficientes e diferente de zero.

Se uma ou mais variaveis do modelo for categorica, e necessario ter especial atencao ask categorias de cada variavel, uma vez que sao geradas k − 1 variaveis indicatrizes. Destemodo, ao testar a significancia desta variavel, pelo teste da razao de verosimilhanca, seraoexcluıdos k − 1 graus de liberdade. Mais ainda, apenas se considera a variavel categoricasignificativa quando as suas k − 1 variaveis indicatrizes forem significativas. No caso emque apenas uma das k − 1 variaveis e significativa nada se pode concluir relativamente acontribuicao da variavel categorica no modelo.

4.4 Interpretacao dos coeficientes

Nas seccoes anteriores descreveram-se metodos para ajustar e testar a significancia do mode-lo de regressao logıstica. Uma vez ajustado o modelo e apos avaliar a significancia doscoeficientes estimados, e agora necessario interpretar os seus valores. Esta interpretacaopode estar relacionada, por um lado, com a relacao que existe entre a variavel resposta ecada uma das variaveis independentes e, por outro lado, com a interpretacao de qual dascategorias da variavel independente se relaciona melhor com a variavel resposta. Assim,para a interpretacao dos coeficientes na regressao logıstica, e necessario saber que funcaoda variavel dependente se relaciona de forma linear com as variaveis independentes que, emparticular, neste tipo de modelos de regressao e a ja definida transformacao logit (4.6). Emseguida expoe-se esta interpretacao que tera de ser feita de forma distinta tendo em contaa natureza das variaveis independentes.

Variavel independente dicotomica

Quando Xj , j-esima variavel independente, e codificada de 0 ou 1 a interpretacao do

45

coeficiente associado a Xj pode ser feita usando a razao das chances (odds ratio), w (definidaem seguida). Assim, o objectivo consiste em interpretar o coeficiente associado a Xj . Parao modelo considerado existem dois valores possıveis para π e para 1− π.

Os valores do modelo de regressao logıstica quando a variavel independente e dicotomicasao dados por:

Para a variavel resposta nula (Y = 0)

Se Xj = 0, tem-se 1− πj0 = 1

1+eπ∗j0

Se Xj = 1, tem-se 1− πj1 = 1

1+eπ∗j1

Para a variavel resposta unitaria (Y = 1)

Se Xj = 0, tem-se πj0 = eπ∗j0

1+eπ∗j0

Se Xj = 1, tem-se πj1 = eπ∗j1

1+eπ∗j1

Onde πj0 e πj1 sao as funcoes logısticas quando os vectores de observacao tomam val-ores 0 e 1 na j-esima posicao, respectivamente, isto e, Xj0 = (X1, X2, . . . , 0, . . . , Xp−1) eXj1 = (X1, X2, . . . , 1, . . . , Xp−1), e π∗ij , analogo de π∗ definido em (4.5), ou seja, o logit, oulogaritmo das chances, e:

π∗j0 = ln[

πj01−πj0

]e π∗j1 = ln

[πj1

1−πj1

].

Tal como ja foi referido anteriormente, a razao entre a probabilidade de sucesso e deinsucesso denomina-se por odds ou chances. Deste modo, as chances sao de πj0

1−πj0 paraXj = 0 e πj1

1−πj1 para Xj = 1.

O quociente entre as chances, doravante denotado por w, e o denominado odds ratio ourazao de chances. Assim, w e dado por:

w(1, 0) =πj1

1−πj1πj0

1−πj0. (4.27)

Em particular, aplicando o logaritmo a razao de chances, o que se denomina por log-chances ou log-odds, obtem-se a diferenca de logits, isto e:

46

ln(w(1, 0)) = ln

( πj11−πj1πj0

1−πj0

)= ln

(πj1

1− πj1

)− ln

(πj0

1− πj0

)= π∗j1 − π∗j0. (4.28)

Substituindo agora as expressoes vistas anteriormente para os valores do modelo deregressao logıstica quando a variavel independente e dicotomica na razao de chances, verifica-se que esta pode ser definida por:

w(1, 0) =

(eπ∗j1

1+eπ∗j1

)(1

1+eπ∗j0

)(

1

1+eπ∗j1

)(eπ∗j0

1+eπ∗j0

) =eπ∗j1

eπ∗j0

= eβj . (4.29)

Logo, para a variavel Xj dicotomica tem-se que a razao de chances e dada por eβj .

A razao de chances e uma forma de comparar se a probabilidade de determinado acontec-imento e a mesma para, por exemplo, dois grupos. Esses grupos podem ser, por exemplo,amostras de pessoas com ou sem uma doenca, homens e mulheres, tratados e nao tratados,etc. Esta razao (de chances) e uma medida de associacao que aproxima o quanto maisprovavel (ou improvavel) e para a variavel resposta estar presente quando Xj = 1 (ouXj = 0).

O estimador da razao de chances e simplesmente w = eβj e, em geral, tem uma distribuicaoassimetrica. No entanto, para amostras suficientemente grandes, a distribuicao de w podeser aproximada por uma distribuicao normal. Muitas vezes, as inferencias baseiam-se nadistribuicao de ln(w) = βj pois esta tende a ter distribuicao aproximadamente normal paraamostras mais pequenas. Desta forma, calculando os limites de confianca para o coeficienteβj e, em seguida, fazendo a exponencial desses limites, obtem-se o intervalo de confianca paraa razao de chances. Assim, o intervalo de confianca bilateral aproximado a (1− α)× 100%de confianca para w e definido por:

IC(1−α)100%(w) ∼=[eβj±Φ−1(1−α

2)×s(β)

]. (4.30)

Variavel independente politomica

Considera-se agora uma variavel independente politomica, isto e a variavel tem m >

2 valores possıveis, numa escala de medicao discreta. Nesta situacao pode proceder-sea criacao de um conjunto de mj − 1 variaveis indicatrizes, Dij , que representam as mj

categorias da variavel politomica Xj , tendo-se assim:

47

Xj =mj−1∑i=1

βijDij . (4.31)

Designe-se por Ci a i-esima categoria da variavel aleatoria Xj . Em geral, representam-seas m− 1 variaveis indicatrizes como se descreve em seguida:

Categoria da Valores das variaveis indicatrizesvariavel Xj D1 D2 . . . Dm−1

C1 0 0 . . . 0C2 1 0 . . . 0C3 0 1 . . . 0...

......

. . ....

Cm 0 0 . . . 1

Uma vez que a variavel independente e politomica e necessario considerar uma catego-ria como o grupo de referencia, em que o valor da razao de chances e igual a 12. Assim,considere-se que a categoria C1 e o grupo de referencia, pode-se entao comparar uma qual-quer categoria Ck, com k = 2, . . . ,m, com a categoria de referencia, C1, obtendo-se oseguinte estimador:

ln[ w(Ck, C1)] = π∗(Ck)− π∗(C1)

= βjk,(4.32)

ondeπ∗(Ck) = [β0 + βj1 × 0 + . . .+ βjk × 1 + . . .+ βj,m−1 × 0]

eπ∗(C1) = [β0 + βj1 × 0 + . . .+ βjk × 0 + . . .+ βj,m−1 × 0].

Conclui-se, entao, que o estimador da razao de chances para a categoria Ck da variavelaleatoria j e eβjk . E os correspondentes limites aproximados a (1−α)× 100% de confiancapara a razao de chances sao dados por:

IC(1−α)×100%(w) ∼=[eβjk±Φ−1(1−α

2)×s(βjk)

]. (4.33)

2Existe outra abordagem que nao a celula (grupo) de referencia, por exemplo, a denominada media decelulas (codificacao do desvio das medias) (ver, por exemplo, Hosmer e Lemeshow 2001)

48

Variavel independente contınua

A interpretacao do coeficiente estimado quando um modelo de regressao logıstica contemuma variavel independente contınua depende da forma como essa variavel entrou no modeloe da unidade dessa variavel. A equacao da funcao logit define-se como se viu em (4.6); porsimplicidade, assuma-se que a funcao logit desta variavel e linear. Considere-se Xk, comk = 1, 2, . . . , p−1, uma variavel independente. Deste modo, o coeficiente βk define a variacaoda funcao log-chances quanto ao aumento de uma unidade em Xk, ou seja,

βk = π∗(X1, . . . , Xk + 1, . . . , Xp−1)− π∗(X1, . . . , Xk, . . . , Xp−1). (4.34)

Assim, atraves da diferenca entre logits obtem-se uma variacao de c unidades em Xk nafuncao log-chances, ou seja,

c× βk = π∗(X1, . . . , Xk + c, . . . ,Xp−1)− π∗(X1, . . . , Xk, . . . , Xp−1). (4.35)

Mais ainda, tem-se que a razao de chances associada e obtida atraves da exponencial dadiferenca de logits, isto e,

ec×βk = w(Xk + c,Xk) = w(c). (4.36)

Substituindo βk por βk obtem-se o respectivo estimador da razao de chances. O intervalode confianca aproximado (1− α)× 100% para w(c) e dado por:

IC(1−α)×100%(w(c)) ∼=[ecβk±Φ−1(1−α

2)×c×s(βk)

]. (4.37)

4.5 Metodos de seleccao de modelo

Em geral, para a construcao de um modelo estatıstico procura-se minimizar o numero devariaveis, de forma a que estas ainda expliquem bem a variacao dos dados. Se em variassituacoes esta questao nao se coloca, ha outras em que e fundamental escolher o modeloque inclui o menor numero de variaveis de forma a que esse modelo seja interpretavel enumericamente estavel.

Deste modo, os metodos de seleccao foram desenvolvidos para identificar um numeropequeno de modelos suficientemente bons de acordo com determinados criterios. Existemduas questoes relacionadas com a seleccao do modelo, o criterio (isto e, qual a medida de

49

avaliacao de cada modelo) e o algoritmo de seleccao (isto e, qual o procedimento para aavaliacao dos varios modelos possıveis). Nas seccoes seguintes descrevem-se varios criteriose procedimentos comumente usados na seleccao do modelo.

4.5.1 Criterios para a seleccao do modelo

Para cada conjunto de p − 1 variaveis explicativas, podem ser construıdos 2p−1 modelospossıveis, ja que cada variavel pode ser incluıda ou excluıda no modelo. Considere-se P − 1o numero de potenciais variaveis X do modelo e o numero de variaveis X num subconjuntoe denotado por p − 1, deste modo, existem p parametros na funcao de regressao para estesubconjunto de X variaveis. Logo, tem-se 1 ≤ p ≤ P .

De modo a seleccionar o melhor modelo foram considerados os seguintes criterios: Cp,AICp e SBCp (ou BIC). Estes sao descritos em seguida.

Cq de Mallow ou Cp

O criterio Cq e uma medida do erro quadrado preditivo. Em particular, para um subcon-junto de q de p− 1 variaveis 3

Cq =X2 + λ∗

X2/(n− p)+ 2(q + 1)− n, (4.38)

onde X2 =n∑i=1

(yi−πi)2[πi(1−πi)] e a estatıstica de teste do Qui-Quadrado de Pearson para o modelo

com p − 1 variaveis e λ∗ e a estatıstica de teste Wald multivariado quando se pretendetestar a hipotese que os p − q − 1 coeficientes sao iguais a zero. Sob a validade de que omodelo ajustado e o correcto os valores esperados de X2 e de λ∗ sao (n− p) e (p− q − 1),respectivamente. A substituicao destas quantidades na expressao do Cq conduz a Cq = q+1.

Assim ao usar o criterio Cq, procura-se identificar os subconjuntos de q variaveis para osquais o valor de Cq e pequeno e proximo de q + 1. Subconjuntos com baixos valores deCq apresentam um erro quadrado preditivo baixo, e quando o Cq esta proximo de q + 1,considera-se o enviesamento do modelo tambem baixo.

AIC e BIC

O criterio Cq penaliza modelos com elevado numero de variaveis explicativas, por essa3No que se segue usar-se-a ”q”em vez de ”p”ja que a letra p esta relacionada com o numero total de

variaveis possıveis no modelo, enquanto que ”q”se refere ao cardinal de um qualquer subconjunto.

50

razao, em regressao logıstica os criterios de seleccao mais populares sao AICq (Akaike’sInformation Criterion) e SBCq (Schwarz’ Bayesian Criterion) ou BICq (Bayesian Infor-mation Criterion).

AICq = −2 lnL(β) + 2q (4.39)

BICq = −2 lnL(β) + q ln(n), (4.40)

onde lnL(β) representa a funcao log-verosimilhanca para um modelo com q variaveis ex-plicativas (logo q + 1 parametros) (4.11) e β o estimador de maxima verosimilhanca deβ.

Note-se que o primeiro termo de ambos os criterios −2 lnL(β) decresce com o aumentode q e o segundo termo aumenta com o numero de parametros, q, para n fixo.

Para estes criterios, sao bons os modelos com baixo −2 lnL(β), assim como com penal-izacoes 2q para AICq e q ln(n) para BICq nao muito elevadas.

Assim, os melhores modelos serao aqueles que apresentarem valores baixos destes criterios.

4.5.2 Procedimentos de seleccao

Com vista a reducao do tempo despendido na seleccao do melhor modelo tem sido de-senvolvidos algoritmos nos quais os melhores subconjuntos, de acordo com determinadoscriterios, sao identificados sem necessidade de ajustamento de todos os possıveis subconjun-tos dos modelos de regressao. De facto, estes algoritmos requerem o calculo de apenas umapequena parte de todos os possıveis modelos. Estes algoritmos nao so fornecem os melhoressubconjuntos de acordo com determinado criterio como tambem identificam, normalmente,os subconjuntos ”bons”para cada possıvel conjunto de q variaveis no modelo. Um dos pro-cedimentos mais populares e o metodo de seleccao stepwise, quer na sua versao forward oubackward.

Metodo de seleccao stepwise

Este metodo consiste numa sequencia de modelos, no presente caso de regressao logıstica,onde a cada passo adiciona ou elimina uma variavel explicativa. A adicao ou eliminacaode uma variavel baseia-se num procedimento estatıstico (em geral, um teste de hipoteses)

51

que verifica a ”importancia”das variaveis, e as exclui ou inclui segundo uma regra fixa dedecisao. Em geral e usado o criterio AIC como criterio de seleccao. Assim, apos a aplicacaodeste metodo, o modelo que apresentar um menor e melhor AIC sera seleccionado.

Validacao cruzada k-fold

Na validacao cruzada k-fold a amostra original e dividida (ao acaso) em k subconjuntoscom aproximadamente a mesma dimensao e, em seguida, um desses subconjuntos e usadopara testar o modelo (designado conjunto teste) e os restantes k − 1 como conjunto deaprendizagem. Assim, o processo de validacao cruzada consiste em repetir este processo kvezes, onde cada um dos k subconjuntos e usado exactamente uma vez na validacao dosdados. O erro e avaliado para cada um dos conjuntos de teste k e depois e calculada mediasobre k.

Os subconjuntos podem ser estratificados antes de realizar a validacao cruzada. Destemodo, na validacao cruzada k-fold, os folds sao seleccionados por forma a que o valor damedia seja aproximadamente igual em todos os subconjuntos. Essa estratificacao reduz aestimativa da variancia das estimativas. Um valor de k sugerido na literatura e k = 10.

Validacao cruzada Leave-one-out

A validacao cruzada leave-one-out e o caso mais extremo da validacao cruzada k-fold vistaanteriormente, onde cada observacao e individualmente atribuıda ao conjunto teste.

Tal como o proprio nome sugere, a validacao cruzada leave-one-out usa uma unica ob-servacao a partir da amostra original para a validacao dos dados, e as restantes observacoessao usadas como conjunto de aprendizagem (training data). Este processo e repetido demodo a que cada observacao na amostra e usada uma vez na validacao de dados. Isto eo mesmo que acontece no processo de validacao cruzada k-fold com k igual ao numero deobservacoes na amostra original. Devido ao elevado numero de vezes que o processo deaprendizagem e repetido, a construcao do modelo trata-se de um metodo computacional-mente dispendioso. Este nao e, obviamente, o metodo escolhido quando se trata de amostrasde grande dimensao.

4.6 Diagnosticos do Modelo de Regressao Logıstica

Uma vez construıdo o modelo que melhor se ajusta aos dados e necessario analisar a quali-dade desse modelo. Assim, nesta seccao apresentar-se-ao algumas medidas que sintetizam

52

a qualidade de ajustamento do modelo, sendo que muitas delas baseiam-se no conceito deresıduo.

Em primeiro lugar, serao definidos conceitos de resıduos proprios da regressao logıstica as-sim como algumas representacoes graficas associadas e, em seguida, serao descritas medidasque poderao identificar observacoes denominadas influentes.

4.6.1 Resıduos do Modelo de Regressao logıstica

A analise dos resıduos no caso da regressao logıstica e mais complexa do que no caso em quese tem modelos de regressao lineares pois a variavel resposta Y apenas toma os valores 0 e 1.Assim, o i−esimo resıduo, ei (diferenca entre o valor observado e o ajustado, ei = yi − πi),ira assumir um dos valores:

ei =

1− πi se Yi = 1,

−πi se Yi = 0(4.41)

com i = 1, 2, . . . , n.

Consequentemente, os resıduos nao terao distribuicao normal e, sob a suposicao de queo modelo ajustado esta correcto, a sua distribuicao e desconhecida. Em geral, as repre-sentacoes graficas que opoem os resıduos contra os valores ajustados ou contra as variaveispreditoras nao sao aqui informativas.

Resıduos de Pearson

Se os resıduos forem divididos pela estimativa do desvio padrao de Yi (isto e, por√πi(1− πi)),

obtem-se os resıduos de Pearson, que podem ser expressos da seguinte forma:

rPi =Yi − πi√πi(1− πi)

, (4.42)

com i = 1, 2, · · · , n.

Resıduos de Pearson padronizados

Os resıduos de Pearson nao tem variancia unitaria pois nenhuma correccao foi feita aosvalores ajustados πi. Um procedimento mais adequado consiste em dividir os resıduos pelovalor estimado do seu desvio padrao. Este valor e aproximado por

√πi(1− πi)(1− hii),

onde hii e o i-esimo elemento da diagonal da matriz (H) estimada para a regressao logıstica

53

n× n, dada por:

H = W12 X(X′WX)−1X′W

12 , (4.43)

onde W e a matriz diagonal n×n com elementos πi(1− πi), X e a matriz n×p (ver 4.18), eX′ e a matriz transposta de X, e W

12 e a matriz diagonal em que os elementos da diagonal

sao iguais a raiz quadrada dos elementos da diagonal da matriz W. Posto isto, os resıduosde Pearson padronizados sao dados por:

rSPi =rPi√

1− hii. (4.44)

Resıduos de Desvio (Deviance)

O desvio do modelo (4.26) foi definido na aplicacao do teste de razao de verosimilhancapara um modelo reduzido e o modelo completo. O desvio do modelo pode ser reescrito daforma seguinte:

G2 = −2n∑i=1

[Yi ln

(πiYi

)+ (1− Yi) ln

(1− πi1− Yi

)]

= −2n∑i=1

[Yi ln(πi) + (1− Yi) ln(1− πi)− Yi ln(Yi)− (1− Yi) ln(1− Yi)]

= −2n∑i=1

[Yi ln(πi) + (1− Yi) ln(1− πi)],

(4.45)

ja que Yi ln(Yi) = (1 − Yi) ln(1 − Yi) = 0 para Yi = 0 ou Yi = 1. Assim, para respostasbinarias o desvio do modelo em (4.26) e:

DEV (X0, X1, . . . , Xp−1) = −2n∑i=1

[Yi ln(πi) + (1− Yi) ln(1− πi)]. (4.46)

O resıduo do desvio para o i-esimo caso, devi, e definido pela raız quadrada da contribuicaodo i-esimo caso no desvio do modelo DEV , e e dado por:

devi = sign(Yi − πi)√−2[Yiln (πi) + (1− Yi)ln (1− πi)] (4.47)

para i = 1, 2, · · · , n, onde a funcao sinal e positiva quando Yi ≥ πi e negativa caso contrario.

54

Logo, tem-se que a soma dos resıduos de desvio ao quadrado e igual ao desvio do modeloem (4.46),

n∑i=1

(devi)2 = DEV (X0, X1, . . . , Xp−1). (4.48)

4.6.2 Representacoes graficas para Diagnostico

Nesta seccao consideram-se duas representacoes graficas dos resıduos que fornecem algumainformacao sobre a adequacao do modelo de regressao logıstica ajustado. Na regressaologıstica, os diagnosticos concentram-se na deteccao da inadequacao do modelo, ja que avariancia e sempre variavel no modelo de regressao logıstica e a presenca de outliers navariavel resposta e difıcil de diagnosticar devido a sua caracterıstica binaria.

Resıduos versus probabilidades preditas

Se o modelo de regressao logıstica estiver correcto, entao E[Y |X = xi] = πi e, assintoti-camente, E[Yi − πi] = E[ei] ∼= 0.

Deste modo, se o modelo esta correcto, ao suavizar o grafico dos resıduos versus asprobabilidades estimadas πi deve resultar, aproximadamente, uma linha horizontal queintercepta zero. E qualquer desvio significante desta imagem sugere que o modelo pode serinadequado.

Papel de probabilidades semi-normal com envelope simulado

Outra representacao grafica util para a deteccao da adequacao do modelo e o graficodo papel de probabilidades semi-normal (half-normal probability plot) com envelope simu-lado. Este grafico permite ainda identificar outliers (observacoes atıpicas). A construcaodeste grafico e efectuada com base nos pares (qi, |dev|i:n), i = 1, 2, · · · , n, onde |dev|1:n ≤|dev|2:n ≤ · · · ≤ |dev|n:n, isto e, os valores ordenados dos resıduos de desvio e

qi = Φ−1

(i+ n− 1/82n+ 1/2

). (4.49)

Se existirem outliers, eles aparecerao na parte de cima do grafico no lado direito, separadosdos restantes pontos. Como este grafico nao origina necessariamente uma linha direitamesmo quando o modelo e de facto correcto e simulado um envelope de referencia (paradetalhes ver, por exemplo, Kutner et al. 2005).

55

4.6.3 Deteccao de observacoes influentes

Nesta seccao consideram-se varias medidas que permitem identificar observacoes influentes.Serao descritas, a estatıstica do Qui-quadrado de Pearson e a estatıstica do Desvio, assimcomo definido o ponto de alavanca e a distancia de Cook.

Influencia na Estatıstica de Pearson e na Estatıstica do Desvio

Considere-se X2 a estatıstica de Pearson e DEV a estatıstica do Desvio, ja definidas atras,baseadas nas n observacoes. Considerem-se ainda X2

(i) e DEV(i) as respectivas estatısticasquando a i-esima observacao e removida. A i-esima variacao na estatıstica do qui-quadradode Pearson e definida como se segue:

∆X2i = X2 −X2

(i). (4.50)

Analogamente, define-se a i-esima variacao da estatıstica do Desvio por:

∆devi = DEV −DEV(i). (4.51)

Para determinar ∆X2i e ∆devi para as n observacoes e necessario recorrer a n maxi-

mizacoes da funcao de verosimilhanca, o que pode ser um processo bastante lento. Parasuperar esta dificuldade foram desenvolvidas as seguintes aproximacoes lineares para estasquantidades:

∆X2i∼= r2

SPi , (4.52)

∆devi 'devi

1− hii, (4.53)

onde hii e o i-esimo elemento da diagonal da matriz H e r2SPi

e devi sao, respectivamente,os i-esimos resıduos padronizados de Pearson e do Desvio.

Em suma, ∆X2i e ∆devi representam uma variacao das estatısticas de Pearson e de

Desvio, respectivamente, quando a i-esima observacao e eliminada e, deste modo, fornecemuma medida de influencia da i-esima observacao.

Contudo, em regressao logıstica nao existem regras definidas para avaliacao da magnitudedestas medidas, sendo por isso necessario recorrer a metodos graficos para determinar se

56

uma observacao e ou nao influente.

Pontos de Alavanca: Outliers na matriz X

O vector dos valores ajustados Y pode ser reescrito, usando a matriz H definida em(4.43), da seguinte forma:

Y = W12 X(X

′WX)−1X

′W

12 Y = HY. (4.54)

Obtendo-se

yi =n∑j=1

hijyj = hii +∑j 6=i

hijyj , (4.55)

em que hii e o peso associado ao i-esimo valor da variavel resposta quando calculado oi-esimo valor ajustado. Geralmente tem-se que

∑ni=1 hii = p com 0 ≤ hii ≤ 1, onde p e o

numero de parametros no modelo, e hii e tambem uma medida da distancia entre os valoresde X para a i-esima observacao e a media de todos os valores de X para as n observacoes.

Em suma, o ponto de alavanca para a i-esima observacao e hii. Por forma a decidirquais as observacoes que podem ser consideradas influentes, deve-se considerar todas asobservacoes em que hii ≥ 2p

n−2p .

Distancia de Cook: Influencia dos Preditores Lineares ajustados

Atras viu-se que os valores hii sao uteis para identificar os outliers em X. Uma medida, Di,denominada distancia de Cook, permite avaliar a mudanca nos preditores lineares πi, quandose remove da analise a i-esima observacao. Sendo definida por Di = (β − β(i))

′X′VX(β −

β(i)), onde β(i) corresponde aos estimadores de β quando se omite a i-esima observacao, eV = diag(πi − (1 − πi)), i = 1, 2, · · · , n. Uma vez que o calculo do valor desta estatısticatambem e moroso (como as medidas anteriores requer o calculo n vezes das estimativas demaxima verosimilhanca de β) e comum usar-se a seguinte expressao

Di =r2SPi

hii

p(1− hii)2. (4.56)

Uma regra apresentada por Davison e Snell (1991) define como limite da distancia deCook o resultado de 8

n−2p onde n e o numero de observacoes e p refere-se ao numero deparametros estimados. Todas as observacoes com valor de distancia de Cook superior a esse

57

limite serao consideradas outliers.

Por forma a identificar as observacoes influentes constroi-se o grafico dos pontos de ala-vanca padronizados, em vez de hii considera-se hii/1 − hii, versus o valor aproximado daestatıstica de Cook. Por fim, uma vez identificadas estas observacoes deve ser feita umaanalise da sua importancia no estudo em questao.

4.7 Metodos Robustos aplicados a modelos de regressao logıstica

Em estatıstica robusta, regressao robusta e uma forma de analise de regressao concebidapara contornar algumas limitacoes dos tradicionais metodos parametricos e nao parametricos.Para mais detalhes sobre regressao robusta consultar, por exemplo, (Hampel et al., 1986).

Em regressao logıstica existem duas abordagens principais para encontrar estimadoresrobustos dos parametros, a primeira minimiza algum do processo de verosimilhanca (porexemplo, Copas 1988; Bianco e Yohai 1996; Cantoni e Ronchetti 2001) e a segunda e baseadanas funcoes de influencia (por exemplo, Kordzakhia et al. 2001). Dado que se encontramimplementados em R os procedimentos para o calculo das estimativas robustas dos metodospropostos por Copas (1988), Bianco e Yohai (1996); Croux e Haesbroeck (2003) e Cantonie Ronchetti (2001) pensou-se inicialmente em usar todas estas abordagens. Infelizmentevarios problemas numericos ocorreram, principalmente devido a obtencao de matrizes decovariancias estimadas singulares. Apesar de varias tentativas foi apenas possıvel deter-minar as estimativas robustas para o modelo de regressao logıstica quando se considera ometodo proposto por Cantoni e Ronchetti (2001).

Em seguida descreve-se com algum detalhe a abordagem robusta proposta por Cantoni eRonchetti (2001); Cantoni (2004). Esta e baseada em funcoes de estimacao robustas quasi-deviance para os modelos de regressao lineares generalizados. Estes autores consideramuma classe de estimadores-M do tipo Mallows. Seja E(Yi|X = xi) = µi e V ar(Yi) = g(µi),∀i = 1, 2, · · · , n e g(µi) = x

′iβ, i = 1, 2, · · · , n, em que o vector de parametros e denotado

por β e a funcao de ligacao, neste caso funcao logit, por g(.). Desta forma, o estimadorrobusto do vector de parametros β e dado pela solucao da seguinte equacao:

ψ(β) =n∑i=1

ψ(yi, µi) = 0, (4.57)

onde ψ(y, µ) = ν(y, µ)w(x)µ∗ − a(β), a(β) = 1n

∑ni=1E[ν(yi, µi)]w(xi)µ∗i , µi = µi(β) =

g−1(x′iβ) e µ∗i = ∂

∂βµi. O valor esperado aqui usado refere-se a distribuicao condicionada

58

de Y |X = x.

Considerem-se agora os vectores

y =

y1

y2

...yn

µ =

µ1

µ2

...µn

e a funcao

QM (yi, µi) =∫ µi

sν(yi, t)w(xi)dt−

1n

n∑i=1

∫ µj

tE[ν(yj , t)w(xj)]dt (4.58)

em que s e tal que ν(yi, s) = 0 e t e tal que E[ν(yi, t)] = 0.

Assim, a equacao de estimacao observada em (4.57) corresponde a minimizacao da funcaorobusta (4.59), quasi-likelihood, em relacao a β:

QM (y, µ) =n∑i=1

QM (yi, µi). (4.59)

Esta equacao (4.59) pode ser utilizada para desenvolver medidas de inferencia robustas ede seleccao de modelos baseadas em desvios robustos, que se denominam de quasi-deviance(ou quase-desvio).

4.7.1 Inferencias nos Parametros de Regressao

Considerem-se novamente as equacoes definidas em (4.57) com ν(yi, µi) = ψc(ri)( 1

V12 (µi)

)

com ri = yi−µiV

12 (µi)

, para o caso da estimacao robusta dos modelos binomiais. O estimador

definido por esta equacao (4.57) trata-se de um estimador-M e e caracterizado pela funcaoscore ψc. Este estimador denomina-se estimador de Mallows quasi-likelihood. Tem-se aindaque os resıduos de Pearson sao dados por ri, e a funcao de Huber por:

ψc(r) =

r, |r| ≤ c

c sign(r), |r| > c(4.60)

59

O estimador definido acima e solucao das seguintes equacoes:

n∑i=1

[ψc(ri)w(xi)

1

V12 (µi)

µ∗i − a(β)

]= 0, (4.61)

em que a(β) = 1n

∑ni=1E

[ψc(ri)w(xi) 1

V12 (µi)

µ∗i

], V ar(µi) = V ar(Yi) e, ainda, µ∗i = ∂

∂βµi.

Assim, w(x) e introduzido para baixar o peso dos pontos de alavanca enquanto quea funcao ν(y, µ) permite controlar os desvios em y. Tomando w(xi) =

√1− hii, onde

hii denota o i-esimo elemento da diagonal da matriz H vista em (4.43). A constantec denomina-se constante de afinacao, esta e determinada de forma a garantir o grau deeficiencia pretendido. A constante a(β) assegura a consistencia (a Fisher) do estimador.

A funcao de influencia do estimador-M definido anteriormente, (4.57), define-se como sesegue:

IF (y;ψc, F ) = M(ψc, F )−1ψc(r), (4.62)

onde M(ψc, F ) = E[∂∂βψc(r)

]. Este estimador apresenta ainda uma distribuicao nor-

mal com variancia assimptotica Ω = M(ψc, F )−1Q(ψc, F )M(ψc, F )−1, em que Q(ψc, F ) =E[ψc(r)ψc(r)

′]. Tanto a matriz M , M(ψc, F ), como a matriz Q, Q(ψc, F ), podem ser cal-

culadas do seguinte modo, para o estimador de Mallows quase-likelihood definido acima:

M(ψc, F ) =1n

X′BX, (4.63)

em que B denota a matriz diagonal com elemento generico,

bi = E[ψc(ri) ∂∂µi

lnh(yi|xi, µi)] 1

V12 (µi)

(∂µi∂βi

)2, a funcao h e a funcao densidade de proba-

bilidade condicionada Yi|X = xi e

Q(ψc, F ) =1n

X′AX− a(β)a(β)

′, (4.64)

em que A denota a matriz diagonal com elemento generico ai = E[ψc(ri)2]w2(xi) 1V (µi)

(∂µi∂βi

)2.

60

4.7.2 Teste Quasi-Deviance

Por forma a avaliar a adequacao de um modelo, e definida uma medida de ajuste robustadenominada quasi-deviance, DQM (y, µ). Esta medida e baseada na nocao de funcao robustaquasi-likelihood definida em (4.59). Assim, tem-se que

DQM (y, µ) = −2QM (y, µ) = −2n∑i=1

QM (yi, µi). (4.65)

Seja Mp o modelo completo (com p parametros) onde β = (β1, β2, . . . , βp)′

= (β′

(1),β′

2))′,

e Mp−q o modelo reduzido (com p − q parametros) em que Mp−q ⊂ Mp. Posto isto, oobjectivo e testar a hipotese nula H0 : β(2) = 0, ou seja, pretende-se averiguar se o modeloMp−q prevalece sobre o modelo Mp e assim, dispensar o modelo de q variaveis.

Atraves da resolucao das equacoes (4.57) para os modelos completo e reduzido referidosanteriormente, obtem-se os vectores de parametros estimados β e β, respectivamente. Ospreditores lineares estimados associados as estimativas β e β sao dados por µ e µ. Destaforma, para a seleccao de variaveis e analise de desvios, define-se a seguinte medida robustade discrepancia entre dois modelos:

ΛQM = [DQM (y, µ)−DQM (y, µ)] = 2

[n∑i=1

QM (yi, µi)−n∑i=1

QM (yi, µi)

]. (4.66)

A estatıstica de teste ΛQM , sob determinadas condicoes de regularidade, e assintotica-mente equivalente a uma forma quadratica de variaveis normais. Assim, esta distribui-sesegundo uma combinacao linear de variaveis qui-quadrado, com um grau de liberdade, emparticular, tem-se que

ΛQM ∼aq∑i=1

diN2i , (4.67)

onde as variaveis N1, N2, . . . , Nn seguem uma distribuicao normal padrao e os q valoresproprios da matriz Q(ψc, F )(M−1(ψc, F )−M+(ψc, F )) denotam-se de d1, d2 . . . , dn. Tem-seainda que M+(ψc, F )11 = M(ψc, F )−1

11 e M+(ψc, F )12 = M+(ψc, F )21 = M+(ψc, F )22 = 0.

61

4.7.3 Teste de Bootstrap

Dada a dificuldade de encontrar um metodo de seleccao de variaveis para a regressaologıstica robusta propoe-se utilizar o teste de bootstrap introduzido em Amado (2004).

Em geral, os algoritmos de seleccao de variaveis baseiam-se em testar todos os subconjun-tos de variaveis ou em metodos como o stepwise, que analisam apenas alguns subconjuntos.Uma vez que cada etapa desses algoritmos usa um teste de hipoteses, utilizar-se-a um testede seleccao de variaveis bootstrap. Este teste permite avaliar a importancia de variaveis emmodelos de regressao, apresentando a seguinte hipotese nula:

H0: β2 = 0,

onde β2 denota o subconjunto de todas as variaveis associadas aos parametros β para omodelo Mp−q.

Desta forma, comeca-se por aplicar o modelo de regressao logıstica robusta a cada amostrabootstrap. Em seguida, constroi-se a matriz de observacoes, B∗, recorrendo aos coeficientesde regressao estimados, β, para as B amostras:

B∗ =

β11 · · · β1p

β21 · · · β2p

......

βB1 · · · βBp

(4.68)

em que B denota o numero de replicas (amostras bootstrap) e p designa o numero devariaveis. Com vista a verificar se alguns coeficientes sao zero (hipotese nula) considera-se uma submatriz, B∗2, constituıda apenas pelos coeficientes associados as variaveis paraos quais se pretende testar o grau de significancia. Para a submatriz apresentada, B∗2,determina-se o vector medio µ∗2, a matriz de covariancia Σ∗2 e a distancia ao quadrado

d2b∗ =

(β

(b)

2 − µ∗2)′

Σ−1∗2

(β

(b)

2 − µ∗2)

para cada uma das linhas β(b)

2 , onde b = 1, 2, . . . , B.Resta ainda acrescentar que o valor-p para o teste de bootstrap define-se pelo quocienteB∗

B em que B∗ = #b : d2b∗ > d2

0∗, onde a distancia ao quadrado para o ponto 0 ed2

0∗ = (µ∗2)′Σ−1∗2 µ∗2, consultar Amado (2004) e Pires (1995) para mais detalhes.

62

4.8 Modelo de Regressao Logıstica Politomica

Os modelos de regressao logıstica podem ser estendidos permitindo lidar com respostaspolitomicas, ou seja, que tem mais que 2 categorias. Ao analisar uma resposta politomicae importante observar se a resposta e ordinal (composta por categorias ordenadas) ou no-minal (composta por categorias nao ordenadas), ja que alguns tipos de modelos sao apenasadequados para variaveis resposta ordinais. No entanto existem outros modelos que po-dem ser utilizados quer com respostas ordinais ou nominais. No que se segue apenas seramencionado o caso onde a variavel resposta e nominal.

Considere-se que a variavel resposta, Y , tem J categorias. Assim, para a i-esima ob-servacao, existem J variaveis resposta binarias denotadas por Yi1, ..., YiJ onde:

Yij =

1, se a resposta da observacao i e j

0, caso contrario(4.69)

para i = 1, 2, ..., n e j = 1, 2, ..., J e∑J

j=1 Yij = 1, esta condicao indica que apenas umacategoria pode ser seleccionada para a variavel resposta i.

Denote-se por πij a probabilidade da categoria j ser seleccionada para a i-esima variavelresposta. Entao πij = P (Yij = 1).

No caso binario, tem-se J = 2 com Yi = 1 se a i-esima variavel resposta for da categoria1 e Yi = 0 se a i-esima variavel resposta for da categoria 2. As probabilidades sao entaodadas por, πi = πi1 e 1− πi = πi2.

Como foi visto na regressao logıstica binaria, o logit de πi modela o preditor linear, ecomo neste tipo de regressao existem apenas 2 categorias, o logit compara a probabilidadeda categoria 1 com a probabilidade da categoria 2:

π∗i = ln[

πi1− πi

]= ln

[πi1πi2

]= π∗i12 = X

′iβ12, (4.70)

π∗i12 indica que o preditor linear esta a modelar o logaritmo da razao entre as probabilidadesdas categorias 1 e 2.

Considere-se agora as J categorias do modelo politomico. Para estas categorias existemJ(J − 1)/2 pares de categorias e o mesmo numero de preditores lineares. Contudo, nao enecessario encontrar os J(J − 1)/2 modelos de regressao logıstica, bastando que uma cate-goria seja nomeada arbitrariamente como a categoria de referencia, e as restantes categorias

63

serao comparadas com a categoria escolhida. Tome-se a categoria J como a categoria dereferencia, sao necessarias J − 1 comparacoes com a categoria de referencia e, deste modo,J − 1 funcoes logit. O logit para a j-esima comparacao e dado por:

π∗ijJ = ln[πijπiJ

]= X

′iβjJ , (4.71)

para j = 1, 2, ..., J − 1.

Dado que a comparacao sera feita com a categoria J , simplificar-se-a a notacao omitindoJ , ficando π∗ij = π∗ijJ e βj = βjJ , entao em (4.71) vem:

π∗ij = ln[πijπiJ

]= X

′iβj , (4.72)

para j = 1, 2, ..., J − 1.

Como sao apenas necessarias J − 1 comparacoes, dado que qualquer uma das restantescomparacoes pode ser obtida a partir destas, as categorias k e h, com k, h = 1, 2, ..., J − 1e k 6= h.

ln[πikπih

]= ln

[πikπiJ× πiJπih

]= ln

[πikπiJ

]+ ln

[πiJπih

]= ln

[πikπiJ

]− ln

[πihπiJ

]. (4.73)

Logo,

ln[πikπih

]= X

′iβk −X

′iβh = X

′i(βk − βh). (4.74)

Dadas as J − 1 expressoes do logit em (4.72) e possıvel obter as probabilidades das J − 1categorias em termos dos J − 1 preditores lineares, X

′βj . Assim, obtem-se:

πij =eX′iβj

1 +∑J−1

k=1 eX′iβk

, (4.75)

para j = 1, 2, ..., J − 1.

Em seguida, descrevem-se alguns metodos que permitem estimar os J − 1 vectores deparametros β1,β2, . . . ,βJ−1.

64

4.8.1 Estimativa de maxima verosimilhanca

Para a estimacao dos vectores de parametros β1,β2, . . . ,βJ−1 existem duas possıveis abor-dagens ambas usando o princıpio da maxima verosimilhanca. Na primeira abordagem eaplicado o modelo da regressao logıstica binaria para cada uma das J − 1 comparacoespossıveis a categoria de referencia. Esta metodologia revela-se particularmente util quandoo software estatıstico nao dispoe de programas para a estimacao dos modelos de regressaologıstica politomica.

A segunda abordagem, mais eficaz do ponto de vista estatıstico mas numericamente maisdispendiosa, consiste em obter as estimativas dos J−1 logits simultaneamente. Deste modo,para as J categorias, considere-se que a categoria k e seleccionada para a i-esima resposta.Assim, para o i-esimo caso tem-se

Yi1 = 0 Yi2 = 0 . . . Yik = 1 . . . YiJ = 0, (4.76)

entao a probabilidade para esta variavel e:

P (Yi = k) = πik = [πi1]0 × [πi2]0 × . . .× [πik]1 × . . .× [πiJ ]0 =J∏j=1

[πij ]Yij . (4.77)

Dispondo de n observacoes independentes e tendo J categorias, a funcao de verosimilhancae definida por

L(β|(x,y)) =n∏i=1

P (Yi) =n∏i=1

J∏j=1

[πij ]Yij

. (4.78)

Sabendo que∑J

j=1 Yij = 1 para cada i, a funcao log-verosimilhanca e dada por

lnL(β|(x,y)) =n∑i=1

J−1∑j=1

(Yijπ∗ij)− ln[1 +J−1∑j=1

ex′iβj ]

. (4.79)

As equacoes de verosimilhanca dos J−1 associados aos vectores de parametros β1,β2, · · · ,βJ−1

podem ser construıdas atraves das derivadas parciais de ln l(β) para cada um dos (J−1)×pparametros desconhecidos, ou seja,

65

∂ lnL(β|(x,y))∂βkj

=n∑i=1

Xik(Yij − πij), (4.80)

para j = 1, 2, . . . , J − 1 e k = 0, 1, . . . , p− 1.

O estimador de maxima verosimilhanca de β obtem-se igualando as equacoes de (4.80) azero e resolvendo em ordem a β. Usando metodos numericos semelhantes aos do caso binario(por exemplo Newton-Raphson ou Fisher Scoring) obtem-se a solucao dessas equacoes.

4.8.2 Interpretacao dos coeficientes de regressao estimados

Recordar que no modelo binario os coeficientes estimados sao iguais ao logaritmo dasrazoes de chances, assim quando o modelo tem uma variavel resposta com J categoriase e parametrizado por forma a que os J − 1 vectores de coeficientes estimados sejam iguaisao logaritmo das razoes de chances para cada uma das J − 1 funcoes logit, e possıvel gener-alizar o caso dicotomico para o caso politomico. Para isso, considere-se que Y = 0 representaa categoria de referencia. A razao de chances para a categoria j contra a categoria 0 paravalores de uma variavel independente com nıveis Xi = a contra Xi = b denota-se por

wj(a, b) =P (Y = j|Xi = a)/P (Y = 0|Xi = a)P (Y = j|Xi = b)/P (Y = 0|Xi = b)

= eβj,i . (4.81)

Se a variavel Xi for binaria entao wj = wj(1, 0).

Ao considerar Y = 0 a categoria de referencia, o logaritmo da razao das chances entre acategoria Y = j e Y = k pode ser obtido pela diferenca entre os dois coeficientes βj − βk.

4.8.3 Avaliacao do modelo

As estrategias e os metodos usados na avaliacao do modelo no caso da regressao logısticapolitomica sao semelhantes ao caso da regressao dicotomica. Nao se ira entrar em detalhesobre este assunto remetendo o leitor para Hosmer e Lemeshow (2001) (Hosmer e Lemeshow,2001).

66

Capıtulo 5

Apresentacao dos Resultados

Neste capıtulo apresentam-se os resultados obtidos quando se aplicam os metodos de regressaologıstica dicotomica (classico e robusto) e politomico ao conjunto de dados em estudo. Noscapıtulos anteriores foi brevemente referida a existencia de problemas numericos que podemocorrer quando se ajusta um modelo de regressao logıstica. Estes problemas sao causadospor certas estruturas nos dados e pela falta de avaliacoes apropriadas no software. O prob-lema obvio que costuma ocorrer e simplesmente a frequencia nula nalguma combinacao denıveis. Este problema pode ser ultrapassado se for possıvel colapsar categorias. Outros pro-blemas possıveis dizem respeito a ocorrencia de singularidade de certas matrizes e aos ja co-nhecidos problemas que advem da colinearidade. De forma a minimizar a ocorrencia destesproblemas numericos decidiu-se excluir todas as observacoes com valores nao disponıveis(NA) e nalguns casos foi necessario colapsar categorias em certas variaveis. Assim, naconstrucao dos modelos que sao apresentados em seguida foram consideradas apenas 366criancas, cerca de 91% da amostra inicial que era constituıda por 403 observacoes.

5.1 Modelo de regressao logıstica dicotomico

Considere-se a variavel dicotomica, Y , definida da seguinte forma:

Y =

1, a crianca e obesa

0, caso contrario(5.1)

A variavel resposta Y apresenta na amostra de trabalho as seguintes frequencias obser-vadas:

Por forma a encontrar o melhor modelo que explorasse a relacao entre a obesidade eas restantes variaveis do estudo foram construıdos diversos modelos, no entanto apenasse apresenta o ajustamento dos sete melhores. O primeiro modelo, que sera designadopor Modelo 1, foi composto por todas as variaveis em estudo com excepcao das variaveis

67

Tabela 5.1: Frequencias observadas da variavel resposta, incluindo os valores omissos queserao removidos da analise.

Frequencia PercentagemNao Obeso 258 64.2%Obeso 124 30.8%NA 21 5%Total 403 100%

PesoActual e Estatura que sao redundantes ja que foram usadas para o calculo da variavelresposta. O Modelo 2 resulta da aplicacao do metodo stepwise ao Modelo 1. Em seguidaintroduziu-se ao Modelo 2 a variavel PHDA binaria, designada por PHDA1, por ser degrande importancia para o objectivo deste estudo, ao qual se denominou Modelo 3. Para oModelo 4 consideraram-se as variaveis do Modelo 2 e introduziu-se a interaccao das variaveisMae eTV2anos visto que estas variaveis serem fortemente dependentes (ver anexo). Maisuma vez, o quinto modelo e composto pelas variaveis do Modelo 2 com a particularidadede se considerar a variavel idade interagida com a variavel ExFisico. Por fim, o Modelo 6foi constituıdo de forma analoga aos anteriores, onde se considerou as variaveis do segundomodelo e introduziu-se a interaccao entre as variaveis Nref e ExFisico. No ultimo modelo,Modelo 7, adicionou-se ao Modelo 6 a variavel PHDA1, pela sua relevancia para o estudo.

Desta forma, para encontrar o melhor modelo foi aplicado o metodo de seleccao Stepwise,descrito no capıtulo anterior. Em seguida compararam-se os modelos com base nos criteriosapresentados na tabela seguinte:

Tabela 5.2: Medidas de seleccao dos modelos.Modelos # parametros Desvio (deviance) AIC BICModelo 1 75 252.655 298.655 375.529Modelo 2 13 260.219 270.219 286.930Modelo 3 14 260.136 272.136 292.190Modelo 4 23 256.761 272.761 299.500Modelo 5 20 259.087 273.087 296.483Modelo 6 24 255.027 271.027 297.766Modelo 7 25 254.971 272.971 303.052

Atraves dos metodos de validacao cruzada Leave-one-out e k-fold, para k = 2 e k = 10,foi realizada a validacao de cada modelo. Na Tabela 5.3 encontram-se as estimativas doserros de predicao.

Na tabela 5.3 o “erro” corresponde a estimativa dos erros de predicao e o “erro ajustado”e a estimativa ajustada dos erros de predicao. Este ajuste e realizado de forma a compensaro enviesamento introduzido por nao ser aplicada a validacao Leave-one-out.

68

Tabela 5.3: Estimativas dos erros de predicao para validacao cruzada.Modelos Leave-one-out k = 2 k = 10

Erro Erro Erro ajustado Erro Erro ajustadoModelo 1 0.2626 0.3293 0.2861 0.2630 0.2601Modelo 2 0.2279 0.2274 0.2241 0.2303 0.2297Modelo 3 0.2302 0.2354 0.2301 0.2334 0.2326Modelo 4 0.2309 0.2318 0.2261 0.2330 0.2320Modelo 5 0.2295 0.2326 0.2270 0.2325 0.2316Modelo 6 0.2270 0.2473 0.2364 0.2266 0.2257Modelo 7 0.2301 0.2241 0.2196 0.2290 0.2280

Apos analise das Tabelas 5.2 e 5.3 concluiu-se que o Modelo 2 e o melhor modelo pois eo que apresenta menor numero de variaveis no modelo, menor valor para os criterios BIC eAIC e valores muito proximos dos mais baixos para todos os criterios de validacao cruzada.

Como ja referido, devido a sua importancia para o estudo, foi introduzida no Modelo 2a variavel PHDA1, cujo modelo se denominou Modelo 3. Uma vez que as alteracoes naoforam muito significativas, e devido a revelancia para o estudo em causa, escolheu-se comoo melhor modelo, o Modelo 3.

5.1.1 Interpretacao dos coeficientes de regressao

Na Tabela 5.4 encontram-se descritas as variaveis pertencentes ao Modelo 3, as estimativasdos coeficientes dos seus parametros e dos erros padrao, os valores observados da estatısticade teste de Wald e os respectivos valor-p.

Tabela 5.4: Estimativas dos parametros do modelo, estimativas dos erros padrao, es-tatısticas de Wald e valor-p para o Modelo 3.

Variavel Parametros Estimativa Erro Padrao Wald Valor-pInterseccao β0 −1.789 1.309 −1.367 0.172Idade7 β17 0.003 0.339 0.009 0.993Idade8 β18 −0.729 0.460 −1.586 0.113Sono2 β22 −0.768 0.484 −1.587 0.113Sono3 β23 −1.444 0.648 −2.227 0.026ComeDoces1 β31 1.518 1.124 1.350 0.177FreqBFrita1 β41 −0.250 1.278 −0.195 0.845FreqBFrita2 β42 0.095 1.314 0.073 0.942FreqBFrita3 β43 0.373 0.796 0.469 0.639FreqBFrita4 β44 0.531 0.685 0.775 0.438FreqBFrita5 β45 0.641 0.646 0.991 0.322FreqBFrita6 β46 0.919 0.656 1.400 0.161PHDA11 β51 0.066 0.446 0.149 0.882

69

Para calcular as estimativas dos parametros do modelo, e consequentemente, as razoes dechances, foram agrupadas as categorias 1 e 2 da variavel FreqBFrita uma vez que apresen-tavam muito poucas observacoes, causando os ja referidos problemas numericos.

Na Tabela 5.5 encontram-se as estimativas das razoes de chances que como visto saodadas pela exponencial dos valores das estimativas dos parametros representados na Tabela5.4.

Tabela 5.5: Estimativas das razoes de chances e respectivos intervalos de confianca aproxi-mados a 95%

Variavel Razao de Chances Limite Inferior Limite SuperiorIdade7 1.003 0.982 1.025Idade8 0.482 0.469 0.496Sono2 0.464 0.464 0.478Sono3 0.236 0.227 0.246ComeDoces1 4.563 4.252 4.896FreqBFrita1 0.779 0.719 0.844FreqBFrita2 1.100 1.013 1.195FreqBFrita3 1.452 1.381 1.526FreqBFrita4 1.700 1.629 1.775FreqBFrita5 1.898 1.822 1.976FreqBFrita6 2.508 2.407 2.613PHDA11 1.069 1.039 1.099

Analisando a Tabela 5.5 constata-se que as criancas com 7 anos apresentam um riscode obesidade semelhante ao das criancas com 6 anos (idade de referencia) pois estima-seque a chance destas serem obesas e de 1.003 vezes superior para esta idade do que quandocomparada com a idade de referencia. Ja as criancas com 8 anos parecem apresentar umrisco menor, quando comparadas com as criancas de 6 anos.

Em relacao a variavel Sono parece existir um risco maior para as criancas que dormemmenos de 8 horas por dia (Sono1 - categoria de referencia), dado que as restantes categoriasapresentam uma chance inferior ao valor 1. Em particular, comparando as criancas quedormem menos de 8 horas por dia com as que dormem entre 10 e 12 horas por dia (Sono3)nota-se que, para as que dormem mais, a chance decresce cerca de 76%.

Analisando a variavel ComeDoces nota-se que as criancas que comem doces parecemapresentar fortes evidencias de serem um grupo de risco (para a obesidade) uma vez queo risco de ser obeso, dado que comem doces, e muito mais elevado do que ser obeso naocomendo doces.

Relativamente a variavel que representa a frequencia com que as criancas comem batatas

70

fritas, FreqBFrita, aparentemente, as criancas que nunca comem batatas fritas (categoriade referencia) apresentam um risco bastante inferior ao das criancas que comem com muitafrequencia (mais do que uma vez por semana). Particularmente, as criancas que comembatatas fritas todos os dias (FreqBFrita6) parece ser o grupo de maior risco, seguido dogrupo das criancas que comem batatas fritas cinco vezes por semana (FreqBFrita5) onde orisco de serem obesas e cerca de 90% maior, comparativamente a criancas que nunca comembatatas fritas.

Por fim, para a variavel PHDA1, verifica-se que, aparentemente, as criancas que sofremde PHDA sao mais susceptıveis de serem obesas. Em particular, em criancas que sofremde PHDA o risco de serem obesas e cerca de 7% maior do que em criancas que nao sofremdesta perturbacao.

5.1.2 Diagnostico sobre adequacao do modelo

De acordo com as medidas de diagnostico definidas no capıtulo anterior foram construıdosos graficos seguintes por forma a analisar a adequacao do modelo.

Figura 5.1: Graficos dos resıduos de desvio e de Pearson contra as probabilidades estimadasdo Modelo 3.

Pela observacoes da Figura 5.1 nota-se que a linha que suaviza o grafico assemelha-seaproximadamente a uma linha horizontal com interseccao em zero logo parecem existirevidencias, ainda que nao muito fortes, para considerar o Modelo 3 como um modelo deregressao logıstica adequado.

71

5.1.3 Outliers e observacoes influentes

Nos casos em que se utilizam metodos classicos, os outliers podem ter um grande impactonas estimativas dos parametros do modelo. Estes podem ainda dar origem a resultadosum pouco enganadores havendo, por isso, necessidade de um maior cuidado e atencao naanalise.

Assim, de modo a averiguar se o conjunto de dados podera conter observacoes discordantesou atıpicas foram obtidos os pontos de alavanca e a distancia de Cook para as n observacoes.

Em seguida representaram-se graficamente os valores obtidos bem como as linhas quedefinem o limite para cada destas medidas.

Figura 5.2: Grafico dos pontos de alavanca padronizados e da estatıstica de Cook para oModelo 3.

O grafico apresentado na Figura 5.2 revela a existencia de tres pontos, 26, 102 e 186, queultrapassam as linhas limite para as medidas de diagnosticos.

Pretende-se agora determinar a magnitude da influencia que as tres observacoes identi-ficadas pela analise anterior tem no Modelo 3. Para isso serao excluıdos estes 3 pontosdo conjunto inicial e sera realizada uma nova analise, determinando-se assim uma medidaempırica dessa influencia.

Modelo de regressao logıstica sem outliers

Uma vez removidas as observacoes atıpicas 26, 102 e 186, ajustou-se novamente o modelode regressao logıstica, utilizando as variaveis do Modelo 3, e obtiveram-se os resultadosapresentados na Tabela 5.6.

72

Tabela 5.6: Estimativas dos parametros, estimativas dos erros padrao, estatısticas de Walde valor-p para o Modelo 3 sem outliers.

Variavel Parametros Estimativa Erro Padrao Wald Valor-pInterseccao β0 −17.220 1362.7 −0.013 0.989Idade7 β17 0.074 0.345 0.214 0.830Idade8 β18 −0.563 0.469 −1.202 0.229Sono2 β22 −0.672 0.499 −1.345 0.179Sono3 β23 −1.318 0.661 −1.994 0.046ComeDoces1 β31 16.795 1362.7 0.012 0.990FreqBFrita1 β41 −16.424 1951.3 −0.008 0.993FreqBFrita2 β42 −16.347 2256.0 −0.007 0.994FreqBFrita3 β43 0.235 0.811 0.289 0.773FreqBFrita4 β44 0.551 0.684 0.807 0.420FreqBFrita5 β45 0.642 0.645 0.994 0.320FreqBFrita6 β46 0.912 0.655 1.392 0.164PHDA11 β51 0.147 0.452 0.325 0.746

Ao comparar os valores das tabelas 5.4 e 5.6 observam-se alguns valores consideravel-mente discrepantes, o que revela que as observacoes removidas provocam grandes alteracoesno modelo. Em particular, as variaveis, ComeDoces e FreqBFritas apresentam valores es-tranhos. Analisando em pormenor o que aconteceu verificou-se que ocorreram problemasnumericos devido ao numero reduzido de observacoes em determinadas categorias dessasvariaveis.

5.1.4 Modelo de Regressao logıstico robusto

Inicialmente aplicou-se o modelo de regressao logıstica robusta para o modelo completode primeira ordem usando a abordagem de Cantoni Cantoni e Ronchetti (2001); Cantoni(2004). No entanto, devido a problemas numericos, nao se conseguiu obter quaisquer re-sultados. Assim, foram consideradas apenas as variaveis Idade, Genero, Sono, ComeDoces,FreqDoces, BebeSumos, ComeBatFrita e PHDA1. Uma vez que nao existia implementacao,no software utilizado, de testes para a regressao robusta foi necessario implementar os testesde bootstrap e quasi-deviance apresentados no capıtulo anterior.

Aplicando os testes de bootstrap e quasi-deviance as variaveis referidas anteriormente,obteve-se a Tabela 5.7 revela que apenas as variaveis Sono, ComeDoces e FreqDoces saoestatisticamente significativas.

Apos obter as variaveis significativas para o modelo completo, dever-se-ia verificar seestas permaneciam significativas quando se considera um modelo apenas com as variaveissignificativas para o modelo completo. Em seguida, deveria-se incluir cada uma das variaveis

73

Tabela 5.7: Estimativas dos valor-p utilizando os testes de Bootstrap e Quasi-Deviance.Variavel Teste de Bootstrap Teste de Quasi-Deviance

Idade 0.48 0.45Genero 0.50 0.67Sono 0.09 0.03ComeDoces 0.03 0.07FreqDoces 0.13 0.07BebeSumos 0.99 0.99ComeBatFrita 0.23 0.25PHDA1 0.66 0.72

que nao sao estatisticamente significativas e de baixo valor-p (mas acima dos nıveis designificancia usuais) no modelo reduzido por forma a averiguar se o nıvel de significanciase alterava com a adicao de cada uma das variaveis separadamente. No entanto, nenhumdestes passos pode ser realizado devido a ocorrencia de problemas numericos, nao tendosido por isso possıvel obter um modelo de regressao robusto.

5.2 Modelo de regressao logıstica politomica

Considere-se agora a variavel politomica, Z, classificada em 4 categorias e definida daseguinte forma:

Z =

1, se G= 0 e ((I= 6 e IMC< 13, 4) ou (I= 7 e IMC< 13, 4) ou (I= 8 e IMC< 13, 5))

ou G= 1 e ((I= 6 e IMC< 13, 7) ou (I= 7 e IMC< 13, 7) ou (I= 8 e IMC< 13, 8))





4, caso contrario

(5.2)

onde I denota a variavel Idade e G a variavel Genero. A classificacao desta variavel em 4categorias foi baseada nas curvas de percentis e nos pressupostos estabelecidos pela OMSpara o IMC.

A variavel resposta Z apresenta as seguintes frequencias observadas:

74

Tabela 5.8: Frequencias observadas da variavel resposta.Categoria Designacao Frequencia Percentagem1 Baixo Peso 7 1.7%2 Peso Normal 251 62.3%3 Excesso de Peso 64 15.9%4 Obesidade 60 14.9%

NA 21 5.2%Total 403 100%

A Tabela 5.8 revela que cerca de 15% das criancas entre os 6 e os 8 anos, no total decriancas considerado, sofrem de obesidade.

Analogamente ao procedimento realizado para o modelo de regressao logıstica multipla,para encontrar o melhor modelo considerou-se inicialmente o modelo completo. Em seguidaaplicou-se o metodo de seleccao de variaveis Stepwise e o teste de razao de verosimilhancas.No entanto devido ao numero reduzido de observacoes foram consideradas 3 em vez de 4categorias na variavel resposta (agruparam-se as categorias baixo peso e peso normal). NaTabela 5.9 sao apresentados os valores de AIC de alguns dos modelos ajustados.

Tabela 5.9: Medidas de seleccao dos modelos.Modelos # Parametros AIC Desvio (Deviance)Modelo 1 216 479.348 207.348Modelo 2 9 375.100 363.100Modelo 3 27 383.299 351.299Modelo 4 30 385.660 349.660

O primeiro modelo, Modelo 1, trata-se do modelo completo. O Modelo 2 e nao maisdo que o resultado do metodo stepwise aplicado ao Modelo 1. No terceiro modelo foramincluıdas algumas variaveis que se consideram relevantes.

Assim, concluiu-se que o melhor modelo e o Modelo 3. Contudo, tal como na regressaologıstica dicotomica, introduziu-se a variavel PHDA1 ao Modelo 3, denominado Modelo 4,este foi entao escolhido como o melhor modelo por ser bastante relevante para o estudo.

Na Tabela 5.11 encontram-se as estimativas e os respectivos erros-padrao dos modelosque compoem o modelo de regressao logıstica politomica. De observar que sao apresentadosos modelos para duas categorias pois a variavel resposta considerada apresenta 3 categoriassendo uma a de referencia. Assim, cada conjunto de coeficientes resulta da comparacao deuma categoria com a categoria de referencia que, neste caso, foi peso normal.

Devido a problemas numericos derivados do numero de observacao insuficiente nalgumas

75

Tabela 5.10: Resultados dos testes de razao de verosimilhanca.

Variaveis LR g. l Valor-pSono 7.14 4 0.1288FreqDoces 7.37 6 0.2883BebeSumos 6.33 2 0.0423ComeBatFrita 1.79 2 0.4081PHDA1 1.64 2 0.4408

Tabela 5.11: Estimativas dos parametros para o Modelo 4.Excesso de Peso Obesidade

Variaveis Estimativa Erro Padrao Estimativa Erro PadraoInterseccao −3.754 1.567 −0.101 1.021Sono2 −0.280 0.584 −0.691 0.574Sono3 −0.463 0.716 −2.527 1.156FreqDoces2 −0.085 0.506 0.656 0.656FreqDoces3 0.045 0.531 −0.036 0.592FreqDoces4 0.132 0.557 0.492 0.578BebeSumos1 1.697 1.053 −0.652 0.574ComeBatFrita1 1.251 1.081 0.169 0.720PHDA1 0.424 0.487 −0.491 0.688

combinacoes de categorias, foi necessario agregar as categorias de algumas variaveis bemcomo considerar a variavel resposta com 3 categorias onde 1 corresponde a criancas combaixo peso ou peso normal, 2 a criancas com excesso de peso e 3 a criancas que sofrem deproblemas de obesidade.

A Tabela 5.12 apresenta as estimativas das razoes de chance obtidas para o modelo deregressao logıstica politomico seleccionado. Assim, para a variavel Sono parece existirevidencia que as criancas que dormem menos (Sono1 - categoria de referencia) apresentammaior chance de serem obesas e de terem excesso de peso comparativamente a terem umpeso normal.

As criancas que comem doces 4 vezes por semana ou mais (FreqDoces4) sao o grupo ondeo excesso de peso e a obesidade e mais frequente quando comparado com o peso normal ecom as criancas que comem doces uma vez por mes ou menos (FreqDoces1).

Em relacao a variavel BebeSumos, as criancas que bebem sumos parecem apresentarum risco de ter excesso de peso 5.5 vezes superior ao das criancas que nao bebem sumos,comparativamente a terem um peso normal. O risco relativo entre ter obesidade e peso

76

Tabela 5.12: Estimativas das Razoes de Chance para o modelo de regressao logısticapolitomico, Modelo 4.

Excesso de Peso Obesidade(Intercept) 0.02 0.90Sono2 0.76 0.50Sono3 0.63 0.08FreqDoces2 0.92 0.34FreqDoces3 1.05 0.96FreqDoces4 1.14 1.64BebeSumos1 5.46 0.52ComeBatFrita1 3.49 1.18PHDA1 1.53 0.61

Tabela 5.13: Frequencia relativa da variavel Sono.

Peso Normal Excesso de Peso Obesidade1 0.0571 0.0238 0.0286

Sono 2 0.4810 0.1476 0.11903 0.1095 0.0286 0.0048

normal espera-se que decresca cerca de 48%, ou seja, parece que ha evidencias de que nascriancas que bebem sumos ha menos chance que estas sejam obesas, comparando com ascriancas com um peso normal. Esta aparente contradicao de resultados podera ser explicadadevido a falta de observacoes como se pode observar pela tabela 5.15.

As criancas que comem batatas fritas parecem apresentar um risco de ter excesso depeso 3.5 vezes superior ao das criancas que nao comem batatas fritas, comparativamente aterem um peso normal. Analogamente, parece existir evidencia que o risco de obesidade emaior (18.5%) para as criancas que comem batatas fritas do que para as que nao comem,comparativamente a apresentarem um peso normal.

Por fim, em relacao a variavel PHDA1 espera-se que o risco relativo entre ter excesso depeso e peso normal (categoria de referencia) aumente cerca de 53% em criancas que sofremde PHDA. Por outras palavras, parece existir evidencia que ha mais chance das criancasque sofrem deste tipo de perturbacao terem excesso de peso do que as criancas que naosofrem de PHDA, em comparacao com o peso normal. Por outro lado, o risco relativo entresofrer de problemas de obesidade e apresentar um peso normal espera-se que decresca cercade 39%. Isto significa que parece existir evidencias para afirmar que as criancas que sofremde PHDA apresentam uma chance menor de serem obesas, comparativamente a terem um

77

Tabela 5.14: Frequencia relativa da variavel FreqDoces.

Peso Normal Excesso de Peso Obesidade1 0.1286 0.0429 0.0333

FreqDoces 2 0.2286 0.0619 0.02383 0.1667 0.0524 0.04294 0.1238 0.0429 0.0524

Tabela 5.15: Frequencia relativa da variavel BebeSumos.

Peso Normal Excesso de Peso ObesidadeBebeSumos 0 0.0857 0.0048 0.0286

1 0.5619 0.1952 0.1238

Tabela 5.16: Frequencia relativa da variavel ComeBatFritas.

Peso Normal Excesso de Peso ObesidadeComeBatFritas 0 0.0571 0.0048 0.0143

1 0.5905 0.1952 0.1381

peso normal. Mais uma vez, devido ao facto de existir um numero reduzido de criancascom PHDA nas categorias da variavel resposta, como se pode observar na Tabela 5.17, asconclusoes acima poderao parecer contraditorias.

Tabela 5.17: Frequencia relativa da variavel PHDA1.

Peso Normal Excesso de Peso ObesidadePHDA 0 0.5619 0.1619 0.1381

1 0.0857 0.0381 0.0143

78

Capıtulo 6

Conclusoes

No presente capıtulo serao apresentadas as conclusoes deste estudo.

Para a elaboracao deste estudo foi realizada, inicialmente, uma analise preliminar (des-critiva) das variaveis em estudo. Desta analise foram retiradas diversas conclusoes, nomeada-mente que: que quanto mais horas a crianca dorme por dia menor e a tendencia para serobesa ou ter excesso de peso. Concluiu-se ainda que parece nao existir uma relacao evidenteentre a idade e o ındice de massa corporal e que as criancas com PHDA apresentam umamediana de IMC mais elevada, em particular, nas criancas com PHDA, sao os rapazes quemapresenta uma mediana de IMC mais elevada.

Em seguida, foi implementado um modelo explicativo de regressao logıstica dicotomico, jaque a regressao logıstica e considerada um metodo adequado para determinar relacoes entreum conjunto de variaveis, quer qualitativas quer quantitativas, e uma variavel resposta(qualitativa). Assim, na elaboracao deste primeiro modelo foi considerada uma variavelresposta dicotomica (obeso e nao obeso) e verificaram-se evidencias para se concluir que,apesar da analise descritiva nao evidenciar uma relacao entre a idade e o IMC, as criancascom 8 anos parecem ser as que apresentam um risco menor de sofrer de obesidade. Verificou-se ainda que, aparentemente, quanto menos horas as criancas dormem por dia, maior e achance de sofrerem de problemas de obesidade, que as criancas que comem doces poderaoser consideradas um grupo de risco de obesidade e que quanto maior a frequencia com queingerem batatas fritas maior a chance de sofrer de obesidade.

Uma vez que se observou a presenca de outliers foi necessario analisar os dados em de-talhe por forma a averiguar se essas observacoes influenciavam as estimativas resultantesdo modelo de regressao logıstica (dicotomico). Numa primeira abordagem foram elimina-dos os outliers, no entanto, este procedimento conduziu a resultados discrepantes que semanifestaram nas estimativas de alguns parametros do modelo. Assim, verificou-se que setratavam de observacoes influentes e prosseguiu-se para uma segunda abordagem. Nestasegunda abordagem, pretendeu-se construir um modelo robusto de modo a ultrapassar os

79

problemas encontrados anteriormente com as observacoes atıpicas. Contudo, devido ao re-duzido numero de observacoes e a problemas numericos nao foi possıvel construir o modelorobusto.

Por fim, foi construıdo um modelo de regressao logıstica politomico. Inicialmente pretendia-se que a variavel resposta apresentasse 4 categorias (baixo peso, peso normal, excesso de pesoe obesidade), no entanto, devido a problemas numericos, resultante do reduzido numero deobservacoes em algumas combinacoes dos nıveis das variaveis, foi considerada uma variavelresposta com 3 categorias. Assim, agruparam-se as categorias baixo peso e peso normal,ficando a variavel resposta com as seguintes categorias: peso normal, excesso de peso eobesidade. Em geral, as conclusoes obtidas com este modelo confirmaram os resultadosdo modelo dicotomico. A ocorrencia de algumas combinacoes entre nıveis da variavel res-posta e algumas variaveis explicativas conduziram a estimativas enviesadas, o que levouaparentemente a obter alguns resultados contraditorios.

Para finalizar, espera-se que este trabalho tenha ajudado a compreender algumas dasprincipais causas da obesidade infantil e com isso tentar minimizar o numero de criancascom este problema de saude.

Um assunto de relevo, e que podera ser alvo de trabalho futuro, sera perceber que modi-ficacoes deveriam ser consideradas nos metodos robustos para que fosse possıvel ultrapassaros problemas numericos ocorridos na estimacao dos parametros do modelo.

Um outro aspecto que fica em aberto e a utilizacao destes dados para avaliar se as curvasde crescimento da OMS (Organizacao Mundial de Saude), que sao usadas em Portugal,estao de facto ajustadas as criancas portuguesas. Este trabalho seria preconizado usando,por exemplo, modelos de regressao quantılica.

Do ponto de vista da classificacao seria tambem interessante aplicar outros metodos declassificacao e compara-los com os resultados obtidos pela regressao logıstica.

80

Bibliografia

Agranat-Meged, A. N., Deitcher, C., Goldzweig, G., Leibenson, L., Stein, M. e Galili-Weisstub, E. (2005). Childhood obesity and attention deficit hyperactivity disorder: Anewly described comorbidity in obese hospitalized children. International Journal ofEating Disorders 37, 357–359.

Amado, C. (2004). Bootstrap Robusto com base na Funcao de Influencia. Tese de Doutora-mento, Instituto Superior Tecnico, Universidade Tecnica de Lisboa, Lisboa.

Barkley, R. A. (1997). ADHD and the nature of self-control. Guilford, New York.

Bazar, K. A., Yun, A. J., Lee, P. Y., Daniel, S. M. e Doux, J. D. (2006). Obesity andadhd may represent different manifestations of a common environmental oversamplingsyndrome: a model for revealing mechanistic overlap among cognitive, metabolic andinflammatory disorders. Medical Hypotheses 66, 263–269.

Bianco, A. e Yohai, V. (1996). Robust estimation in the logistic regression model. InEd.H.Rieder (Ed.), Robust Statistics, Data Analysis and Computer Intensive Methods,Volume 109 of Lecture Notes in Statistics, pp. 17–34. Springer Verlag, New York.

Cantoni, E. (2004). Analysis of robust quasi-deviances for generalized linear models. Journalof Statistical Software 10, 1–9.

Cantoni, E. e Ronchetti, E. (2001). Robust inference for generalized linear models. Journalof The American Statistical Association 96, 1022–1030.

Copas, J. (1988). Binary regression models for contaminated data. Journal of Royal Sta-tistical Society 50, 225–265.

Cortese, S., Angriman, M., Maffeis, C., Isnard, P., Konofal, E., Lecendreux, M., Purper-Ouakil, D., Vincenzi, B., Bernardina, B. D. e Mouren, M. C. (2008). Attention-deficit/hyperactivity disorder and obesity: A systematic review of the literature. CriticalReviews in Food Science and Nutrition 48, 524–537.

Croux, C. e Haesbroeck, G. (2003). Implementing the bianco and yohai estimator for logisticregression. Computational Statistics & Data Analysis 44, 273–295.

81

Davison, A. e Snell, E. (1991). Residuals and diagnostics. In Statistical Theory and Mod-elling: In Honour of Sir David Cox D.V. Hinkley, N. Reid, and E.J. Snell (editors).Chapman and Hall.

Duchesne, P. (2003). Estimation of a proportion with survey data. Journal of StatisticsEducation 11, 1–24.

Hampel, F., Ronchetti, E., Rousseeuw, P. e Stahel, W. (1986). Robust Statistics - TheApproach Based on Influence Functions. Wiley.

Hosmer, D. e Lemeshow, S. (2001). Applied Logistic Regression. John Wiley and Sons, Inc.

Khoshgoftaar, T. M. e Allenedward, B. (1999). Logistic regression modeling of softwarequality. International Journal of Reliability, Quality and Safety Engineering 6, 303–317.

Kordzakhia, N., Mishra, G. e Reiersolmoen, L. (2001). Influence Functions. John Wileyand Sons, New York.

Kutner, M., Nachtsheim, C., Neter, J. e Li, W. (2005). Applied Linear Statistical Models.(5th Edition). Editorial McGraw Hill.

Padez, C., Fernandes, T., Mourao, I., Moreira, P. e Rosado, V. (2004). Prevalence ofoverweight and obesity in 7-9-year-old portuguese children: Trends in body mass indexfrom 1970-2002. American Journal of Human Biology 16, 670–678.

Pires, A. M. (1995). Analise Discriminante: Novos Metodos Robustos de Estimacao. Tesede Doutoramento, Instituto Superior Tecnico, Universidade Tecnica de Lisboa, Lisboa.

R Development Core Team (2009). R: A Language and Environment for Statistical Com-puting. Vienna, Austria: R Foundation for Statistical Computing. ISBN 3-900051-07-0.

Silva, A. B. B. (2005). Mentes Inquietas: Compreender o Disturbio do Defice de Atencao(DDA). Pergaminho.

Walkling, R. A. (1985). Predicting tender offer success: A logistic analysis. Journal ofFinancial and Quantitative Analysis 20, 461–478.

Waring, M. E. e Lapane, K. L. (2008, July). Overweight in children and adolescent inrelation to attention-deficit/ hyperactivity disorder: Results from a national sample.Pediatrics 122(1), e1–e6.

Weisburd, D. e Britt, C. (2007). Statistics in Criminal Justice. Springer Verlag, New York.

82

Apendice A

Inqueritos e macros em R

Este apendice contem os inqueritos que foram aplicados para a obtencao dos resultadosdeste estudo e tambem o codigo, implementado no software estatıstico R, relativo a im-plementacao dos procedimentos referidos ao longo do presente estudo. De notar que osprogramas apresentados nao se encontram comentados, assumindo-se que o leitor esta fa-miliarizado com os comandos basicos do software estatıstico R.

A.1 Inqueritos

83

CRITÉRIOS DSM IV PHDA COD:

Pense no comportamento do seu filho nos últimos 6 m eses e assinale a cruz onde achar mais indicado

Nun

ca

Por

vez

es

Fre

quen

tem

ente

A1 Comete erros na escola, trabalho ou outras actividades por falta de atenção e não por não saber fazer

A2 Tem dificuldade em manter a atenção durante as tarefas

A3 Parece não ouvir quando o chama (tem de chamar muitas vezes)

A4 Não segue instruções e não termina os trabalhos escolares, tarefas caseiras ou deveres; saltita de tarefas e não acaba o que inicia

A5 Tem dificuldade em organizar tarefas e actividades

A6 Evita ou não gosta de tarefas que precisam concentração (como trabalhos escolares, pintar, ler, recortar)

A7 Perde objectos importantes para o desempenho de tarefas ou em jogos (brinquedos, livros, material escolar, etc.)

A8 Distrai-se facilmente com estímulos mínimos

A9 Esquece-se de executar tarefas diárias comuns (abotoar calças, atacadores,...)

B1 Mexe as mãos e pés e não se mantém sentado

B2 Levanta-se na sala de aula ou em outras situações que exijam a posição de sentado

B3 Corre (trepa, etc.) de forma excessiva, em situações inapropriadas (restaurante)

B4 Tem dificuldade em participar em jogos ou em actividades de uma forma calma

B5 Parece ter uma energia inesgotável e está sempre activo

B6 Fala demasiado e não se cala

B7 Dá respostas a perguntas antes de se acabar

B8 Tem dificuldade em esperar pela sua vez

B9 Frequentemente, interrompe ou intromete-se com os outros (interrompe conversas ou jogos)

QUESTIONÁRIO Hábitos de vida COD:

Data de

nascimento

Idade Sexo F M Peso ao nascer

HISTÓRIA FAMILIAR:

Sem escola primária 9º ano 12ºano licenciatura Excesso peso

Problemas escolares, desatento, agitado

Mãe

Pai

Irmãos Nº irmãos: Rapazes Raparigas

Em relação aos hábitos do seu filho (assinale com cruz nos espaços em branco):

Número de horas de sono total nas 24 horas:

<8h 8-10h 10-12h

Nº de horas a ver televisão por dia quando tinha 2-3 anos :

<1h 1-2h 2-3h 3-4h 4-5h 5-6h >6h

Nº de horas a ver televisão por dia agora :

<1h 1-2h 2-3h 3-4h 4-5h 5-6h >6h

Número de horas a jogar computador ou playstation por dia:

<1h 1-2h 2-3h 3-4h 4-5h 5-6h >6h

Número de horas de exercício físico por semana:

<1h 1-2h 2-3h 3-4h 4-5h 5-6h >6h

Hábitos alimentares : Nº de refeições por dia: 2 3 4 5 >5

NÃO SIM Diário 5x sem 4x sem 3x sem 2x sem 1x sem 1x mês

Come entre refeições?

Come doces?

Bebe sumos?

Come batata frita?

Tem alguma doença conhecida? Não Sim Qual? ______________________________

Faz medicação crónica? Não Sim Qual? ____________________________________

1

1

ASSOCIAÇÃO ENTRE OBESIDADE E PHDA EM CRIANÇAS ENTRE 6-8 ANOS

Questionário de Conner (PARA PAIS) COD: Leia cada item cuidadosamente e decida quanto é que pensa que o seu filho é afectado por estes problemas. Ponha uma cruz no quadrado que pensa corresponder ao comportamento do seu filho no presente momento 0

Nunca 1

Raramente (1 x mês)

2 Frequen-temente (1 x sem)

3 excessiva-

mente (diário)

1 - Sempre a mexer com as mãos (mexe no cabelo, roupa, etc.)

2 - Mal educado com adultos

3 –Dificuldade em fazer e conservar amigos

4 – Reage antes de pensar; impulsivo

5 – Quer comandar tudo

6 - -Chupa ou rói (dedos, unhas, roupa, cobertores)

7 – Chora com facilidade e frequentemente

8 – Irritável

9 - Parece que anda na «Lua»

10 – Dificuldade em aprender

11 – Irrequieto; nunca está sossegado

12 - Medroso (de novas situações, novas pessoas, locais, ir para a escola)

13 – Impaciente, sempre de pé e pronto para andar

14 – Destrói tudo

15 – Mente ou conta histórias que não são verdadeiras

16 – Tímido

17 – Arranja mais problemas do que os seus colegas da mesma idade

18 – Fala de modo diferente dos outros colegas (gaguez, fala de mimo)

19 – Nega erros e culpa os outros

20 – Cria conflitos

21 – Faz beicinho e amua

22 – Rouba

23 – Desobedece ou obedece contrariado

24 - Preocupa mais do que os outros (quando está só, ou doente)

25 – Incapaz de terminar as coisas

26 – Ofende-se com facilidade

27 – Ameaça os outros (rufia)

28 – Incapaz de parar uma actividade repetitiva

29 – Cruel

30 – Infantil ou imaturo (quer ajuda de que não deveria necessitar)

31 – Distrai-se com facilidade e não de concentra

32 – Dores de cabeça

33 – Mudanças rápidas do humor

34 – Não gosta nem cumpre proibições

35 – Luta constantemente

36 – Dá-se mal com os irmãos e as irmãs

37 – Desiste das tarefas à mínima dificuldade

38 – Perturba as outras crianças

39 – Criança infeliz

40 – Dificuldades com alimentação (pouco apetite, levanta-se da mesa)

41 – Dores de estômago

42 – Dificuldades com o sono (custa a adormecer, acorda cedo, levanta-se)

43 – Outras dores

44 – Vómitos ou enjoos

45 – Sente-se posto de parte, na família

46 – Gabarolas

47 – Deixa-se influenciar

48 – Problemas intestinais (obstipação, diarreia frequente, irregular)

ASSOCIAÇÃO ENTRE OBESIDADE E PHDA EM CRIANÇAS ENTRE 6-8 ANOS

Questionário de Conner (PARA PROFESSORES) COD: Ponha uma cruz no quadrado que considerar mais correspondente ao comportamento da criança no presente momento (agradecemos que respondesse a todos os itens deste sector). 0

Nunca 1

rara-mente (1 x mês)

2 frequente-

mente (1 x sem)

3 excessiva-

mente (diário)

1 – Irrequieto

2 – Faz ruídos inadequados quando não devia

3 – Exige atenção imediata

4 – «Arma-se em esperto»

5 – Birras e comportamento imprevisíveis

6 – Reage mal à crítica

7 – Dificuldades de concentração e da manutenção da atenção

8 – Perturba as outras crianças

9 – Sonha acordado

10 – Amua com facilidade

11 – Alterações do humor rápidas e drásticas

12 – Conflituoso

13 – Atitude submissa relativamente à autoridade

14 – Impaciente, sempre «pronto a andar»

15 – Impulsivo

16 – Necessidade excessiva de atenção do professor

17 – Parece não ser aceite pelo grupo

18 – Parece ser facilmente «levado» pelas outras crianças

19 – Não sabe perder

20 – Falta de capacidade de liderança

21 – Incapaz de terminar o que começa

22 – Infantil e imaturo

23 – Nega os erros e culpa os outros

24 – Dá-se mal com as outras crianças

25 – Pouco colaborante com colegas

26 – Facilmente frustrado nos esforços

27 – Pouco cooperativo com o professor

28 – Dificuldade em aprender

A.2 Macros em R

A.2.1 Estatıstica Descritiva

dados_F <- read.table("dados.txt", header=TRUE)

attach(dados_F)

plot(factor(ExFisico), col="Slategray2", xlab="Numero de exercıcio fısico

(por semana)", ylab="Frequencia", names=c("<1h", "1-2h", "2-3h", "3-4h",

"4-5h", "5-6h", ">6h"))

boxplot(ExFisico, ylab="Numero de exercıcio fısico (por semana)", col="Slategray2")

boxplot(IMC ~ PHDA1, range = 1.5, width = NULL, varwidth = FALSE,

notch = FALSE, outline = TRUE, plot = TRUE, border = par("fg"),

col="slategray2", log = "", horizontal = FALSE, add = FALSE,

at = NULL, main="Boxplot do IMC vs PHDA", xlab="IMC vs PHDA", ylab="IMC")

require(gplots) #for smartlegend

boxplot(IMC ~ PHDA1,

boxwex = 0.25, at = 1:2 - 0.2,

subset= Genero == "1", col="slategray2",

xlab="PHDA",

ylab="IMC")

boxplot(IMC ~ PHDA1, add = TRUE,

boxwex = 0.25, at = 1:2 + 0.2,

subset= Genero == "0", col="lightpink")

smartlegend(x="right",y="top", inset = 0,

c("Masculino", "Feminino"),

fill = c("slategray2", "lightpink"))

boxplot(IMC ~ PHDA1,

boxwex = 0.25, at = 1:2 - 0.2,

subset= Genero == "1", col="olivedrab4",

88

xlab="PHDA",

ylab="IMC")

boxplot(IMC ~ PHDA1, add = TRUE,

boxwex = 0.25, at = 1:2 + 0.2,

subset= Genero == "0", col="olivedrab1")



fill = c("olivedrab4", "olivedrab1"))

boxplot(IMC ~ Sono,

boxwex = 0.25, at = 1:3 - 0.2,


xlab="Sono",

ylab="IMC")

boxplot(IMC ~ Sono, add = TRUE,

boxwex = 0.25, at = 1:3 + 0.2,





boxplot(IMC ~ Idade,

boxwex = 0.25, at = 1:3 - 0.2,


xlab="Idade",

ylab="IMC")

boxplot(IMC ~ Idade, add = TRUE,

boxwex = 0.25, at = 1:3 + 0.2,





89

A.2.2 Associacao entre variaveis

l<-na.exclude(dados[,c(29,4)])

chisq.test(l$PHDA1, l$IMC1)

Pearson’s Chi-squared test

data: l$PHDA1 and l$IMC1

X-squared = 3.4062, df = 3, p-value = 0.3331


chisq.test(l$PHDA1, l$Y)

Pearson’s Chi-squared test with Yates’ continuity

correction

data: l$PHDA1 and l$Y



chisq.test(l$PHDA1, l$Nrapariga)

Chi-squared test for given probabilities

data: l$PHDA1

X-squared = 301, df = 350, p-value = 0.9726


chisq.test(l$PHDA1, l$Nirmaos)


data: l$PHDA1 and l$Nirmaos


90


chisq.test(l$PHDA1, l$Sono)


data: l$PHDA1 and l$Sono



chisq.test(l$PHDA1, l$TV2anos)


data: l$PHDA1 and l$TV2anos



chisq.test(l$PHDA1, l$TVagora)


data: l$PHDA1 and l$TVagora



chisq.test(l$PHDA1, l$Jogar)


data: l$PHDA1 and l$Jogar


91


chisq.test(l$PHDA1, l$ExFisico)


data: l$PHDA1 and l$ExFisico



chisq.test(l$PHDA1, l$Nref)


data: l$PHDA1 and l$Nref



chisq.test(l$Mae, l$TV2anos)


data: l$Mae and l$TV2anos


A.2.3 Modelo de Regressao Logıstica Dicotomico

dados_Factor<-data.frame(Y=factor(Y), Idade=factor(Idade), Genero=factor(Genero),

Peso_Nasc=factor(Peso_Nasc), Mae=factor(Mae), Pai=factor(Pai),

Sono=factor(Sono), TV2anos=factor(TV2anos), TVagora=factor(TVagora),

Jogar=factor(Jogar), ExFisico=factor(ExFisico), Nref=factor(Nref),

ComeEntreRef=factor(ComeEntreRef), FreqEntreRef=factor(FreqEntreRef),

ComeDoces=factor(ComeDoces), FreqDoces=factor(FreqDoces),

BebeSumos=factor(BebeSumos), FreqSumos=factor(FreqSumos),

ComeBatFrita=factor(ComeBatFrita), FreqBFrits=factor(FreqBFrits),

92

PHDA=factor(PHDA), PHDA1=factor(PHDA1))

dados.na<-na.exclude(dados_Factor)

library(boot)

modelo1<-glm(Y~Idade+Genero+PesoNasc+Mae+Pai+NRapaz+NRapariga+

Nirmaos+Sono+TV2anos+TVagora+Jogar+ExFisico+Nref+ComeEntreRef+

FreqEntreRef+ComeDoces+FreqDoces+BebeSumos+FreqSumos+ComeBatFrita+

FreqBFrita+PHDA1, family=binomial,data=dados.na)

modelo2<-step(modelo1)

modelo3<-glm(Y~Idade+Sono+ComeDoces+FreqBFrita+PHDA1,

family=binomial,data=dados.na)

cv.glm(dados.na,modelo3)

modelo4<-glm(Y~Idade+Sono+ComeDoces+FreqBFrita+Mae*TV2anos,


modelo5<-glm(Y~Idade+Sono+ComeDoces+FreqBFrita+Idade*ExFisico,


modelo6<-glm(Y~Idade+Sono+ComeDoces+FreqBFrita+Nref*ExFisico,


modelo7<-glm(Y~Idade+Sono+ComeDoces+FreqBFrita+Nref*ExFisico+PHDA1,


A.2.4 Funcoes Auxiliares

BIC<-function(mod)LL<-logLik(mod)[1]

n<-length(mod$fitted.values)

bic<- -2*LL+mod$rank*log(n)

bic

93

Odds<-function(modelo)

alpha<-0.95

z<-qnorm(1-(alpha/2))

coef<-as.vector(modelo$coef)

se<-as.vector(summary(modelo)$coefficients[,2])

odds<-exp(coef)

lower<-exp(coef-z*se)

upper<-exp(coef+z*se)

tudo<-cbind(odds,lower,upper)

rnames<-names(modelo$coef)

rownames(tudo)<-rnames

tudo

GRAFICOS RESIDUOS DESVIO E PEARSON VS PROBS ESTIMADAS

plot(glm.diag(modelo3)$cook, main="Distancia de Cook", xlab="n",

ylab="Distancia de Cook", col="slategray2")

cooky<-8/length(modelo3$fitted.values)-2*modelo3$rank

abline(h=cooky,lwd=2,col="red")

plot(glm.diag(modelo3)$cook, main="Leverage Points", xlab="n",

ylab="Leverage", col="slategray2")

haty<-(2*modelo3$rank)/length(modelo3$fitted.values)

abline(h=haty,lwd=2,col="red")

OutliersCook<-function(mod)

cook<-sort(glm.diag(mod)$cook,index.return=TRUE)$x

cookindex<-sort(glm.diag(mod)$cook,index.return=TRUE)$ix

medida<-8/(length(mod$fitted.values)-2*mod$rank)

k<-0 # inicio dos indices

j<-1 # conta

outliers<-NULL

while(k<=j)

if(cook[j]<=medida)

j=j+1

else

k<-j

j<-0

94

outliers<-cookindex[k:length(cook)]

outliers

GRAFICO OUTLIERS

plot(glm.diag(modelo3)$h,glm.diag(modelo3)$cook,ylab="Cook Statistic",

xlab="Leverage Points")

identify(glm.diag(modelo3)$h,glm.diag(modelo3)$cook, plot=TRUE)

A.2.5 Modelo de Regressao Logıstica Robusto

TESTE DE BOOTSTRAP

dadosFactor<-data.frame( Y=factor(Y), Idade=factor(Idade),

Genero=factor(Genero),Sono=factor(Sono),ComeDoces=factor(ComeDoces),

FreqDoces=factor(FreqDoces), BebeSumos=factor(BebeSumos),

ComeBatFrita=factor(ComeBatFrita), PHDA1=factor(PHDA1))

dados_Factor.na<-na.exclude(dadosFactor)

dados<-dados_Factor.na

bootstrapglm<-function(data1,B)

coef_novo<-NULL

coef<-NULL

len<-dim(data1)[1]

A<-c(1:len)

set.seed(19)

for (i in 1:B)

amostra_n<-sample(A,len,replace=T)

95

amostra<-data1[amostra_n,]

modelo<-glmrob(Y~factor(Idade)+factor(Genero)+factor(Sono)+factor(ComeDoces)

+factor(FreqDoces)+factor(BebeSumos)+factor(ComeBatFrita)+factor(PHDA1),

family=binomial, data=amostra,method="Mqle")

coef<-modelo$coef

coef_novo<-append(coef_novo,coef,after=length(coef_novo))

coef_final<-matrix(as.vector(coef_novo),ncol=length(coef),byrow=T)

coef_final

teste<-function(matriz,icol,fcol)

supA<-function(vec,a)

b<-NULL

for(i in 1:length(vec))

if(vec[i]>a)b<-append(b,1)else b<-append(b,0)

b

if(fcol<icol)print("Error:fcol tem de ser > icol")

else

if (icol==fcol)

sub<-matriz[,icol]

m<-mean(sub)

distquad<-(sub-m)^2

b<-supA(distquad,m^2)

B<-sum(b)/length(sub)

B

else

sub<-matriz[,icol:fcol]

m<-colMeans(sub)

m2<-as.matrix(m)

v<-var(sub)

b<-NULL

distquad<-for(i in1:dim(sub)[1])

b<-append(b,t(sub[i,]-m2)%*%ginv(v)%*%(sub[i,]-m2))

distquad

distquad0<-t(m2)%*%ginv(v)%*%m2

96

b<-supA(distquad,distquad0)

B<-sum(b)/(dim(sub)[1])

B

boot<-bootstrapglm(dados,100)

teste (boot,2,3)

[1] 0.48

teste (boot,4,4)

[1] 0.5

teste (boot,5,6)

[1] 0.09

teste (boot,7,7)

[1] 0.03

teste (boot,8,10)

[1] 0.13

teste (boot,11,11)

[1] 0.99

teste (boot,12,12)

[1] 0.23

teste (boot,13,13)

[1] 0.66

TESTE DE QUASI DEVIANCE

modelo0<-glmrob(Y~factor(Idade)+factor(Genero)+

factor(Sono)+factor(ComeDoces)+factor(FreqDoces)+

factor(BebeSumos)+factor(ComeBatFrita)+

factor(PHDA1),family=binomial, data=dados,method="Mqle")

modelo1<-glmrob(Y~factor(Genero)+factor(Sono)+

97

factor(ComeDoces)+factor(FreqDoces)+factor(BebeSumos)+

factor(ComeBatFrita)+factor(PHDA1),family=binomial,

data=dados,method="Mqle")

modelo2<-glmrob(Y~factor(Idade)+factor(Sono)+









factor(Sono)+factor(FreqDoces)+factor(BebeSumos)+




factor(Sono)+factor(ComeDoces)+factor(BebeSumos)+









factor(BebeSumos)+factor(PHDA1),family=binomial,




factor(BebeSumos)+factor(ComeBatFrita),family=binomial,


98

anova(modelo0,modelo1,teste="QD")









Robust Wald Test Table

Model 1: Y ~ factor(Idade) + factor(Genero) + factor(Sono) +

factor(ComeDoces) + factor(FreqDoces) + factor(BebeSumos) +

factor(ComeBatFrita) + factor(PHDA1)

Model 2: Y ~ factor(Genero) + factor(Sono) + factor(ComeDoces) +

factor(FreqDoces) + factor(BebeSumos) + factor(ComeBatFrita) +

factor(PHDA1)

Models fitted by method ’Mqle’

pseudoDf Test.Stat Df Pr(>chisq)

1 286

2 288 -1.6118 -2 0.4467






Model 2: Y ~ factor(Idade) + factor(Sono) + factor(ComeDoces) +


factor(PHDA1)

99



1 286

2 287 -0.18714 -1 0.6653






Model 2: Y ~ factor(Idade) + factor(Genero) + factor(ComeDoces) +


factor(PHDA1)



1 286

2 288 -7.3444 -2 0.02542








factor(PHDA1)



1 286

2 287 -3.2815 -1 0.07006

100







factor(ComeDoces) + factor(BebeSumos) + factor(ComeBatFrita) +

factor(PHDA1)



1 286

2 289 -7.1315 -3 0.06782







factor(ComeDoces) + factor(FreqDoces) + factor(ComeBatFrita) +

factor(PHDA1)



1 286

2 287 -3.9681e-05 -1 0.995




101





factor(PHDA1)



1 286

2 287 -1.2996 -1 0.2543








factor(ComeBatFrita)



1 286

2 287 -0.13003 -1 0.7184

A.2.6 Modelo de Regressao Logıstica Politomico

library(boot)

library(stats)

library(car)

library(nnet)

dados_v1 <- read.table("dados_v1.txt", header=TRUE)

dados_v1.na<-na.exclude(dados_v1)

102

attach(dados_v1)

OddsPolitomica<-function(modelo)

i<-dim(coef(modelo))[1]

coef<-NULL

coef<-for(j in 1 :i)coef<-append(coef,coef(modelo)[j,])

coef<-append(coef,coef(modelo)[1,]-coef(modelo)[2,])

coef<-matrix(coef,ncol=3)

rnames<-modelo$coef

cnames<-c("Excesso de Peso","Obesidade","Excesso-Obesidade")

rownames(coef)<-rnames

colnames(coef)<-cnames

odds<-exp(coef)

round(odds,4)

modelofactor1_v1<-multinom(W~factor(Idade)+factor(Genero)+factor(Peso_Nasc)+

factor(Mae)+factor(Pai)+factor(NRapaz)+factor(NRapariga)+factor(Nirmaos)+

factor(Sono)+factor(TV2anos)+factor(TVagora)+factor(Jogar)+factor(ExFisico)+

factor(Nref)+factor(ComeEntreRef)+factor(FreqEntreRef)+factor(ComeDoces)+

factor(FreqDoces)+factor(BebeSumos)+factor(FreqSumos)+factor(ComeBatFrita)+

factor(FreqBFrits)+factor(PHDA1) ,data=dados_v1.na)

modelofactor2_v1<-step(modelofactor1_v1)

modelofactor3_v1<-multinom(W~factor(Sono)+factor(FreqDoces)+factor(BebeSumos)+

factor(ComeBatFrita),data=dados_v1.na)

modelofactor4_v1<-multinom(W~factor(Sono)+factor(FreqDoces)

factor(BebeSumos)+factor(ComeBatFrita)+factor(PHDA1),data=dados_v1.na)

summary(modelofactor4_v1)

Anova(modelofactor4_v1)

OddsPolitomica(modelofactor4_v1)

103

dados<-dados_v1.na[c(10,1)]

b<-table(dados)

a<-round(prop.table(b),4)


b<-table(dados)



b<-table(dados)



b<-table(dados)



b<-table(dados)


104

obesidade e phda infantil: modelo de regress~ao log stica · 3.9 diagramas em caixa do imc por...

Documents