·

Ciências Contábeis ·

Estatística 2

· 2022/1

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Analise de Regressão Exemplo: Morettin e Bussab, Estatística Básica, página 81. Número de anos de serviço por número de clientes de agentes de uma companhia de seguros. Agente | Anos de Serviço (X) | Número de clientes (Y) A | 2 | 48 B | 3 | 50 C | 4 | 56 D | 5 | 52 E | 4 | 43 F | 6 | 60 G | 7 | 62 H | 8 | 58 I | 8 | 64 J | 10 | 72 Fonte: Dados Hipotéticos. Parece haver uma associação entre as variáveis, porque no conjunto, à medida que aumenta o tempo de serviço, aumenta o número de clientes. Exemplo: Taxa de analfabetismo x Expectativa de vida. Conforme aumenta a taxa de analfabetismo (X), a expectativa de vida (Y) tende a diminuir. Tendência linear decrescente. • A investigação da relação usualmente começa com uma análise gráfica dos dados, através do gráfico de dispersão. • Com este gráfico, é possível verificar se existe alguma relação entre as variáveis e se essa relação pode ser tratada como aproximadamente linear. Parece existir uma relação linear entre as variáveis. Coeficiente de Correlação de Pearson Correlação de Pearson (r) : medida utilizada para quantificar esta associação. Valores de r variam de -1.0 a +1.0 . Coeficiente de Correlação de Pearson  r próximo a +1.0, indica uma forte associação positiva.  r próximo a -1.0, indica uma forte associação negativa. r próximo a 0, corresponde a um conjunto de pontos que não mostram nenhuma associação. Interpretação do Coeficiente de Correlação de Pearson 0 < r < 1 Correlação linear positiva r = 1 Correlação linear perfeita positiva -1 < r < 0 Correlação linear negativa r = -1 Correlação linear perfeita negativa r = 0 Correlação nula Coeficiente de Correlação de Pearson O Coeficiente de Correlação de Pearson, é calculado por: Para uma amostra de tamanho n, em que para cada indivíduo i , (i = 1,…,n) observamos os pares de valores (𝑥𝑖 ,𝑦𝑖 ). Coeficiente de Correlação de Pearson Calcule o coeficiente de correlação linear entre as variáveis X e Y. Resp: r = 0,41603 i X Y X.Y X² Y² 1 2 10 20 4 100 2 4 8 32 16 64 3 6 6 36 36 36 4 8 10 80 64 100 5 10 12 120 100 144 Σ 30 46 288 220 444 r = (Σx.y-(Σx)(Σy)/n) / sqrt([(Σx²-(Σx)²/n)][(Σy²-(Σy)²/n)]) = (288-30×46/5) / sqrt([220-900/5][444-2116/5]) = 0,41603 Coeficiente de Correlação de Pearson Calcule o coeficiente de correlação linear entre as variáveis X e Y. A B C D 1 i X Y 2 1 2 10 3 2 4 8 4 3 6 6 5 4 8 10 6 5 10 12 NO EXCEL =PEARSON(C2:C6;D2:D6) Exemplo Uma indústria fabricante de eletrodomésticos da chamada linha branca", tem como objetivo resolver o problema apresentado pelo elevado índice de refugo da gaveta de legumes de um modelo de refrigerador produzido pela empresa. A observação do problema indicou que a maior parte das gavetas refugadas era considerada defeituosa por apresentarem corte fora de esquadro. Os técnicos da empresa suspeitaram que a ocorrência do corte de gavetas fora de esquadro pudesse estar relacionada à variação de tensão na rede elétrica, que poderia prejudicar o desempenho do equipamento de corte. Para a verificação da validade desta hipótese, foram coletados dados sobre a tensão na rede elétrica (x) e a variação no corte (y). Exemplo 1° Passo: Verificar se existe uma relação linear entre as variáveis. 2° Passo: Calculando o coeficiente de correlação linear para os dados, r = -0,9764, um valor muito próximo de -1. Podemos concluir que existe uma forte correlação negativa entre a tensão na rede elétrica e a variação no corte das gavetas de legumes do refrigerador produzido pela indústria. Coeficiente de Correlação de Pearson Erros comuns envolvendo correlação Relação de causa e efeito - quando duas variáveis são altamente correlacionadas, não significa, necessariamente, que uma causa a outra. Pode existir uma alta correlação, mesmo quando não há relação linear significativa. Erros comuns envolvendo correlação Um estudo foi conduzido por um vendedor a varejo para determinar a relação entre os gastos semanais com publicidade e as vendas. (r=0.6348373) A quantidade de chuva é um fator importante na produtividade agrícola. Para medir esse efeito, foram anotadas, para 8 regiões diferentes produtora de soja, o índice pluviométrico e a produção do último ano.. (r= 0.7245956) Regressão Linear Um coeficiente de correlação descreve a associação linear entre variáveis, Para investigar e modelar a relação entre elas, usa-se a Análise de Regressão. DEFINIÇÃO: Modelos de regressão são modelos matemáticos que relacionam o comportamento de uma variável Y (variável dependente) com outra X (variável independente) ou outras X’s (variáveis independentes). Regressão Linear O objetivo da análise de regressão linear é aproximar por uma linha reta um determinado conjunto de pontos. Em muitos casos, não é possível traçar uma reta que passe por todos os pontos mas pode-se traçar uma reta que passe perto da maioria deles. Esta reta é chamada de reta ajustada de regressão linear. Regressão Linear Quando estamos estudando o comportamento de apenas duas variáveis x e y que supostamente se relacionam através de uma função linear, devemos considerar a seguinte equação: Y= 𝛽0 +𝛽1x + 𝜀 Este modelo é chamado de Modelo de Regressão Linear Simples, em que: •Y= Valor da variável resposta ou dependente; •X = Valor da variável independente ou variável preditora; • 𝛽0 e 𝛽1 são os parâmetros desconhecidos a serem estimados (coeficientes de regressão); • 𝜀 representa um erro aleatório e pode ser pensado como uma “falha” da equação linear em se ajustar aos dados exatamente. Estimação dos Parâmetros por Mínimos Quadrados Ordinários Estimação por Mínimos Quadrados Já vimos que uma relação linear entre duas variáveis pode ser expressa através da equação: Y=𝛽0+ 𝛽1x + 𝜀  Esta equação é a que se obteria medindo-se a população inteira de valores de x e y . Na realidade, apenas uma amostra é medida e usa-se esta amostra para estimar a reta.  A reta estimada através da amostra pela regressão de mínimos quadrados será denotada por: ෠𝑌= መ𝛽0+ መ𝛽1𝑋 Estimação por Mínimos Quadrados Em que መ𝛽0e መ𝛽1 são estimativas de 𝛽0 e 𝛽1 . O valor de መ𝛽0 é o valor predito de ෠𝑌 quando X é zero. O valor de መ𝛽1é o incremento em ෡𝑌 resultante do incremento de uma unidade em X.  O método de Mínimos Quadrados é baseado na soma dos quadrados dos resíduos , ou seja Estimação por Mínimos Quadrados Os estimadores de mínimos quadrados de 𝛽0 e 𝛽1 denotados por መ𝛽0 e መ𝛽1 devem satisfazer as seguintes equações: A solução deste problema matemático fornece as seguintes expressões para መ𝛽0e መ𝛽1.  መ𝛽0 =ത𝑌 - መ𝛽1. ത𝑋  መ𝛽1 = σ 𝑋.𝑌− σ 𝑋 .(σ 𝑌) 𝑛 σ 𝑋2 − (σ 𝑋)2 𝑛 Regressão Linear Simples por Mínimos Quadrados Para o exemplo da fabricante de eletrodomésticos o modelo de regressão ajustado é expresso por: Esta equação de regressão mostra que para cada aumento de um volt na tensão na rede elétrica a variação no corte das gavetas diminui, em média, 0,36 mm. Análise de Variância no Modelo de Regressão A Analise de Variância é baseada na partição da variação total da variável dependente Y que pode ser decomposta em duas partes: uma explicada pelo modelo de regressão ajustado e outra não explicada, conforme mostra a equação abaixo. Análise de Variância no Modelo de Regressão O termo é a soma dos quadrados da observações em relação ao seu valor médio e representa uma medida da variabilidade total dos dados de Y;  O primeiro termo do lado direito que representa a soma dos quadrados explicada pelo modelo de regressão, é denotada por ;  O segundo termo é a soma de quadrados residual . Análise de Variância no Modelo de Regressão  Simbolicamente, podemos representar a equação Análise de Variância é resumida através Tabela adiante. A tabela pode ser utilizada para testar as seguintes hipóteses: Análise de Variância no Modelo de Regressão  Neste teste, não rejeitar H0 significa que não existe relação linear entre x e y; Testar estas hipóteses de interesse, será usando a estatística F=(𝑀𝑄regressão )/( 𝑀𝑄𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 ); Supondo que o erro 𝜀 tem distribuição Normal com média 0 e variância 𝜎2 ;  F tem distribuição de Fisher-Snedecor com 1 e n-2 graus de liberdade; Análise de Variância no Modelo de Regressão  Podemos, também, obter o coeficiente de determinação a partir da análise de variância da regressão, em que a variação total de Y é decomposta (explicada pelo modelo e outra não explicada). Análise de Variância no Modelo de Regressão • Análise de variância no Excel: 1°) Dados : 2°) Análise de dados : 3°) Regressão: Exemplo Um gerente de vendas coletou os seguintes dados sobre as vendas anuais e os anos de experiência profissional. Vendedor Anos de experiência profissional Vendas Anuais ( ) (em milhares de dólares) 1 1 80 2 3 97 3 4 92 4 4 102 5 6 103 6 8 111 7 10 119 8 10 123 9 11 117 10 13 136 Sendo os anos de experiência profissional a variável independente, desenvolva uma equação de regressão estimada que deveria ser usada para prever as vendas anuais, dados os anos de experiência profissional. Exemplo no Excel • Análise de variância no Excel: Análise de Variância no Modelo de Regressão  Para testarmos a significância do parâmetro 𝛽1 ,o que, na prática, significa verificar se a covariável X influencia a resposta Y , testamos as hipótese: 𝑯𝟎: 𝛽1= 0 𝑯𝟏: 𝛽1 ≠ 0  A estatística de teste utilizada para esta finalidade é dada por: Distribuição F de Snedecor. α=0,10 gl do Numerador gl do Denominador 1 2 3 4 5 6 7 8 9 10 1 39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 10 3,29 2,92 2,76 2,64 2,55 2,48 2,41 2,38 2,35 2,32 11 3,23 2,86 2,69 2,56 2,48 2,39 2,34 2,30 2,27 2,25 12 3,18 2,81 2,63 2,51 2,42 2,34 2,28 2,24 2,21 2,19 13 3,14 2,76 2,56 2,46 2,37 2,29 2,23 2,20 2,16 2,14 14 3,10 2,73 2,52 2,43 2,33 2,26 2,19 2,15 2,12 2,10 15 3,07 2,70 2,49 2,40 2,30 2,24 2,16 2,12 2,09 2,06 16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 17 3,03 2,64 2,44 2,31 2,22 2,12 2,10 2,06 2,03 2,00 18 3,01 2,62 2,42 2,29 2,20 2,08 2,04 2,01 1,98 1,96 19 2,99 2,61 2,40 2,27 2,18 2,06 2,02 2,02 1,98 1,96 20 2,97 2,59 2,38 2,25 2,16 2,04 2,00 2,00 1,96 1,94 21 2,96 2,57 2,36 2,23 2,14 2,02 2,02 1,98 1,95 1,92 22 2,95 2,56 2,35 2,22 2,13 2,02 2,01 1,97 1,93 1,90 Sob , tal estatística tem distribuição F de Snedecor com 1 e n-2 graus de liberdade. - Se F(calculado) > F( tabelado), rejeitamos 𝑯𝟎 a um nível de significância fixo. - Se não rejeita 𝑯𝟎 então 𝛽1= 0. Logo a variável X não contribui significativamente na explicação de Y, sendo assim o modelo de regressão não é adequado Adequação do modelo de regressão linear ajustado (Análise de Diagnóstico) Diagnósticos Básicos em Regressão Após ajustar o modelo de regressão linear simples devemos, antes de adotá-lo definitivamente para fazer predições, verificar: 1°) Se o modelo se ajusta bem aos dados : - Através do coeficiente de determinação (r²) = mede a porcentagem da variação total de Y explicada pela regressão. - 0 < r² < 1 , quanto mais próximo de 1 (100%), melhor o ajuste do modelo considerado. 2°) Se as suposições básicas se encontram satisfeitas. - O relacionamento entre y e x é linear; - O erro ε tem variância constante; - Os erros são não correlacionados; - O erro ε tem distribuição normal. Para que um modelo de regressão possa ser empregado como base para outros estudos, é necessário que as suposições feitas durante sua construção sejam válidas.  Se algumas destas suposições não se confirmarem, o modelo poderá ser inadequado para fazer as inferências de interesse.  Neste caso, deve ser procurado outro modelo mais adequado ou ser empregada outra abordagem para a análise do problema. Diagnósticos Básicos em Regressão Diagnósticos Básicos em Regressão - Análise de Resíduos  Um resíduo é definido por: Em que é o valor observado e é o correspondente valor estimado por meio do modelo de regressão.  Portanto, é razoável esperar que quaisquer desvios das suposições feitas sobre o erro poderão ser detectados se for realizada uma análise de resíduos. Verificando se os Resíduos tem variância constante Verificando se os Resíduos tem variância constante Verificando se os Resíduos tem variância constante Verificando se os Resíduos são não correlacionados - Gráfico dos resíduos versus ordem dos valores observados A validação da suposição de que os erros não são correlacionados pode ser verificado por meio do gráfico de resíduos contra a ordem de coleta das observações.  A presença de configurações especiais neste gráfico pode indicar que os erros são correlacionados. Verificando se os Resíduos são normais - Gráfico de Probabilidade Normal para os Resíduos / histograma A validação da suposição de normalidade pode ser verificada por meio do gráfico de probabilidade normal para os resíduos. A suposição de normalidade será considerada válida se os pontos do gráfico estiverem localizados, aproximadamente, ao longo de uma linha reta. Adequação do modelo de regressão linear ajustado Diagnostico básico em regressão e ajuste de modelos são interdependentes. Primeiro um modelo é ajustado e, então, se examina o modelo usando diagnósticos. Note que é possível não se encontrar um modelo que represente adequadamente os dados.