·
Administração ·
Estatística 2
· 2022/2
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
2
Análise de Variância anova -2022 2
Estatística 2
UFMA
16
Distribuições de Probabilidade
Estatística 2
UFMA
9
Teste de Significância para a Igualdade de Duas Proporções-2022 2
Estatística 2
UFMA
27
Hipótese Estatística-2022 2
Estatística 2
UFMA
28
Aula 1-2022 1
Estatística 2
UFMA
29
Aula 5 e 6-2022 1
Estatística 2
UFMA
4
Avaliação-2022 1
Estatística 2
UFMA
26
Aula 2-2022 1
Estatística 2
UFMA
5
Avaliação 3 Estatística I-2022 1
Estatística 2
UFMA
15
Testes Não-paramétricos análises de Dados Qualitativos -2022 2
Estatística 2
UFMA
Texto de pré-visualização
UNIVERSIDADE FEDERAL DO MARANHÃO – UFMA Fundação instituída nos termos da Lei nº 5.152, de 21/10/1966 – São Luís – Maranhão. CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA - CCET DEPARTAMENTO DE MATEMÁTICA – DEMAT afonso.filho@ufma.br Estatística II Dado um conjunto de valores observados de X e Y, construir um modelo de regressão linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente a relação verdadeira entre as variáveis. A determinação dos parâmetros dessa reta é denominada ajustamento. O processo de ajustamento deve partir da escolha da função através da qual os valores de X explicarão os e Y. Para isso recorre-se ao gráfico conhecido como diagrama de dispersão. Esse gráfico é construído anotando, em um sistema de coordenadas retangulares, os pontos correspondentes aos pares de observações de X e de Y. A função escolhida será aquela que for sugerida pelo conjunto dos pontos dispostos no diagrama. No gráfico abaixo, por exemplo, tem-se um conjunto de pontos sugerindo uma função linear (reta). CORRELAÇÃO E REGRESSÃO RELAÇÃO ENTRE VARIÁVEIS: Na prática, procura-se verificar se existe relação entre duas (ou mais) variáveis. A verificação da existência e do grau de relação entre variáveis é objeto de estudo da correlação. Uma vez caracterizada, procura-se descrever uma relação sob forma matemática, através de uma função. A estimação dos parâmetros dessa função matemática é objeto de estudo da regressão. REGRESSÃO LINEAR SIMPLES A análise de regressão tem por objetivo descrever através de um modelo matemático, a relação existente entre duas variáveis, a partir de n observações dessas variáveis. Supondo X a variável independente denominada variável explicativa e Y a variável dependente denominada variável explicada, diremos que Y = f (x). Em regressão considera-se apenas a variável Y como aleatória e a variável X como supostamente sem erro. Então a relação entre X e Y não é regida apenas por uma lei matemática, ou seja, para um dado valor de X, não observaremos necessariamente o mesmo Y. Assim sendo, a relação entre X e Y deverá ser escrita como segue: Y = f (x) + e onde a variável e irá captar todas as influências sobre Y não devidas a X. Observe que uma reta como a indicada vai deixar alguns pontos observados “para cima” e outros “para baixo” da mesma. A distância vertical entre a reta e cada ponto observado é o “desvio” ou “erro” (indicado por ê). A reta ajustada é representada por Ŷ = a + bX, onde a e b são os parâmetros do modelo: a é o ponto onde a reta ajustada corta o eixo da variável Y, e b é a tangente do ângulo que a reta forma com a paralela ao eixo da variável X. A reta ajustada é denominada, também reta de mínimos quadrados, pois os valores de a e b são obtidos de tal forma que é mínima a soma dos quadrados das diferenças entre os valores observados de Y e os obtidos a partir da reta ajustada para os mesmos valores de X. Simbolicamente teremos: Σ(ê)² = Σ(Y - Ŷ)² = Σ(Y - a - bX)² mínima, onde: ê = Y - Ŷ Para obter os estimadores a e b aplica-se a condição necessária de mínimo à função Σ(Y - Ŷ)². Para tanto basta derivá-la com relação a esses parâmetros e igualar as derivadas a zero. \(\frac{dΣê²}{da} = 0\) e \(\frac{dΣê²}{db} = 0\) \(\frac{d}{da}Σê² = \frac{d}{da}Σ(Y - Ŷ)² = \frac{d}{da}Σ(Y - a - bX)² = -2Σ(Y - a - bX) = 0\) (I) \(\frac{d}{db}Σê² = \frac{d}{db}Σ(Y - Ŷ)² = \frac{d}{db}Σ(Y - a - bX)² = -2Σ(Y - a - bX) · X = 0\) (II) Retomando as expressões I e II e lembrando que n é o número de observações: -2Σ(Y - a - bX) = 0 => Σ(Y - a - bX) = ΣY - na - bΣX = 0 (III) -2Σ(Y - a - bX) · X = 0 => Σ(Y - a - bX) · X = ΣXY - aΣX - bΣX² = 0 (IV) As equações (III) e (IV) podem ser escritas de outra forma: De (III) => ΣY = na + bΣX De (IV) => ΣXY = aΣX + bΣX² Equações normais do ajuste Temos um sistema de duas equações com duas incógnitas (a e b). Trata-se, portanto, de um sistema determinado. Basta resolvê-lo para se obterem os valores dos parâmetros a e b da reta ajustada. Entretanto, para facilitar os cálculos costuma-se deduzir literalmente os valores dos parâmetros. Assim, a partir da primeira equação do sistema podemos deduzir: Primeiro dividiremos todos os termos da equação (III) por n: ΣY/n = na/n + bΣX/n Lembrando que: ΣY/n = Ȳ e ΣX/n = X̄ Logo: Ȳ = a + bX̄ ou a = Ȳ - bX̄ Substituindo-se o valor de "a" na equação (IV), teremos: ΣXY = (Ȳ - bX̄)ΣX + bΣX² ΣXY = ȲΣX - bX̄ΣX + bΣX² ΣXY - ΣYΣX/n = b·[ ΣX² - (ΣX)²/n ] b = (ΣXY - ΣYΣX/n) / (ΣX² - (ΣX)²/n) Costuma-se usar os seguintes símbolos para designar o numerador e denominador a expressão que definirá o valor de "b": SXY = ΣXY - ΣXΣY/n SXX = ΣX² - (ΣX)²/n b = SXY/SXX Podemos escrever, então: Ŷ = a + bX Ŷ = (Ȳ - bX̄) + bX Ŷ = Ȳ + b·(X - X̄) O PODER EXPLICATIVO DO MODELO \n\nFrequentemente denominado coeficiente de determinação, o poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste. Seu valor fornece a proporção da variação total da variável Y explicada pela variável X através da função ajustada. Quanto mais próximo de 1 estiver o valor do coeficiente de determinação, melhor a “qualidade” do ajuste da função aos pontos do diagrama de dispersão e quanto mais próximo de zero pior será a “qualidade” do ajuste. Podemos expressar: \n\nR² = \( \frac{b² \cdot SXX}{SYY} \) \hspace{0.5cm} 0 ≤ R² ≤ 1 \hspace{0.5cm} ou \hspace{0.5cm} R² = \( \frac{b \cdot SXY}{SYY} \) \hspace{0.5cm} 0 ≤ R² ≤ 100\% \n\nonde: \hspace{0.5cm} SYY = \sum Y² \- \frac{(\sum Y)²}{n} CORRELAÇÃO DE PEARSON \- A Correlação de Pearson avalia uma forma específica de relação entre duas variáveis \- a saber, o grau ao qual elas estão relacionadas linearmente. Ou seja, procura medir a relação entre as variáveis X e Y através da disposição dos pontos \(X,Y\) em torno de uma reta \(diagrama de dispersão\). • Outra fórmula: 𝑟 = 𝑅2 R2 = coeficiente de determinação • Intervalo de variação de r: O coeficiente de correlação r é uma medida cujo valor se situa no intervalo compreendido pelos valores \-1 e +1. \(-1 ≤ r ≤ 1\) • Interpretação do valor de r: \n r \n Correlação \n\n0 \n→ \n Nula \n\n0 \n→ \[0,3\] \n Fraca \n\n\[0,3\] \n→ \[0,6\] \n Média \n\n\[0,6\] \n→ \[0,9\] \n Forte \n\n\[0,9\] \n→ \[0,99\] \n Fortíssima \n\n\[1\] \n→ \n Perfeita EXEMPLO DE REGRESSÃO LINEAR SIMPLES A tabela seguinte mostra os resultados e uma pesquisa com 10 famílias de determina região. Determinar a regressão e o seu poder explicativo. a) Renda Familiar e a Poupança das dez famílias. Renda (Y) (R$ 100) Poupança (X) (R$1000) 10 4 15 7 12 5 70 20 80 20 100 30 20 8 30 8 10 3 60 15 Solução: Renda (Y) Poupança (X) X² Y² XY (R$ 100) (R$1000) 10 4 16 100 40 15 7 49 225 105 12 5 25 144 60 70 20 400 4.900 1.400 80 20 400 6.400 1.600 100 30 900 10.000 3.000 20 8 64 400 160 30 8 64 900 240 10 3 9 100 30 60 15 225 3.600 900 Σ 407 120 2.152 26.769 7.535 X̄ = ΣX/n = 120/10 = 12 Ŷ̄ = ΣY/n = 407/10 = 40,7 SXY = ΣXY - ΣXΣY/n = 7535 - 120·407/10 = 2651 SXX = ΣX² - (ΣX)²/n = 2152 - (120)²/10 = 712 SYY = ΣY² - (ΣY)²/n = 26769 - (407)²/10 = 10204,10 a = Ŷ̄ - bX̄ = 40,7 - 3,72·12 = -3,94 b = SXY/SXX = 2651/712 = 3,72 Ŷ = -3,94 + 3,72·X é a reta estimada R² = b²·SXX/SYY = (3,72)²·712/10204,10 = 0,966 ou R² = b·SXY/SYY = 3,72·2651·100/10204,10 = 96,6% Este resultado indica que 96,6% das variações de Y (renda) são explicadas por X (poupança) através da função linear para relacionar as duas variáveis e 3,4% são atribuídas a causas aleatórias. y = 3,72x - 3,94 R² = 0,966 Poupança Renda TESTE DE HIPÓTESE PARA EXISTÊNCIA DE REGRESSÃO LINEAR SIMPLES Outra forma de realizarmos o teste da existência de regressão é a utilização do Quadro de Análise da Variância (QAV) – Teste F, ou seja, estudar o comportamento das medidas de variação utilizado no Método dos Mínimos Quadrados: VT = Variação Total (ou seja, a soma dos quadrados dos desvios totais calculados em torno da média) VR = Variação Residual ou ao acaso ou ainda não-explicados (ou seja, a soma dos quadrados dos desvios não-explicados em torno da linha de regressão) VE = Variação Explicada (ou seja, a soma dos quadrados dos desvios explicados da linha de regressão em torno da média) 1º Passo: Enunciado das Hipóteses: Y = α + β ⋅ X H0: β = 0 não existe relação linear (a inclinação é zero) H1: β ≠ 0 existe uma relação linear (a inclinação não é igual a zero) 2º Passo: Fixação do risco α e escolha da variável F com 1 graus de liberdade no numerador e (n – 2) graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrados Médios F Devido a Regressão VE = b . SXY 1 b . SXY / 1 Resíduo VR = SYY - b . SXY n - 2 S² = (SYY - b . SXY) / (n - 2) Fcal = (b . SXY) / S² Total VT = SYY n - 1 5º Passo: Conclusão. Se F calculado > F tabelado (Rejeita-se H₀ e existe regressão) Exemplo Aplique o Teste F para existência de regressão entre Renda X Poupança: 1º Passo: Enunciado das Hipóteses: Y = α + β . X H₀ : β = 0 não existe relação linear (a inclinação é zero) H₁ : β ≠ 0 existe uma relação linear (a inclinação não é igual a zero) 2º Passo: Fixação do risco α = 5% e escolha da variável F com 1 graus de liberdade no numerador e (n - 2) = (10 - 2) = 8 graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: φ(1;8) RA Região de Aceitação RC Região Crítica F tabeledo = 5,32 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação | Soma dos Quadrados | Graus de Liberdade | Quadrados Médios | F Devido a Regressão | 9861,72 | 1 | 9861,72 Resíduo | 342,38 | 8 | 42,79 | Fcal = 230,47 Total | 10204,10 | 9 5º Passo: Conclusão. Fcalculado = 230,47 > F tabelado = 5,32 (Rejeita-se Ho e existe regressão) REGRESSÃO LINEAR MÚLTIPLA Nosso interesse agora é o estudo do modelo de regressão pelo método dos mínimos quadrados com mais variáveis independentes, visando a uma melhor compreensão do comportamento da variável dependente. Vamos considerar o caso em que a variável dependente seja postulada como função de duas variáveis explicativas: X₁ e X₂. Teremos então o seguinte modelo de regressão linear múltipla: Y = α + β₁X₁ + β₂X₂ + e Lembrando que: e = componente aleatória que capta influência de outras variáveis que foram omitidas no modelo. Retirada uma amostra de “n” observações das variáveis Y, X₁ e X₂, deveremos a partir desses dados, determinar as estimativas “a”, “b₁” e “b₂” dos parâmetros α, β₁ e β₂ e, dessa forma, obter a estimativa do modelo compondo o estimador: Ŷ = a + b₁X₁ + b₂X₂ Exemplo de Aplicação: Os dados da tabela abaixo se referem às vendas de determinado produto (em 1.000 unidades) e aos gastos com publicidade (em milhões de reais). Vamos estimar o plano de regressão considerando as seguintes variáveis: Vendas (1000 und.) Y Gastos com TV (R$ 1000.000) X1 Gastos com Jornal (R$ 1000.000) X2 6 3 1 7 4 2 15 8 3 18 8 5 20 10 8 23 11 6 Roteiro de elaboração para o plano de regressão múltipla: Y X1 X2 Y X1 Y X2 X1 X2 X1² X2² Y² 6 3 1 18 6 3 9 1 36 7 4 2 28 14 8 16 4 49 15 8 3 120 45 24 64 9 225 18 8 5 144 90 40 64 25 324 20 10 8 200 160 80 100 64 400 23 11 6 253 138 66 121 36 529 89 44 25 763 453 221 374 139 1563 Ȳ = ΣY n = 89 6 = 14,83 X̄1 = ΣX1 n = 44 6 = 7,33 X̄2 = ΣX2 n = 25 6 = 4,17 SY1 = ΣYX1 - ΣYΣX1 n = 763 - 89·44 6 = 110,33 SY2 = ΣYX2 - ΣYΣX2 n = 453 - 89·25 6 = 82,17 S11 = ΣX1² - (ΣX1)² n = 374 - (44)² 6 = 51,33 S12 = ΣX1X2 - ΣX1ΣX2 n = 221 - 44·25 6 = 37,67 S22 = ΣX2² - (ΣX2)² n = 139 - (25)² 6 = 34,83 SYY = ΣY² - (ΣY)² n = 1563 - (89)² 6 = 242,83 b_2 = \frac{\frac{SY_2}{S_{12}} - \frac{SY_1}{S_{11}}}{\frac{S_{22}}{S_{12}} - \frac{S_{12}}{S_{11}}} \Rightarrow b_2 = \frac{\frac{82,17}{37,67} - \frac{110,33}{51,33}}{\frac{34,83}{37,67} - \frac{37,67}{51,33}} \Rightarrow b_2 = 0,16 b_1 = \frac{SY_2}{S_{12}} - \frac{S_{22}}{S_{12}} \cdot b_2 \Rightarrow b_1 = \frac{82,17}{37,67} - \frac{34,83}{37,67} \cdot (0,16) \Rightarrow b_1 = 2,03 a = \overline{Y} - b_1 \overline{X_1} - b_2 \overline{X_2} \Rightarrow a = 14,83 - (2,03)(7,33) - (0,16)(4,17) \Rightarrow a = -0,72 \hat{Y} = a + b_1 X_1 + b_2 X_2 \Rightarrow \hat{Y} = -0,72 + 2,03 X_1 + 0,16 X_2 R^2 = \frac{b_1 SY_1 + b_2 SY_2}{SYY} \Rightarrow R^2 = \frac{(2,03)(110,33) + (0,16)(82,17)}{24283} \Rightarrow R^2 = 0,9765 = 97,65% Esse resultado indica que 97,65% das variações de Y (vendas) são explicadas por X_1 (gasto com publicidade em TV) e X_2 (gasto com publicidade em jornal) através da função linear para relacionar as variáveis e 2,35% são atribuídas a causas aleatórias. TESTE F - PARA EXISTÊNCIA DA REGRESSÃO LINEAR MÚLTIPLA 1º Passo: Enunciado das Hipóteses: \hspace{1cm} Y = \alpha + \beta_1 X_1 + \beta_2 X_2 H_0 : \beta_1 = \beta_2 = 0 \hspace{1cm} não existe regressão linear múltipla H_1 : \beta_1 \neq 0 \hspace{0.2cm} e \hspace{0.2cm} \beta_2 \neq 0 \hspace{1cm} existe regressão linear múltipla 2º Passo: Fixação do risco \alpha e escolha da variável F com \underline{2} graus de liberdade no numerador e (n - 3) graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: RA Região de Aceitação φ(2; n-3) RC Região Crítica F tabelado 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrados Médios F Devido às Variáveis X₁ e X₂ VE = b₁SY₁ + b₂SY₂ 2 b₁SY₁ + b₂SY₂ / 2 Residual VR = SYY - b₁SY₁ - b₂SY₂ n-3 S² = SYY - b₁SY₁ - b₂SY₂ / n-3 Total VT = SYY n-1 Fcal = b₁SY₁ + b₂SY₂ / 2S² 5º Passo: Conclusão. Fcalculado > F tabelado (Rejeita-se H₀ e existe regressão) Exemplo de Aplicação Aplicando o teste F para o exemplo da Regressão Linear Múltipla. 1º Passo: Enunciado das Hipóteses: Y = α + β₁X₁ + β₂X₂ H₀: β₁ = β₂ = 0 não existe regressão linear múltipla H₁: β₁ ≠ 0 e β₂ ≠ 0 existe regressão linear múltipla 2º Passo: Fixação do risco α e escolha da variável F com 2 graus de liberdade no numerador e (n - 3) graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: RA Região de Aceitação Região Crítica Φ (2;3) RC F tabelado = 9,55 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrados Médios F Devido às Variáveis X1 e X2 217,12 2 108,56 Residual 5,71 6 – 3 = 3 1,90 Total 242,83 6 – 1 = 5 Fcal = 57,14 5º Passo: Conclusão. Fcalculado = 57,14 > F tabelado = 9,55. (Rejeita-se Ho e existe regressão)
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
2
Análise de Variância anova -2022 2
Estatística 2
UFMA
16
Distribuições de Probabilidade
Estatística 2
UFMA
9
Teste de Significância para a Igualdade de Duas Proporções-2022 2
Estatística 2
UFMA
27
Hipótese Estatística-2022 2
Estatística 2
UFMA
28
Aula 1-2022 1
Estatística 2
UFMA
29
Aula 5 e 6-2022 1
Estatística 2
UFMA
4
Avaliação-2022 1
Estatística 2
UFMA
26
Aula 2-2022 1
Estatística 2
UFMA
5
Avaliação 3 Estatística I-2022 1
Estatística 2
UFMA
15
Testes Não-paramétricos análises de Dados Qualitativos -2022 2
Estatística 2
UFMA
Texto de pré-visualização
UNIVERSIDADE FEDERAL DO MARANHÃO – UFMA Fundação instituída nos termos da Lei nº 5.152, de 21/10/1966 – São Luís – Maranhão. CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA - CCET DEPARTAMENTO DE MATEMÁTICA – DEMAT afonso.filho@ufma.br Estatística II Dado um conjunto de valores observados de X e Y, construir um modelo de regressão linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente a relação verdadeira entre as variáveis. A determinação dos parâmetros dessa reta é denominada ajustamento. O processo de ajustamento deve partir da escolha da função através da qual os valores de X explicarão os e Y. Para isso recorre-se ao gráfico conhecido como diagrama de dispersão. Esse gráfico é construído anotando, em um sistema de coordenadas retangulares, os pontos correspondentes aos pares de observações de X e de Y. A função escolhida será aquela que for sugerida pelo conjunto dos pontos dispostos no diagrama. No gráfico abaixo, por exemplo, tem-se um conjunto de pontos sugerindo uma função linear (reta). CORRELAÇÃO E REGRESSÃO RELAÇÃO ENTRE VARIÁVEIS: Na prática, procura-se verificar se existe relação entre duas (ou mais) variáveis. A verificação da existência e do grau de relação entre variáveis é objeto de estudo da correlação. Uma vez caracterizada, procura-se descrever uma relação sob forma matemática, através de uma função. A estimação dos parâmetros dessa função matemática é objeto de estudo da regressão. REGRESSÃO LINEAR SIMPLES A análise de regressão tem por objetivo descrever através de um modelo matemático, a relação existente entre duas variáveis, a partir de n observações dessas variáveis. Supondo X a variável independente denominada variável explicativa e Y a variável dependente denominada variável explicada, diremos que Y = f (x). Em regressão considera-se apenas a variável Y como aleatória e a variável X como supostamente sem erro. Então a relação entre X e Y não é regida apenas por uma lei matemática, ou seja, para um dado valor de X, não observaremos necessariamente o mesmo Y. Assim sendo, a relação entre X e Y deverá ser escrita como segue: Y = f (x) + e onde a variável e irá captar todas as influências sobre Y não devidas a X. Observe que uma reta como a indicada vai deixar alguns pontos observados “para cima” e outros “para baixo” da mesma. A distância vertical entre a reta e cada ponto observado é o “desvio” ou “erro” (indicado por ê). A reta ajustada é representada por Ŷ = a + bX, onde a e b são os parâmetros do modelo: a é o ponto onde a reta ajustada corta o eixo da variável Y, e b é a tangente do ângulo que a reta forma com a paralela ao eixo da variável X. A reta ajustada é denominada, também reta de mínimos quadrados, pois os valores de a e b são obtidos de tal forma que é mínima a soma dos quadrados das diferenças entre os valores observados de Y e os obtidos a partir da reta ajustada para os mesmos valores de X. Simbolicamente teremos: Σ(ê)² = Σ(Y - Ŷ)² = Σ(Y - a - bX)² mínima, onde: ê = Y - Ŷ Para obter os estimadores a e b aplica-se a condição necessária de mínimo à função Σ(Y - Ŷ)². Para tanto basta derivá-la com relação a esses parâmetros e igualar as derivadas a zero. \(\frac{dΣê²}{da} = 0\) e \(\frac{dΣê²}{db} = 0\) \(\frac{d}{da}Σê² = \frac{d}{da}Σ(Y - Ŷ)² = \frac{d}{da}Σ(Y - a - bX)² = -2Σ(Y - a - bX) = 0\) (I) \(\frac{d}{db}Σê² = \frac{d}{db}Σ(Y - Ŷ)² = \frac{d}{db}Σ(Y - a - bX)² = -2Σ(Y - a - bX) · X = 0\) (II) Retomando as expressões I e II e lembrando que n é o número de observações: -2Σ(Y - a - bX) = 0 => Σ(Y - a - bX) = ΣY - na - bΣX = 0 (III) -2Σ(Y - a - bX) · X = 0 => Σ(Y - a - bX) · X = ΣXY - aΣX - bΣX² = 0 (IV) As equações (III) e (IV) podem ser escritas de outra forma: De (III) => ΣY = na + bΣX De (IV) => ΣXY = aΣX + bΣX² Equações normais do ajuste Temos um sistema de duas equações com duas incógnitas (a e b). Trata-se, portanto, de um sistema determinado. Basta resolvê-lo para se obterem os valores dos parâmetros a e b da reta ajustada. Entretanto, para facilitar os cálculos costuma-se deduzir literalmente os valores dos parâmetros. Assim, a partir da primeira equação do sistema podemos deduzir: Primeiro dividiremos todos os termos da equação (III) por n: ΣY/n = na/n + bΣX/n Lembrando que: ΣY/n = Ȳ e ΣX/n = X̄ Logo: Ȳ = a + bX̄ ou a = Ȳ - bX̄ Substituindo-se o valor de "a" na equação (IV), teremos: ΣXY = (Ȳ - bX̄)ΣX + bΣX² ΣXY = ȲΣX - bX̄ΣX + bΣX² ΣXY - ΣYΣX/n = b·[ ΣX² - (ΣX)²/n ] b = (ΣXY - ΣYΣX/n) / (ΣX² - (ΣX)²/n) Costuma-se usar os seguintes símbolos para designar o numerador e denominador a expressão que definirá o valor de "b": SXY = ΣXY - ΣXΣY/n SXX = ΣX² - (ΣX)²/n b = SXY/SXX Podemos escrever, então: Ŷ = a + bX Ŷ = (Ȳ - bX̄) + bX Ŷ = Ȳ + b·(X - X̄) O PODER EXPLICATIVO DO MODELO \n\nFrequentemente denominado coeficiente de determinação, o poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste. Seu valor fornece a proporção da variação total da variável Y explicada pela variável X através da função ajustada. Quanto mais próximo de 1 estiver o valor do coeficiente de determinação, melhor a “qualidade” do ajuste da função aos pontos do diagrama de dispersão e quanto mais próximo de zero pior será a “qualidade” do ajuste. Podemos expressar: \n\nR² = \( \frac{b² \cdot SXX}{SYY} \) \hspace{0.5cm} 0 ≤ R² ≤ 1 \hspace{0.5cm} ou \hspace{0.5cm} R² = \( \frac{b \cdot SXY}{SYY} \) \hspace{0.5cm} 0 ≤ R² ≤ 100\% \n\nonde: \hspace{0.5cm} SYY = \sum Y² \- \frac{(\sum Y)²}{n} CORRELAÇÃO DE PEARSON \- A Correlação de Pearson avalia uma forma específica de relação entre duas variáveis \- a saber, o grau ao qual elas estão relacionadas linearmente. Ou seja, procura medir a relação entre as variáveis X e Y através da disposição dos pontos \(X,Y\) em torno de uma reta \(diagrama de dispersão\). • Outra fórmula: 𝑟 = 𝑅2 R2 = coeficiente de determinação • Intervalo de variação de r: O coeficiente de correlação r é uma medida cujo valor se situa no intervalo compreendido pelos valores \-1 e +1. \(-1 ≤ r ≤ 1\) • Interpretação do valor de r: \n r \n Correlação \n\n0 \n→ \n Nula \n\n0 \n→ \[0,3\] \n Fraca \n\n\[0,3\] \n→ \[0,6\] \n Média \n\n\[0,6\] \n→ \[0,9\] \n Forte \n\n\[0,9\] \n→ \[0,99\] \n Fortíssima \n\n\[1\] \n→ \n Perfeita EXEMPLO DE REGRESSÃO LINEAR SIMPLES A tabela seguinte mostra os resultados e uma pesquisa com 10 famílias de determina região. Determinar a regressão e o seu poder explicativo. a) Renda Familiar e a Poupança das dez famílias. Renda (Y) (R$ 100) Poupança (X) (R$1000) 10 4 15 7 12 5 70 20 80 20 100 30 20 8 30 8 10 3 60 15 Solução: Renda (Y) Poupança (X) X² Y² XY (R$ 100) (R$1000) 10 4 16 100 40 15 7 49 225 105 12 5 25 144 60 70 20 400 4.900 1.400 80 20 400 6.400 1.600 100 30 900 10.000 3.000 20 8 64 400 160 30 8 64 900 240 10 3 9 100 30 60 15 225 3.600 900 Σ 407 120 2.152 26.769 7.535 X̄ = ΣX/n = 120/10 = 12 Ŷ̄ = ΣY/n = 407/10 = 40,7 SXY = ΣXY - ΣXΣY/n = 7535 - 120·407/10 = 2651 SXX = ΣX² - (ΣX)²/n = 2152 - (120)²/10 = 712 SYY = ΣY² - (ΣY)²/n = 26769 - (407)²/10 = 10204,10 a = Ŷ̄ - bX̄ = 40,7 - 3,72·12 = -3,94 b = SXY/SXX = 2651/712 = 3,72 Ŷ = -3,94 + 3,72·X é a reta estimada R² = b²·SXX/SYY = (3,72)²·712/10204,10 = 0,966 ou R² = b·SXY/SYY = 3,72·2651·100/10204,10 = 96,6% Este resultado indica que 96,6% das variações de Y (renda) são explicadas por X (poupança) através da função linear para relacionar as duas variáveis e 3,4% são atribuídas a causas aleatórias. y = 3,72x - 3,94 R² = 0,966 Poupança Renda TESTE DE HIPÓTESE PARA EXISTÊNCIA DE REGRESSÃO LINEAR SIMPLES Outra forma de realizarmos o teste da existência de regressão é a utilização do Quadro de Análise da Variância (QAV) – Teste F, ou seja, estudar o comportamento das medidas de variação utilizado no Método dos Mínimos Quadrados: VT = Variação Total (ou seja, a soma dos quadrados dos desvios totais calculados em torno da média) VR = Variação Residual ou ao acaso ou ainda não-explicados (ou seja, a soma dos quadrados dos desvios não-explicados em torno da linha de regressão) VE = Variação Explicada (ou seja, a soma dos quadrados dos desvios explicados da linha de regressão em torno da média) 1º Passo: Enunciado das Hipóteses: Y = α + β ⋅ X H0: β = 0 não existe relação linear (a inclinação é zero) H1: β ≠ 0 existe uma relação linear (a inclinação não é igual a zero) 2º Passo: Fixação do risco α e escolha da variável F com 1 graus de liberdade no numerador e (n – 2) graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrados Médios F Devido a Regressão VE = b . SXY 1 b . SXY / 1 Resíduo VR = SYY - b . SXY n - 2 S² = (SYY - b . SXY) / (n - 2) Fcal = (b . SXY) / S² Total VT = SYY n - 1 5º Passo: Conclusão. Se F calculado > F tabelado (Rejeita-se H₀ e existe regressão) Exemplo Aplique o Teste F para existência de regressão entre Renda X Poupança: 1º Passo: Enunciado das Hipóteses: Y = α + β . X H₀ : β = 0 não existe relação linear (a inclinação é zero) H₁ : β ≠ 0 existe uma relação linear (a inclinação não é igual a zero) 2º Passo: Fixação do risco α = 5% e escolha da variável F com 1 graus de liberdade no numerador e (n - 2) = (10 - 2) = 8 graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: φ(1;8) RA Região de Aceitação RC Região Crítica F tabeledo = 5,32 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação | Soma dos Quadrados | Graus de Liberdade | Quadrados Médios | F Devido a Regressão | 9861,72 | 1 | 9861,72 Resíduo | 342,38 | 8 | 42,79 | Fcal = 230,47 Total | 10204,10 | 9 5º Passo: Conclusão. Fcalculado = 230,47 > F tabelado = 5,32 (Rejeita-se Ho e existe regressão) REGRESSÃO LINEAR MÚLTIPLA Nosso interesse agora é o estudo do modelo de regressão pelo método dos mínimos quadrados com mais variáveis independentes, visando a uma melhor compreensão do comportamento da variável dependente. Vamos considerar o caso em que a variável dependente seja postulada como função de duas variáveis explicativas: X₁ e X₂. Teremos então o seguinte modelo de regressão linear múltipla: Y = α + β₁X₁ + β₂X₂ + e Lembrando que: e = componente aleatória que capta influência de outras variáveis que foram omitidas no modelo. Retirada uma amostra de “n” observações das variáveis Y, X₁ e X₂, deveremos a partir desses dados, determinar as estimativas “a”, “b₁” e “b₂” dos parâmetros α, β₁ e β₂ e, dessa forma, obter a estimativa do modelo compondo o estimador: Ŷ = a + b₁X₁ + b₂X₂ Exemplo de Aplicação: Os dados da tabela abaixo se referem às vendas de determinado produto (em 1.000 unidades) e aos gastos com publicidade (em milhões de reais). Vamos estimar o plano de regressão considerando as seguintes variáveis: Vendas (1000 und.) Y Gastos com TV (R$ 1000.000) X1 Gastos com Jornal (R$ 1000.000) X2 6 3 1 7 4 2 15 8 3 18 8 5 20 10 8 23 11 6 Roteiro de elaboração para o plano de regressão múltipla: Y X1 X2 Y X1 Y X2 X1 X2 X1² X2² Y² 6 3 1 18 6 3 9 1 36 7 4 2 28 14 8 16 4 49 15 8 3 120 45 24 64 9 225 18 8 5 144 90 40 64 25 324 20 10 8 200 160 80 100 64 400 23 11 6 253 138 66 121 36 529 89 44 25 763 453 221 374 139 1563 Ȳ = ΣY n = 89 6 = 14,83 X̄1 = ΣX1 n = 44 6 = 7,33 X̄2 = ΣX2 n = 25 6 = 4,17 SY1 = ΣYX1 - ΣYΣX1 n = 763 - 89·44 6 = 110,33 SY2 = ΣYX2 - ΣYΣX2 n = 453 - 89·25 6 = 82,17 S11 = ΣX1² - (ΣX1)² n = 374 - (44)² 6 = 51,33 S12 = ΣX1X2 - ΣX1ΣX2 n = 221 - 44·25 6 = 37,67 S22 = ΣX2² - (ΣX2)² n = 139 - (25)² 6 = 34,83 SYY = ΣY² - (ΣY)² n = 1563 - (89)² 6 = 242,83 b_2 = \frac{\frac{SY_2}{S_{12}} - \frac{SY_1}{S_{11}}}{\frac{S_{22}}{S_{12}} - \frac{S_{12}}{S_{11}}} \Rightarrow b_2 = \frac{\frac{82,17}{37,67} - \frac{110,33}{51,33}}{\frac{34,83}{37,67} - \frac{37,67}{51,33}} \Rightarrow b_2 = 0,16 b_1 = \frac{SY_2}{S_{12}} - \frac{S_{22}}{S_{12}} \cdot b_2 \Rightarrow b_1 = \frac{82,17}{37,67} - \frac{34,83}{37,67} \cdot (0,16) \Rightarrow b_1 = 2,03 a = \overline{Y} - b_1 \overline{X_1} - b_2 \overline{X_2} \Rightarrow a = 14,83 - (2,03)(7,33) - (0,16)(4,17) \Rightarrow a = -0,72 \hat{Y} = a + b_1 X_1 + b_2 X_2 \Rightarrow \hat{Y} = -0,72 + 2,03 X_1 + 0,16 X_2 R^2 = \frac{b_1 SY_1 + b_2 SY_2}{SYY} \Rightarrow R^2 = \frac{(2,03)(110,33) + (0,16)(82,17)}{24283} \Rightarrow R^2 = 0,9765 = 97,65% Esse resultado indica que 97,65% das variações de Y (vendas) são explicadas por X_1 (gasto com publicidade em TV) e X_2 (gasto com publicidade em jornal) através da função linear para relacionar as variáveis e 2,35% são atribuídas a causas aleatórias. TESTE F - PARA EXISTÊNCIA DA REGRESSÃO LINEAR MÚLTIPLA 1º Passo: Enunciado das Hipóteses: \hspace{1cm} Y = \alpha + \beta_1 X_1 + \beta_2 X_2 H_0 : \beta_1 = \beta_2 = 0 \hspace{1cm} não existe regressão linear múltipla H_1 : \beta_1 \neq 0 \hspace{0.2cm} e \hspace{0.2cm} \beta_2 \neq 0 \hspace{1cm} existe regressão linear múltipla 2º Passo: Fixação do risco \alpha e escolha da variável F com \underline{2} graus de liberdade no numerador e (n - 3) graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: RA Região de Aceitação φ(2; n-3) RC Região Crítica F tabelado 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrados Médios F Devido às Variáveis X₁ e X₂ VE = b₁SY₁ + b₂SY₂ 2 b₁SY₁ + b₂SY₂ / 2 Residual VR = SYY - b₁SY₁ - b₂SY₂ n-3 S² = SYY - b₁SY₁ - b₂SY₂ / n-3 Total VT = SYY n-1 Fcal = b₁SY₁ + b₂SY₂ / 2S² 5º Passo: Conclusão. Fcalculado > F tabelado (Rejeita-se H₀ e existe regressão) Exemplo de Aplicação Aplicando o teste F para o exemplo da Regressão Linear Múltipla. 1º Passo: Enunciado das Hipóteses: Y = α + β₁X₁ + β₂X₂ H₀: β₁ = β₂ = 0 não existe regressão linear múltipla H₁: β₁ ≠ 0 e β₂ ≠ 0 existe regressão linear múltipla 2º Passo: Fixação do risco α e escolha da variável F com 2 graus de liberdade no numerador e (n - 3) graus de liberdade no denominador. 3º Passo: Determinação da região RA e RC utilizando a tabela F: RA Região de Aceitação Região Crítica Φ (2;3) RC F tabelado = 9,55 4º Passo: Elaboração do Quadro de Análise de Variância (QAV) – Teste F Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrados Médios F Devido às Variáveis X1 e X2 217,12 2 108,56 Residual 5,71 6 – 3 = 3 1,90 Total 242,83 6 – 1 = 5 Fcal = 57,14 5º Passo: Conclusão. Fcalculado = 57,14 > F tabelado = 9,55. (Rejeita-se Ho e existe regressão)