·
Ciências Contábeis ·
Estatística 2
· 2022/1
Send your question to AI and receive an answer instantly
Recommended for you
3
Lista 3 - Estatística 2 - 2021-1
Estatística 2
UFRJ
2
Teste 1 - Estatística 2 2021 1
Estatística 2
UFRJ
1
Trabalho sobre Regressão Simples
Estatística 2
UFRJ
26
Slide - Inferência Estatística
Estatística 2
UFRJ
3
Lista 3 - Estatística 2 2021-2
Estatística 2
UFRJ
5
Lista - Estatística 2 2021 2
Estatística 2
UFRJ
5
Lista - Estatística 2 - 2021-1
Estatística 2
UFRJ
6
Lista 2 - Estatística 2 2021-2
Estatística 2
UFRJ
28
Trabalho Estatistica 2
Estatística 2
UFRJ
35
Slide - Análise de Regressão Linear - Estatística 2 - 2021-1
Estatística 2
UFRJ
Preview text
Segunda avalia¸c˜ao Estat´ıstica II. Professor: Renato Monteiro Pinha Gomes. Data: 14/06/2022. Aluno: Quest˜ao 1: (1 pontos) Descreva os modelos de regress˜ao log´ıstica e Poisson, citando suas caracter´ısticas e particularidades. Quest˜ao 2: (3 pontos) Considere o modelo de regress˜ao linear m´ultipla abaixo: Y = β0 + β1x1 + β2x2 + ϵ Para uma amostra de tamanho n = 25, pede-se: a) Obtenha as estimativas de m´ınimos quadrados de ˆβ0, ˆβ1 e ˆβ2. b) Os coeficientes estimados s˜ao significativos? Justifique. c) Avaliando o R2 ajustado e caso alguma estimativa de algum coeficiente n˜ao seja significativa, considere o modelo sem a vari´avel correspondente `a este coeficiente e estime os coeficientes desta nova regress˜ao. Fa¸ca os itens abaixo considerando a poss´ıvel nova regress˜ao do item c. d)Estime ˆy sabendo que x1 = 11 e x2 = −0.05. e) Obtenha a tabela ANOVA. f) Obtenha os intervalos de confian¸ca para os coeficientes betas com γ = 1 − α = 0.95. g) Calcule R2. O que vocˆe diria sobre a qualidade do ajuste do modelo. Amostra y [1] -2.68 [2] -13.27 [3] -11.97 [4] -12.22 [5] -8.24 [6] -11.26 [7] -8.35 [8] -15.82 [9] -6.53 [10] -10.35 [11] -13.47 [12] -5.71 [13] -3.96 [14] -10.29 [15] -13.86 [16] -12.55 [17] -5.28 [18] -11.53 [19] -2.63 [20] -12.28 [21] -8.77 [22] -9.95 [23] -11.02 [24] -13.50 [25] -4.48 [26] -6.53 [27] -11.50 [28] -8.51 [29] -7.23 [30] -4.48 Amostra x1 [1] 6.09 [2] 11.23 [3] 11.35 [4] 11.07 [5] 8.98 [6] 10.72 [7] 9.10 [8] 12.62 [9] 8.31 [10] 10.52 [11] 11.80 [12] 8.11 [13] 6.86 [14] 10.03 [15] 11.77 [16] 10.99 [17] 7.82 [18] 10.67 [19] 5.72 [20] 11.55 [21] 9.15 [22] 9.64 [23] 10.24 [24] 11.71 [25] 7.39 [26] NA [27] 6.84 [28] NA [29] 7.2 [30] 10 Amostra x2 [1] 0.02 [2] -0.05 [3] -0.07 [4] 0.04 [5] 0.16 [6] 0.09 [7] -0.07 [8] -0.08 [9] 0.03 [10] -0.01 [11] 0.21 [12] 0.08 [13] 0.01 [14] 0.05 [15] -0.13 [16] -0.05 [17] 0.04 [18] -0.10 [19] 0.09 [20] 0.06 [21] -0.16 [22] 0.03 [23] -0.04 [24] 0.12 [25] -0.04 [26] -0.03 [27] NA [28] -0.01 [29] NA [30] NA 1 Quest˜ao 3: (3 pontos) A tabela no final da quest˜ao refere-se a dados de 25 clientes de uma segurado de autom´oveis. O interesse dela ´e modelar os sinistros ocorridos atrav´es do perfil de seus clientes. Pede-se: a) Qual modelo de regress˜ao seria mais adequado a este problema? Justifique sua resposta. b) Referente ao modelo escolhido no item a), determine os estimadores para os parˆametros betas refentes as covari´aveis. c) Os coeficientes estimados s˜ao significativos? Justifique. d)Obtenha os intervalos de confian¸cas para os betas. e) Um cliente possui as seguintes covari´aveis: maior de 25 anos e 1 filho. Qual seria a probabilidade estimada dele sofrer um sinistro? Tabela 1: Dados obtidos. Obs Sinistro: 1 sim e 0 n˜ao; Maior de 25 anos: 1 sim e 0 n˜ao; Quantidade de filhos 1 0 0 1 2 0 1 0 3 0 0 2 4 0 1 2 5 0 1 1 6 0 0 0 7 0 1 2 8 0 1 0 9 0 1 1 10 0 1 0 11 0 0 2 12 0 1 0 13 0 1 2 14 0 0 4 15 0 1 0 16 1 0 0 17 1 1 0 18 1 0 0 19 1 0 2 20 1 0 1 21 1 1 1 22 1 0 0 23 1 0 0 24 1 0 0 25 1 0 0 2 Quest˜ao 4: (3 pontos) Para modelar o placar de uma partida de futebol onde o time i enfrenta o time j, os n´umeros de gols de cada equipe s˜ao assumidos serem condicionalmente independentes cada um com distribui¸c˜ao de Poisson de forma que Y t i |λt i ∼ Poisson(λt i) e Y t j |λt j ∼ Poisson(λt j), em que Y t i , com m´edia λt i, ´e o n´umero de gols do time i jogando como mandante na rodada t e Y t j , com m´edia λt j, ´e o n´umero de gols do time j como visitante na rodada t para i, j ∈ {1, 2, ..., m} e t = 1, ..., T, em que m ´e o n´umero de times e T ´e o n´umero de rodadas. As m´edias, por sua, vez s˜ao assumidas compostas por trˆes fatores: a for¸ca de ataque (α∗t i ), a for¸ca de defesa (β∗t i ) e o fator quando a equipe joga em casa (γ∗t i ). Os fatores se relacionam com a m´edia do n´umero de gols dos times mandante e visitante , respectivamente, por meio de fun¸c˜oes de liga¸c˜ao da forma: log(λt i) = α∗t i − β∗t j + γ∗t i , (1) log(λt j) = α∗t j − β∗t i , (2) Para que seja poss´ıvel estimar os fatores do modelo sem que haja problemas de identificabilidade, considerou-se α∗t 1 como o fator base do modelo deixando assim de ser estimado. Todos os outros fatores de ataque e defesa estimados s˜ao comparados a esse fator base, ou seja, mede-se a diferen¸ca das for¸cas desses fatores: log(λt i) = αt i − βt j + γt i, (3) log(λt j) = αt j − βt i, (4) onde αt i = α∗t i − α∗t 1 , βt i = β∗t i − α∗t 1 e γt i = γ∗t i . Caso alguma estimativa dos coeficientes de ataque e defesa obtida seja pr´oxima de zero significa que o coeficiente n˜ao difere do coeficiente base. Usando os dados do Campeonato Brasileiro S´erie A de 2022 at´e `a d´ecima quarta rodada, pede-se: a) Monte uma tabela excel dos dados do campeonato conforme exemplo enviado. b) Determine os estimadores para dos parˆametros do modelo e os apresente em uma tabela. c) Fa¸ca a previs˜ao da d´ecima quinta rodada e as apresente em uma tabela. 3 Segunda avaliação de Estatística 2 1) A regressão de Poisson é utilizada quando podemos assumir que a variável explicada (dependente) pode assumir uma distribuição de Poisson, isto é, que sua função de massa de probabilidade é descrita por A utilização de uma variável aleatória com distribuição Poisson com parâmetro é feita em casos que queremos contar o número médio de acontecimentos em um determinado período de tempo. Por exemplo, quantos carros passam em um drive-through de um restaurante por hora, ou quantos carros amarelos vemos em um dia em um estacionamento. É possível demontrar que a esperança e variância de uma v.a. com distribuição Poisson é dada pelo parâmetro . Para a regressão em si, as variáveis explicativas devem estar ligadas à através de uma função de ligação (normalmente, logarítmica). O modelo de regressão logística é utilizado ao se considerar variáveis dependentes binárias, isto é, que só podem assumir valores de 0 ou 1. Este caso é particularmente útil se gostaríamos de analisar a probabilidade de sucesso de um determinado evento a partir de outras variáveis explicativas. A regressão logística se diferencia da análise discriminante ao não necessitar da hipótese de normalidade das variáveis independentes e nem da da hipótese de igualdade da matriz de covariância entre as duas populações. A regra de classificação consiste em atribuir ao primeiro grupo A caso , e atribuir ao segundo em caso contrário. 2) Considere o modelo de regressão linear múltipla: com . Call: lm(formula = amostra1_y ~ amostra1_x1 + amostra1_x2) Residuals: Min 1Q Median 3Q Max -0.93549 -0.28116 -0.08069 0.26884 0.85262 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.33308 0.54525 17.117 3.35e-14 *** amostra1_x1 -1.94525 0.05485 -35.463 < 2e-16 *** amostra1_x2 1.10241 1.16914 0.943 0.356 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5095 on 22 degrees of freedom (5 observations deleted due to missingness) Multiple R-squared: 0.9832, Adjusted R-squared: 0.9817 F-statistic: 644.5 on 2 and 22 DF, p-value: < 2.2e-16 A equação estimada, portanto, é: Note que a estatística para o intercepto e são grandes em módulo, e podemos notar sua significância pelo p-valor ao nível de 1%. Contudo, o coeficiente de apresentou estatística de 0.943, com p-valor 0.356. Isso implica que o coeficiente não é significativo. O R-2 ajustado inferior ao R-2 padrão também penaliza a inclusão da variável sem significância e, portanto, vamos proceder removendo da regressão e comparando os novos resultados. Call: lm(formula = amostra1_y ~ amostra1_x1) Residuals: Min 1Q Median 3Q Max -6.6200 -0.4838 0.0209 0.6950 5.6642 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.5144 1.8208 3.578 0.00139 ** amostra1_x1 -1.6659 0.1869 -8.912 2.2e-09 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.885 on 26 degrees of freedom (2 observations deleted due to missingness) Multiple R-squared: 0.7534, Adjusted R-squared: 0.7439 F-statistic: 79.43 on 1 and 26 DF, p-value: 2.202e-09 -12.1198705 A anova: 3 × 5 Df Sum Sq Mean Sq F value Pr(>F) <int> <dbl> <dbl> <dbl> <dbl> amostra1_x1 1 334.3858880 334.3858880 1288.1323098 5.073957e-21 amostra1_x2 1 0.2308024 0.2308024 0.8891047 3.559605e-01 Residuals 22 5.7109735 0.2595897 NA NA A matrix: 3 × 2 of type dbl 2.5 % 97.5 % (Intercept) 8.202292 10.463862 amostra1_x1 -2.059004 -1.831486 amostra1_x2 -1.322241 3.527064 Do sumário obtido de "reg1", sabemos que o múltiplo é de 0.9832, indicando que 98,32% da variação em é explicada conjuntamente por . Se o objetivo da regressão é ter poder preditivo, então esse número é um excelente ajuste. -11.8105 A anova: 2 × 5 Df Sum Sq Mean Sq F value Pr(>F) <int> <dbl> <dbl> <dbl> <dbl> amostra1_x1 1 282.25211 282.252114 79.43116 2.202306e-09 Residuals 26 92.38887 3.553418 NA NA A matrix: 2 × 2 of type dbl 2.5 % 97.5 % (Intercept) 2.771816 10.257061 amostra1_x1 -2.050069 -1.281652 3) a) Como queremos modelar a possibilidade de sinistro, que é um evento binário, em relação ao perfil do cliente, deveriámos proceder com a regressão logística, e não a de Poisson. Poderíamos também utilizar a regressão probit, mas procederemos com a logit por sua simplicidade e eficácia teórica. Call: glm(formula = amostra2_y ~ amostra2_x1 + amostra2_x2, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -1.8464 -0.7777 -0.2802 0.6335 2.1175 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.5040 0.8638 1.741 0.0817 . amostra2_x1 -2.5450 1.1010 -2.311 0.0208 * amostra2_x2 -1.0885 0.6063 -1.795 0.0726 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 33.651 on 24 degrees of freedom Residual deviance: 23.487 on 22 degrees of freedom AIC: 29.487 Number of Fisher Scoring iterations: 5 (Intercept): 1.50395813910468 amostra2_x1: -2.54495482034487 amostra2_x2: -1.08853337055573 c) O intercepto é significativo escolhendo , mas sua relevância na análise é de pouco interesse. Já o coeficiente de apresentou estatística , com menor p-valor entre todos os coeficientes (significativo à 5%). Por fim, o coeficiente de também é significativo, apesar de sua estatística ser um pouco inferior (em módulo) em relação à de . Waiting for profiling to be done... A matrix: 3 × 3 of type dbl OR 2.5 % 97.5 % (Intercept) 4.4994634 0.996980592 35.3051344 amostra2_x1 0.0784766 0.006477827 0.5567270 amostra2_x2 0.3367100 0.079010309 0.9164304 e) 10.6259611968659 A probabilidade seria de aproximadamente 10,62% nesse caso. 4) A data.frame: 370 × 4 Time.A Time.B Gols.A Gols.B <chr> <chr> <int> <int> Palmeiras Atletico/PR 4 0 Flamengo Sport 1 0 Atletico/MG Santos 1 0 Coritiba Cruzeiro 1 0 Botafogo Sao Paulo 0 1 Santa Cruz Vitoria 4 1 Corinthians Gremio 0 0 Figueirense Ponte Preta 0 0 America/MG Fluminense 0 1 Internacional Chapecoense 0 0 Ponte Preta Palmeiras 2 1 Fluminense Santa Cruz 2 2 Cruzeiro Figueirense 2 2 Atletico/PR Atletico/MG 1 1 Santos Coritiba 2 1 Chapecoense America/MG 3 1 Gremio Flamengo 1 0 Sao Paulo Internacional 1 2 Vitoria Corinthians 3 2 Sport Botafogo 1 1 Botafogo Atletico/PR 2 1 Figueirense Santos 2 2 America/MG Vitoria 1 1 Flamengo Chapecoense 2 2 Coritiba Sao Paulo 1 1 Palmeiras Fluminense 2 0 Santa Cruz Cruzeiro 4 1 Corinthians Ponte Preta 3 0 Internacional Sport 1 0 Atletico/MG Gremio 0 3 ⋮ ⋮ ⋮ ⋮ Fluminense Atletico/PR 1 1 Botafogo Chapecoense 0 2 Coritiba Santa Cruz 1 0 Sport Cruzeiro 0 1 America/MG Flamengo 0 1 Figueirense Corinthians 1 1 Santos Vitoria 3 2 Sao Paulo Gremio 1 1 Internacional Ponte Preta 1 1 Atletico/MG Palmeiras 1 1 Ponte Preta Fluminense 1 0 Atletico/PR Sport 2 0 Gremio America/MG 3 0 Cruzeiro Santos 2 2 Palmeiras Botafogo 1 0 Vitoria Figueirense 4 0 Santa Cruz Atletico/MG 3 3 Chapecoense Sao Paulo 2 0 Flamengo Coritiba 2 2 Corinthians Internacional 1 0 Botafogo Ponte Preta 1 1 America/MG Sport 2 2 Corinthians Atletico/PR 0 0 Flamengo Santos 2 0 Palmeiras Chapecoense 1 0 Atletico/MG Sao Paulo 1 2 Internacional Cruzeiro 1 0 Figueirense Fluminense 1 0 Santa Cruz Gremio 5 1 Coritiba Vitoria 0 1 Call: glm(formula = Y ~ 0 + XX, family = "poisson") Deviance Residuals: Min 1Q Median 3Q Max -2.0440 -1.1112 -0.1202 0.5517 2.3672 Coefficients: Estimate Std. Error z value Pr(>|z|) XX1 0.80501 0.38180 2.108 0.03499 * XX2 0.02313 0.43707 0.053 0.95780 XX3 0.39273 0.40857 0.961 0.33643 XX4 0.82886 0.37667 2.200 0.02777 * XX5 0.63510 0.39103 1.624 0.10434 XX6 0.18262 0.42851 0.426 0.66998 XX7 0.58750 0.39094 1.503 0.13290 XX8 -0.09205 0.45979 -0.200 0.84132 XX9 0.71189 0.38453 1.851 0.06412 . XX10 0.34713 0.40849 0.850 0.39544 XX11 0.58227 0.39093 1.489 0.13637 XX12 0.25214 0.42094 0.599 0.54918 XX13 0.90615 0.37453 2.419 0.01554 * XX14 0.35662 0.40851 0.873 0.38267 XX15 0.59831 0.39479 1.516 0.12964 XX16 0.76468 0.37889 2.018 0.04357 * XX17 0.33788 0.40847 0.827 0.40813 XX18 0.42459 0.40338 1.053 0.29254 XX19 0.69314 0.38449 1.803 0.07143 . XX20 0.34796 0.34481 1.009 0.31291 XX21 0.44437 0.34468 1.289 0.19732 XX22 0.92607 0.36070 2.567 0.01025 * XX23 0.72197 0.35283 2.046 0.04073 * XX24 0.40418 0.34307 1.178 0.23874 XX25 0.71173 0.35281 2.017 0.04366 * XX26 0.68613 0.35190 1.950 0.05120 . XX27 0.53435 0.34658 1.542 0.12313 XX28 0.51609 0.34595 1.492 0.13575 XX29 0.81299 0.35693 2.278 0.02274 * XX30 0.60896 0.34869 1.746 0.08074 . XX31 0.63354 0.34945 1.813 0.06983 . XX32 0.69736 0.35192 1.982 0.04753 * XX33 0.92099 0.36203 2.544 0.01096 * XX34 0.43996 0.34363 1.280 0.20043 XX35 0.21828 0.33832 0.645 0.51881 XX36 0.82441 0.36046 2.287 0.02219 * XX37 0.80871 0.35585 2.273 0.02305 * XX38 0.38569 0.34211 1.127 0.25957 XX39 0.43916 0.34414 1.276 0.20192 XX40 0.21945 0.42068 0.522 0.60191 XX41 0.50686 0.26679 1.900 0.05746 . XX42 0.94008 0.35769 2.628 0.00858 ** XX43 0.53671 0.32212 1.666 0.09568 . XX44 0.10398 0.28591 0.364 0.71611 XX45 0.29482 0.29956 0.984 0.32503 XX46 0.81995 0.34335 2.388 0.01694 * XX47 0.36126 0.30191 1.197 0.23148 XX48 0.78066 0.39849 1.959 0.05011 . XX49 0.35175 0.28270 1.244 0.21342 XX50 0.70735 0.31813 2.223 0.02618 * XX51 0.19345 0.31328 0.618 0.53689 XX52 0.42713 0.35299 1.210 0.22626 XX53 0.27462 0.26201 1.048 0.29457 XX54 0.77508 0.31462 2.464 0.01376 * XX55 0.36143 0.30438 1.187 0.23505 XX56 0.48809 0.26857 1.817 0.06917 . XX57 0.54811 0.32929 1.665 0.09600 . XX58 0.72012 0.30794 2.338 0.01936 * XX59 0.36143 0.28662 1.261 0.20731 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 890.94 on 740 degrees of freedom Residual deviance: 728.87 on 681 degrees of freedom AIC: 2074.6 Number of Fisher Scoring iterations: 5 $VitÛria 27.3 $Empate 24.86 $Derrota 47.85 $VitÛria 54.58 $Empate 27.12 $Derrota 18.27 $VitÛria 64.16 $Empate 21.04 $Derrota 14.8 $VitÛria 82.05 $Empate 13.15 $Derrota 4.78 $VitÛria 40.06 $Empate 27.73 $Derrota 32.19 $VitÛria 41.24 $Empate 32.01 $Derrota 26.72 $VitÛria 44.08 $Empate 30.46 $Derrota 25.48 $VitÛria 41.09 $Empate 23.69 $Derrota 35.2 $VitÛria 56.09 $Empate 25.42 $Derrota 18.46 $VitÛria 27.3 $Empate 24.86 $Derrota 47.85 P(YT = k|μ) = e−μt(μt)k k! μ μ μ P(Y = 1|xi1, … , xip) > P(Y = 0|xi1, … , xip) Y = β0 + β1x1 + β2x2 + ϵ n = 25 In [12]: rm(list = ls()) amostra1_y = c(-2.68, -13.27, -11.97, -12.22, -8.24, -11.26, -8.35, -15.82, -6.53, -10.35, -13.47, -5.71, -3.96, -10.29, -13.86, -12.55, -5.28, -11.53, -2.63, -12.28, -8.77, -9.95, -11.02, -13.50, -4.48, -6.53, -11.5, -8.51, -7.23, -4.48) # Digite os todos valores de y dentro do c() amostra1_x1 = c(6.09,11.23, 11.35, 11.07, 8.98, 10.72, 9.10, 12.62, 8.31, 10.52, 11.80, 8.11, 6.86, 10.03, 11.77, 10.99, 7.82, 10.67, 5.72, 11.55, 9.15, 9.64, 10.24, 11.71, 7.39, NA, 6.84, NA, 7.2, 10) # Digite os todos valores de x1 dentro do c() amostra1_x2 = c(0.02,-0.05, -0.07, 0.04, 0.16, 0.09, -0.07, -0.08, 0.03, -0.01, 0.21, 0.08, 0.01, 0.05, -0.13, -0.05, 0.04, -0.1, 0.09, 0.06, -0.16, 0.03, -0.04, 0.12, -0.04, -0.03, NA, -0.01, NA, NA) # Digite os todos valores de x2 dentro do c() reg1 <- lm(amostra1_y ~ amostra1_x1 + amostra1_x2) #Note que estamos implicitamente ignorando as observacoes nulas. O R já faz isso automaticamente. In [16]: summary(reg1) ^Y = 9.333 − 1.94525x1 + 1.10241x2 t x1 x2 t x2 In [18]: reg2 <- lm(amostra1_y ~ amostra1_x1) summary(reg2) In [23]: #Itens d, e, f e g da primeira regressão: y_1_est <- 9.333 - 1.94525*11 + 1.10241*(-0.05) y_1_est In [25]: anova(reg1) In [28]: confint(reg1, level = 0.95) R2 Y x1, x2 In [30]: #Itens d, e, f e g da primeira regressão: y_2_est <- 6.5144 - 1.6659*11 y_2_est In [31]: anova(reg2) In [33]: confint(reg2, level = 0.95) In [2]: #Letra b amostra2_y <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1) amostra2_x1 <- c(0,1,0,1,1,0,1,1,1,1,0,1,1,0,1,0,1,0,0,0,1,0,0,0,0) amostra2_x2 <- c(1,0,2,2,1,0,2,0,1,0,2,0,2,4,0,0,0,0,2,1,1,0,0,0,0) logit = glm(formula = amostra2_y ~ amostra2_x1 + amostra2_x2, family = binomial(link = "logit")) summary(logit) coef(logit) α = 10% x1 z = −2.311 x2 z x1 In [49]: #Letra d exp(cbind(OR=coef(logit), confint(logit))) In [6]: p_s = (1)/(1 + exp(-(1.5039581 + -2.5449548 - 1.08853337))) p_s*100 In [62]: # O arquivo .csv se encontra na pasta do Jupyter Notebook, portanto nao precisamos acrescentar o comando setwd. games = read.table("Campeonato_dados.csv", header = T, dec =",", sep=";") games In [103… teams=c("America/MG","Atletico/MG","Atletico/PR","Botafogo","Chapecoense","Corinthians","Coritiba","Cruzeiro","Figueirense","Flamengo","Fluminense","Gremio","Inter #Numero de partidas g=nrow(games) #Numero de times n=length(teams) #Vetor de placares empilhados Y=rep(0,2*g) for (i in 1:g) { Y[2*i-1]=games[i,3] Y[2*i]=games[i,4] } #Matriz de fatores latentes X=matrix(0,2*g,(2*n+20)) for (i in 1:g) { M = which(teams == games[i,1]) N = which(teams == games[i,2]) X[(2*i-1),M] = 1 X[(2*i-1),N+n] = -1 X[(2*i),N] = 1 X[(2*i),M+n] = -1 X[(2*i-1),(2*n+M)] = 1 } #Eliminando fator base XX = X[,-1] In [90]: #Criando a regressão parameters = glm(Y ~ 0 + XX, family = "poisson") summary(parameters) In [94]: ERR = c(summary(parameters)$coefficients[, 2]) Z = c(0, coefficients(parameters)) P = data.frame(row.names=teams, Attack=Z[1:n], Defence=Z[(n+1):(2*n)],Home=Z[(2*n+1):(3*n)]) parameters$teams = P In [95]: #Funcao para criar tabela de probabilidades de possíveis placares ProbTable <- function(parameters,hometeam,awayteam) { teams <- rownames(parameters$teams) P <- parameters$teams home <- parameters$home a <- which(teams == hometeam) b <- which(teams == awayteam) lambdaa <- exp(P[a,]$Attack - P[b,]$Defence + P[a,]$Home) lambdab <- exp(P[b,]$Attack - P[a,]$Defence) A <- as.numeric() B <- as.numeric() for(i in 0:6) { A[(i+1)] <- dpois(i,lambdaa) B[(i+1)] <- dpois(i,lambdab) } A[8] <- 1 - sum(A[1:7]) B[8] <- 1 - sum(B[1:7]) name <- c("0","1","2","3","4","5","6","7+") zero <- mat.or.vec(8,1) C <- data.frame(row.names=name) for(j in 1:8) { for(k in 1:8) { C[j,k] <- A[k]*B[j] } } colnames(C) <- name return(round(C*100,2)) } #Funcao para calcular probabilidades de vitoria, empate e derrota. ResultProbs <- function(probs) { R <- matrix(0,3,1) n <- length(probs) for(i in 1:n) { for(j in 1:n) { if(i > j) { R[3] <- R[3] + probs[i,j] } else { if(i == j) { R[2] <- R[2] + probs[i,j] } else { R[1] <- R[1] + probs[i,j] } } } } return(list(Vitoria=R[1],Empate=R[2],Derrota=R[3])) } In [109… #Previsoes utilizando as funcoes definidas acima. A probabilidade descrita é referente ao primeiro time #no input da função. Ou seja, se definirmos a funcao da partida Vitoria X Palmeiras, a probabilidade de que #Vitoria vença é de 27.3% (ou analogamente, a probabilidade prevista de que o Palmeiras vença é de 47.85%) Partida20_1=ProbTable(parameters,"Vitoria","Palmeiras") ResultProbs(Partida20_1) In [111… Partida20_2=ProbTable(parameters,"Fluminense","Internacional") ResultProbs(Partida20_2) Partida20_3=ProbTable(parameters,"Sao Paulo","Santa Cruz") ResultProbs(Partida20_3) Partida20_4=ProbTable(parameters,"Santos","America/MG") ResultProbs(Partida20_4) Partida20_5=ProbTable(parameters,"Cruzeiro","Corinthians") ResultProbs(Partida20_5) Partida20_6=ProbTable(parameters,"Gremio","Botafogo") ResultProbs(Partida20_6) Partida20_7=ProbTable(parameters,"Atletico/PR","Flamengo") ResultProbs(Partida20_7) Partida20_8=ProbTable(parameters,"Chapecoense","Atletico/MG") ResultProbs(Partida20_8) Partida20_9=ProbTable(parameters,"Ponte Preta","Coritiba") ResultProbs(Partida20_9) Partida20_10=ProbTable(parameters,"Sport","Figueirense") ResultProbs(Partida20_1)
Send your question to AI and receive an answer instantly
Recommended for you
3
Lista 3 - Estatística 2 - 2021-1
Estatística 2
UFRJ
2
Teste 1 - Estatística 2 2021 1
Estatística 2
UFRJ
1
Trabalho sobre Regressão Simples
Estatística 2
UFRJ
26
Slide - Inferência Estatística
Estatística 2
UFRJ
3
Lista 3 - Estatística 2 2021-2
Estatística 2
UFRJ
5
Lista - Estatística 2 2021 2
Estatística 2
UFRJ
5
Lista - Estatística 2 - 2021-1
Estatística 2
UFRJ
6
Lista 2 - Estatística 2 2021-2
Estatística 2
UFRJ
28
Trabalho Estatistica 2
Estatística 2
UFRJ
35
Slide - Análise de Regressão Linear - Estatística 2 - 2021-1
Estatística 2
UFRJ
Preview text
Segunda avalia¸c˜ao Estat´ıstica II. Professor: Renato Monteiro Pinha Gomes. Data: 14/06/2022. Aluno: Quest˜ao 1: (1 pontos) Descreva os modelos de regress˜ao log´ıstica e Poisson, citando suas caracter´ısticas e particularidades. Quest˜ao 2: (3 pontos) Considere o modelo de regress˜ao linear m´ultipla abaixo: Y = β0 + β1x1 + β2x2 + ϵ Para uma amostra de tamanho n = 25, pede-se: a) Obtenha as estimativas de m´ınimos quadrados de ˆβ0, ˆβ1 e ˆβ2. b) Os coeficientes estimados s˜ao significativos? Justifique. c) Avaliando o R2 ajustado e caso alguma estimativa de algum coeficiente n˜ao seja significativa, considere o modelo sem a vari´avel correspondente `a este coeficiente e estime os coeficientes desta nova regress˜ao. Fa¸ca os itens abaixo considerando a poss´ıvel nova regress˜ao do item c. d)Estime ˆy sabendo que x1 = 11 e x2 = −0.05. e) Obtenha a tabela ANOVA. f) Obtenha os intervalos de confian¸ca para os coeficientes betas com γ = 1 − α = 0.95. g) Calcule R2. O que vocˆe diria sobre a qualidade do ajuste do modelo. Amostra y [1] -2.68 [2] -13.27 [3] -11.97 [4] -12.22 [5] -8.24 [6] -11.26 [7] -8.35 [8] -15.82 [9] -6.53 [10] -10.35 [11] -13.47 [12] -5.71 [13] -3.96 [14] -10.29 [15] -13.86 [16] -12.55 [17] -5.28 [18] -11.53 [19] -2.63 [20] -12.28 [21] -8.77 [22] -9.95 [23] -11.02 [24] -13.50 [25] -4.48 [26] -6.53 [27] -11.50 [28] -8.51 [29] -7.23 [30] -4.48 Amostra x1 [1] 6.09 [2] 11.23 [3] 11.35 [4] 11.07 [5] 8.98 [6] 10.72 [7] 9.10 [8] 12.62 [9] 8.31 [10] 10.52 [11] 11.80 [12] 8.11 [13] 6.86 [14] 10.03 [15] 11.77 [16] 10.99 [17] 7.82 [18] 10.67 [19] 5.72 [20] 11.55 [21] 9.15 [22] 9.64 [23] 10.24 [24] 11.71 [25] 7.39 [26] NA [27] 6.84 [28] NA [29] 7.2 [30] 10 Amostra x2 [1] 0.02 [2] -0.05 [3] -0.07 [4] 0.04 [5] 0.16 [6] 0.09 [7] -0.07 [8] -0.08 [9] 0.03 [10] -0.01 [11] 0.21 [12] 0.08 [13] 0.01 [14] 0.05 [15] -0.13 [16] -0.05 [17] 0.04 [18] -0.10 [19] 0.09 [20] 0.06 [21] -0.16 [22] 0.03 [23] -0.04 [24] 0.12 [25] -0.04 [26] -0.03 [27] NA [28] -0.01 [29] NA [30] NA 1 Quest˜ao 3: (3 pontos) A tabela no final da quest˜ao refere-se a dados de 25 clientes de uma segurado de autom´oveis. O interesse dela ´e modelar os sinistros ocorridos atrav´es do perfil de seus clientes. Pede-se: a) Qual modelo de regress˜ao seria mais adequado a este problema? Justifique sua resposta. b) Referente ao modelo escolhido no item a), determine os estimadores para os parˆametros betas refentes as covari´aveis. c) Os coeficientes estimados s˜ao significativos? Justifique. d)Obtenha os intervalos de confian¸cas para os betas. e) Um cliente possui as seguintes covari´aveis: maior de 25 anos e 1 filho. Qual seria a probabilidade estimada dele sofrer um sinistro? Tabela 1: Dados obtidos. Obs Sinistro: 1 sim e 0 n˜ao; Maior de 25 anos: 1 sim e 0 n˜ao; Quantidade de filhos 1 0 0 1 2 0 1 0 3 0 0 2 4 0 1 2 5 0 1 1 6 0 0 0 7 0 1 2 8 0 1 0 9 0 1 1 10 0 1 0 11 0 0 2 12 0 1 0 13 0 1 2 14 0 0 4 15 0 1 0 16 1 0 0 17 1 1 0 18 1 0 0 19 1 0 2 20 1 0 1 21 1 1 1 22 1 0 0 23 1 0 0 24 1 0 0 25 1 0 0 2 Quest˜ao 4: (3 pontos) Para modelar o placar de uma partida de futebol onde o time i enfrenta o time j, os n´umeros de gols de cada equipe s˜ao assumidos serem condicionalmente independentes cada um com distribui¸c˜ao de Poisson de forma que Y t i |λt i ∼ Poisson(λt i) e Y t j |λt j ∼ Poisson(λt j), em que Y t i , com m´edia λt i, ´e o n´umero de gols do time i jogando como mandante na rodada t e Y t j , com m´edia λt j, ´e o n´umero de gols do time j como visitante na rodada t para i, j ∈ {1, 2, ..., m} e t = 1, ..., T, em que m ´e o n´umero de times e T ´e o n´umero de rodadas. As m´edias, por sua, vez s˜ao assumidas compostas por trˆes fatores: a for¸ca de ataque (α∗t i ), a for¸ca de defesa (β∗t i ) e o fator quando a equipe joga em casa (γ∗t i ). Os fatores se relacionam com a m´edia do n´umero de gols dos times mandante e visitante , respectivamente, por meio de fun¸c˜oes de liga¸c˜ao da forma: log(λt i) = α∗t i − β∗t j + γ∗t i , (1) log(λt j) = α∗t j − β∗t i , (2) Para que seja poss´ıvel estimar os fatores do modelo sem que haja problemas de identificabilidade, considerou-se α∗t 1 como o fator base do modelo deixando assim de ser estimado. Todos os outros fatores de ataque e defesa estimados s˜ao comparados a esse fator base, ou seja, mede-se a diferen¸ca das for¸cas desses fatores: log(λt i) = αt i − βt j + γt i, (3) log(λt j) = αt j − βt i, (4) onde αt i = α∗t i − α∗t 1 , βt i = β∗t i − α∗t 1 e γt i = γ∗t i . Caso alguma estimativa dos coeficientes de ataque e defesa obtida seja pr´oxima de zero significa que o coeficiente n˜ao difere do coeficiente base. Usando os dados do Campeonato Brasileiro S´erie A de 2022 at´e `a d´ecima quarta rodada, pede-se: a) Monte uma tabela excel dos dados do campeonato conforme exemplo enviado. b) Determine os estimadores para dos parˆametros do modelo e os apresente em uma tabela. c) Fa¸ca a previs˜ao da d´ecima quinta rodada e as apresente em uma tabela. 3 Segunda avaliação de Estatística 2 1) A regressão de Poisson é utilizada quando podemos assumir que a variável explicada (dependente) pode assumir uma distribuição de Poisson, isto é, que sua função de massa de probabilidade é descrita por A utilização de uma variável aleatória com distribuição Poisson com parâmetro é feita em casos que queremos contar o número médio de acontecimentos em um determinado período de tempo. Por exemplo, quantos carros passam em um drive-through de um restaurante por hora, ou quantos carros amarelos vemos em um dia em um estacionamento. É possível demontrar que a esperança e variância de uma v.a. com distribuição Poisson é dada pelo parâmetro . Para a regressão em si, as variáveis explicativas devem estar ligadas à através de uma função de ligação (normalmente, logarítmica). O modelo de regressão logística é utilizado ao se considerar variáveis dependentes binárias, isto é, que só podem assumir valores de 0 ou 1. Este caso é particularmente útil se gostaríamos de analisar a probabilidade de sucesso de um determinado evento a partir de outras variáveis explicativas. A regressão logística se diferencia da análise discriminante ao não necessitar da hipótese de normalidade das variáveis independentes e nem da da hipótese de igualdade da matriz de covariância entre as duas populações. A regra de classificação consiste em atribuir ao primeiro grupo A caso , e atribuir ao segundo em caso contrário. 2) Considere o modelo de regressão linear múltipla: com . Call: lm(formula = amostra1_y ~ amostra1_x1 + amostra1_x2) Residuals: Min 1Q Median 3Q Max -0.93549 -0.28116 -0.08069 0.26884 0.85262 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.33308 0.54525 17.117 3.35e-14 *** amostra1_x1 -1.94525 0.05485 -35.463 < 2e-16 *** amostra1_x2 1.10241 1.16914 0.943 0.356 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5095 on 22 degrees of freedom (5 observations deleted due to missingness) Multiple R-squared: 0.9832, Adjusted R-squared: 0.9817 F-statistic: 644.5 on 2 and 22 DF, p-value: < 2.2e-16 A equação estimada, portanto, é: Note que a estatística para o intercepto e são grandes em módulo, e podemos notar sua significância pelo p-valor ao nível de 1%. Contudo, o coeficiente de apresentou estatística de 0.943, com p-valor 0.356. Isso implica que o coeficiente não é significativo. O R-2 ajustado inferior ao R-2 padrão também penaliza a inclusão da variável sem significância e, portanto, vamos proceder removendo da regressão e comparando os novos resultados. Call: lm(formula = amostra1_y ~ amostra1_x1) Residuals: Min 1Q Median 3Q Max -6.6200 -0.4838 0.0209 0.6950 5.6642 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.5144 1.8208 3.578 0.00139 ** amostra1_x1 -1.6659 0.1869 -8.912 2.2e-09 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.885 on 26 degrees of freedom (2 observations deleted due to missingness) Multiple R-squared: 0.7534, Adjusted R-squared: 0.7439 F-statistic: 79.43 on 1 and 26 DF, p-value: 2.202e-09 -12.1198705 A anova: 3 × 5 Df Sum Sq Mean Sq F value Pr(>F) <int> <dbl> <dbl> <dbl> <dbl> amostra1_x1 1 334.3858880 334.3858880 1288.1323098 5.073957e-21 amostra1_x2 1 0.2308024 0.2308024 0.8891047 3.559605e-01 Residuals 22 5.7109735 0.2595897 NA NA A matrix: 3 × 2 of type dbl 2.5 % 97.5 % (Intercept) 8.202292 10.463862 amostra1_x1 -2.059004 -1.831486 amostra1_x2 -1.322241 3.527064 Do sumário obtido de "reg1", sabemos que o múltiplo é de 0.9832, indicando que 98,32% da variação em é explicada conjuntamente por . Se o objetivo da regressão é ter poder preditivo, então esse número é um excelente ajuste. -11.8105 A anova: 2 × 5 Df Sum Sq Mean Sq F value Pr(>F) <int> <dbl> <dbl> <dbl> <dbl> amostra1_x1 1 282.25211 282.252114 79.43116 2.202306e-09 Residuals 26 92.38887 3.553418 NA NA A matrix: 2 × 2 of type dbl 2.5 % 97.5 % (Intercept) 2.771816 10.257061 amostra1_x1 -2.050069 -1.281652 3) a) Como queremos modelar a possibilidade de sinistro, que é um evento binário, em relação ao perfil do cliente, deveriámos proceder com a regressão logística, e não a de Poisson. Poderíamos também utilizar a regressão probit, mas procederemos com a logit por sua simplicidade e eficácia teórica. Call: glm(formula = amostra2_y ~ amostra2_x1 + amostra2_x2, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -1.8464 -0.7777 -0.2802 0.6335 2.1175 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.5040 0.8638 1.741 0.0817 . amostra2_x1 -2.5450 1.1010 -2.311 0.0208 * amostra2_x2 -1.0885 0.6063 -1.795 0.0726 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 33.651 on 24 degrees of freedom Residual deviance: 23.487 on 22 degrees of freedom AIC: 29.487 Number of Fisher Scoring iterations: 5 (Intercept): 1.50395813910468 amostra2_x1: -2.54495482034487 amostra2_x2: -1.08853337055573 c) O intercepto é significativo escolhendo , mas sua relevância na análise é de pouco interesse. Já o coeficiente de apresentou estatística , com menor p-valor entre todos os coeficientes (significativo à 5%). Por fim, o coeficiente de também é significativo, apesar de sua estatística ser um pouco inferior (em módulo) em relação à de . Waiting for profiling to be done... A matrix: 3 × 3 of type dbl OR 2.5 % 97.5 % (Intercept) 4.4994634 0.996980592 35.3051344 amostra2_x1 0.0784766 0.006477827 0.5567270 amostra2_x2 0.3367100 0.079010309 0.9164304 e) 10.6259611968659 A probabilidade seria de aproximadamente 10,62% nesse caso. 4) A data.frame: 370 × 4 Time.A Time.B Gols.A Gols.B <chr> <chr> <int> <int> Palmeiras Atletico/PR 4 0 Flamengo Sport 1 0 Atletico/MG Santos 1 0 Coritiba Cruzeiro 1 0 Botafogo Sao Paulo 0 1 Santa Cruz Vitoria 4 1 Corinthians Gremio 0 0 Figueirense Ponte Preta 0 0 America/MG Fluminense 0 1 Internacional Chapecoense 0 0 Ponte Preta Palmeiras 2 1 Fluminense Santa Cruz 2 2 Cruzeiro Figueirense 2 2 Atletico/PR Atletico/MG 1 1 Santos Coritiba 2 1 Chapecoense America/MG 3 1 Gremio Flamengo 1 0 Sao Paulo Internacional 1 2 Vitoria Corinthians 3 2 Sport Botafogo 1 1 Botafogo Atletico/PR 2 1 Figueirense Santos 2 2 America/MG Vitoria 1 1 Flamengo Chapecoense 2 2 Coritiba Sao Paulo 1 1 Palmeiras Fluminense 2 0 Santa Cruz Cruzeiro 4 1 Corinthians Ponte Preta 3 0 Internacional Sport 1 0 Atletico/MG Gremio 0 3 ⋮ ⋮ ⋮ ⋮ Fluminense Atletico/PR 1 1 Botafogo Chapecoense 0 2 Coritiba Santa Cruz 1 0 Sport Cruzeiro 0 1 America/MG Flamengo 0 1 Figueirense Corinthians 1 1 Santos Vitoria 3 2 Sao Paulo Gremio 1 1 Internacional Ponte Preta 1 1 Atletico/MG Palmeiras 1 1 Ponte Preta Fluminense 1 0 Atletico/PR Sport 2 0 Gremio America/MG 3 0 Cruzeiro Santos 2 2 Palmeiras Botafogo 1 0 Vitoria Figueirense 4 0 Santa Cruz Atletico/MG 3 3 Chapecoense Sao Paulo 2 0 Flamengo Coritiba 2 2 Corinthians Internacional 1 0 Botafogo Ponte Preta 1 1 America/MG Sport 2 2 Corinthians Atletico/PR 0 0 Flamengo Santos 2 0 Palmeiras Chapecoense 1 0 Atletico/MG Sao Paulo 1 2 Internacional Cruzeiro 1 0 Figueirense Fluminense 1 0 Santa Cruz Gremio 5 1 Coritiba Vitoria 0 1 Call: glm(formula = Y ~ 0 + XX, family = "poisson") Deviance Residuals: Min 1Q Median 3Q Max -2.0440 -1.1112 -0.1202 0.5517 2.3672 Coefficients: Estimate Std. Error z value Pr(>|z|) XX1 0.80501 0.38180 2.108 0.03499 * XX2 0.02313 0.43707 0.053 0.95780 XX3 0.39273 0.40857 0.961 0.33643 XX4 0.82886 0.37667 2.200 0.02777 * XX5 0.63510 0.39103 1.624 0.10434 XX6 0.18262 0.42851 0.426 0.66998 XX7 0.58750 0.39094 1.503 0.13290 XX8 -0.09205 0.45979 -0.200 0.84132 XX9 0.71189 0.38453 1.851 0.06412 . XX10 0.34713 0.40849 0.850 0.39544 XX11 0.58227 0.39093 1.489 0.13637 XX12 0.25214 0.42094 0.599 0.54918 XX13 0.90615 0.37453 2.419 0.01554 * XX14 0.35662 0.40851 0.873 0.38267 XX15 0.59831 0.39479 1.516 0.12964 XX16 0.76468 0.37889 2.018 0.04357 * XX17 0.33788 0.40847 0.827 0.40813 XX18 0.42459 0.40338 1.053 0.29254 XX19 0.69314 0.38449 1.803 0.07143 . XX20 0.34796 0.34481 1.009 0.31291 XX21 0.44437 0.34468 1.289 0.19732 XX22 0.92607 0.36070 2.567 0.01025 * XX23 0.72197 0.35283 2.046 0.04073 * XX24 0.40418 0.34307 1.178 0.23874 XX25 0.71173 0.35281 2.017 0.04366 * XX26 0.68613 0.35190 1.950 0.05120 . XX27 0.53435 0.34658 1.542 0.12313 XX28 0.51609 0.34595 1.492 0.13575 XX29 0.81299 0.35693 2.278 0.02274 * XX30 0.60896 0.34869 1.746 0.08074 . XX31 0.63354 0.34945 1.813 0.06983 . XX32 0.69736 0.35192 1.982 0.04753 * XX33 0.92099 0.36203 2.544 0.01096 * XX34 0.43996 0.34363 1.280 0.20043 XX35 0.21828 0.33832 0.645 0.51881 XX36 0.82441 0.36046 2.287 0.02219 * XX37 0.80871 0.35585 2.273 0.02305 * XX38 0.38569 0.34211 1.127 0.25957 XX39 0.43916 0.34414 1.276 0.20192 XX40 0.21945 0.42068 0.522 0.60191 XX41 0.50686 0.26679 1.900 0.05746 . XX42 0.94008 0.35769 2.628 0.00858 ** XX43 0.53671 0.32212 1.666 0.09568 . XX44 0.10398 0.28591 0.364 0.71611 XX45 0.29482 0.29956 0.984 0.32503 XX46 0.81995 0.34335 2.388 0.01694 * XX47 0.36126 0.30191 1.197 0.23148 XX48 0.78066 0.39849 1.959 0.05011 . XX49 0.35175 0.28270 1.244 0.21342 XX50 0.70735 0.31813 2.223 0.02618 * XX51 0.19345 0.31328 0.618 0.53689 XX52 0.42713 0.35299 1.210 0.22626 XX53 0.27462 0.26201 1.048 0.29457 XX54 0.77508 0.31462 2.464 0.01376 * XX55 0.36143 0.30438 1.187 0.23505 XX56 0.48809 0.26857 1.817 0.06917 . XX57 0.54811 0.32929 1.665 0.09600 . XX58 0.72012 0.30794 2.338 0.01936 * XX59 0.36143 0.28662 1.261 0.20731 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 890.94 on 740 degrees of freedom Residual deviance: 728.87 on 681 degrees of freedom AIC: 2074.6 Number of Fisher Scoring iterations: 5 $VitÛria 27.3 $Empate 24.86 $Derrota 47.85 $VitÛria 54.58 $Empate 27.12 $Derrota 18.27 $VitÛria 64.16 $Empate 21.04 $Derrota 14.8 $VitÛria 82.05 $Empate 13.15 $Derrota 4.78 $VitÛria 40.06 $Empate 27.73 $Derrota 32.19 $VitÛria 41.24 $Empate 32.01 $Derrota 26.72 $VitÛria 44.08 $Empate 30.46 $Derrota 25.48 $VitÛria 41.09 $Empate 23.69 $Derrota 35.2 $VitÛria 56.09 $Empate 25.42 $Derrota 18.46 $VitÛria 27.3 $Empate 24.86 $Derrota 47.85 P(YT = k|μ) = e−μt(μt)k k! μ μ μ P(Y = 1|xi1, … , xip) > P(Y = 0|xi1, … , xip) Y = β0 + β1x1 + β2x2 + ϵ n = 25 In [12]: rm(list = ls()) amostra1_y = c(-2.68, -13.27, -11.97, -12.22, -8.24, -11.26, -8.35, -15.82, -6.53, -10.35, -13.47, -5.71, -3.96, -10.29, -13.86, -12.55, -5.28, -11.53, -2.63, -12.28, -8.77, -9.95, -11.02, -13.50, -4.48, -6.53, -11.5, -8.51, -7.23, -4.48) # Digite os todos valores de y dentro do c() amostra1_x1 = c(6.09,11.23, 11.35, 11.07, 8.98, 10.72, 9.10, 12.62, 8.31, 10.52, 11.80, 8.11, 6.86, 10.03, 11.77, 10.99, 7.82, 10.67, 5.72, 11.55, 9.15, 9.64, 10.24, 11.71, 7.39, NA, 6.84, NA, 7.2, 10) # Digite os todos valores de x1 dentro do c() amostra1_x2 = c(0.02,-0.05, -0.07, 0.04, 0.16, 0.09, -0.07, -0.08, 0.03, -0.01, 0.21, 0.08, 0.01, 0.05, -0.13, -0.05, 0.04, -0.1, 0.09, 0.06, -0.16, 0.03, -0.04, 0.12, -0.04, -0.03, NA, -0.01, NA, NA) # Digite os todos valores de x2 dentro do c() reg1 <- lm(amostra1_y ~ amostra1_x1 + amostra1_x2) #Note que estamos implicitamente ignorando as observacoes nulas. O R já faz isso automaticamente. In [16]: summary(reg1) ^Y = 9.333 − 1.94525x1 + 1.10241x2 t x1 x2 t x2 In [18]: reg2 <- lm(amostra1_y ~ amostra1_x1) summary(reg2) In [23]: #Itens d, e, f e g da primeira regressão: y_1_est <- 9.333 - 1.94525*11 + 1.10241*(-0.05) y_1_est In [25]: anova(reg1) In [28]: confint(reg1, level = 0.95) R2 Y x1, x2 In [30]: #Itens d, e, f e g da primeira regressão: y_2_est <- 6.5144 - 1.6659*11 y_2_est In [31]: anova(reg2) In [33]: confint(reg2, level = 0.95) In [2]: #Letra b amostra2_y <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1) amostra2_x1 <- c(0,1,0,1,1,0,1,1,1,1,0,1,1,0,1,0,1,0,0,0,1,0,0,0,0) amostra2_x2 <- c(1,0,2,2,1,0,2,0,1,0,2,0,2,4,0,0,0,0,2,1,1,0,0,0,0) logit = glm(formula = amostra2_y ~ amostra2_x1 + amostra2_x2, family = binomial(link = "logit")) summary(logit) coef(logit) α = 10% x1 z = −2.311 x2 z x1 In [49]: #Letra d exp(cbind(OR=coef(logit), confint(logit))) In [6]: p_s = (1)/(1 + exp(-(1.5039581 + -2.5449548 - 1.08853337))) p_s*100 In [62]: # O arquivo .csv se encontra na pasta do Jupyter Notebook, portanto nao precisamos acrescentar o comando setwd. games = read.table("Campeonato_dados.csv", header = T, dec =",", sep=";") games In [103… teams=c("America/MG","Atletico/MG","Atletico/PR","Botafogo","Chapecoense","Corinthians","Coritiba","Cruzeiro","Figueirense","Flamengo","Fluminense","Gremio","Inter #Numero de partidas g=nrow(games) #Numero de times n=length(teams) #Vetor de placares empilhados Y=rep(0,2*g) for (i in 1:g) { Y[2*i-1]=games[i,3] Y[2*i]=games[i,4] } #Matriz de fatores latentes X=matrix(0,2*g,(2*n+20)) for (i in 1:g) { M = which(teams == games[i,1]) N = which(teams == games[i,2]) X[(2*i-1),M] = 1 X[(2*i-1),N+n] = -1 X[(2*i),N] = 1 X[(2*i),M+n] = -1 X[(2*i-1),(2*n+M)] = 1 } #Eliminando fator base XX = X[,-1] In [90]: #Criando a regressão parameters = glm(Y ~ 0 + XX, family = "poisson") summary(parameters) In [94]: ERR = c(summary(parameters)$coefficients[, 2]) Z = c(0, coefficients(parameters)) P = data.frame(row.names=teams, Attack=Z[1:n], Defence=Z[(n+1):(2*n)],Home=Z[(2*n+1):(3*n)]) parameters$teams = P In [95]: #Funcao para criar tabela de probabilidades de possíveis placares ProbTable <- function(parameters,hometeam,awayteam) { teams <- rownames(parameters$teams) P <- parameters$teams home <- parameters$home a <- which(teams == hometeam) b <- which(teams == awayteam) lambdaa <- exp(P[a,]$Attack - P[b,]$Defence + P[a,]$Home) lambdab <- exp(P[b,]$Attack - P[a,]$Defence) A <- as.numeric() B <- as.numeric() for(i in 0:6) { A[(i+1)] <- dpois(i,lambdaa) B[(i+1)] <- dpois(i,lambdab) } A[8] <- 1 - sum(A[1:7]) B[8] <- 1 - sum(B[1:7]) name <- c("0","1","2","3","4","5","6","7+") zero <- mat.or.vec(8,1) C <- data.frame(row.names=name) for(j in 1:8) { for(k in 1:8) { C[j,k] <- A[k]*B[j] } } colnames(C) <- name return(round(C*100,2)) } #Funcao para calcular probabilidades de vitoria, empate e derrota. ResultProbs <- function(probs) { R <- matrix(0,3,1) n <- length(probs) for(i in 1:n) { for(j in 1:n) { if(i > j) { R[3] <- R[3] + probs[i,j] } else { if(i == j) { R[2] <- R[2] + probs[i,j] } else { R[1] <- R[1] + probs[i,j] } } } } return(list(Vitoria=R[1],Empate=R[2],Derrota=R[3])) } In [109… #Previsoes utilizando as funcoes definidas acima. A probabilidade descrita é referente ao primeiro time #no input da função. Ou seja, se definirmos a funcao da partida Vitoria X Palmeiras, a probabilidade de que #Vitoria vença é de 27.3% (ou analogamente, a probabilidade prevista de que o Palmeiras vença é de 47.85%) Partida20_1=ProbTable(parameters,"Vitoria","Palmeiras") ResultProbs(Partida20_1) In [111… Partida20_2=ProbTable(parameters,"Fluminense","Internacional") ResultProbs(Partida20_2) Partida20_3=ProbTable(parameters,"Sao Paulo","Santa Cruz") ResultProbs(Partida20_3) Partida20_4=ProbTable(parameters,"Santos","America/MG") ResultProbs(Partida20_4) Partida20_5=ProbTable(parameters,"Cruzeiro","Corinthians") ResultProbs(Partida20_5) Partida20_6=ProbTable(parameters,"Gremio","Botafogo") ResultProbs(Partida20_6) Partida20_7=ProbTable(parameters,"Atletico/PR","Flamengo") ResultProbs(Partida20_7) Partida20_8=ProbTable(parameters,"Chapecoense","Atletico/MG") ResultProbs(Partida20_8) Partida20_9=ProbTable(parameters,"Ponte Preta","Coritiba") ResultProbs(Partida20_9) Partida20_10=ProbTable(parameters,"Sport","Figueirense") ResultProbs(Partida20_1)