·

Ciências Contábeis ·

Estatística 2

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Estatıstica II para Ciˆencias Contabeis Codigos MAD245 Turma B Oferecido pelo Departamento de metodos estatısticos DME Instituto de Matematica UFRJ Introducao a disciplina Email para contato luizadmeufrjbr Usaremos o Classroom para organizacao e trabalhos Codigo do Classroom o22bsst Bibliografia para revisao Bussab W O e Morettin A M Estatıstica Basica Editora Saraiva 2009 Tavares MEstatıstica Aplicada a Administracao CAPES 2021 Apostila Santos R Material Introdutorio sobre R Bibliografia de regressao linear NETER WASSERMAN KUTNER Applied linear statistical models DME IM UFRJ Estatıstica II 1 Organizacao do Curso Parte I Revisao Introducao Distribuicao Normal Esperanca e Variˆancia Nocoes de Inferˆencia Estimador Intervalo de Confianca Teste de Hipotese Associacao entre variaveis DME IM UFRJ Estatıstica II 2 Organizacao do Curso Parte II Regressao Linear Simples Pressupostos Modelagem Analise de Resıduos DME IM UFRJ Estatıstica II 3 Organizacao do Curso Parte III Regressao Linear Multipla Pressupostos Modelagem Analise de Resıduos DME IM UFRJ Estatıstica II 4 Avaliacoes As notas serao dadas por dois trabalhos uma para a P1 e outro para a P2 Datas de divulgacao e de entrega a definir Haverao atividades valendo ponto extra a definir DME IM UFRJ Estatıstica II 5 Introducao Em varios contextos podemos estar interessados em estudar a relacao entre duas variaveis como o peso e a altura A regressao linear simples e a analise aplicada ao estudo da relacao entre duas variaveis uma variavel dependente Y e uma variavel independente X por meio de uma funcao linear A primeira etapa da analise e a construcao de um grafico de dispersao com o objetivo de avaliar de maneira preliminar se as variaveis sob estudo de fato apresentam relacao linear DME IM UFRJ Estatıstica II 1 Introducao Figura 1 Exemplo de relacoes estatısticas entre as variaveis DME IM UFRJ Estatıstica II 2 Introducao Considere x e y coordenadas no plano cartesiano Podese pensar tambem que x e y seriam realizacoes das variaveis de interesse Uma reta pode ser definida atraves da equacao reduzida y β0 β1x β1 0 em que β0 e o intercepto coeficiente linear e β1 e o coeficiente angular De forma geral o objetivo e encontrar a melhor reta que se adequa aos dados DME IM UFRJ Estatıstica II 3 Modelo de regressao linear simples Um modelo estatıstico e uma representacao matematica que ob jetiva simplificar o processo gerador de algum fenˆomeno No caso do modelo de regressao linear simples gostarıamos de descrever uma variavel Y em funcao de outra variavel X O modelo de regressao linear simples e dado por Yi β0 β1Xi ϵi i 1 n em que Yi e o valor da variavel resposta para o iesimo indivıduo β0 e β1 sao parˆametros desconhecido Xi e o valor conhecido da variavel explicativa para o iesimo indivıduo ϵi e o erro aleatorio n e o numero total de observacoes DME IM UFRJ Estatıstica II 4 Erro aleatorio O erro e tudo que nao conseguimos explicar da variavel resposta atraves da variavel explicativa Como nao conseguimos prevˆelo antes de observar os dados consideramos que o erro e uma variavel aleatoria DME IM UFRJ Estatıstica II 5 Suposicoes do modelo Antes de entender o modelo e preciso considerar algumas su posicoes possibilitar a obtencao de inferˆencias para o modelo de regressao Sao elas A relacao entre X e Y e linear Os valores de X sao conhecidos portanto X nao e uma variavel aleatoria Os erros aleatorios ϵi sao independentes e identicamente distribuıdos de distribuicao N0 σ2 sendo σ2 desconhecido Consequˆencias Yi e uma variavel aleatoria de distribuicao Nβ0 β1Xi σ2 e Yi e independente de Yj para i j DME IM UFRJ Estatıstica II 6 Interpretacao dos coeficientes do modelo Os coeficientes do modelo sao β0 e β1 O parˆametro β0 representa o ponto onde a reta corta o eixo Y Por isso e chamado intercepto ou coeficiente linear Para cada X temse EY β0 β1X Isso significa que para X 0 temse EY β0 Entao β0 indica a media comum de Y quando X 0 DME IM UFRJ Estatıstica II 7 Interpretacao dos coeficientes do modelo O parˆametro β1 e chamado de coeficiente de regressao ou coefi ciente angular da reta Considere X um valor fixado para X Entao EY β0 β1X Agora considere X X 1 ou seja o novo valor de X e um valor uma unidade acima do fixado anteriormente Entao temos EY β0 β1X 1 β0 β1 β1X Portanto β1 referese a alteracao na media de Y quando ha um acrescimo de uma unidade em X DME IM UFRJ Estatıstica II 8 Componentes da regressao linear Figura 2 Bussab e Morretin Estatıstica Basica 9ª ed 2017 DME IM UFRJ Estatıstica II 9 Exercıcio regressao linear simples a Defina o que e uma regressao linear simples b Qual a primeira etapa de uma analise de regressao c Expresse o modelo de regressao linear simples d Conceitue variavel resposta e Conceitue variavel independente f Conceitue o erro aleatorio g Quais sao os parˆametros do modelo Interpreteos h Quais sao as suposicoes do modelo i Por que as suposicoes do modelo sao importantes j O que acontece quando as suposicoes sao violadas k Qual e a media e a variˆancia de Yi DME IM UFRJ Estatıstica II 10 Estimacao por mınimos quadrados Para que possamos descobrir qual e a reta que melhor se ajusta os dados precisamos estimar os coeficientes do modelo Existem diversos metodos que podem ser utilizados porem ire mos trabalhar com o metodo de estimacao por mınimos quadra dos Este metodo busca minimizar o erro quadratico cometido Podemos supor que o erro ˆϵi e na verdade aquele que cometemos ao obtermos a estimativa ˆYi sendo que o valor verdadeiro e Yi Por sua vez o valor ajustado ˆYi e dado por ˆYi ˆβ0 ˆβ1Xi em que ˆβ0 e ˆβ1 sao os estimadores que queremos encontrar DME IM UFRJ Estatıstica II 11 Estimação por mínimos quadrados Portanto gostaríamos de encontrar os valores de β0 e β1 que minimizam SQResi1nεi2 i1nYiŶi 2 i1nYiβ0 β1 Xi 2 Derivando em relação a β0 e β1 e igualando a zero encontramos os seguintes estimadores β0 Ȳ β1 X β1 i1nYi Xi nX Ȳi1nXi2 nX2 Exemplo Considere as seguintes observacoes para as variaveis X e Y em X e o numero de devolucoes de um produto e Yi o lucro obtido por ele Xi 2 3 5 1 8 Yi 25 25 20 30 16 Encontre a reta que melhor descreve os dados observados DME IM UFRJ Estatıstica II 13 Exemplo 2 Considere os seguintes dados Tabela 1 Lucro mensal Y em mil reais e numero de clientes X Y X 1120 907 1105 926 684 506 921 741 942 789 1008 889 945 874 673 510 724 529 612 420 Existe uma relacao entre as variaveis Se sim e possıvel descrever o lucro em funcao do numero de clientes De que forma DME IM UFRJ Estatıstica II 14 Exemplo 2 Com base nos dados anteriores responda a Faca o grafico de dispersao de X vs Y b Obtenha as estimativas dos coeficientes de um modelo de regressao linear simples para explicar o lucro mensal c Qual e o modelo ajustado d Obtenha o valor predito do lucro mensal sabendo que haviam 700 clientes ativos DME IM UFRJ Estatıstica II 15 Vendas semanais vs Numero de clientes a DME IM UFRJ Estatıstica II 16 Estimativas e modelo ajustado b As estimativas para este exemplo sao dadas por ˆβ1 536508 614603 000873 ˆβ0 88055 00087373115 2423 c Portanto a reta de regressao ajustada ou estimada para esses dados e ˆY 2423 000873X DME IM UFRJ Estatıstica II 17 Visualizacao e interpretacao d Caso nao houvessem clientes X 0 o lucro mensal seria de 2423 Para cada entrada de um cliente novo o lucro mensal sobem em 000873 DME IM UFRJ Estatıstica II 18 Previsao Alem de fornecer informacao sobre o problema em estudo por meio da interpretacao dos coeficientes um modelo de regressao pode ser usado para fazer previsao Dado um novo valor X0 podemos encontrar um valor predito para Y fazendo ˆY0 ˆβ0 ˆβ1X0 Por exemplo x0 700 clientes entao y0 8 534 milhares por mˆes DME IM UFRJ Estatıstica II 19 Interpolacao e Extrapolacao Chamaremos de interpolacao se X0 esta entre minXi e maxXi e extrapolacao se X0 esta fora desses limites DME IM UFRJ Estatıstica II 20 Interpolacao e Extrapolacao Extrapolacao pode ser perigoso A reta ajustada pode ser uma boa aproximacao somente na regiao onde os dados foram obser vados DME IM UFRJ Estatıstica II 21 Estimação de σ² A estimação de σ² a variância dos erros εi fornece indícios da variabilidade da distribuição de probabilidades de Y Utilizando mínimos quadrados o estimador de σ² é i1nYiŶi2 n2 SQResn2 Similar à variância amostral a estimativa de σ² no contexto de regressão linear é a média dos desvios quadrados Exercıcios estimacao 1 Responda os itens abaixo a Conceitue o metodo de estimacao via Mınimos Quadrados EMQ b Conceitue o valor ajustado ˆYi c Conceitue resıduo d Defina matematicamente Soma do Quadrado dos Resıduos SQRes e Interprete o estimador para σ2 f O que e uma previsao para a variavel resposta Qual a diferenca entre interpolacao e extrapolacao Qual o perigo do uso da extrapolacao DME IM UFRJ Estatıstica II 23 Exercícios estimação 2 Seja Y o lucro em mil reais de uma empresa e X o número de devoluções do produto ilustrados abaixo Xi 2 3 5 1 8 Yi 25 25 20 30 16 a Obtenha as estimativas para β0 e β1 interprete b Obtenha uma previsão para 3 e 6 devoluções interprete c Obtenha uma extrapolação para 20 devoluções interprete Dados auxiliares X 38 Ȳ 232 σx 277 σy 535 e i15xi yi383 Propriedades dos estimadores E possıvel mostrar que os estimadores ˆβ0 ˆβ1 e ˆσ2 sao nao viesados com respeito ao respectivo parˆametro Sob as suposicoes do modelo de regressao linear simples os esti madores de mınimos quadrados sao nao viesados e tˆem variˆancia mınima dentre todos os estimadores lineares nao viciados Teo rema de GaussMarkov Contudo mınimos quadrados e um metodo livre de distribuicao logo so e possıvel fazer estimativas pontuais OBS Note que nao utilizamos a suposicao de normalidade para encontrar os estimadores de mınimos quadrados DME IM UFRJ Estatıstica II 25 Chamamos Lβ₀ β₁ σ² y ⁿᵢ₁ fyᵢ de função de verossimilhança A função de verossimilhança carrega toda a informação amostral através de um modelo probabilístico Os estimadores de máxima verossimilhança de β₀ e β₁ são os valores que maximizam Lβ₀ β₁ σ² y Exemplo Suponha uma amostra aleatória de uma população Bernoulli com probabilidade de sucesso θ desconhecida Mostre que o Estimador de Máxima Verossimilhança para a probabilidade de sucesso é a própria média amostral X A ideia do método é estimar os valores mais plausíveis dos parâmetros que geraram o conjunto de dados usado Os Estimadores de Máxima Verossimilhança EMV são assintoticamente nãoenviesados consistentes e de variância mínima É possível mostrar que os EMVs de β₀ e β₁ são idênticos aos respectivos estimadores de mínimos quadrados Já para a variância σ²EMV ⁿᵢ₁Yᵢ Ŷᵢ² n SQRes n que é assintoticamente não viesado Lembrete Um estimador para θ é assintoticamente não viesado se limₙ Eθₙ θ Diferentes tipos de dependˆencia A premissa mais basica de um modelo linear e a de estar consi derando uma amostra aleatoria simples Quando a amostra apresenta algum tipo de dependˆencia nao e aconselhavel o do modelo de Regressao Linear Que tipo de dependˆencias e possıvel imaginar em acoes de mer cado Os tipos de dependˆencia mais comum sao os temporais e espaci ais Quando se utiliza o modelo linear nestes casos os resultados terao vies DME IM UFRJ Estatıstica II 28 Inferˆencia alem da pontual Em diversas situacoes e possıvel que X nao tenha impacto em Y Isso significa dizer que X e Y sao nao correlacionados possi velmente independentes Matematicamente afirmamos que nao ha evidˆencias para β1 0 Quando ocorre o caso dizemos que a variavel X nao e significa tiva para explicar Y No contexto de modelos lineares nao podemos afirmar a priori que o X escolhido nao e significativo para Y Em Estatıstica toda decisao e tomada a partir dos dados e tem um risco associado a sua escolha DME IM UFRJ Estatıstica II 29 Inferˆencia alem da pontual Suponha um teste de hipotese H0 β1 0 e β1 0 Se os dados levantarem evidˆencias contra H0 entao ha evidˆencias de que X nao e significativo E usual avaliar o intervalo de confianca associado a ˆβ0 valores proximos de zero ou com alta variabilidade provavelmente levarao a rejeicao de H0 Se ha evidˆencias a favor de β1 0 entao teremos que o Modelo de Regressao Linear se reduz para Y β0 Note que como ˆβ0 Y ˆβ1 X se ˆβ1 0 ˆβ0 Y Ou seja quando uma variavel X nao e significativa Y e explicado pela sua propria media DME IM UFRJ Estatıstica II 30 Exercıcios metodos de estimacao pontual 1 Responda os itens abaixo a Os estimadores dos coeficientes sao nao viesados O que isto significa b Quais as vantagens de um estimador ser nao viesado de variˆancia mınima c Defina matematicamente o que e funcao de verossimilhanca d Conceitue o metodo de estimacao por Maxima Verossimi lhanca EMV e O que e necessario para o uso do EMV Quais as vantagens do EMV em relacao ao EMQ DME IM UFRJ Estatıstica II 31 2 Considere que o dono de uma loja deseja aumentar o seu número de vendas mas não sabe se deve contratar mais funcionários ou aumentar a carga horária de trabalho Suponha que Y número de vendas em reais e X número de horas trabalhadas em um dia onde Y 700 e X 8 responda a Obtenha as estimativas para β₀ e β₁ usando que ⁿᵢ₁Xᵢ XYᵢ Y 5300 e ⁿᵢ₁Xᵢ X² 60000 Interprete os resultados e escreva a reta ajustada b Suponha que o IC para β₁ com α 01 seja 004 012 X é significativo c Suponha que o IC para β₁ com α 005 seja 002 018 X é significativo d Reescreva a reta ajustada supondo o teste realizado com α 005 O dono da loja deve aumentar a carga horário dos funcionários visando maiores vendas Quebra de hipoteses Em um modelo de regressao fazse algumas suposicoes 1 X e Y possuem uma relacao linear 2 os erros tˆem distribuicao normal 3 os erros possuem a mesma variˆancia σ2 4 os erros sao nao correlacionados ou seja independentes entre si Ao trabalhar com dados reais nem sempre essas suposicoes sao validas o que torna o modelo proposto inadequado Contudo ainda e possıvel fazer transformacoes nos dados para tornar o modelo apropriado DME IM UFRJ Estatıstica II 33 Transformacoes para nao linearidade Quando verificamos que a variavel resposta parece ter uma dis tribuicao aproximadamente normal e variˆancia constante porem ainda ha problemas de nao linearidade podemos fazer uma trans formacao em X Figura 3 Grafico de resıduos e sugestoes de transformacoes DME IM UFRJ Estatıstica II 34 Transformacoes para nao normalidade e heterocedasticidade Quando ha problemas de nao normalidade ou heterocedasticidade nao constˆancia da variˆancia o ideal e fazer transformacoes em Y Figura 4 Grafico de resıduos e sugestoes de transformacoes Quando ha ambos os problemas alem de transformar Y e ne cessario fazer a mesma transformacao em X DME IM UFRJ Estatıstica II 35 Transformacao BoxCox E um metodo que ajuda a escolher qual seria a melhor trans formacao possıvel dos dados da famılia Y Y λ O metodo retorna qual λ se encaixa melhor nos dados Figura 5 Exemplo de transformacoes sugeridas por BoxCox A avaliacao das transformacoes deve sempre ser feita atraves do grafico dos resıduos e dos testes de hipoteses DME IM UFRJ Estatıstica II 36