·
Ciências Contábeis ·
Estatística 2
Send your question to AI and receive an answer instantly
Recommended for you
11
Regressao Linear Simples e Analise de Alugueis Resumo Estatistica II UFRJ
Estatística 2
UMG
15
Estatística II para Ciências Contábeis - UFRJ: Introdução, Revisão e Regressão Linear
Estatística 2
UMG
42
Estatistica II Ciencias Contabeis UFRJ - Anotacoes do Curso
Estatística 2
UMG
110
Estatistica 2 UFRJ - Introducao ao R e RStudio
Estatística 2
UMG
1
Relatorio Regressao Linear Simples - Analise de Dados e Ajuste do Modelo
Estatística 2
UMG
12
Aplicar as Técnicas de Regressão Linear Simples para Fazer um Relatório
Estatística 2
UMG
26
Programacao Linear Estudo de Caso Montagem Cestas Basicas
Estatística 2
FAE
10
Teste de Hipóteses sobre a Média e Proporção Teste Z Exato e Aproximado Teste T
Estatística 2
UFES
28
Trabalho Estatistica 2
Estatística 2
UFRJ
3
Lista de Exercícios 5 Análise de Variância-2021 1
Estatística 2
UFBA
Preview text
Estatıstica II para Ciˆencias Contabeis Codigos MAD245 Turma B Oferecido pelo Departamento de metodos estatısticos DME Instituto de Matematica UFRJ Introducao a disciplina Email para contato luizadmeufrjbr Usaremos o Classroom para organizacao e trabalhos Codigo do Classroom o22bsst Bibliografia para revisao Bussab W O e Morettin A M Estatıstica Basica Editora Saraiva 2009 Tavares MEstatıstica Aplicada a Administracao CAPES 2021 Apostila Santos R Material Introdutorio sobre R DME IM UFRJ Estatıstica II 1 Organizacao do Curso Parte I Revisao Introducao Distribuicao Normal Esperanca e Variˆancia Nocoes de Inferˆencia Estimador Metodo de Mınimos Quadrados Intervalo de Confianca Teste de Hipotese DME IM UFRJ Estatıstica II 2 Organizacao do Curso Parte II Regressao Linear Simples Pressupostos Modelagem Analise de Resıduos DME IM UFRJ Estatıstica II 3 Organizacao do Curso Parte III Regressao Linear Multipla Pressupostos Modelagem Analise de Resıduos DME IM UFRJ Estatıstica II 4 Avaliacoes As notas serao dadas por dois trabalhos uma para a P1 e outro para a P2 Datas de divulgacao e de entrega a definir Haverao atividades valendo ponto extra a definir DME IM UFRJ Estatıstica II 5 Introducao A Estatıstica e a ciˆencia que estuda a incerteza Ou seja tudo aquilo que nao e determinıstico Ela tambem pode ser definida como um conjunto de metodos para coleta resumo analise e interpretacao dos dados para auxiliar em tomadas de decisao Nesse contexto estudaremos tecnicas para observar e entender a historia que os dados estao contando alem de descrever mate maticamente as incertezas DME IM UFRJ Estatıstica II 1 Exemplos de aplicacao Exemplo 1 Suponha que sua empresa gostaria adicionar um novo produto no catalogo Ele e parecido com uma versao ante rior e ambos possuem a mesma funcao mas o novo promete ser mais eficiente Como sabemos se de fato este novo produto e mais eficiente Exemplo 2 Vocˆe esta analisando os numeros de uma equipe de vendas e precisa aumentar os numeros dos funcionarios para baterem as metas Sera que a quantidade de produtos vendidos tem relacao com caracterısticas do comprador Sera que a cam panha anterior deu certo Sera que precisa mudar de estrategia Exemplo 3 Sua empresa gostaria de implantar um benefıcio de home office como incentivo para as unidades trabalharem de casa e assim a empresa conseguir economizar em aluguel Porem sera que o lucro utilizando essa abordagem e significativo DME IM UFRJ Estatıstica II 2 Como utilizala Suponha que vocˆe gostaria de analisar os custos de um servico da empresa para entender o que o influencia e poder tomar melhores decisoes a respeito disso Nesse caso podemos tratar o custo como uma variavel aleatoria Formalmente uma variavel aleatoria e uma funcao que associa eventos de um espaco amostral aos numeros reais Na pratica podemos associar valores aleatorias a caracterısticas de interesse de um objeto de estudo Estudando a variavel aleatoria que representa o custo podemos tentar entender como o custo esta distribuıdo e ao que esta asso ciado DME IM UFRJ Estatıstica II 3 Distribuição Normal Chamamos de distribuição o comportamento dos dados Quando conhecemos a distribuição de uma variável aleatória conseguimos analisar os dados encontrar padrões e até prever futuras ocorrências A distribuição conhecida mais utilizada é a distribuição normal que é adequada para dados quantitativos contínuos Além disso uma variável aleatória de distribuição pode assumir valores nos números reais Sua função de densidade de probabilidade é fx sqrt1 2 pi sigma2 e12 xmusigma2 x pertencente a R em que mu e sigma2 são parâmetros da distribuição Distribuicao Normal A distribuicao normal e amplamente utilizada justamente por suas caracterısticas Sao algumas delas Os parˆametros sao na verdade µ EX e σ2 VarX A distribuicao e simetrica em torno de µ Sabese que Z Xµ σ N0 1 A normal padrao N01 e tabelada Pelo Teorema Central do Limite TCL sob certas condicoes a distribuicao de somas de variaveis aleatorias tende para uma distribuicao normal independentemente de qual e a dis tribuicao dessas variaveis aleatorias se o tamanho da amos tra for suficientemente grande DME IM UFRJ Estatıstica II 5 Distribuicao Normal Graficamente a distribuicao normal padrao pode ser represen tada da seguinte forma Note que A curva e simetrica em torno de 0 PX 0 05 As alturas medem a plausibilidade relativa se y1 3y2 entao x1 e 3 vezes mais plausıvel de ser observado que x2 0 e o valor mais plausıvel e e o que sai em media DME IM UFRJ Estatıstica II 6 Quantis de probabilidade acumulada Seja X uma variavel aleatoria que assume valores em ΩX O quantil de probabilidade p denotado por qp e o valor numerico em ΩX que satisfaz PX qp p DME IM UFRJ Estatıstica II 7 Exercıcio A demanda diaria de arroz num supermercado em centenas de quilos e uma variavel aleatoria de distribuicao Normal com media 3 e variˆancia 025 a Qual e a probabilidade de se vender mais do que l50 kg num dia escolhido ao acaso b Qual e a probabilidade de se vender entre 200 e 400 kg em um dia c Qual e a quantidade de arroz que deve ser deixada a disposicao dos clientes diariamente para que nao falte arroz em 95 dos dias DME IM UFRJ Estatıstica II 8 Esperança A esperança ou valor esperado é uma medida de centralidade Esse valor depende somente da distribuição da variável aleatória X isto é da função de massa de probabilidade pX ou da função de densidade de probabilidade fX O valor esperado é uma média dos valores x pertencente a OmegaX que a variável pode assumir ponderada pelas probabilidades de cada valor O valor esperado de uma variável aleatória X discreta é definido por EX sumx pertencente a OmegaX x PXx sumx pertencente a OmegaX x pXx Se a variável aleatória X for contínua ele é dada por EX integralOmegaX x fXx dx Esperança É possível definir também a esperança de uma função de variável aleatória gX Suponha que não se sabe a distribuição de gX mas se conhece a distribuição de X e há interesse em calcular o valor esperado de gX É possível calculálo apenas com base em X da seguinte forma Se X for discreta EgX sumx pertencente a OmegaX gx PXx sumx pertencente a OmegaX x pXx Se X for contínua EgX integralOmegaX gx fXx dx Seja X uma variável aleatória A variância de X é uma medida de dispersão que pode ser definida como VarX EX EX2 Podemos interpretar X EX é a distância entre X e sua média logo X EX2 é o quadrado dessa distância Portanto a variância de X é o valor que se espera para o quadrado da distância entre X e a sua média EX A variância de X também pode ser calculada da seguinte forma VarX EX2 EX2 Interpretação Uma variância alta indica que a distribuição de X é muito dispersa O desvio padrão de X é definido por DPX VarX O desvio padrão é uma medida de dispersão com a mesma unidade que a variável aleatória de X diferente da variância cuja unidade é o quadrado da unidade de X Coeficiente de Variacao O coeficiente de variacao e uma medida de dispersao padro nizada pela media da distribuicao CV X DPX EX Isso torna possıvel a comparacao entre diferentes variaveis Isto e considere X e Y variaveis aleatorias distintas Se DPX DPY nao podemos dizer que X tem maior variabilidade que Y Isso depende da ordem de grandeza de X e de Y Porem o coeficiente de variacao leva em conta a ordem de grandeza e pode ser utilizado para comparalas DME IM UFRJ Estatıstica II 13 Propriedades da esperanca e da variˆancia Considere X e Y variaveis aleatorias e a e b numeros reais quais quer Entao 1 Ea a e Vara 0 2 VarX EX2 EX2 3 EaX b aEX b 4 EaX bY aEX bEY 5 VaraX b a2VarX 6 Se X e Y sao independentes entao para quaisquer numeros reais a e b VaraX bY a2VarX b2VarY DME IM UFRJ Estatıstica II 14 Exercıcio Um analista pressupoe que existe a seguinte relacao entre o sexo representado por X e o salario dos funcionarios de uma empresa denotado por Y Y β0 β1X ϵ Nesse contexto β0 e β1 sao constantes desconhecidas e X e uma constante conhecida obtida previamente Contudo o ϵ chamado de erro aleatorio e uma variavel aleatoria normal de media 0 e variˆancia σ2 Com base nisso responda a Y e uma variavel aleatoria b Qual e a media de Y c Qual e a variˆancia de Y d Qual e a distribuicao de Y c Calcule o coeficiente de variacao de Y DME IM UFRJ Estatıstica II 15 Inferˆencia Estatıstica Inferˆencia e a area da Estatıstica que busca generalizar in formacoes de uma parte para o todo Nesse contexto temse interesse em uma caracterıstica de uma populacao o todo porem so e possıvel obter informacoes sobre a caracterıstica em uma amostra uma parte No processo a caracterıstica de interesse da populacao e repre sentada por um parˆametro uma quantidade numerica desco nhecida Por sua vez a generalizacao e feita atraves de um estimador que e uma variavel aleatoria obtida em funcao da amostra para estimar o parˆametro DME IM UFRJ Estatıstica II 16 Inferˆencia Estatıstica Inferˆencia e a area da Estatıstica que busca generalizar in formacoes de uma parte para o todo Nesse contexto temse interesse em uma caracterıstica de uma populacao o todo porem so e possıvel obter informacoes sobre a caracterıstica em uma amostra uma parte No processo a caracterıstica de interesse da populacao e repre sentada por uma variavel aleatoria X com o comportamento sendo descrito por um parˆametro uma quantidade numerica desconhecida que ajudara a saber mais sobre a distribuicao da caracterıstica de interesse Por sua vez para conhecermos este parˆametro utilizamos um estimador que e uma variavel aleatoria obtida em funcao da amostra X1 Xn DME IM UFRJ Estatıstica II 17 A média amostral X é um estimador para a média populacional μ EX Considere uma amostra aleatória X1Xn A média amostral é dada por X i1n Xi n Ela tem boas propriedades É não viesada ou não viciada em média X acerta o valor verdadeiro de μ É consistente quanto maior é o tamanho da amostra mais concentrada é a distribuição de X em torno de μ Pelo Teorema Central do Limite conforme o tamanho da amostra aumenta a distribuição de X se aproxima de uma Nμ σ²n sendo σ² a variância populacional Variância Amostral A variância amostral S2 é um estimador para a variância populacional σ2 VarX Considere uma amostra aleatória X1 Xn A variância amostral é dada por VarX i1n Xi X2n1 i1n Xi2 n X2n1 Este estimador é não viesado ou seja em média S2 acerta o valor verdadeiro de σ2 A variância amostral possui relação com a distribuição quiquadrado n1 S2σ2 χn1 Lembrete A variância amostral sempre será um valor positivo porque é uma soma de quadrados Comparacao de Estimadores Por definicao um estimador e uma funcao da amostra Portanto podemos ter varios estimadores para o mesmo parˆametro Como escolhemos o melhor Figura 1 Bussab e Morettin Estatıstica Basica 6a ed Desejamos estimadores com baixo vies ou ate nao viesados e com baixa variˆancia DME IM UFRJ Estatıstica II 20 Erro Quadrático Médio A comparação de estimadores é possível através do Erro Quadrático Médio EQM O EQM é uma medida de erro que considera tanto a variabilidade do estimador θ quanto o seu vício Bθ Ele é dado por EQMθ Eθ θ2 Varθ B2θ em que Bθ Eθ θ sendo θ o parâmetro de interesse Quanto menor o EQM melhor é o estimador Portanto se quisermos comparar dois estimadores basta calcular o EQM de ambos e verificar qual deles tem o menor EQM Podemos inclusive criar um estimador de forma que seu EQM seja mínimo através do método dos mínimos quadrados Exercıcio Receita anual Um funcionario quer analisar a receita anual de uma empresa Os valores dos ultimos 10 anos em milhoes sao 48 2 49 3 50 1 48 4 49 8 50 3 46 2 46 5 45 5 47 7 Estime a media e o desvio padrao populacionais DME IM UFRJ Estatıstica II 22 Aleatoriedade dos estimadores vs imutabilidade das estimativas X e S sao aleatorios x e s sao constantes A cada amostra coletada X e S serao diferentes Queremos que os valores de X e S nao sejam muito distantes de µ e σ A probabilidade de X estar perto de µ deve ser alta idem para S e σ Na amostra x 482 mas tambem poderıamos ter observado 48 473 ou mesmo 702 Dado µ alguns valores de X sao mais provaveis do que outros e portanto x traz informacao sobre ao valor de µ DME IM UFRJ Estatıstica II 23 Intervalos de confianca para a media populacional Usaremos x para definir quem sao os valores plausıveis de µ in tervalo de confianca e dar sentido matematico para Alguns valores de µ nao sao plausıveis de terem gerado o particular x que eu observei na minha amostra Intervalos de confianca sao intervalos aleatorios que conterao µ com alta confianca Podemos construir intervalos para a media populacional conside rando σ2 conhecido ou desconhecido porem so veremos o caso com σ2 conhecido DME IM UFRJ Estatıstica II 24 Caso σ conhecido Relembre que se X Nμ σ2 Z X μσ2n N01 Por outro lado se X não é normal mas n é grande o TCL mantém o resultado aproximadamente Nıvel de Confianca Dado α 0 1 o valor 1 α e o que chamamos de nıvel de confianca do intervalo Em geral 1 α sera um valor proximo de 1 como por exemplo 095 098 ou ate 099 DME IM UFRJ Estatıstica II 26 1α Pqi Z qs Pqs X μ σ²n qs PX qs σ²n μ X qs σ²n O intervalo de confiança X qs σ²n X qs σ²n contém μ em 1 α 100 das vezes Interpretacao frequentista dos ICs Figura 2 Intervalos de confiaca construıdos a partir de amostras diferentes todas de tamanho 12 de uma populacao N211 462 Figura extraıda de Pagano e Gauvreau Princıpios de Bioestatıstica DME IM UFRJ Estatıstica II 28 Intervalo de confianca para a variˆancia populacional Quando X for uma variavel aleatoria com distribuicao normal podemos escrever n 1S2 σ2 χn1 onde χ2 n1 denota a distribuicao quiquadrado com n 1 graus de liberdade No caso geral usamos o TCL para justificar a aproximacao DME IM UFRJ Estatıstica II 29 A distribuicao quiquadrado A quiquadrado e uma distribuicao assimetrica cujos quantis tambem sao tabelados O que define o padrao da curva sao seus graus de liberdade Quanto maior seu grau de liberdade mais simetrica e parecida com a normal ela fica Considere γ 1 α o nıvel de confianca e α o nıvel de signi ficˆancia DME IM UFRJ Estatıstica II 30 1 Tome um nível de significância 1 α alto próximo de 1 2 Calcule os valores qi e qs de modo que 1 α Pqi n1 S² σ² qs 3 Os valores dos quantis serão dados por qi qα2n1 e qs q1α2n1 através da distribuição de χ²n1 4 O IC resultante será n1 q1α2n1 S² n1 qα2n1 S² Exercıcio Receita anual Um funcionario quer analisar a receita anual de uma empresa Os valores dos ultimos 10 anos em milhoes sao 48 2 49 3 50 1 48 4 49 8 50 3 46 2 46 5 45 5 47 7 Construa um intervalo de confianca de 95 para a media e a variˆancia populacionais Interpreteos OBS No caso do intervalo para a media considere que a variˆancia e conhecida e igual a sua estimativa DME IM UFRJ Estatıstica II 32 Teste de Hipotese Na Estatıstica gostarıamos de saber mais sobre uma caracterıstica de interesse Pode ser que por conhecimento previo ou apos ob servar uma amostra tenhamos uma hipotese sobre o parˆametro Ha ferramentas que ajudam a decidir se uma hipotese sobre o parˆametro e valida ou nao E o caso do teste de hipotese Para utilizalo e necessario definir duas hipoteses uma contem o que se gostaria de testar e a outra seria o contrario o comple mentar desta hipotese Podemos chamalas de hipotese nula H0 e hipotese alternativa H1 O teste de hipotese ajudara a responder a seguinte pergunta a amostra fornece evidˆencias suficientemente fortes contra H0 Consideraremos que rejeitar H0 implica aceitar H1 Porem nao rejeitar H0 nao implica em aceitar H0 DME IM UFRJ Estatıstica II 33 Exemplo Receita anual Suponha que H0 µ 52 e que H1 µ 52 O intervalo de 95 de confianca para µ considerando σ2 conhe cido foi 47 08 49 32 Confiamos que esse e um dos intervalos que contˆem µ logo rejei tamos H0 em favor de H1 Mas e se supusessemos que µ e 48 ou 49 H0 µ 48 vs H1 µ 48 nao rejeitamos H0 H0 µ 49 vs H1 µ 49 nao rejeitamos H0 Qual seria a decisao µ 48 ou µ 49 Conclusao A amostra nao fornece evidˆencias suficientemente for tes contra µ 48 ou contra µ 49 DME IM UFRJ Estatıstica II 34 Elaborando hipoteses Seja θ um parˆametro desconhecido e θ0 o valor pressuposto para o parˆametro Existem varios tipos de hipoteses Iremos trabalhar apenas com o primeiro caso DME IM UFRJ Estatıstica II 35 Procedimento 1 Admitimos H0 verdadeira ou seja θ θ0 2 Colhemos uma amostra e observamos o valor da estatıstica de teste sob H0 3 Se o valor cai numa regiao pouco provavel probabilidade α 0 H0 nao deve ser verdade portanto rejeitamos H0 em favor de H1 4 Caso contrario a amostra nao fornece evidˆencias fortes o suficiente para rejeitarmos H0 em favor de H1 DME IM UFRJ Estatıstica II 36 Desejamos testar H0 μ μ0 H1 μ μ0 com nível de significância α dividido igualmente nas duas caudas Usando X como estatística de teste H1 é mais provável Testes unilaterais H0 mu mu0 H1 mu mu0 H0 mu mu0 H1 mu mu0 H1 é mais provável H1 é mais provável 3º passo Encontrar a Região Crítica ou região de rejeição No teste bilateral a região é definida como Suponho um nível de significância de 5 temos que a Região Crítica é formada pelo intervalo 196 196 4º passo Sob H0 verdadeiro teremos t 482 50 2918 10 333 que pertence à RC Teste de hipótese para mu supondo sigma2 conhecido 1º passo formulase as hipóteses H0 mu mu0 H1 mu mu0 ou H0 mu mu0 H1 mu mu0 ou H0 mu mu0 H1 mu eq mu0 2º passo definese a estatística de teste Para teste de médias com variância conhecida teremos supondo H0 verdadeiro T fracoverlineX mu0sqrtfracsigma2n sim extN01 Teste de hipotese para µ supondo σ2 conhecido 3º passo definese a Regiao Crıtica RC do teste em funcao do nıvel de confianca α sendo 5 o padrao H1 µ µ0 H1 µ µ0 H1 µ µ0 4º passo Calculase o valor t de teste T se t RC entao rejeitase H0 em favor de H1 Caso contrario aceitase H0 DME IM UFRJ Estatıstica II 40 O teste bilateral equivale a checar se μ0 está contido em ICμ1 α Se estiver contido então não rejeitamos H0 Se não estiver contido então rejeitamos H0 No exemplo da receita anual ICμ95 482 196 170810 482 196 170810 4708 4932 Portanto como μ0 50 não está contido no intervalo sob 95 de confiança rejeitase a hipótese de que a receita anual média é 50 mil reais Exemplo Receita anual Um funcionario quer analisar a receita anual de uma empresa Os valores dos ultimos 10 anos em milhoes sao 48 2 49 3 50 1 48 4 49 8 50 3 46 2 46 5 45 5 47 7 Antes da analise o funcionario achava que a receita anual media da empresa em seus muitos anos de atividade era de 50 mil porem depois de ver os numeros dos ultimos anos ele ja nao tem tanta certeza Sera que em media a receita anual da empresa e 50 mil Considere que a receita anual siga uma distribuicao normal com variˆancia 2918 DME IM UFRJ Estatıstica II 41 Teste bilateral Exemplo 1º passo H0 mu 50 H1 mu eq 50 2º passo T fracoverlineX musqrtfracsigma2n sim extN01 sob H0 verdadeiro Conclusao do teste Como t RC concluımos que sob um nıvel de significˆancia de 95 devemos rejeitar H0 Ou seja ha evidˆencias estatısticas para concluir que a receita anual media nao e 50 mil O funcionario estava enganado DME IM UFRJ Estatıstica II 44 Dadas duas variáveis X e Y gostaríamos de ter uma medida para quantificar o grau de relação entre elas Por isso podemos utilizar a covariância amostral que é definida definida como sxy Σni1 xi xyi y n 1 Σni1 xi yi n x y n 1 Existe uma relação entre o que é mostrado no gráfico de dispersão e o valor da covariância A covariância amostral é positiva se o diagrama de dispersão mostra uma tendência crescente A covariância amostral é negativa se o diagrama de dispersão mostra uma tendência decrescente A covariância amostral é zero ou próxima a zero se o diagrama de dispersão não mostra uma tendência Pvalor Pvalor e a probabilidade sob H0 de observarmos um valor mais extremo para a estatıstica de teste do que o que foi obtido na amostra Se o Pvalor for menor que α rejeitase H0 ao nıvel de α de significˆancia Se o Pvalor for maior que α nao se rejeita H0 ao nıvel de α de significˆancia DME IM UFRJ Estatıstica II 46 Exercıcio Uma empresa tem como polıtica interna que o departamento de vendas tenha de entregar ao menos um fluxo positivo de caixa de em media 80 mil reais O controle interno da empresa na sua verificacao anual coletou o faturamento de 40 equipes do de partamento de vendas e levantou um faturamento de 78 mil reais com desvio padrao conhecido de 25 mil reais A empresa tem evidˆencias suficientes para intervir no departamento de vendas Use teste de hipotese como base para sua decisao DME IM UFRJ Estatıstica II 47 Relacao entre duas variaveis Muitas vezes podemos estar interessados em analisar a relacao entre duas variaveis como por exemplo peso e altura Consideramos duas variaveis X e Y Cada dado a partir de uma amostra de tamanho n sera representado por um par ordenado xi yi onde xi e a iesima observacao da variavel X e yi de Y Uma primeira tentativa e observar uma possıvel relacao fazendo um grafico onde no eixo horizontal temos os valores de x e no eixo vertical os de y Esse grafico e chamado diagrama de dispersao O diagrama de dispersao permite visualizar o tipo de relacao entre as variaveis DME IM UFRJ Estatıstica II 48 Diagrama de dispersao Exemplo Considere os seguintes dados para duas variaveis X e Y xi 1 2 3 4 5 yi 3 7 5 11 12 O que o grafico sugere sobre a relacao entre as duas variaveis DME IM UFRJ Estatıstica II 49 Coeficiente de correlacao Alem do sinal que serve como indicador da tendˆencia crescente ou decrescente muito pouca informacao pode ser extraıda da covariˆancia Isso porque o valor de sxy depende fortemente das unidades de X e Y Uma forma de solucionar este problema e utilizar o coeficiente de correlacao que pode ser dado por rxy sxy sxsy onde sx e o desvio padrao amostral de X e sy e o desvio padrao amostral de Y O coeficiente de correlacao e adimensional rxy e uma versao normalizada da covariˆancia e temos 1 rxy 1 O coeficiente de correlacao mede apenas a dependˆencia linear entre as variaveis DME IM UFRJ Estatıstica II 51 Coeficiente de correlacao DME IM UFRJ Estatıstica II 52 Interpretando a correlacao A correlacao sempre estara entre 1 e 1 Portanto geralmente se considera a correlacao Muito forte se for em valores absolutos 09 ou mais Forte se estiver em valores absolutos entre 07 ou 09 Moderada se estiver em valores absolutos entre 05 e 07 Fraca se estiver em valores absolutos entre 03 e 05 Muito fraca se estiver em valores absolutos entre 0 e 03 DME IM UFRJ Estatıstica II 53 Interpretando a correlacao Quais tipos de correlacao sao vistas abaixo DME IM UFRJ Estatıstica II 54 Exemplo covariˆancia e correlacao Um levantamento busca relacionar as variaveis tempo de car reira X em anos e salario em mil reais nos ultimos 5 anos Y X 8 9 10 11 12 Y 10 10 11 11 13 Calcule o coeficiente de correlacao entre X e Y DME IM UFRJ Estatıstica II 55 Associacao Correlacao e Causalidade O coeficiente de correlacao apresentado e uma medida de asso ciacao linear Duas variaveis podem estar associadas mas nao correlacionadas Se duas variaveis sao correlacionadas elas sao necessariamente associadas Correlacao implica associacao mas nao implica causalidade DME IM UFRJ Estatıstica II 56 Associacao Correlacao e Causalidade A correlacao indica a forca que uma variavel impacta no aumento ou decrescimo de outra variavel Por outro lado quando uma variavel causa a outra chamamos de um fenˆomeno causal Por exemplo o calor causa consumo de sorvete e marca de sol Consumo de sorvete e marca de sol sao correlacionadas mas nao sao causais Entre o consumo de sorvete e a marca de sol existe uma variavel agente causal oculto que liga ambas o calor DME IM UFRJ Estatıstica II 57 Correlacoes Espurias Chamamos de correlacao espuria fenˆomenos onde ha uma cor relacao matematica mas nao ha nenhum contexto de efeito Figura 3 Divorcio vs Consumo de margarina correlacao de 99 DME IM UFRJ Estatıstica II 58 Correlacoes Espurias Em algumas situacoes e possıvel que haja um agente causal oculto que faca a ponte entre ambas as variaveis Figura 4 Gasto em ciˆencia vs Suicıdio correlacao de 99 DME IM UFRJ Estatıstica II 59 DME IM UFRJ Estatıstica II 60 Outras relacoes o quarteto de Anscombe Quarteto de Anscombe sao quatro conjuntos de dados com es tatısticas descritivas idˆenticas mas que graficamente diferem Portanto os graficos as medidas e o contexto devem sempre andar juntos DME IM UFRJ Estatıstica II 60 Outras relacoes paradoxo de Simpson O paradoxo de YuleSimpson e um em que uma tendˆencia aparece em diversos grupos de dados mas desaparece ou reverte quando esses grupos sao combinados DME IM UFRJ Estatıstica II 61 Exercıcio associacao e causalidade Se verdadeiro justifique se falso apresente um contraexemplo a O coeficiente de correlacao mensura efeitos naolineares b Associacao implica em correlacao c Correlacao implica em associacao d Correlacao implica em causalidade e Correlacao positiva indica que conforme uma variavel cresce a outra tambem cresce f Correlacao e capaz de mensurar a relacao causaefeito g Duas variaveis podem estar correlacionadas sem relacao causa efeito m h Diferentes grupos no mesmo conjunto de dados nao e pro blematico i Dois conjuntos de dados podem ter a mesma correcao mas apresentar comportamentos diferentes DME IM UFRJ Estatıstica II 62
Send your question to AI and receive an answer instantly
Recommended for you
11
Regressao Linear Simples e Analise de Alugueis Resumo Estatistica II UFRJ
Estatística 2
UMG
15
Estatística II para Ciências Contábeis - UFRJ: Introdução, Revisão e Regressão Linear
Estatística 2
UMG
42
Estatistica II Ciencias Contabeis UFRJ - Anotacoes do Curso
Estatística 2
UMG
110
Estatistica 2 UFRJ - Introducao ao R e RStudio
Estatística 2
UMG
1
Relatorio Regressao Linear Simples - Analise de Dados e Ajuste do Modelo
Estatística 2
UMG
12
Aplicar as Técnicas de Regressão Linear Simples para Fazer um Relatório
Estatística 2
UMG
26
Programacao Linear Estudo de Caso Montagem Cestas Basicas
Estatística 2
FAE
10
Teste de Hipóteses sobre a Média e Proporção Teste Z Exato e Aproximado Teste T
Estatística 2
UFES
28
Trabalho Estatistica 2
Estatística 2
UFRJ
3
Lista de Exercícios 5 Análise de Variância-2021 1
Estatística 2
UFBA
Preview text
Estatıstica II para Ciˆencias Contabeis Codigos MAD245 Turma B Oferecido pelo Departamento de metodos estatısticos DME Instituto de Matematica UFRJ Introducao a disciplina Email para contato luizadmeufrjbr Usaremos o Classroom para organizacao e trabalhos Codigo do Classroom o22bsst Bibliografia para revisao Bussab W O e Morettin A M Estatıstica Basica Editora Saraiva 2009 Tavares MEstatıstica Aplicada a Administracao CAPES 2021 Apostila Santos R Material Introdutorio sobre R DME IM UFRJ Estatıstica II 1 Organizacao do Curso Parte I Revisao Introducao Distribuicao Normal Esperanca e Variˆancia Nocoes de Inferˆencia Estimador Metodo de Mınimos Quadrados Intervalo de Confianca Teste de Hipotese DME IM UFRJ Estatıstica II 2 Organizacao do Curso Parte II Regressao Linear Simples Pressupostos Modelagem Analise de Resıduos DME IM UFRJ Estatıstica II 3 Organizacao do Curso Parte III Regressao Linear Multipla Pressupostos Modelagem Analise de Resıduos DME IM UFRJ Estatıstica II 4 Avaliacoes As notas serao dadas por dois trabalhos uma para a P1 e outro para a P2 Datas de divulgacao e de entrega a definir Haverao atividades valendo ponto extra a definir DME IM UFRJ Estatıstica II 5 Introducao A Estatıstica e a ciˆencia que estuda a incerteza Ou seja tudo aquilo que nao e determinıstico Ela tambem pode ser definida como um conjunto de metodos para coleta resumo analise e interpretacao dos dados para auxiliar em tomadas de decisao Nesse contexto estudaremos tecnicas para observar e entender a historia que os dados estao contando alem de descrever mate maticamente as incertezas DME IM UFRJ Estatıstica II 1 Exemplos de aplicacao Exemplo 1 Suponha que sua empresa gostaria adicionar um novo produto no catalogo Ele e parecido com uma versao ante rior e ambos possuem a mesma funcao mas o novo promete ser mais eficiente Como sabemos se de fato este novo produto e mais eficiente Exemplo 2 Vocˆe esta analisando os numeros de uma equipe de vendas e precisa aumentar os numeros dos funcionarios para baterem as metas Sera que a quantidade de produtos vendidos tem relacao com caracterısticas do comprador Sera que a cam panha anterior deu certo Sera que precisa mudar de estrategia Exemplo 3 Sua empresa gostaria de implantar um benefıcio de home office como incentivo para as unidades trabalharem de casa e assim a empresa conseguir economizar em aluguel Porem sera que o lucro utilizando essa abordagem e significativo DME IM UFRJ Estatıstica II 2 Como utilizala Suponha que vocˆe gostaria de analisar os custos de um servico da empresa para entender o que o influencia e poder tomar melhores decisoes a respeito disso Nesse caso podemos tratar o custo como uma variavel aleatoria Formalmente uma variavel aleatoria e uma funcao que associa eventos de um espaco amostral aos numeros reais Na pratica podemos associar valores aleatorias a caracterısticas de interesse de um objeto de estudo Estudando a variavel aleatoria que representa o custo podemos tentar entender como o custo esta distribuıdo e ao que esta asso ciado DME IM UFRJ Estatıstica II 3 Distribuição Normal Chamamos de distribuição o comportamento dos dados Quando conhecemos a distribuição de uma variável aleatória conseguimos analisar os dados encontrar padrões e até prever futuras ocorrências A distribuição conhecida mais utilizada é a distribuição normal que é adequada para dados quantitativos contínuos Além disso uma variável aleatória de distribuição pode assumir valores nos números reais Sua função de densidade de probabilidade é fx sqrt1 2 pi sigma2 e12 xmusigma2 x pertencente a R em que mu e sigma2 são parâmetros da distribuição Distribuicao Normal A distribuicao normal e amplamente utilizada justamente por suas caracterısticas Sao algumas delas Os parˆametros sao na verdade µ EX e σ2 VarX A distribuicao e simetrica em torno de µ Sabese que Z Xµ σ N0 1 A normal padrao N01 e tabelada Pelo Teorema Central do Limite TCL sob certas condicoes a distribuicao de somas de variaveis aleatorias tende para uma distribuicao normal independentemente de qual e a dis tribuicao dessas variaveis aleatorias se o tamanho da amos tra for suficientemente grande DME IM UFRJ Estatıstica II 5 Distribuicao Normal Graficamente a distribuicao normal padrao pode ser represen tada da seguinte forma Note que A curva e simetrica em torno de 0 PX 0 05 As alturas medem a plausibilidade relativa se y1 3y2 entao x1 e 3 vezes mais plausıvel de ser observado que x2 0 e o valor mais plausıvel e e o que sai em media DME IM UFRJ Estatıstica II 6 Quantis de probabilidade acumulada Seja X uma variavel aleatoria que assume valores em ΩX O quantil de probabilidade p denotado por qp e o valor numerico em ΩX que satisfaz PX qp p DME IM UFRJ Estatıstica II 7 Exercıcio A demanda diaria de arroz num supermercado em centenas de quilos e uma variavel aleatoria de distribuicao Normal com media 3 e variˆancia 025 a Qual e a probabilidade de se vender mais do que l50 kg num dia escolhido ao acaso b Qual e a probabilidade de se vender entre 200 e 400 kg em um dia c Qual e a quantidade de arroz que deve ser deixada a disposicao dos clientes diariamente para que nao falte arroz em 95 dos dias DME IM UFRJ Estatıstica II 8 Esperança A esperança ou valor esperado é uma medida de centralidade Esse valor depende somente da distribuição da variável aleatória X isto é da função de massa de probabilidade pX ou da função de densidade de probabilidade fX O valor esperado é uma média dos valores x pertencente a OmegaX que a variável pode assumir ponderada pelas probabilidades de cada valor O valor esperado de uma variável aleatória X discreta é definido por EX sumx pertencente a OmegaX x PXx sumx pertencente a OmegaX x pXx Se a variável aleatória X for contínua ele é dada por EX integralOmegaX x fXx dx Esperança É possível definir também a esperança de uma função de variável aleatória gX Suponha que não se sabe a distribuição de gX mas se conhece a distribuição de X e há interesse em calcular o valor esperado de gX É possível calculálo apenas com base em X da seguinte forma Se X for discreta EgX sumx pertencente a OmegaX gx PXx sumx pertencente a OmegaX x pXx Se X for contínua EgX integralOmegaX gx fXx dx Seja X uma variável aleatória A variância de X é uma medida de dispersão que pode ser definida como VarX EX EX2 Podemos interpretar X EX é a distância entre X e sua média logo X EX2 é o quadrado dessa distância Portanto a variância de X é o valor que se espera para o quadrado da distância entre X e a sua média EX A variância de X também pode ser calculada da seguinte forma VarX EX2 EX2 Interpretação Uma variância alta indica que a distribuição de X é muito dispersa O desvio padrão de X é definido por DPX VarX O desvio padrão é uma medida de dispersão com a mesma unidade que a variável aleatória de X diferente da variância cuja unidade é o quadrado da unidade de X Coeficiente de Variacao O coeficiente de variacao e uma medida de dispersao padro nizada pela media da distribuicao CV X DPX EX Isso torna possıvel a comparacao entre diferentes variaveis Isto e considere X e Y variaveis aleatorias distintas Se DPX DPY nao podemos dizer que X tem maior variabilidade que Y Isso depende da ordem de grandeza de X e de Y Porem o coeficiente de variacao leva em conta a ordem de grandeza e pode ser utilizado para comparalas DME IM UFRJ Estatıstica II 13 Propriedades da esperanca e da variˆancia Considere X e Y variaveis aleatorias e a e b numeros reais quais quer Entao 1 Ea a e Vara 0 2 VarX EX2 EX2 3 EaX b aEX b 4 EaX bY aEX bEY 5 VaraX b a2VarX 6 Se X e Y sao independentes entao para quaisquer numeros reais a e b VaraX bY a2VarX b2VarY DME IM UFRJ Estatıstica II 14 Exercıcio Um analista pressupoe que existe a seguinte relacao entre o sexo representado por X e o salario dos funcionarios de uma empresa denotado por Y Y β0 β1X ϵ Nesse contexto β0 e β1 sao constantes desconhecidas e X e uma constante conhecida obtida previamente Contudo o ϵ chamado de erro aleatorio e uma variavel aleatoria normal de media 0 e variˆancia σ2 Com base nisso responda a Y e uma variavel aleatoria b Qual e a media de Y c Qual e a variˆancia de Y d Qual e a distribuicao de Y c Calcule o coeficiente de variacao de Y DME IM UFRJ Estatıstica II 15 Inferˆencia Estatıstica Inferˆencia e a area da Estatıstica que busca generalizar in formacoes de uma parte para o todo Nesse contexto temse interesse em uma caracterıstica de uma populacao o todo porem so e possıvel obter informacoes sobre a caracterıstica em uma amostra uma parte No processo a caracterıstica de interesse da populacao e repre sentada por um parˆametro uma quantidade numerica desco nhecida Por sua vez a generalizacao e feita atraves de um estimador que e uma variavel aleatoria obtida em funcao da amostra para estimar o parˆametro DME IM UFRJ Estatıstica II 16 Inferˆencia Estatıstica Inferˆencia e a area da Estatıstica que busca generalizar in formacoes de uma parte para o todo Nesse contexto temse interesse em uma caracterıstica de uma populacao o todo porem so e possıvel obter informacoes sobre a caracterıstica em uma amostra uma parte No processo a caracterıstica de interesse da populacao e repre sentada por uma variavel aleatoria X com o comportamento sendo descrito por um parˆametro uma quantidade numerica desconhecida que ajudara a saber mais sobre a distribuicao da caracterıstica de interesse Por sua vez para conhecermos este parˆametro utilizamos um estimador que e uma variavel aleatoria obtida em funcao da amostra X1 Xn DME IM UFRJ Estatıstica II 17 A média amostral X é um estimador para a média populacional μ EX Considere uma amostra aleatória X1Xn A média amostral é dada por X i1n Xi n Ela tem boas propriedades É não viesada ou não viciada em média X acerta o valor verdadeiro de μ É consistente quanto maior é o tamanho da amostra mais concentrada é a distribuição de X em torno de μ Pelo Teorema Central do Limite conforme o tamanho da amostra aumenta a distribuição de X se aproxima de uma Nμ σ²n sendo σ² a variância populacional Variância Amostral A variância amostral S2 é um estimador para a variância populacional σ2 VarX Considere uma amostra aleatória X1 Xn A variância amostral é dada por VarX i1n Xi X2n1 i1n Xi2 n X2n1 Este estimador é não viesado ou seja em média S2 acerta o valor verdadeiro de σ2 A variância amostral possui relação com a distribuição quiquadrado n1 S2σ2 χn1 Lembrete A variância amostral sempre será um valor positivo porque é uma soma de quadrados Comparacao de Estimadores Por definicao um estimador e uma funcao da amostra Portanto podemos ter varios estimadores para o mesmo parˆametro Como escolhemos o melhor Figura 1 Bussab e Morettin Estatıstica Basica 6a ed Desejamos estimadores com baixo vies ou ate nao viesados e com baixa variˆancia DME IM UFRJ Estatıstica II 20 Erro Quadrático Médio A comparação de estimadores é possível através do Erro Quadrático Médio EQM O EQM é uma medida de erro que considera tanto a variabilidade do estimador θ quanto o seu vício Bθ Ele é dado por EQMθ Eθ θ2 Varθ B2θ em que Bθ Eθ θ sendo θ o parâmetro de interesse Quanto menor o EQM melhor é o estimador Portanto se quisermos comparar dois estimadores basta calcular o EQM de ambos e verificar qual deles tem o menor EQM Podemos inclusive criar um estimador de forma que seu EQM seja mínimo através do método dos mínimos quadrados Exercıcio Receita anual Um funcionario quer analisar a receita anual de uma empresa Os valores dos ultimos 10 anos em milhoes sao 48 2 49 3 50 1 48 4 49 8 50 3 46 2 46 5 45 5 47 7 Estime a media e o desvio padrao populacionais DME IM UFRJ Estatıstica II 22 Aleatoriedade dos estimadores vs imutabilidade das estimativas X e S sao aleatorios x e s sao constantes A cada amostra coletada X e S serao diferentes Queremos que os valores de X e S nao sejam muito distantes de µ e σ A probabilidade de X estar perto de µ deve ser alta idem para S e σ Na amostra x 482 mas tambem poderıamos ter observado 48 473 ou mesmo 702 Dado µ alguns valores de X sao mais provaveis do que outros e portanto x traz informacao sobre ao valor de µ DME IM UFRJ Estatıstica II 23 Intervalos de confianca para a media populacional Usaremos x para definir quem sao os valores plausıveis de µ in tervalo de confianca e dar sentido matematico para Alguns valores de µ nao sao plausıveis de terem gerado o particular x que eu observei na minha amostra Intervalos de confianca sao intervalos aleatorios que conterao µ com alta confianca Podemos construir intervalos para a media populacional conside rando σ2 conhecido ou desconhecido porem so veremos o caso com σ2 conhecido DME IM UFRJ Estatıstica II 24 Caso σ conhecido Relembre que se X Nμ σ2 Z X μσ2n N01 Por outro lado se X não é normal mas n é grande o TCL mantém o resultado aproximadamente Nıvel de Confianca Dado α 0 1 o valor 1 α e o que chamamos de nıvel de confianca do intervalo Em geral 1 α sera um valor proximo de 1 como por exemplo 095 098 ou ate 099 DME IM UFRJ Estatıstica II 26 1α Pqi Z qs Pqs X μ σ²n qs PX qs σ²n μ X qs σ²n O intervalo de confiança X qs σ²n X qs σ²n contém μ em 1 α 100 das vezes Interpretacao frequentista dos ICs Figura 2 Intervalos de confiaca construıdos a partir de amostras diferentes todas de tamanho 12 de uma populacao N211 462 Figura extraıda de Pagano e Gauvreau Princıpios de Bioestatıstica DME IM UFRJ Estatıstica II 28 Intervalo de confianca para a variˆancia populacional Quando X for uma variavel aleatoria com distribuicao normal podemos escrever n 1S2 σ2 χn1 onde χ2 n1 denota a distribuicao quiquadrado com n 1 graus de liberdade No caso geral usamos o TCL para justificar a aproximacao DME IM UFRJ Estatıstica II 29 A distribuicao quiquadrado A quiquadrado e uma distribuicao assimetrica cujos quantis tambem sao tabelados O que define o padrao da curva sao seus graus de liberdade Quanto maior seu grau de liberdade mais simetrica e parecida com a normal ela fica Considere γ 1 α o nıvel de confianca e α o nıvel de signi ficˆancia DME IM UFRJ Estatıstica II 30 1 Tome um nível de significância 1 α alto próximo de 1 2 Calcule os valores qi e qs de modo que 1 α Pqi n1 S² σ² qs 3 Os valores dos quantis serão dados por qi qα2n1 e qs q1α2n1 através da distribuição de χ²n1 4 O IC resultante será n1 q1α2n1 S² n1 qα2n1 S² Exercıcio Receita anual Um funcionario quer analisar a receita anual de uma empresa Os valores dos ultimos 10 anos em milhoes sao 48 2 49 3 50 1 48 4 49 8 50 3 46 2 46 5 45 5 47 7 Construa um intervalo de confianca de 95 para a media e a variˆancia populacionais Interpreteos OBS No caso do intervalo para a media considere que a variˆancia e conhecida e igual a sua estimativa DME IM UFRJ Estatıstica II 32 Teste de Hipotese Na Estatıstica gostarıamos de saber mais sobre uma caracterıstica de interesse Pode ser que por conhecimento previo ou apos ob servar uma amostra tenhamos uma hipotese sobre o parˆametro Ha ferramentas que ajudam a decidir se uma hipotese sobre o parˆametro e valida ou nao E o caso do teste de hipotese Para utilizalo e necessario definir duas hipoteses uma contem o que se gostaria de testar e a outra seria o contrario o comple mentar desta hipotese Podemos chamalas de hipotese nula H0 e hipotese alternativa H1 O teste de hipotese ajudara a responder a seguinte pergunta a amostra fornece evidˆencias suficientemente fortes contra H0 Consideraremos que rejeitar H0 implica aceitar H1 Porem nao rejeitar H0 nao implica em aceitar H0 DME IM UFRJ Estatıstica II 33 Exemplo Receita anual Suponha que H0 µ 52 e que H1 µ 52 O intervalo de 95 de confianca para µ considerando σ2 conhe cido foi 47 08 49 32 Confiamos que esse e um dos intervalos que contˆem µ logo rejei tamos H0 em favor de H1 Mas e se supusessemos que µ e 48 ou 49 H0 µ 48 vs H1 µ 48 nao rejeitamos H0 H0 µ 49 vs H1 µ 49 nao rejeitamos H0 Qual seria a decisao µ 48 ou µ 49 Conclusao A amostra nao fornece evidˆencias suficientemente for tes contra µ 48 ou contra µ 49 DME IM UFRJ Estatıstica II 34 Elaborando hipoteses Seja θ um parˆametro desconhecido e θ0 o valor pressuposto para o parˆametro Existem varios tipos de hipoteses Iremos trabalhar apenas com o primeiro caso DME IM UFRJ Estatıstica II 35 Procedimento 1 Admitimos H0 verdadeira ou seja θ θ0 2 Colhemos uma amostra e observamos o valor da estatıstica de teste sob H0 3 Se o valor cai numa regiao pouco provavel probabilidade α 0 H0 nao deve ser verdade portanto rejeitamos H0 em favor de H1 4 Caso contrario a amostra nao fornece evidˆencias fortes o suficiente para rejeitarmos H0 em favor de H1 DME IM UFRJ Estatıstica II 36 Desejamos testar H0 μ μ0 H1 μ μ0 com nível de significância α dividido igualmente nas duas caudas Usando X como estatística de teste H1 é mais provável Testes unilaterais H0 mu mu0 H1 mu mu0 H0 mu mu0 H1 mu mu0 H1 é mais provável H1 é mais provável 3º passo Encontrar a Região Crítica ou região de rejeição No teste bilateral a região é definida como Suponho um nível de significância de 5 temos que a Região Crítica é formada pelo intervalo 196 196 4º passo Sob H0 verdadeiro teremos t 482 50 2918 10 333 que pertence à RC Teste de hipótese para mu supondo sigma2 conhecido 1º passo formulase as hipóteses H0 mu mu0 H1 mu mu0 ou H0 mu mu0 H1 mu mu0 ou H0 mu mu0 H1 mu eq mu0 2º passo definese a estatística de teste Para teste de médias com variância conhecida teremos supondo H0 verdadeiro T fracoverlineX mu0sqrtfracsigma2n sim extN01 Teste de hipotese para µ supondo σ2 conhecido 3º passo definese a Regiao Crıtica RC do teste em funcao do nıvel de confianca α sendo 5 o padrao H1 µ µ0 H1 µ µ0 H1 µ µ0 4º passo Calculase o valor t de teste T se t RC entao rejeitase H0 em favor de H1 Caso contrario aceitase H0 DME IM UFRJ Estatıstica II 40 O teste bilateral equivale a checar se μ0 está contido em ICμ1 α Se estiver contido então não rejeitamos H0 Se não estiver contido então rejeitamos H0 No exemplo da receita anual ICμ95 482 196 170810 482 196 170810 4708 4932 Portanto como μ0 50 não está contido no intervalo sob 95 de confiança rejeitase a hipótese de que a receita anual média é 50 mil reais Exemplo Receita anual Um funcionario quer analisar a receita anual de uma empresa Os valores dos ultimos 10 anos em milhoes sao 48 2 49 3 50 1 48 4 49 8 50 3 46 2 46 5 45 5 47 7 Antes da analise o funcionario achava que a receita anual media da empresa em seus muitos anos de atividade era de 50 mil porem depois de ver os numeros dos ultimos anos ele ja nao tem tanta certeza Sera que em media a receita anual da empresa e 50 mil Considere que a receita anual siga uma distribuicao normal com variˆancia 2918 DME IM UFRJ Estatıstica II 41 Teste bilateral Exemplo 1º passo H0 mu 50 H1 mu eq 50 2º passo T fracoverlineX musqrtfracsigma2n sim extN01 sob H0 verdadeiro Conclusao do teste Como t RC concluımos que sob um nıvel de significˆancia de 95 devemos rejeitar H0 Ou seja ha evidˆencias estatısticas para concluir que a receita anual media nao e 50 mil O funcionario estava enganado DME IM UFRJ Estatıstica II 44 Dadas duas variáveis X e Y gostaríamos de ter uma medida para quantificar o grau de relação entre elas Por isso podemos utilizar a covariância amostral que é definida definida como sxy Σni1 xi xyi y n 1 Σni1 xi yi n x y n 1 Existe uma relação entre o que é mostrado no gráfico de dispersão e o valor da covariância A covariância amostral é positiva se o diagrama de dispersão mostra uma tendência crescente A covariância amostral é negativa se o diagrama de dispersão mostra uma tendência decrescente A covariância amostral é zero ou próxima a zero se o diagrama de dispersão não mostra uma tendência Pvalor Pvalor e a probabilidade sob H0 de observarmos um valor mais extremo para a estatıstica de teste do que o que foi obtido na amostra Se o Pvalor for menor que α rejeitase H0 ao nıvel de α de significˆancia Se o Pvalor for maior que α nao se rejeita H0 ao nıvel de α de significˆancia DME IM UFRJ Estatıstica II 46 Exercıcio Uma empresa tem como polıtica interna que o departamento de vendas tenha de entregar ao menos um fluxo positivo de caixa de em media 80 mil reais O controle interno da empresa na sua verificacao anual coletou o faturamento de 40 equipes do de partamento de vendas e levantou um faturamento de 78 mil reais com desvio padrao conhecido de 25 mil reais A empresa tem evidˆencias suficientes para intervir no departamento de vendas Use teste de hipotese como base para sua decisao DME IM UFRJ Estatıstica II 47 Relacao entre duas variaveis Muitas vezes podemos estar interessados em analisar a relacao entre duas variaveis como por exemplo peso e altura Consideramos duas variaveis X e Y Cada dado a partir de uma amostra de tamanho n sera representado por um par ordenado xi yi onde xi e a iesima observacao da variavel X e yi de Y Uma primeira tentativa e observar uma possıvel relacao fazendo um grafico onde no eixo horizontal temos os valores de x e no eixo vertical os de y Esse grafico e chamado diagrama de dispersao O diagrama de dispersao permite visualizar o tipo de relacao entre as variaveis DME IM UFRJ Estatıstica II 48 Diagrama de dispersao Exemplo Considere os seguintes dados para duas variaveis X e Y xi 1 2 3 4 5 yi 3 7 5 11 12 O que o grafico sugere sobre a relacao entre as duas variaveis DME IM UFRJ Estatıstica II 49 Coeficiente de correlacao Alem do sinal que serve como indicador da tendˆencia crescente ou decrescente muito pouca informacao pode ser extraıda da covariˆancia Isso porque o valor de sxy depende fortemente das unidades de X e Y Uma forma de solucionar este problema e utilizar o coeficiente de correlacao que pode ser dado por rxy sxy sxsy onde sx e o desvio padrao amostral de X e sy e o desvio padrao amostral de Y O coeficiente de correlacao e adimensional rxy e uma versao normalizada da covariˆancia e temos 1 rxy 1 O coeficiente de correlacao mede apenas a dependˆencia linear entre as variaveis DME IM UFRJ Estatıstica II 51 Coeficiente de correlacao DME IM UFRJ Estatıstica II 52 Interpretando a correlacao A correlacao sempre estara entre 1 e 1 Portanto geralmente se considera a correlacao Muito forte se for em valores absolutos 09 ou mais Forte se estiver em valores absolutos entre 07 ou 09 Moderada se estiver em valores absolutos entre 05 e 07 Fraca se estiver em valores absolutos entre 03 e 05 Muito fraca se estiver em valores absolutos entre 0 e 03 DME IM UFRJ Estatıstica II 53 Interpretando a correlacao Quais tipos de correlacao sao vistas abaixo DME IM UFRJ Estatıstica II 54 Exemplo covariˆancia e correlacao Um levantamento busca relacionar as variaveis tempo de car reira X em anos e salario em mil reais nos ultimos 5 anos Y X 8 9 10 11 12 Y 10 10 11 11 13 Calcule o coeficiente de correlacao entre X e Y DME IM UFRJ Estatıstica II 55 Associacao Correlacao e Causalidade O coeficiente de correlacao apresentado e uma medida de asso ciacao linear Duas variaveis podem estar associadas mas nao correlacionadas Se duas variaveis sao correlacionadas elas sao necessariamente associadas Correlacao implica associacao mas nao implica causalidade DME IM UFRJ Estatıstica II 56 Associacao Correlacao e Causalidade A correlacao indica a forca que uma variavel impacta no aumento ou decrescimo de outra variavel Por outro lado quando uma variavel causa a outra chamamos de um fenˆomeno causal Por exemplo o calor causa consumo de sorvete e marca de sol Consumo de sorvete e marca de sol sao correlacionadas mas nao sao causais Entre o consumo de sorvete e a marca de sol existe uma variavel agente causal oculto que liga ambas o calor DME IM UFRJ Estatıstica II 57 Correlacoes Espurias Chamamos de correlacao espuria fenˆomenos onde ha uma cor relacao matematica mas nao ha nenhum contexto de efeito Figura 3 Divorcio vs Consumo de margarina correlacao de 99 DME IM UFRJ Estatıstica II 58 Correlacoes Espurias Em algumas situacoes e possıvel que haja um agente causal oculto que faca a ponte entre ambas as variaveis Figura 4 Gasto em ciˆencia vs Suicıdio correlacao de 99 DME IM UFRJ Estatıstica II 59 DME IM UFRJ Estatıstica II 60 Outras relacoes o quarteto de Anscombe Quarteto de Anscombe sao quatro conjuntos de dados com es tatısticas descritivas idˆenticas mas que graficamente diferem Portanto os graficos as medidas e o contexto devem sempre andar juntos DME IM UFRJ Estatıstica II 60 Outras relacoes paradoxo de Simpson O paradoxo de YuleSimpson e um em que uma tendˆencia aparece em diversos grupos de dados mas desaparece ou reverte quando esses grupos sao combinados DME IM UFRJ Estatıstica II 61 Exercıcio associacao e causalidade Se verdadeiro justifique se falso apresente um contraexemplo a O coeficiente de correlacao mensura efeitos naolineares b Associacao implica em correlacao c Correlacao implica em associacao d Correlacao implica em causalidade e Correlacao positiva indica que conforme uma variavel cresce a outra tambem cresce f Correlacao e capaz de mensurar a relacao causaefeito g Duas variaveis podem estar correlacionadas sem relacao causa efeito m h Diferentes grupos no mesmo conjunto de dados nao e pro blematico i Dois conjuntos de dados podem ter a mesma correcao mas apresentar comportamentos diferentes DME IM UFRJ Estatıstica II 62