·
Agronomia ·
Probabilidade e Estatística 1
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
19
Medidas de Tendência Central e de Dispersão
Probabilidade e Estatística 1
UFGD
8
Aula 1: Levantamento de Dados e Apresentação Tabular em Estatística
Probabilidade e Estatística 1
UFGD
7
Aula 4: Correlação e Regressão Linear Simples em Bioestatística
Probabilidade e Estatística 1
UFGD
3
Medidas de Assimetria e Curtose
Probabilidade e Estatística 1
UFGD
4
Segunda Lista de Exercícios sobre Probabilidade - Disciplina Probabilidade e Estatística
Probabilidade e Estatística 1
UFGD
10
Lista de Exercícios de Estatística Descritiva - Probabilidade e Estatística
Probabilidade e Estatística 1
UFGD
21
Bioestatística I: Aulas 2 e 3 - Apresentação Gráfica e Análise de Dados
Probabilidade e Estatística 1
UFGD
28
Introdução à Probabilidade e Experimentos Aleatórios
Probabilidade e Estatística 1
UFGD
2
Trabalho 1: Probabilidade e Estatística - UFGD
Probabilidade e Estatística 1
UFGD
5
Quinta Lista de Exercícios: Intervalo de Confiança e Teste de Hipótese - Probabilidade e Estatística
Probabilidade e Estatística 1
UFGD
Texto de pré-visualização
i 01 Análise Bidimensional Até agora vimos como organizar e resumir dados relativos a uma única variável mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias Para esses casos a distribuição conjunta das frequências será de grande utilidade para a compreensão dos dados Os dados aparecem em uma tabela que pode ser olhada como uma matriz onde as colunas representam as variáveis e as linhas os indivíduos elementos O principal objetivo das análises nessa situação é explorar relações entre as co lunas ou algumas vezes entre as linhas Quando consideramos duas variáveis ou dois conjuntos de dados podemos ter três situações 1 as duas variáveis são qualitativas 2 as duas variáveis são quantitativas 3 uma variável é qualitativa e outra qualitativa A técnica de análise nas três situações são diferentes Na primeira situação os dados são resumidos em tabelas de dupla entrada ou de contingência Na segunda situação as observações são obtidas através de medidas e dessa forma utilizamos gráficos de dispersão ou quantis Na terceira situação em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa Na próxima seção falaremos sobre as variáveis qualitativas 011 Variáveis Qualitativas Para analisarmos variáveis qualitativas vamos lançar mão de um exemplo Exemplo 01 Suponha que queiramos analisar o comportamento conjunto das va riáveis grau de instrução X e região de procedência Y contida na Tabela 31 do Apêndice ii Tabela 1 Distribuição conjunta das frequências das variáveis grau de instrução X e região de procedência Y X HHHH H Y Fundamental Médio Superior Total Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Cada elemento do corpo da tabela oferece a frequência observada da realização simultanea das variáveis X e Y Assim observamos por exemplo 4 indivíduos pro cedentes da capital e com instrução de ensino fundamental e assim por diante A primeira e a última linha nos fornece a distribuição unidimensional da variável X grau de instrução enquanto a primeira e última coluna nos fornece a distribuição unidimensional da variável Y região de procedência Tais distribuições unidimen sionais são chamadas de distribuições marginais Ao invés de utilizarmos frequências absolutas podemos contruir tabelas com as frequências relativas proporções como feito no caso unidimensional Neste caso existem três possibilidades de expressarmos a proporção de cada casela 1 Em relação ao total geral 2 Em relação ao total das linhas 3 Em relação ao total das colunas Dependendo do seu interesse uma delas será adequada Primeiramente vamos fazer a tabela da distribuição conjunta das proporções em relação ao total geral Assim podemos dizer que 1111 dos funcionários vem da capital e tem o ensino fundamental e também que 3333 dos funcionários vieram do interior e assim por diante iii Tabela 2 Distribuição conjunta das proporções em porcentagem em relação ao total geral das variáveis X e Y X HHHH H Y Fundamental Médio Superior Total Capital 1111 1389 556 3056 Interior 833 1944 556 3333 Outra 1389 1667 556 3611 Total 3333 5000 1668 10000 Tabela 3 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada linha das variáveis X e Y X HHHH H Y Fundamental Médio Superior Total Capital 3636 4546 1818 10000 Interior 2500 5833 1667 10000 Outra 3846 4615 1539 10000 Total 3333 5000 1668 10000 Assim podemos afirmar que dentre os funcionários da capital 3636 tem o en sino fundamental enquanto que dentre os do interior 2500 tem o ensino fundamen tal e assim por diante Este tipo de distribuição serve para comparar a distribuição do grau de instrução dos indivíduos segundo a região de procedência De modo análogo podemos construir a distribuição das proporções em relação ao total das colunas como na Tabela 14 A comparação entre as duas variáveis também pode ser feita utilizandose repre sentação gráfica Veja a seguir uma possível representação para os dados no caso da distribuição conjunta das proporções em relação aos totais de cada coluna das variáveis X e Y referente a Tabela 14 iv Tabela 4 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada coluna das variáveis X e Y X HHHH H Y Fundamental Médio Superior Total Capital 3333 2778 3333 3056 Interior 2500 3889 3333 3333 Outra 4167 3333 3333 3611 Total 10000 10000 10000 10000 Exemplo 02 Numa pesquisa sobre rotatividade de mão de obra para uma amostra de 40 pessoas foram observadas duas variáveis número de empregos nos últimos dois anos X e salário mais recente em número de salários mínimos Y Os resultados foram Indivíduo X Y Indivíduo X Y Indivíduo X Y Indivíduo X Y 1 1 6 11 2 5 21 2 4 31 2 2 2 3 2 12 3 2 22 3 2 32 1 1 3 2 4 13 1 6 23 4 1 33 4 1 4 3 1 14 2 6 24 1 5 34 2 6 5 2 4 15 3 2 25 2 4 35 4 2 6 2 1 16 4 2 26 3 2 36 3 1 7 3 3 17 1 5 27 4 1 37 1 4 8 1 5 18 2 5 28 1 5 38 3 2 9 2 2 19 2 1 29 4 4 39 2 3 10 3 2 20 2 1 30 3 3 40 2 5 a Seja as seguintes variáveis X número de empregos nos últimos dois anos Y salário mais recente em número de salários mínimos Com o intuito de classificar os indivíduos em dois níveis alto e baixo para v Figura 1 Distribuição da região de procedência por grau de instrução 0 10 20 30 40 50 60 70 80 90 100 Fundamental Médio Superior Título do Gráfico Capital Interior Outra cada uma das variáveis podese usar a mediana e em seguida será construido uma distribuição de frequências conjunta das duas classificações X 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 Y 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 MeX 2 2 2 2 e MeY 2 3 2 2 5 Portanto para a variável X classificamos da seguinte forma Se x 2 baixo caso contrário será alto Por outro lado classificamos a variável Y da seguinte forma Se y 2 5 baixo caso contrário será alto X HHHH H Y Xbaixa Xalta Total Ybaixa 6 14 20 Yalta 17 3 20 Total 23 17 40 vi b Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco PYbaixa Xbaixa 6 40 0 15 ou 15 c Qual a porcentagem das pessoas que ganham pouco PYbaixa 20 40 0 5 ou 50 d Entre as pessoas com baixa rotatividade qual a porcentagem das que ganham pouco PYbaixaXbaixa 6 23 0 2609 ou 26 09 e A informação adicional dada em d mudou muito a porcentagem observada em c O que significa isso Sim mudou bastante Diminuiu quase a metade a probabilidade Isso significa que a maioria das pessoas que ganham pouco tem alta rotatividade 012 Associação entre Variáveis Qualitativas Um dos principais objetivos de uma distribuição conjunta é descrever associabilidade existente entre as variáveis isto é queremos conhecer o grau de dependência entre elas de modo que possamos prever melhor o resultado de uma delas conhecendo o resultado da outra Por exemplo suponhamos que uma pessoa seja sorteado ao acaso da população de uma cidade e devemos adivinhar qual o genero da mesma Como sabemos ser aproximadamente a metade da população de cada sexo não temos preferencia em sugerir qualquer um dos dois Imagine agora que a mesma pergunta fosse feita e nos fosse dito que a pessoa a ser sorteada leciona na pré escola A nossa solução seria modificada pois a grande maioria de pessoas lecionando na pré escola é do sexo feminino isto tudo em razão de sabemos se é grande o grau de dependencia entre sexo e determindos ramos de antividade Vejamos como podemos identificar a associação entre duas variáveis através da distribuição conjunta vii Exemplo 03 Queremos verificar se existe ou não dependência entre sexo e curso escolhido por 200 alunos de Economia e Administração Tabela 5 Distribuição conjunta das frequências das proporções em porcento de alunos segundo o genero X e o curso escolhido Y X XXXXXXX X Y Masculino Feminino Total Economia 85 61 35 58 120 60 Administração 55 39 25 42 80 40 Total 140 100 60 100 200 100 viii Inicialmente verificamos que fica muito difícil com base nas frequências absolutas tirar alguma conclusão em razão das diferenças entre os totais marginais Assim devemos obter as frequências relativas em relação ao total das linhas ou das colunas para poderemos fazer as comparações Fixando os totais das colunas obtemos as distribuições dos valores entre parênteses na Tabela 012 A partir desses dados podemos afirmar que 60 dos indivíduos pesquisados cursam Economia e 40 cursam Administração coluna de totais Não havendo dependência entre as variáveis esperaríamos esses mesmos percentuais quando con siderarmos a separação pelos generos Observamos para o masculino 61 e 39 e para o feminino 58 e 42 Como esses valores são próximos dos valores marginais 60 e 40 tais variáveis parecem ser independentes Tais resultados nos levam a concluir a não existência de dependência entre genero e curso escolhido neste caso Consideremos agora um problema semelhante mas envolvendo os cursos de Física e de Ciências Sociais Tabela 6 Distribuição conjunta das frequências das proporções em porcentagem de alunos segundo o genero X e o curso escolhido Y X XXXXXXX X Y Masculino Feminino Total Física 100 71 20 33 120 60 Ciências Sociais 40 29 40 67 80 40 Total 140 100 60 100 200 100 ix Comparando a distribuição pelos cursos independente do genero temos 60 e 40 para Física e Ciências Sociais respectivamente Considerando a distribuição diferenciada pelo genero temos para o masculino 71 e 29 e para o feminino 33 e 67 que parecem indicar uma dependência entre genero e curso escolhido 013 Medidas de Associação entre Variáveis Qualitativas De modo geral a quantificação do grau de dependência entre duas variáveis é feito pelos chamados coeficientes de associação ou correlação Estas medidas descrevem através de um único número a dependência entre as variáveis Tais coeficientes variam nos intervalos 0 1 ou 1 1 Quanto mais próximo do zero o valor do coeficiente tiver indica falta de associação entre as variáveis Existem diversas medidas que quantificam a associação entre variáveis qualita tivas Veremos aqui apenas duas delas o coeficiente de contingência C devido a Karl Pearson Londres 18571936 e uma modificação desse Exemplo 04 Queremos verificar se o tipo de atividade está relacionada asso ciada ao fato das embarcações serem de propriedade estatal ou particular Para isso coletaramse os dados da Tabela 16 Vamos considerar como a variável X a propriedade da Marinha Mercante do Brasil e a variável Y representando o tipo de atividade x Tabela 7 Marinha Mercante do Brasil por propriedade e tipo de atividade 1974 Y PPPPP P X Costeira Fluvial Internacional Total Estatal 5 254 141 7157 51 2589 197 100 Particular 92 2480 231 6226 48 1294 371 100 Total 97 1708 372 6549 99 1743 568 100 A analise da Tabela 16 mostra uma certa dependência entre as variáveis Caso houvesse independência entre as variáveis esperaríamos que em cada categoria da variável propriedade tivéssemos 1708 de atividade costeira 6549 de atividade fluvial e 1743 de internacional Então o número esperado de atividades costeiras Estatal seria 197 0 1708 33 64 e de costeiras Particular 371 0 1708 63 36 e assim por diante Tabela 8 Valores esperados na Tabela 16 assumindo independência entre as variá veis Y PPPPP P X Costeira Fluvial Internacional Total Estatal 3364 1708 12902 6549 3434 1743 197 100 Particular 6336 1708 24297 6549 6466 1743 371 100 Total 9700 1708 37200 6549 9900 1743 568 100 Comparando das duas tabelas podemos verificar as discrepâncias existentes en tre os valores observados Tabela 16 e os valores esperados caso as variáveis fossem independentes na Tabela 17 Vamos representar as discrepâncias entre os valores observados e esperados por dij oij eij 1 xi Agora vamos aplicar no nosso exemplo d11 5 33 64 28 64 d21 92 63 36 28 64 d12 141 129 02 11 98 d22 231 242 97 11 98 d13 51 34 33 16 66 d23 48 64 66 16 66 Podemos observar que I2 i1 J3 j1 oij eij 0 Uma medida do afastamento global dos valores observados para os valores espe rados a qual indicamos por χ2 quiquadrado é dado por χ2 I i1 J j1 oij eij2 eij com i 1 2 I linhas e j 1 2 J colunas De fato Sob a hipótese de que as variáveis X e Y não sejam associadas independentes temos que oi1 o1 oi2 o2 oiJ oJ i 1 2 I ou ainda oij oj oi o i 1 2 I j 1 2 J de onde se deduz finalmente que oij oi oj o i 1 2 I j 1 2 J 2 xii Chamando de frequência esperada os valores dados pelos segundos membros de 2 e denotandoas por eij temos que o quiquadrado de Pearson pode ser escrito χ2 I i1 J j1 oij eij2 eij 3 Se a hipótese de não associação for verdadeira o valor calculado de 3 deve estar próximo de zero Se as variáveis forem associadas o valor de χ2 deve ser grande No exemplo em questão temos χ2 I2 i1 J3 j1 oij eij2 eij 28 642 33 64 28 642 63 36 11 982 129 02 11 982 242 97 16 662 34 33 16 662 64 66 24 38 12 95 1 11 0 59 8 09 4 29 51 41 Quanto maior for o valor de χ2 maior será o grau de associação entre as duas variáveis Como fica difícil baseado no valor de χ2 dizer se uma associação é alta ou não Peasson propôs o chamado coeficiente de contingência C definido como C χ2 χ2 n 4 onde n é o número de observações Contudo o coeficiente C acima não varia entre 0 e 1 Quanto mais próximo de zero o valor de χ2 mais independente são as variáveis Para o exemplo em questão podemos dizer que χ2 está próximo de zero De fato C 51 41 51 41 568 0 29 xiii O problema desta fórmula é que conforme mudamos o número de observações n o valor C também mudará Para evitar esse inconveniente costumase definir um outro coeficiente dado por T χ2n I 1J 1 que atinge o máximo igual a 1 Dessa forma o valor de T do exemplo em questão será T 51 41568 2 13 1 0 091 2 0 045 0 21 Vejamos outro exemplo Exemplo 05 Uma Companhia de Seguro analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados foram o seguinte Considere as variáveis X para genero do segurado e a variável Y para segurado usou ou não o hospital X XXXXXXXX X Y Homens Mulheres Total Usaram o hospital 100 150 250 Não usaram o hospital 900 850 1750 Total 1000 1000 2000 a Calcule a proporção de homens entre os indivíduos que usaram o hospital Solução PhomensUsaram o hospital 100 250 0 4 ou 40 PmulheresUsaram o hospital 0 6 ou 60 b O uso do hospital independe do gênero do segurado Solução xiv Tabela 9 Proporções em porcento em relação ao total das colunas Y PPPPP P X Homens Mulheres Total Usaram o hospital 100 10 150 15 250 125 Não usaram o hospital 900 90 850 85 875 875 Total 1000 100 1000 100 2000 100 As variáveis são independentes segundo a Tabela 18 pois a proporção de homens e mulheres que usaram o hospital estão próximos de 125 O mesmo podemos dizer de homens e mulheres que não usaram o hospital ficaram pró ximo de 875 Portanto isso indica que as variáveis X e Y são independentes c Encontre uma medida de dependência entre as variáveis χ2 C e T Solução Primeiramente faremos uma tabela de valores esperados das variáveis Y PPPPP P X Homens Mulheres Total Usaram o hospital 125 125 250 Não usaram o hospital 875 875 1750 Total 1000 1000 2000 Agora vamos representar as discrepâncias entre os valores observados e os esperados d11 100 125 25 d21 900 875 25 d12 150 125 25 d22 850 875 25 xv Na sequência calculamos a medida χ2 χ2 2 i1 2 j1 oij eij2 eij 252 125 252 875 252 125 252 875 625 125 625 875 625 125 625 875 1250 125 1250 875 10 1 43 11 43 Finalmente vamos calcular o coeficiente de contingência C de Pearson e o valor T C 11 43 11 43 2000 0 11 T 11 432000 999999 0 005715 998001 0 00008 Como o valor do coeficiente de contingência C é próximo de zero afirmamos que as variáveis não possuem dependência confirmando a afirmação do item b Exemplo 06 Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Coletados os dados relevantes obtemos a tabela abaixo Mas antes vamos considerar as variáveis X e Y representando respectivamente Tipo de Cooperativa e Estado da Federação Tabela 10 Cooperativas autorizadas a funcionar por tipo e estado junho de 1974 X XXXXXXXX X Y Consumidor Produtor Escola Outras Total São Paulo 214 33 240 37 78 12 116 18 648 100 Paraná 51 17 102 34 127 42 21 7 301 100 Rio G do Sul 108 18 307 51 139 23 48 8 602 100 Total 372 24 651 42 341 22 186 12 1551 100 1Fonte Sinopse Estatística do Brasil IBGE 1977 A análise da tabela mostra a existência de certa dependência entre as variáveis X e Y Caso não houvesse associação esperaríamos que em cada estado tivéssemos 24 de cooperativas de consumidores 42 de cooperativa de produtores 22 de escolas e 12 de outros tipos Então por exemplo o número esperado de cooperativas de xvi consumidores no Estado de São Paulo seria 648 0 24 156 e no Paraná seria 301 0 24 72 Observe na Tabela 110 os valores esperados na Tabela 19 assumindo a independência entre as duas variáveis Tabela 11 Valores esperados na Tabela 19 assumindo a independência entre as duas variáveis XX XXXXXXX X Y Consumidor Produtor Escola Outras Total São Paulo 155 24 272 42 143 22 78 12 648 100 Paraná 72 24 127 42 66 22 36 12 301 100 Rio G do Sul 145 24 253 42 132 22 72 12 602 100 Total 372 24 652 42 341 22 186 12 1551 100 2Fonte Tabela 19 Comparando as duas tabelas podemos verificar as discrepâncias existentes entre os valores observados Tabela 19 e os valores esperados Tabela 110 caso as variáveis não fossem associadas Na Tabela 111 resumimos os desvios valores observados menos valores esperados Para a célula Escola São Paulo obtemos 652 143 29 55 e para a célula Escola Paraná obtemos 612 66 56 37 que é uma indicação que o desvio da Escola Paraná é maior que o desvio Escola São Paulo Tabela 12 Desvio entre observados e esperados X XXXXXXXX X Y Consumidor Produtor Escola Outras São Paulo 59 2069 32 381 65 2955 38 2025 Paraná 21 663 25 390 61 5196 15 608 Rio G do Sul 37 839 54 1166 7 027 24 856 3Fonte Tabela 19 e 110 Vamos calcular a medida de afastamento global χ2 quiquadrado de Pearson xvii e no nosso exemplo teríamos χ2 592 155 322 272 652 143 382 78 212 72 252 127 612 66 152 36 372 145 542 253 72 132 242 72 22 46 3 77 29 55 18 51 6 13 4 92 56 37 6 25 9 44 11 53 0 37 8 177 3 Um valor grande de χ2 indica associação entre as variáveis o que parece ser o caso Vamos confirmar a afirmação calculando o coeficiente de contingência e também o coeficiente T Dessa forma C χ2 χ2 n 177 3 177 3 1551 0 32 T χ2n I 1J 1 177 31551 3 14 1 0 1143 6 0 13 Como o valor de T não está próximo de zero confirmamos que há uma associação entre as variáveis 014 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo podese usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com va riáveis qualitativas De modo análogo a distribuição conjunta pode ser resumida em tabelas de dupla entrada e por meio das distribuições marginais é possível es tudar a associação das variáveis Algumas vezes para evitar um grande número de entradas agrupando os dados marginais em intervalos de classes de modo se melhante ao resumo feito no caso unidimensional Mas além desse tipo de análise as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados xviii Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas ou entre dois conjuntos de dados é o gráfico de dispersão Exemplo 07 Sejam duas variáveis X e Y onde representam respectivamente número de anos de serviço e número de clientes de uma companhia de seguro Agentes Anos de serviço X Número de clientes Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 4Fonte Dados hipotéticos Vamos fazer o gráfico de dispersão das variáveis X e Y da tabela anterior Nesse tipo de gráfico temos os possíveis pares de valores x y na ordem que aparecem Observando o gráfico de dispersão vemos que parece haver uma associação entre as variáveis porque no conjunto á medida que aumenta o tempo de serviço aumenta o número de clientes Exemplo 08 Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários mínimos mediramse as variáveis X renda bruta mensal expressa em número de salários mínimos e Y porcento da renda bruta anual gasta em as sistência médica xix 2 4 6 8 10 45 50 55 60 65 70 Anos serviço número clientes Família X Y A 12 72 B 16 74 C 18 70 D 20 65 E 28 66 F 30 67 G 40 60 H 48 56 I 50 60 J 54 55 5Fonte Dados hipotéticos Como as variáveis são quantitativas vamos utilizar o gráfico de dispersão para analisar a associabilidade das variáveis xx 20 30 40 50 55 60 65 70 Anos serviço número clientes Vemos que existe uma associação inversaentre as variáveis porque aumenta a renda bruta diminui o porcento sobre ela gasta em assistência médica A partir dos gráficos apresentados verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas Contudo é muito útil quantificar essa associação Existem muitos tipos de as sociações possíveis e aqui iremos apresentar o tipo de relação mais simples que é a linear Isto é iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproximase de uma reta Esta medida será definida de modo a variar num intervalo finito especificamente de 1 a 1 Consideramos um gráfico de dispersão no qual por meio de uma transformação conveniente a origem do plano foi colocada no centro da nuvem de dispersão Se a maioria dos pontos estiverem situados no primeiro e terceiro quadrantes teremos uma associação positiva pois as coordenadas dos pontos tem o mesmo sinal nesses quadrantes e portanto a soma dos produtos delas sempre será positivo Mas caso a maioria dos pontos estiverem situados no segundo e quarto quadrante teremos uma associação negativa ou seja a soma dos produtos das coordenadas será negativa Agora em casos em que a distribuição dos pontos for mais ou menos circular a xxi soma dos produtos será aproximadamente zero Exemplo 09 Considerando a tabela do Exemplo 07 A primeiro coisa que devemos fazer é mudar a origem do sistema cartesiano para o centro da nuvem de pontos e um candidato a centro é x y Dessa forma tere mos novas coordenadas fazendo x x e y y Em seguida devemos padronizar as escalas das duas variáveis dividindose os desvios pelos respectivos desvios pa drões Finalmente indicamos os produtos das coordenadas reduzidas e sua soma Para completar a definição dessa medida de associação basta calcular a média dos produtos das coordenadas reduzidas Podemos representar tudo isso através de uma tabela para facilitar o cálculo do coeficiente de correlação Vamos calcular o coeficiente de correlação dos dados do Exemplo 013 Agente X Y x x y y xx Sx zx yy Sy zy zx zy A 2 48 37 85 154 105 1617 B 3 50 27 65 112 080 0846 C 4 56 17 05 071 006 0043 D 5 52 07 45 029 055 0160 E 4 43 17 135 071 166 1179 F 6 60 03 35 012 043 0052 G 7 62 13 55 054 068 0367 H 8 58 23 15 095 019 0181 I 8 64 23 75 095 092 0874 J 10 72 43 155 178 191 3400 Total 57 565 0 0 8769 x 5 7 Sx 2 41 y 56 5 Sy 8 11 Portanto para esse exemplo o grau de associação linear está quantificado por 877 Podemos definir o coeficiente de correlação do seguinte modo xxii Definição 1 Coeficiente de correlação Dado n pares de valores x1 y1 x2 y2 xn yn chamaremos de coeficiente de correlação entre duas variáveis X e Y a CorrX Y 1 n n i1 xi µx σx yi µy σy ou seja a média dos produtos dos valores padronizados das variáveis Não é difícil provar que o coeficiente de correlação satisfaz 1 CorrX Y 1 A definição acima é equivalente a seguinte equação CorrX Y n i1 xiyi nµxµy x2 i nµ2 x y2 i nµ2 y De fato CorrX Y 1 n n i1 xi µx σx yi µy σy 1 n n i1 xi µx xiµx2 n yi µy yiµy2 n 1 n n i1 xi µx xiµx2 n yi µy yiµy2 n 1 n n i1 xiyi xiµy µxyi µxµy 1 n xi µx2 1 n yi µy2 1 n n i1xiyi xiµy µxyi µxµy 1 n xi µx2yi µy2 n n i1xiyi n i1xiµy n i1µxyi n i1µxµy n xi µx2yi µy2 n i1 xiyi µy n i1 xi µx n i1 yi µxµy n i1 xi µx2 yi µy2 xxiii n i1 xiyi µynµx µxnµy µxµyn x2 i 2xiµx µ2 x y2 i 2yiµy µ2 y n i1 xiyi 2µxµyn µxµyn x2 i 2 xiµx µ2 x y2 i 2 yiµy µ2 y n i1 xiyi nµxµy x2 i 2µxnµx nµ2 x y2 i 2µynµy nµ2 y n i1 xiyi nµxµy x2 i 2nµ2 x nµ2 x y2 i 2nµ2 y nµ2 y n i1 xiyi nµxµy x2 i nµ2 x y2 i nµ2 y Exemplo 010 Numa amostra de seis operários de uma dada empresa foram ob servados duas variáveis sendo X os anos de experiência num dado cargo e Y o tempo em minutos gasto na execução de uma tarefa relacionada com esse cargo As observações são dadas abaixo Tabela 13 Número de anos e experiência no cargo e número de minutos gastos na execução de uma tarefa X anos 1 2 3 4 5 6 Y minutos 7 8 5 4 2 1 Vamos fazer o diagrama de dispersão para fazer uma análise visual da dispersão dos pontos no plano xxiv 1 2 3 4 5 6 1 2 3 4 5 6 7 8 tempo no cargo anos tempo para fazer o serviço min Através da dispersão dos pontos no gráfico concluímos que parece haver uma dependência inversaentre as variáveis X e Y pois no conjunto a medida que aumenta o valor de X diminui o valor de Y Agora vamos calcular o coeficiente de correlação de Pearson Para facilitar nossos cálculos sugerimos que utilize uma tabela para organizar seus cálculos xxv Tabela 14 X Y xi x yi y xi x2 yi y2 xi xyi y 1 7 25 25 625 625 625 2 8 15 35 225 1225 525 3 5 05 05 025 025 025 4 4 05 05 025 025 025 5 2 15 25 225 625 375 6 1 25 35 625 1225 875 21 27 175 375 245 x 3 5 y 4 5 Sx 1 71 Sy 2 5 xixyiy SxSy 5 74 Se considerarmos a ultima linha da tabela com sendo a soma de toda a coluna conseguimos com uma simples divisão encontrar as médias e variâncias das variáveis X e Y e consequentemente o valor da correlação Assim temos x 3 5 y 4 5 Sx 1 87 Sy 2 74 SxSy 4 27 1 n xi xyi y SxSy 0 96 Portanto o coeficiente de correlação CorrX Y 096 ou seja o grau de associabilidade no sentido inversoestá quantificado em 96 que é um alto grau de associabilidade Para analisar dois conjuntos de dados podemos recorrer também aos métodos utilizados anteriormente para analisar um conjunto de dados exibindo as análises feitas separadamente para ser comparados Exercícios 1 Uma amostra de 10 casais e seus respectivos salários anuais foi escolhido num certo bairro conforme vemos na tabela abaixo xxvi Casal nº 1 2 3 4 5 6 7 8 9 10 Salário Homem X 10 10 10 15 15 15 15 20 20 20 Mulher Y 5 10 10 5 10 10 15 10 10 15 Sabese que 10 i1 xi 150 10 i1 yi 100 10 i1 x2 i 2400 10 i1 y2 i 1100 e 10 i1 xiyi 1550 a Construa o diagrama de dispersão b Encontre o salário médio e o desvio padrão do salário anual dos homens e mulheres c Encontre a correlação entre o salário anual dos homens e o das mulheres d Qual o salário médio familiar E o desvio padrão d Se o homem é descontado em 8 e a mulher em 6 qual o salário liquido anual médio familiar E o desvio padrão
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
19
Medidas de Tendência Central e de Dispersão
Probabilidade e Estatística 1
UFGD
8
Aula 1: Levantamento de Dados e Apresentação Tabular em Estatística
Probabilidade e Estatística 1
UFGD
7
Aula 4: Correlação e Regressão Linear Simples em Bioestatística
Probabilidade e Estatística 1
UFGD
3
Medidas de Assimetria e Curtose
Probabilidade e Estatística 1
UFGD
4
Segunda Lista de Exercícios sobre Probabilidade - Disciplina Probabilidade e Estatística
Probabilidade e Estatística 1
UFGD
10
Lista de Exercícios de Estatística Descritiva - Probabilidade e Estatística
Probabilidade e Estatística 1
UFGD
21
Bioestatística I: Aulas 2 e 3 - Apresentação Gráfica e Análise de Dados
Probabilidade e Estatística 1
UFGD
28
Introdução à Probabilidade e Experimentos Aleatórios
Probabilidade e Estatística 1
UFGD
2
Trabalho 1: Probabilidade e Estatística - UFGD
Probabilidade e Estatística 1
UFGD
5
Quinta Lista de Exercícios: Intervalo de Confiança e Teste de Hipótese - Probabilidade e Estatística
Probabilidade e Estatística 1
UFGD
Texto de pré-visualização
i 01 Análise Bidimensional Até agora vimos como organizar e resumir dados relativos a uma única variável mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias Para esses casos a distribuição conjunta das frequências será de grande utilidade para a compreensão dos dados Os dados aparecem em uma tabela que pode ser olhada como uma matriz onde as colunas representam as variáveis e as linhas os indivíduos elementos O principal objetivo das análises nessa situação é explorar relações entre as co lunas ou algumas vezes entre as linhas Quando consideramos duas variáveis ou dois conjuntos de dados podemos ter três situações 1 as duas variáveis são qualitativas 2 as duas variáveis são quantitativas 3 uma variável é qualitativa e outra qualitativa A técnica de análise nas três situações são diferentes Na primeira situação os dados são resumidos em tabelas de dupla entrada ou de contingência Na segunda situação as observações são obtidas através de medidas e dessa forma utilizamos gráficos de dispersão ou quantis Na terceira situação em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa Na próxima seção falaremos sobre as variáveis qualitativas 011 Variáveis Qualitativas Para analisarmos variáveis qualitativas vamos lançar mão de um exemplo Exemplo 01 Suponha que queiramos analisar o comportamento conjunto das va riáveis grau de instrução X e região de procedência Y contida na Tabela 31 do Apêndice ii Tabela 1 Distribuição conjunta das frequências das variáveis grau de instrução X e região de procedência Y X HHHH H Y Fundamental Médio Superior Total Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Cada elemento do corpo da tabela oferece a frequência observada da realização simultanea das variáveis X e Y Assim observamos por exemplo 4 indivíduos pro cedentes da capital e com instrução de ensino fundamental e assim por diante A primeira e a última linha nos fornece a distribuição unidimensional da variável X grau de instrução enquanto a primeira e última coluna nos fornece a distribuição unidimensional da variável Y região de procedência Tais distribuições unidimen sionais são chamadas de distribuições marginais Ao invés de utilizarmos frequências absolutas podemos contruir tabelas com as frequências relativas proporções como feito no caso unidimensional Neste caso existem três possibilidades de expressarmos a proporção de cada casela 1 Em relação ao total geral 2 Em relação ao total das linhas 3 Em relação ao total das colunas Dependendo do seu interesse uma delas será adequada Primeiramente vamos fazer a tabela da distribuição conjunta das proporções em relação ao total geral Assim podemos dizer que 1111 dos funcionários vem da capital e tem o ensino fundamental e também que 3333 dos funcionários vieram do interior e assim por diante iii Tabela 2 Distribuição conjunta das proporções em porcentagem em relação ao total geral das variáveis X e Y X HHHH H Y Fundamental Médio Superior Total Capital 1111 1389 556 3056 Interior 833 1944 556 3333 Outra 1389 1667 556 3611 Total 3333 5000 1668 10000 Tabela 3 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada linha das variáveis X e Y X HHHH H Y Fundamental Médio Superior Total Capital 3636 4546 1818 10000 Interior 2500 5833 1667 10000 Outra 3846 4615 1539 10000 Total 3333 5000 1668 10000 Assim podemos afirmar que dentre os funcionários da capital 3636 tem o en sino fundamental enquanto que dentre os do interior 2500 tem o ensino fundamen tal e assim por diante Este tipo de distribuição serve para comparar a distribuição do grau de instrução dos indivíduos segundo a região de procedência De modo análogo podemos construir a distribuição das proporções em relação ao total das colunas como na Tabela 14 A comparação entre as duas variáveis também pode ser feita utilizandose repre sentação gráfica Veja a seguir uma possível representação para os dados no caso da distribuição conjunta das proporções em relação aos totais de cada coluna das variáveis X e Y referente a Tabela 14 iv Tabela 4 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada coluna das variáveis X e Y X HHHH H Y Fundamental Médio Superior Total Capital 3333 2778 3333 3056 Interior 2500 3889 3333 3333 Outra 4167 3333 3333 3611 Total 10000 10000 10000 10000 Exemplo 02 Numa pesquisa sobre rotatividade de mão de obra para uma amostra de 40 pessoas foram observadas duas variáveis número de empregos nos últimos dois anos X e salário mais recente em número de salários mínimos Y Os resultados foram Indivíduo X Y Indivíduo X Y Indivíduo X Y Indivíduo X Y 1 1 6 11 2 5 21 2 4 31 2 2 2 3 2 12 3 2 22 3 2 32 1 1 3 2 4 13 1 6 23 4 1 33 4 1 4 3 1 14 2 6 24 1 5 34 2 6 5 2 4 15 3 2 25 2 4 35 4 2 6 2 1 16 4 2 26 3 2 36 3 1 7 3 3 17 1 5 27 4 1 37 1 4 8 1 5 18 2 5 28 1 5 38 3 2 9 2 2 19 2 1 29 4 4 39 2 3 10 3 2 20 2 1 30 3 3 40 2 5 a Seja as seguintes variáveis X número de empregos nos últimos dois anos Y salário mais recente em número de salários mínimos Com o intuito de classificar os indivíduos em dois níveis alto e baixo para v Figura 1 Distribuição da região de procedência por grau de instrução 0 10 20 30 40 50 60 70 80 90 100 Fundamental Médio Superior Título do Gráfico Capital Interior Outra cada uma das variáveis podese usar a mediana e em seguida será construido uma distribuição de frequências conjunta das duas classificações X 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 Y 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 MeX 2 2 2 2 e MeY 2 3 2 2 5 Portanto para a variável X classificamos da seguinte forma Se x 2 baixo caso contrário será alto Por outro lado classificamos a variável Y da seguinte forma Se y 2 5 baixo caso contrário será alto X HHHH H Y Xbaixa Xalta Total Ybaixa 6 14 20 Yalta 17 3 20 Total 23 17 40 vi b Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco PYbaixa Xbaixa 6 40 0 15 ou 15 c Qual a porcentagem das pessoas que ganham pouco PYbaixa 20 40 0 5 ou 50 d Entre as pessoas com baixa rotatividade qual a porcentagem das que ganham pouco PYbaixaXbaixa 6 23 0 2609 ou 26 09 e A informação adicional dada em d mudou muito a porcentagem observada em c O que significa isso Sim mudou bastante Diminuiu quase a metade a probabilidade Isso significa que a maioria das pessoas que ganham pouco tem alta rotatividade 012 Associação entre Variáveis Qualitativas Um dos principais objetivos de uma distribuição conjunta é descrever associabilidade existente entre as variáveis isto é queremos conhecer o grau de dependência entre elas de modo que possamos prever melhor o resultado de uma delas conhecendo o resultado da outra Por exemplo suponhamos que uma pessoa seja sorteado ao acaso da população de uma cidade e devemos adivinhar qual o genero da mesma Como sabemos ser aproximadamente a metade da população de cada sexo não temos preferencia em sugerir qualquer um dos dois Imagine agora que a mesma pergunta fosse feita e nos fosse dito que a pessoa a ser sorteada leciona na pré escola A nossa solução seria modificada pois a grande maioria de pessoas lecionando na pré escola é do sexo feminino isto tudo em razão de sabemos se é grande o grau de dependencia entre sexo e determindos ramos de antividade Vejamos como podemos identificar a associação entre duas variáveis através da distribuição conjunta vii Exemplo 03 Queremos verificar se existe ou não dependência entre sexo e curso escolhido por 200 alunos de Economia e Administração Tabela 5 Distribuição conjunta das frequências das proporções em porcento de alunos segundo o genero X e o curso escolhido Y X XXXXXXX X Y Masculino Feminino Total Economia 85 61 35 58 120 60 Administração 55 39 25 42 80 40 Total 140 100 60 100 200 100 viii Inicialmente verificamos que fica muito difícil com base nas frequências absolutas tirar alguma conclusão em razão das diferenças entre os totais marginais Assim devemos obter as frequências relativas em relação ao total das linhas ou das colunas para poderemos fazer as comparações Fixando os totais das colunas obtemos as distribuições dos valores entre parênteses na Tabela 012 A partir desses dados podemos afirmar que 60 dos indivíduos pesquisados cursam Economia e 40 cursam Administração coluna de totais Não havendo dependência entre as variáveis esperaríamos esses mesmos percentuais quando con siderarmos a separação pelos generos Observamos para o masculino 61 e 39 e para o feminino 58 e 42 Como esses valores são próximos dos valores marginais 60 e 40 tais variáveis parecem ser independentes Tais resultados nos levam a concluir a não existência de dependência entre genero e curso escolhido neste caso Consideremos agora um problema semelhante mas envolvendo os cursos de Física e de Ciências Sociais Tabela 6 Distribuição conjunta das frequências das proporções em porcentagem de alunos segundo o genero X e o curso escolhido Y X XXXXXXX X Y Masculino Feminino Total Física 100 71 20 33 120 60 Ciências Sociais 40 29 40 67 80 40 Total 140 100 60 100 200 100 ix Comparando a distribuição pelos cursos independente do genero temos 60 e 40 para Física e Ciências Sociais respectivamente Considerando a distribuição diferenciada pelo genero temos para o masculino 71 e 29 e para o feminino 33 e 67 que parecem indicar uma dependência entre genero e curso escolhido 013 Medidas de Associação entre Variáveis Qualitativas De modo geral a quantificação do grau de dependência entre duas variáveis é feito pelos chamados coeficientes de associação ou correlação Estas medidas descrevem através de um único número a dependência entre as variáveis Tais coeficientes variam nos intervalos 0 1 ou 1 1 Quanto mais próximo do zero o valor do coeficiente tiver indica falta de associação entre as variáveis Existem diversas medidas que quantificam a associação entre variáveis qualita tivas Veremos aqui apenas duas delas o coeficiente de contingência C devido a Karl Pearson Londres 18571936 e uma modificação desse Exemplo 04 Queremos verificar se o tipo de atividade está relacionada asso ciada ao fato das embarcações serem de propriedade estatal ou particular Para isso coletaramse os dados da Tabela 16 Vamos considerar como a variável X a propriedade da Marinha Mercante do Brasil e a variável Y representando o tipo de atividade x Tabela 7 Marinha Mercante do Brasil por propriedade e tipo de atividade 1974 Y PPPPP P X Costeira Fluvial Internacional Total Estatal 5 254 141 7157 51 2589 197 100 Particular 92 2480 231 6226 48 1294 371 100 Total 97 1708 372 6549 99 1743 568 100 A analise da Tabela 16 mostra uma certa dependência entre as variáveis Caso houvesse independência entre as variáveis esperaríamos que em cada categoria da variável propriedade tivéssemos 1708 de atividade costeira 6549 de atividade fluvial e 1743 de internacional Então o número esperado de atividades costeiras Estatal seria 197 0 1708 33 64 e de costeiras Particular 371 0 1708 63 36 e assim por diante Tabela 8 Valores esperados na Tabela 16 assumindo independência entre as variá veis Y PPPPP P X Costeira Fluvial Internacional Total Estatal 3364 1708 12902 6549 3434 1743 197 100 Particular 6336 1708 24297 6549 6466 1743 371 100 Total 9700 1708 37200 6549 9900 1743 568 100 Comparando das duas tabelas podemos verificar as discrepâncias existentes en tre os valores observados Tabela 16 e os valores esperados caso as variáveis fossem independentes na Tabela 17 Vamos representar as discrepâncias entre os valores observados e esperados por dij oij eij 1 xi Agora vamos aplicar no nosso exemplo d11 5 33 64 28 64 d21 92 63 36 28 64 d12 141 129 02 11 98 d22 231 242 97 11 98 d13 51 34 33 16 66 d23 48 64 66 16 66 Podemos observar que I2 i1 J3 j1 oij eij 0 Uma medida do afastamento global dos valores observados para os valores espe rados a qual indicamos por χ2 quiquadrado é dado por χ2 I i1 J j1 oij eij2 eij com i 1 2 I linhas e j 1 2 J colunas De fato Sob a hipótese de que as variáveis X e Y não sejam associadas independentes temos que oi1 o1 oi2 o2 oiJ oJ i 1 2 I ou ainda oij oj oi o i 1 2 I j 1 2 J de onde se deduz finalmente que oij oi oj o i 1 2 I j 1 2 J 2 xii Chamando de frequência esperada os valores dados pelos segundos membros de 2 e denotandoas por eij temos que o quiquadrado de Pearson pode ser escrito χ2 I i1 J j1 oij eij2 eij 3 Se a hipótese de não associação for verdadeira o valor calculado de 3 deve estar próximo de zero Se as variáveis forem associadas o valor de χ2 deve ser grande No exemplo em questão temos χ2 I2 i1 J3 j1 oij eij2 eij 28 642 33 64 28 642 63 36 11 982 129 02 11 982 242 97 16 662 34 33 16 662 64 66 24 38 12 95 1 11 0 59 8 09 4 29 51 41 Quanto maior for o valor de χ2 maior será o grau de associação entre as duas variáveis Como fica difícil baseado no valor de χ2 dizer se uma associação é alta ou não Peasson propôs o chamado coeficiente de contingência C definido como C χ2 χ2 n 4 onde n é o número de observações Contudo o coeficiente C acima não varia entre 0 e 1 Quanto mais próximo de zero o valor de χ2 mais independente são as variáveis Para o exemplo em questão podemos dizer que χ2 está próximo de zero De fato C 51 41 51 41 568 0 29 xiii O problema desta fórmula é que conforme mudamos o número de observações n o valor C também mudará Para evitar esse inconveniente costumase definir um outro coeficiente dado por T χ2n I 1J 1 que atinge o máximo igual a 1 Dessa forma o valor de T do exemplo em questão será T 51 41568 2 13 1 0 091 2 0 045 0 21 Vejamos outro exemplo Exemplo 05 Uma Companhia de Seguro analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados foram o seguinte Considere as variáveis X para genero do segurado e a variável Y para segurado usou ou não o hospital X XXXXXXXX X Y Homens Mulheres Total Usaram o hospital 100 150 250 Não usaram o hospital 900 850 1750 Total 1000 1000 2000 a Calcule a proporção de homens entre os indivíduos que usaram o hospital Solução PhomensUsaram o hospital 100 250 0 4 ou 40 PmulheresUsaram o hospital 0 6 ou 60 b O uso do hospital independe do gênero do segurado Solução xiv Tabela 9 Proporções em porcento em relação ao total das colunas Y PPPPP P X Homens Mulheres Total Usaram o hospital 100 10 150 15 250 125 Não usaram o hospital 900 90 850 85 875 875 Total 1000 100 1000 100 2000 100 As variáveis são independentes segundo a Tabela 18 pois a proporção de homens e mulheres que usaram o hospital estão próximos de 125 O mesmo podemos dizer de homens e mulheres que não usaram o hospital ficaram pró ximo de 875 Portanto isso indica que as variáveis X e Y são independentes c Encontre uma medida de dependência entre as variáveis χ2 C e T Solução Primeiramente faremos uma tabela de valores esperados das variáveis Y PPPPP P X Homens Mulheres Total Usaram o hospital 125 125 250 Não usaram o hospital 875 875 1750 Total 1000 1000 2000 Agora vamos representar as discrepâncias entre os valores observados e os esperados d11 100 125 25 d21 900 875 25 d12 150 125 25 d22 850 875 25 xv Na sequência calculamos a medida χ2 χ2 2 i1 2 j1 oij eij2 eij 252 125 252 875 252 125 252 875 625 125 625 875 625 125 625 875 1250 125 1250 875 10 1 43 11 43 Finalmente vamos calcular o coeficiente de contingência C de Pearson e o valor T C 11 43 11 43 2000 0 11 T 11 432000 999999 0 005715 998001 0 00008 Como o valor do coeficiente de contingência C é próximo de zero afirmamos que as variáveis não possuem dependência confirmando a afirmação do item b Exemplo 06 Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Coletados os dados relevantes obtemos a tabela abaixo Mas antes vamos considerar as variáveis X e Y representando respectivamente Tipo de Cooperativa e Estado da Federação Tabela 10 Cooperativas autorizadas a funcionar por tipo e estado junho de 1974 X XXXXXXXX X Y Consumidor Produtor Escola Outras Total São Paulo 214 33 240 37 78 12 116 18 648 100 Paraná 51 17 102 34 127 42 21 7 301 100 Rio G do Sul 108 18 307 51 139 23 48 8 602 100 Total 372 24 651 42 341 22 186 12 1551 100 1Fonte Sinopse Estatística do Brasil IBGE 1977 A análise da tabela mostra a existência de certa dependência entre as variáveis X e Y Caso não houvesse associação esperaríamos que em cada estado tivéssemos 24 de cooperativas de consumidores 42 de cooperativa de produtores 22 de escolas e 12 de outros tipos Então por exemplo o número esperado de cooperativas de xvi consumidores no Estado de São Paulo seria 648 0 24 156 e no Paraná seria 301 0 24 72 Observe na Tabela 110 os valores esperados na Tabela 19 assumindo a independência entre as duas variáveis Tabela 11 Valores esperados na Tabela 19 assumindo a independência entre as duas variáveis XX XXXXXXX X Y Consumidor Produtor Escola Outras Total São Paulo 155 24 272 42 143 22 78 12 648 100 Paraná 72 24 127 42 66 22 36 12 301 100 Rio G do Sul 145 24 253 42 132 22 72 12 602 100 Total 372 24 652 42 341 22 186 12 1551 100 2Fonte Tabela 19 Comparando as duas tabelas podemos verificar as discrepâncias existentes entre os valores observados Tabela 19 e os valores esperados Tabela 110 caso as variáveis não fossem associadas Na Tabela 111 resumimos os desvios valores observados menos valores esperados Para a célula Escola São Paulo obtemos 652 143 29 55 e para a célula Escola Paraná obtemos 612 66 56 37 que é uma indicação que o desvio da Escola Paraná é maior que o desvio Escola São Paulo Tabela 12 Desvio entre observados e esperados X XXXXXXXX X Y Consumidor Produtor Escola Outras São Paulo 59 2069 32 381 65 2955 38 2025 Paraná 21 663 25 390 61 5196 15 608 Rio G do Sul 37 839 54 1166 7 027 24 856 3Fonte Tabela 19 e 110 Vamos calcular a medida de afastamento global χ2 quiquadrado de Pearson xvii e no nosso exemplo teríamos χ2 592 155 322 272 652 143 382 78 212 72 252 127 612 66 152 36 372 145 542 253 72 132 242 72 22 46 3 77 29 55 18 51 6 13 4 92 56 37 6 25 9 44 11 53 0 37 8 177 3 Um valor grande de χ2 indica associação entre as variáveis o que parece ser o caso Vamos confirmar a afirmação calculando o coeficiente de contingência e também o coeficiente T Dessa forma C χ2 χ2 n 177 3 177 3 1551 0 32 T χ2n I 1J 1 177 31551 3 14 1 0 1143 6 0 13 Como o valor de T não está próximo de zero confirmamos que há uma associação entre as variáveis 014 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo podese usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com va riáveis qualitativas De modo análogo a distribuição conjunta pode ser resumida em tabelas de dupla entrada e por meio das distribuições marginais é possível es tudar a associação das variáveis Algumas vezes para evitar um grande número de entradas agrupando os dados marginais em intervalos de classes de modo se melhante ao resumo feito no caso unidimensional Mas além desse tipo de análise as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados xviii Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas ou entre dois conjuntos de dados é o gráfico de dispersão Exemplo 07 Sejam duas variáveis X e Y onde representam respectivamente número de anos de serviço e número de clientes de uma companhia de seguro Agentes Anos de serviço X Número de clientes Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 4Fonte Dados hipotéticos Vamos fazer o gráfico de dispersão das variáveis X e Y da tabela anterior Nesse tipo de gráfico temos os possíveis pares de valores x y na ordem que aparecem Observando o gráfico de dispersão vemos que parece haver uma associação entre as variáveis porque no conjunto á medida que aumenta o tempo de serviço aumenta o número de clientes Exemplo 08 Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários mínimos mediramse as variáveis X renda bruta mensal expressa em número de salários mínimos e Y porcento da renda bruta anual gasta em as sistência médica xix 2 4 6 8 10 45 50 55 60 65 70 Anos serviço número clientes Família X Y A 12 72 B 16 74 C 18 70 D 20 65 E 28 66 F 30 67 G 40 60 H 48 56 I 50 60 J 54 55 5Fonte Dados hipotéticos Como as variáveis são quantitativas vamos utilizar o gráfico de dispersão para analisar a associabilidade das variáveis xx 20 30 40 50 55 60 65 70 Anos serviço número clientes Vemos que existe uma associação inversaentre as variáveis porque aumenta a renda bruta diminui o porcento sobre ela gasta em assistência médica A partir dos gráficos apresentados verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas Contudo é muito útil quantificar essa associação Existem muitos tipos de as sociações possíveis e aqui iremos apresentar o tipo de relação mais simples que é a linear Isto é iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproximase de uma reta Esta medida será definida de modo a variar num intervalo finito especificamente de 1 a 1 Consideramos um gráfico de dispersão no qual por meio de uma transformação conveniente a origem do plano foi colocada no centro da nuvem de dispersão Se a maioria dos pontos estiverem situados no primeiro e terceiro quadrantes teremos uma associação positiva pois as coordenadas dos pontos tem o mesmo sinal nesses quadrantes e portanto a soma dos produtos delas sempre será positivo Mas caso a maioria dos pontos estiverem situados no segundo e quarto quadrante teremos uma associação negativa ou seja a soma dos produtos das coordenadas será negativa Agora em casos em que a distribuição dos pontos for mais ou menos circular a xxi soma dos produtos será aproximadamente zero Exemplo 09 Considerando a tabela do Exemplo 07 A primeiro coisa que devemos fazer é mudar a origem do sistema cartesiano para o centro da nuvem de pontos e um candidato a centro é x y Dessa forma tere mos novas coordenadas fazendo x x e y y Em seguida devemos padronizar as escalas das duas variáveis dividindose os desvios pelos respectivos desvios pa drões Finalmente indicamos os produtos das coordenadas reduzidas e sua soma Para completar a definição dessa medida de associação basta calcular a média dos produtos das coordenadas reduzidas Podemos representar tudo isso através de uma tabela para facilitar o cálculo do coeficiente de correlação Vamos calcular o coeficiente de correlação dos dados do Exemplo 013 Agente X Y x x y y xx Sx zx yy Sy zy zx zy A 2 48 37 85 154 105 1617 B 3 50 27 65 112 080 0846 C 4 56 17 05 071 006 0043 D 5 52 07 45 029 055 0160 E 4 43 17 135 071 166 1179 F 6 60 03 35 012 043 0052 G 7 62 13 55 054 068 0367 H 8 58 23 15 095 019 0181 I 8 64 23 75 095 092 0874 J 10 72 43 155 178 191 3400 Total 57 565 0 0 8769 x 5 7 Sx 2 41 y 56 5 Sy 8 11 Portanto para esse exemplo o grau de associação linear está quantificado por 877 Podemos definir o coeficiente de correlação do seguinte modo xxii Definição 1 Coeficiente de correlação Dado n pares de valores x1 y1 x2 y2 xn yn chamaremos de coeficiente de correlação entre duas variáveis X e Y a CorrX Y 1 n n i1 xi µx σx yi µy σy ou seja a média dos produtos dos valores padronizados das variáveis Não é difícil provar que o coeficiente de correlação satisfaz 1 CorrX Y 1 A definição acima é equivalente a seguinte equação CorrX Y n i1 xiyi nµxµy x2 i nµ2 x y2 i nµ2 y De fato CorrX Y 1 n n i1 xi µx σx yi µy σy 1 n n i1 xi µx xiµx2 n yi µy yiµy2 n 1 n n i1 xi µx xiµx2 n yi µy yiµy2 n 1 n n i1 xiyi xiµy µxyi µxµy 1 n xi µx2 1 n yi µy2 1 n n i1xiyi xiµy µxyi µxµy 1 n xi µx2yi µy2 n n i1xiyi n i1xiµy n i1µxyi n i1µxµy n xi µx2yi µy2 n i1 xiyi µy n i1 xi µx n i1 yi µxµy n i1 xi µx2 yi µy2 xxiii n i1 xiyi µynµx µxnµy µxµyn x2 i 2xiµx µ2 x y2 i 2yiµy µ2 y n i1 xiyi 2µxµyn µxµyn x2 i 2 xiµx µ2 x y2 i 2 yiµy µ2 y n i1 xiyi nµxµy x2 i 2µxnµx nµ2 x y2 i 2µynµy nµ2 y n i1 xiyi nµxµy x2 i 2nµ2 x nµ2 x y2 i 2nµ2 y nµ2 y n i1 xiyi nµxµy x2 i nµ2 x y2 i nµ2 y Exemplo 010 Numa amostra de seis operários de uma dada empresa foram ob servados duas variáveis sendo X os anos de experiência num dado cargo e Y o tempo em minutos gasto na execução de uma tarefa relacionada com esse cargo As observações são dadas abaixo Tabela 13 Número de anos e experiência no cargo e número de minutos gastos na execução de uma tarefa X anos 1 2 3 4 5 6 Y minutos 7 8 5 4 2 1 Vamos fazer o diagrama de dispersão para fazer uma análise visual da dispersão dos pontos no plano xxiv 1 2 3 4 5 6 1 2 3 4 5 6 7 8 tempo no cargo anos tempo para fazer o serviço min Através da dispersão dos pontos no gráfico concluímos que parece haver uma dependência inversaentre as variáveis X e Y pois no conjunto a medida que aumenta o valor de X diminui o valor de Y Agora vamos calcular o coeficiente de correlação de Pearson Para facilitar nossos cálculos sugerimos que utilize uma tabela para organizar seus cálculos xxv Tabela 14 X Y xi x yi y xi x2 yi y2 xi xyi y 1 7 25 25 625 625 625 2 8 15 35 225 1225 525 3 5 05 05 025 025 025 4 4 05 05 025 025 025 5 2 15 25 225 625 375 6 1 25 35 625 1225 875 21 27 175 375 245 x 3 5 y 4 5 Sx 1 71 Sy 2 5 xixyiy SxSy 5 74 Se considerarmos a ultima linha da tabela com sendo a soma de toda a coluna conseguimos com uma simples divisão encontrar as médias e variâncias das variáveis X e Y e consequentemente o valor da correlação Assim temos x 3 5 y 4 5 Sx 1 87 Sy 2 74 SxSy 4 27 1 n xi xyi y SxSy 0 96 Portanto o coeficiente de correlação CorrX Y 096 ou seja o grau de associabilidade no sentido inversoestá quantificado em 96 que é um alto grau de associabilidade Para analisar dois conjuntos de dados podemos recorrer também aos métodos utilizados anteriormente para analisar um conjunto de dados exibindo as análises feitas separadamente para ser comparados Exercícios 1 Uma amostra de 10 casais e seus respectivos salários anuais foi escolhido num certo bairro conforme vemos na tabela abaixo xxvi Casal nº 1 2 3 4 5 6 7 8 9 10 Salário Homem X 10 10 10 15 15 15 15 20 20 20 Mulher Y 5 10 10 5 10 10 15 10 10 15 Sabese que 10 i1 xi 150 10 i1 yi 100 10 i1 x2 i 2400 10 i1 y2 i 1100 e 10 i1 xiyi 1550 a Construa o diagrama de dispersão b Encontre o salário médio e o desvio padrão do salário anual dos homens e mulheres c Encontre a correlação entre o salário anual dos homens e o das mulheres d Qual o salário médio familiar E o desvio padrão d Se o homem é descontado em 8 e a mulher em 6 qual o salário liquido anual médio familiar E o desvio padrão