·

Administração ·

Probabilidade e Estatística 1

Send your question to AI and receive an answer instantly

Ask Question

Preview text

i i i i i i i i Aula OUTRAS MEDIDAS ESTATISTICAS 5 O b j e t i v o s Nesta aula vocˆe estudara outras caracterısticas de uma distribuicao de dados e vera metodos alternativos de analise que tratam de forma diferenciada os va lores discrepantes Serao apresentados os seguintes conceitos 1 coeficiente de variacao 2 escores padronizados 3 teorema de Chebyshev 4 medidas de assimetria 5 o boxplot grafico de caixas Probabilidade e Estatistica Outras Medidas Estatisticas COEFICIENTE DE VARIACAO Considere a seguinte situagao uma fabrica de ervilhas co mercializa seu produto em embalagens de 300 gramas e em embalagens de um quilo ou 1000 gramas Para efeitos de con trole do processo de enchimento das embalagens sorteiase uma amostra de 10 embalagens de cada uma das maquinas obtendo se OS seguintes resultados X 295g 300g g o 5g x 995g 1000g g o 5g Vamos interpretar esses nimeros Na primeira maquina as em balagens deveriam estar fornecendo peso de 300g mas devido a erros de ajuste da maquina de enchimento o peso médio das 10 embalagens é de apenas 295g O desvio padrao de 5g significa que em média os pesos das embalagens estao cinco gramas abaixo ou acima do peso médio das 10 latas Uma interpretacgao andloga vale para a segunda maquina Em qual das duas situagoes a variabilidade parece ser maior Ou seja em qual das duas maquinas parece haver um problema mais sério Note que em ambos os casos ha uma dispersao de 5g em torno da média mas 5g em 1000g é menos preocupante que 5g em 300g Como um exemplo mais extremo um desvio padrao de 10 unidades em um conjunto cuja observagao tipica é 100 é muito diferente de um desvio padrao de 10 unidades em um conjunto cuja observacao tipica é 10000 Surge assim a necessidade de uma medida de dispersdo re lativa que permita comparar por exemplo esses dois conjuntos Uma dessas medidas é 0 coeficiente de variacdao Definicao 51 Dado um conjunto de observacg6es x1 x2Xn 0 coeficiente de variacao CV é definido como a razdo entre o desvio padrao dos dados e sua média ou seja oO CV 51 x 8 CEDERJ i i i i i i i i AULA 5 1 M ODULO 1 Note que como o desvio padrao e a media sao ambos me didos na mesma unidade dos dados originais o coeficiente de variacao e adimensional Este fato permite comparacoes entre conjuntos de dados diferentes medidos em unidades diferentes Em geral o CV e apresentado em forma percentual isto e mul tiplicado por 100 No exemplo das latas de ervilha os coeficientes de variacao para as embalagens oriundas das duas maquinas sao 300g CV 5 300 100 167 1000g CV 5 1000 100 05 o que confirma a nossa observacao anterior a variabilidade na maquina de 300g e relativamente maior Exercıcio 51 Faca uma analise comparativa do desempenho dos alunos e alunas de uma turma de Estatıstica segundo as notas dadas a seguir Para isso calcule a media o desvio padrao e o coeficiente de variacao comentando os resultados Homens 45 61 32 69 71 82 33 25 56 72 34 Mulheres 63 68 59 60 49 61 63 75 77 65 ESCORES PADRONIZADOS Considere os dois conjuntos de dados abaixo que represen tam as notas em Estatıstica e Calculo dos alunos de uma deter minada turma Aluno 1 2 3 4 5 6 7 8 9 Estatıstica 6 4 5 7 8 3 5 5 7 Calculo 6 8 9 10 7 7 8 9 5 C E D E R J 9 Probabilidade e Estatistica Outras Medidas Estatisticas As notas médias nas duas disciplinas sao 644547484345457 50 ip 445 aes 545 F 55556 68910747484945 69 Fo Crete ee TT peter 7 6667 9 9 As variancias sao 5 674474574774 87437454547 OF so 9 9 298 2500 298x92500 182 2 246914 9 81 81 81 5 67 8792 4 10 724728792 52 69 Oc oC 9 9 549 4761 549x94761 180 De 229292 9 81 81 81 Os desvios padroes sao 182 Of 1498971 e V 81 180 Oc 1490712 V 81 Analisando os dois conjuntos de notas podese ver que o aluno tirou 6 em Estatistica e em Calculo No entanto a nota média em Estatistica foi 556 enquanto que em Calculo a nota média foi 767 Assim 0 6 em Estatistica vale mais que 0 6 em CAalculo no sentido de que ele esta acima e mais pr6ximo da média Uma forma de medir tal fato é considerar a posicao relativa de cada aluno no grupo Para isso 0 primeiro passo consiste em comparar a nota do aluno com a média do grupo considerando o seu desvio em torno da média Se x é a nota do aluno passamos a trabalhar com x X Dessa forma vemos que a nota 6 em Estatistica gera um desvio de 044 enquanto a nota 6 em Calculo gera um desvio de 167 o que significa que o aluno tirou nota acima da média em Estatistica e nota abaixo da média em Calculo 10 CEDERJ Um outro problema que surge na comparacgao do desem Q penho nas duas disciplinas é 0 fato de o desvio padrao ser di R ferente nas duas matérias A variabilidade em Estatistica foi um g pouco maior que em Calculo Assim 0 segundo passo consiste em padronizar a escala Essa padronizaao da escala se faz di jo vidindo os desvios em torno da média pelo desvio padrao do conjunto o que nos da 0 escore padronizado s Xj X z 52 Ox O desvio padrao das notas de Estatistica og 149897 e das notas de Calculo é 0 149071 Na tabela a seguir temos os escores padronizados podemos ver ai que o escore relativo a nota 6 em Estatistica é maior que 0 escore da nota 6 em Calculo indicando que a primeira vale mais que a segunda Aluno 1 2 3 4 5 6 7 8 9 Estatistica 0297 1038 0371 0964 1631 1705 0371 0371 0964 Calculo 1118 0224 0894 1565 0447 0447 0224 0894 I789 Da mesma forma o 5 em Estatistica do aluno 7 vale mais que o 5 em Calculo do aluno 9 ambos estao abaixo da média mas o 7 em Estatistica esta mais proximo da média Ao padronizarmos os dados a nossa escala passa a ser de finida em termos de desvio padraéo Ou seja passamos a dizer que tal observacao esta abaixo ou acima da média por determi nado numero de desvios padrées Com isso tirase 0 efeito de as médias e as variabilidades serem diferentes Podemos escrever 0 escore padronizado como 1 x Li Xi Ox Ox e dai vemos que esse escore é obtido a partir dos dados originais por uma transformagao linear somamos uma constante 2 e multiplicamos por outra constante z Das propriedades da média e do desvio padrao vistas nas aulas anteriores resulta que a média e 0 desvio padrao dos es cores padronizados podem ser obtidos a partir da média e do desvio padrao dos dados originais 1 x 1 ZxX0 e 0 01 Ox Ox O Logo os escores padronizados tém sempre média zero e desvio CEDERJ ll padrao ou variancia 1 Probabilidade e Estatistica Outras Medidas Estatisticas TEOREMA DE CHEBYSHEV E VALORES DISCRE PANTES Os escores padronizados podem ser usados para se detectarem valores discrepantes ou muito afastados do conjunto de dados gracgas ao Teorema de Chebyshev Teorema 51 Teorema de Chebyshev Para qualquer distribuigao de dados pelo menos 1 1 27 dos dados estao dentro de z desvios padrdes da média onde z é qualquer valor maior que 1 Dito de outra forma pelo menos 1 12 dos dados estao no intervalo x zo zo Vamos analisar esse teorema em termos dos escores padroni zados Suponha que x seja um valor do conjunto de dados dentro do intervalo x zo x zo Isso significa que z0 x Xz0 Subtraindo xX e dividindo por o todos os termos dessa desigual dade obtemos que XZO0X x X Xz0X oO oO oO x X Z z oO O termo do meio nada mais é que o escore padronizado da observacao x Assim 0 teorema de Chebyshev pode ser esta belecido em termos dos escores padronizados como para pelo menos 1 1 27 dos dados os respectivos escores padroniza dos estao no intervalo zz onde z é qualquer valor maior que 1 O fato interessante desse teorema é que ele vale para qual quer distribuigado de dados Vamos ver alguns exemplos numéri cos ez2 Nesse caso 1 1z 34 ou seja para pelo menos 75 dos dados os escores padronizados estao no inter valo 22 12 CEDERJ i i i i i i i i AULA 5 1 M ODULO 1 z 3 Nesse caso 11z2 89 0889 ou seja para aproxi madamente 89 dos dados os escores padronizados estao no intervalo 33 z 4 Nesse caso 1 1z2 1516 09375 ou seja para 9375 dos dados os escores padronizados estao no in tervalo 44 Como regra de deteccao de valores discrepantes podese usar o Teorema de Chebyshev para se estabelecer por exemplo dados cujos escores padronizados estejam fora do intervalo 33 sao valores discrepantes e portanto devem ser ve rificados cuidadosamente para se identificar a causa de tal dis crepˆancia Algumas vezes tais valores podem ser resultados de erros mas muitas vezes eles sao valores legıtimos e a presenca deles requer alguns cuidados na analise estatıstica Exercıcio 52 Considere os dados da Tabela 51 sobre a densidade popula cional das unidades da federacao brasileira Calcule os escores padronizados e determine se alguma UF pode ser considerada valor discrepante com relacao a essa variavel Tabela 51 Densidade populacional dos estados brasileiros UF Densidade populacional UF Densidade populacional habkm2 habkm2 RO 6 SE 81 AC 4 BA 24 AM 2 MG 31 RR 2 ES 68 PA 5 RJ 328 AP 4 SP 149 TO 5 PR 48 MA 17 SC 57 PI 12 RS 37 CE 51 MS 6 RN 53 MT 3 PB 61 GO 15 PE 81 DF 353 AL 102 Fonte IBGE Censo Demografico 2000 C E D E R J 13 i i i i i i i i Probabilidade e Estatıstica Outras Medidas Estatısticas MEDIDAS DE ASSIMETRIA Considere os diagramas de pontos dados nas partes a a c da Figura 51 onde a seta indica a media dos dados Analisando os podemos ver que a principal e mais marcante diferenca entre eles diz respeito a simetria da distribuicao A segunda distribuicao e simetrica enquanto as outras duas sao assimetricas Figura 51 Diagramas de pontos de distribuicoes com diferentes tipos de assimetria No diagrama a a assimetria e tal que ha maior concentracao na cauda inferior enquanto no diagrama c a concentracao e maior na cauda superior Visto de outra maneira no diagrama a os dados se estendem para o lado positivo da escala en quanto no diagrama c os dados se estendem para o lado ne gativo da escala Dizemos que a distribuicao ilustrada no dia grama a apresenta uma assimetria a direita enquanto a do diagrama c apresenta uma assimetria a esquerda No diagrama b temos uma simetria perfeita ou assimetria nula Esses trˆes tipos de assimetria podem ser caracterizados pela posicao da moda com relacao a media dos dados No primeiro 14 C E D E R J i i i i i i i i AULA 5 1 M ODULO 1 tipo a moda tende a estar a esquerda da media enquanto no terceiro tipo a moda tende a estar a direita da media Lembre se de que a media e o centro de gravidade ou ponto de equilıbrio da distribuicao Para distribuicoes simetricas a moda coincide com a media Definemse assim os trˆes tipos de assimetria se a media e maior que a moda x x dizemos que a distribuicao e assimetrica a direita ou tem assimetria positiva diagrama a da Figura 51 se a media e igual a moda x x dizemos que a distri buicao e simetrica ou tem assimetria nula diagrama b da Figura 51 se a media e menor que a moda x x dizemos que a distribuicao e assimetrica a esquerda ou tem assimetria negativa diagrama c da Figura 51 Essas definicoes no entanto nao permitem medir diferen tes graus de assimetria Por exemplo considere os diagramas de pontos a e b dados na Figura 52 ambos assimetricos a direita Figura 52 Duas distribuicoes assimetricas a direita Uma forma de medirmos essas diferentes assimetrias e atra ves da distˆancia xx entre a media e a moda mas como as dis tribuicoes podem ter graus de dispersao diferentes e importante que consideremos a diferenca acima na mesma escala Assim definese um dos coeficientes de assimetria definicao devida a Karl Pearson como e xx σ 53 C E D E R J 15 i i i i i i i i Probabilidade e Estatıstica Outras Medidas Estatısticas Se o coeficiente e negativo temse assimetria negativa se e positivo temse assimetria positiva e se e nulo temse uma distribuicao simetrica Note que aqui assim como nos escores padronizados tiramos o efeito de escalas diferentes ao dividir mos pelo desvio padrao o que resulta na adimensionalidade do coeficiente Para os dados do diagrama a da Figura 52 temos que x 2 x 27714 e σ 16228 logo e 277142 16228 0475351 Para os dados do diagrama b da Figura 52 x 2 x 36232 e σ 23350 logo e 362322 23350 06952 o que indica uma assimetria mais acentuada E interessante observar que existem outros coeficientes de assimetria o que apresentamos e o menos utilizado mas e o mais intuitivo Exercıcio 53 Considere novamente as notas de 50 alunos cujo ramos e folhas e dado a seguir Calcule o coeficiente de assimetria de Pearson para essa distribuicao 2 9 3 7 8 4 7 9 5 2 6 8 6 0 2 3 3 3 5 5 6 8 8 9 9 7 0 0 1 3 3 4 4 5 5 6 6 7 7 9 8 1 1 2 2 3 3 4 5 7 7 8 9 9 0 1 4 7 INTERVALO INTERQUARTIL A mediana divide o conjunto de dados ao meio deixando 50 das observacoes abaixo dela e 50 acima dela De modo analogo podemos definir qualquer separatriz como sendo um valor que deixa p dos dados abaixo e o restante acima 16 C E D E R J i i i i i i i i AULA 5 1 M ODULO 1 Vamos nos concentrar aqui em um caso particular das sepa ratrizes que sao os quartis O primeiro quartil que indicaremos por Q1 deixa 25 das observacoes abaixo e 75 acima O segundo quartil e a mediana e o terceiro quartil Q3 deixa 75 das observacoes abaixo e 25 acima Na figura a seguir Figura 53 temos uma ilustracao desses conceitos Figura 53 Ilustracao da definicao de quartis Analisando essa figura podemos ver que entre Q1 e Q3 ha sempre 50 dos dados qualquer que seja a distribuicao As sim quanto maior for a distˆancia entre Q1 e Q3 mais dispersos serao os dados Temos assim uma nova medida de dispersao o intervalo interquartil Definicao 52 blablabla O intervalo interquartil que denotaremos por IQ e definido como a distˆancia entre o primeiro e o terceiro quar tis isto e IQ Q3 Q1 54 O intervalo interquartil tem a mesma unidade dos dados A vantagem do intervalo interquartil sobre o desvio padrao e que assim como a mediana o IQ nao e muito influenciado por valores discrepantes C E D E R J 17 Probabilidade e Estatistica Outras Medidas Estatisticas CALCULO DOS QUARTIS O calculo dos quartis pode ser feito da seguinte forma de pois de calculada a mediana considere as duas partes dos dados a parte abaixo da mediana e a parte acima da mediana em ambos os casos excluindo a mediana Essas duas partes tém 0 mesmo numero de observacoes pela definigéo de mediana O primeiro quartil entao sera calculado como a mediana da parte abaixo da mediana original e 0 terceiro quartil sera calcu lado como a mediana da parte acima da mediana original Exemplo 51 Vamos calcular os quartis e o intervalo interquartil para o numero de dependentes dos funciondrios do Departamento de Recursos Humanos cujos valores j4 ordenados sao 000001 112 2 2 3 3 3 4 Como ha 15 observag6es a mediana é a oitava observacgao em negrito isto é Oo x apt X8 1 Excluida essa oitava observacao a parte inferior dos dados é 00000 1 1 cuja mediana é Qi x11 Xa 0 A parte superior dos dados excluida a mediana é 2223 3 3 4 e portanto Q3 X448 12 3 o intervalo interquartil calculado como IQQ3Q 3053 18 CEDERJ i i i i i i i i AULA 5 1 M ODULO 1 MEDIDA DE ASSIMETRIA COM BASE NOS QUAR TIS E interessante observar que entre Q1 e Q2 e entre Q2 e Q3 ha sempre 25 dos dados Entao a diferenca entre as distˆancias Q2 Q1 e Q3 Q2 nos da informacao sobre a assimetria da distribuicao Se Q2 Q1 Q3 Q2 isso significa que andamos mais rapido para cobrir os 25 inferiores do que os 25 superiores ou seja a distribuicao se arrasta para a direita Analogamente se Q2Q1 Q3Q2 isso significa que an damos mais devagar para cobrir os 25 inferiores do que os 25 superiores ou seja a distribuicao se arrasta para a es querda De forma mais precisa temos o seguinte resultado Q2 Q1 Q3 Q2 assimetria positiva Q2 Q1 Q3 Q2 assimetria negativa Q2 Q1 Q3 Q2 simetria ou assimetria nula Para tirar o efeito de escala temos que dividir por uma medida de dispersao lembrese de que dividimos pelo desvio padrao quando trabalhamos com as diferencas x x Aqui para nao termos efeito dos valores discrepantes usaremos o intervalo in terquartil para gerar a seguinte medida de assimetria que e cha mada medida de assimetria de Bowley B Q3 Q2Q2 Q1 Q3 Q1 que pode ser reescrita como B Q3 Q2Q2 Q1 Q3 Q2Q2 Q1 Analisando essa expressao podemos ver que quanto mais as simetrica a direita for uma distribuicao mais proximos serao Q1 e Q2 e portanto B se aproxima de 1 Analogamente quanto mais assimetrica a esquerda mais proximos serao Q2 e Q3 e portanto B se aproxima de 1 C E D E R J 19 i i i i i i i i Probabilidade e Estatıstica Outras Medidas Estatısticas Exercıcio 54 Considere novamente os dados da Tabela 22 sobre os fun cionarios do Departamento de Recursos Humanos cujos sala rios em R sao os seguintes 6300 5700 4500 3800 3200 7300 7100 5600 6400 7000 3700 6500 4000 5100 4500 Analise a assimetria da distribuicao com base no coeficiente de Bowley O BOXPLOT A partir dos quartis constroise um grafico chamado box plot ou grafico de caixas que ilustra os principais aspectos da distribuicao e e tambem muito util na comparacao de distribui coes O boxplot e formado basicamente por um retˆangulo vertical ou horizontal O comprimento do lado vertical ou horizontal e dado pelo intervalo interquartil Figura 54a onde estamos trabalhando com um retˆangulo vertical O tamanho do outro lado e indiferente sugerindose apenas uma escala razoavel Na altura da mediana tracase uma linha dividindo o retˆangulo em duas partes Figura 54b Figura 54 Construcao do boxplot Etapa 1 Note que aı ja temos representados 50 da distribuicao e tambem ja temos ideia da assimetria da mesma nessa figura temos uma leve assimetria a direita ja que Q2 Q1 Q3 Q2 Para representar os 25 restantes em cada cauda da distribuicao temos que cuidar primeiro da presenca de possıveis outliers ou valores discrepantes que como ja dito sao valores que se dis tanciam dos demais 20 C E D E R J i i i i i i i i AULA 5 1 M ODULO 1 Regra de Valores Discrepantes Um dado x sera considerado valor discrepante ou outlier se x Q1 15 IQ ou x Q3 15 IQ Veja a Figura 55a Qualquer valor para fora das linhas pontilhadas e considerado um valor discrepante Para represen tar o domınio de variacao dos dados na cauda inferior que nao sao outliers tracase a partir do lado do retˆangulo definido por Q1 uma linha para baixo ate o menor valor que nao seja outlier Da mesma forma na cauda superior tracase a partir do lado do retˆangulo definido por Q3 uma linha para cima ate o maior valor que nao seja outlier Figura 55b Esses pon tos sao chamados juntas Dito de outra forma as juntas sao os valores mınimo e maximo do conjunto de dados formado pelos valores nao discrepantes Figura 55 Construcao do boxplot Etapa 2 C E D E R J 21 Probabilidade e Estatistica Outras Medidas Estatisticas Quanto aos outliers eles s4o representados individualmente por um X ou algum outro tipo de caracter explicitandose de preferéncia os seus valores mas com uma possivel quebra de escala no eixo Figura 56 151Q Q IQ Q we eee ee dee gee eee 1510 Xx X Figura 56 Construcao do boxplot Etapa 3 Note que a construcao do boxplot é toda baseada nos quartis que sao medidas resistentes contra valores discrepantes Exemplo 52 Consideremos novamente as notas de 50 alunos representa das no grafico ramos e folhas da Figura 57 2 9 3 7 8 479 5 2 6 8 6 0 2 3 3 35 56889 9 71001 33 444556677 9 8 1 1 2213 345778 9 9014 7 Figura 57 Notas de 50 alunos Calculo dos quartis A mediana divide 0 conjunto de dados em duas partes com 25 observacoes de cada lado parte sombreada de cinza e a outra 22 CEDERI P i i i i i i i i AULA 5 1 M ODULO 1 Como o numero de observacoes e par a mediana e a media dos valores centrais que estao circundados por uma borda um na parte inferior e outro na parte superior Q2 x 50 2 x 50 2 1 2 x25 x26 2 7374 2 735 O primeiro quartil e a mediana da parte inferior que e o valor cir cundado por uma borda na parte sombreada de cinza e o terceiro quartil e a mediana da parte superior que e o valor circundado por uma borda na parte superior nao sombreada Q1 63 Q3 82 IQ 8263 19 Para estudarmos os outliers temos que calcular Q1 15 IQ 631519 345 Q3 15 IQ 821519 1105 Como a maior nota e 97 nao ha outliers na cauda superior mas na cauda inferior temos a nota 29 que e menor que 345 e por tanto um outlier inferior Excluıdo esse outlier o menor valor que nao e discrepante e 37 e o maior valor e 97 logo as juntas sao 37 e 97 Na Figura 58 temos o boxplot resultante Figura 58 Boxplot para as 50 notas Note que no grafico final nao marcamos os valores 345 e 1105 eles sao usados apenas para delimitar os outliers Sao as juntas que sao exibidas no grafico C E D E R J 23 LL Probabilidade e Estatistica Outras Medidas Estatisticas Considere os dados apresentados na Tabela 52 onde temos as populagoes urbana rural e total em 1000 habitantes dos es tados brasileiros Tabela 52 Populacdo urbana e rural das UFs brasileiras em 1000 hab UF UF Populagao Lhe et oar Urbana Rural Total RO 885 496 1381 MG 14672 3220 17892 AC 371 188 559 ES 2464 635 3099 AM 2108 706 2814 RJ 13822 570 14392 RR 248 78 326 SP 34593 2440 37033 PA 4121 2072 6193 PR 7787 1778 9565 AP 425 53 478 SC 4218 1139 5357 TO 860 298 1158 RS 8318 1870 10188 MA 3365 2288 5653 MS 1748 331 2079 PI 1789 1055 2844 MT 1988 517 2505 CE 5316 2116 7432 GO 4397 607 5004 RN 2037 741 2778 DF 1962 90 2052 PB 2448 997 3445 PE 6059 1861 7920 AL 1920 903 2823 SE 1274 512 1786 BA 8773 4298 13071 Fonte IBGE Censo Demografico 2000 Vamos inicialmente construir o boxplot para a populacao total e em seguida um boxplot comparativo das populacoes ur bana e rural Na tabela a seguir temos as estatisticas necessarias para a construcao desses grdaficos Estatistica Rural OQ 2052DF 1748 MS 496 RO Qo 3099 ES 2448 PB 741 RN 0 1870 RS IQ 5868 4311 1374 Q15Q 6750 47185 1565 Q315Q 16722 125255 3931 Junta inferior 326 RR 248RR 53 AP Junta superior 3220 MG Outliers 17892 MG 13822 RJ 4298 BA 37033 SP 14672 MG 34593 SP 24 CEDERJ i i i i i i i i AULA 5 1 M ODULO 1 Na Figura 59 temos o boxplot para a populacao total ve mos aı que as populacoes de Sao Paulo e Minas Gerais sao out liers e a distribuicao apresenta uma forte assimetria a direita ou seja muitos estados tˆem populacao pequena enquanto alguns poucos tˆem populacao bem grande Figura 59 Populacao total em 1000 hab das Unidades da Federacao brasileiras Na Figura 510 temos um boxplot comparativo das popula coes urbana e rural Podemos ver que a populacao urbana apre senta maior variabilidade e tambem uma forte assimetria posi tiva Ha trˆes UFs que sao discrepantes Sao Paulo Minas Gerais e Rio de Janeiro Em termos da populacao rural a Bahia e o unico outlier e a distribuicao tambem e assimetrica a direita Figura 510 Populacao urbana e rural das UFs brasileiras em 1000 hab C E D E R J 25 i i i i i i i i Probabilidade e Estatıstica Outras Medidas Estatısticas Exercıcio 55 Construa o boxplot para os salarios dos funcionarios do De partamento de Recursos Humanos cujos valores em reais sao 6300 5700 4500 3800 3200 7300 7100 5600 6400 7000 3700 6500 4000 5100 4500 Exercıcio 56 Os dados a seguir representam o numero de apolices de seguro que um corretor conseguiu vender em cada um de seus 20 pri meiros dias em um emprego novo 2 4 6 3 2 1 4 3 5 2 1 1 4 0 2 2 5 2 2 1 Analise a assimetria da distribuicao utilizando os coeficientes de Pearson e de Bowley Exercıcio 57 O professor Celso tem duas opcoes de caminho para se diri gir da sua casa ate seu local de trabalho Tentando definir qual o melhor caminho ele anota o tempo de viagem em diferentes dias obtendo os seguintes tempos em minutos Caminho 1 12 11 10 10 8 12 15 7 20 12 Caminho 2 12 15 13 13 14 13 12 14 13 15 Faca uma analise comparativa desses dados para ajudar o pro fessor Celso a escolher um caminho Exercıcio 58 Em sua polıtica de fidelizacao de clientes determinado su permercado tem uma promocao de dar descontos especiais dife renciados no mˆes do aniversario do cliente O desconto basico e de 5 mas clientes especiais aqueles com pontuacao alta podem receber prˆemios adicionais que variam a cada mˆes e de filial para filial A seguir vocˆe tem os pontos dos clientes aniversariantes de determinado mˆes em uma das filiais do super mercado 77 69 72 73 71 75 75 74 71 72 74 73 75 71 74 73 78 77 74 75 69 76 76 80 74 85 74 73 72 74 a Construa o grafico ramo e folhas e comente suas principais caracterısticas b Calcule a mediana e o intervalo interquartil IQ c Construa o boxplot e comente suas principais caracterısticas 26 C E D E R J i i i i i i i i AULA 5 1 M ODULO 1 d Essa filial da uma garrafa de champagne para seus clientes especiais segundo a seguinte regra a cada mˆes os clien tes com pontuacao acima do terceiro quartil por 15 vezes o intervalo interquartil serao premiados Algum cliente ganhara a garrafa de champagne nesse mˆes SOLUC AO DOS EXERCICIOS Exercıcio 51 Eis o resumo das estatısticas por sexo Sexo Numero Obs Media Desvio padrao Coef variacao Masculino 11 5273 1884 0357 Feminino 10 6400 0764 0119 Podemos ver entao que as mulheres alem de terem obtido uma media maior apresentam variabilidade menor o coeficiente de variacao das mulheres e de 0119 e o dos homens e de 0357 Exercıcio 52 A densidade populacional media e 59444 habkm2 e o desvio padrao das densidades e 87253 habkm2 Na Tabela 53 apre sentamse os escores padronizados para cada UF calculados pela formula zi xixσx Por exemplo para RO o valor 06125 foi obtido como 65944487253 Podemos ver que as unicas UFs com densidades relativa mente altas isto e escores fora do intervalo 33 sao RJ e DF nao ha densidade relativamente baixa C E D E R J 27 i i i i i i i i Probabilidade e Estatıstica Outras Medidas Estatısticas Tabela 53 Escores padronizados das densidades populacionais UF Escores UF Escores padronizados padronizados RO 06125 SE 02470 AC 06354 BA 04062 AM 06584 MG 03260 RR 06584 ES 00981 PA 06240 RJ 30779 AP 06354 SP 10264 TO 06240 PR 01312 MA 04865 SC 00280 PI 05438 RS 02572 CE 00968 MS 06125 RN 00739 MT 06469 PB 00178 GO 05094 PE 02470 DF 33644 AL 04877 Exercıcio 53 Para esses dados temos x 7142x 63σ2 2152836 Logo e 714263 2152836 05739 Exercıcio 54 Os quartis para esse conjunto de dados sao Q2 x8 5600 Q1 x4 4000 Q3 x12 6500 O intervalo interquartil e Q3 Q1 65004000 2500 Logo B Q3 Q2Q2 Q1 Q3 Q1 6500560056004000 65004000 04666 Como B esta mais proximo de 1 do que de 1 temos uma as simetria a esquerda Exercıcio 55 Os quartis para esse conjunto de dados sao Q2 x8 5600 Q1 x4 4000 Q3 x12 6500 O intervalo interquartil e Q3 Q1 65004000 2500 28 C E D E R J i i i i i i i i AULA 5 1 M ODULO 1 A regra para outliers e x Q1 15 IQ 4000152500 250 x Q3 15 IQ 6500152500 10250 Como o menor salario e 3200 e o maior salario e 7300 nao ha salarios discrepantes O boxplot e dado na Figura 511 Figura 511 Solucao do Exercıcio 55 Exercıcio 56 A media dos dados e x 26 com desvio padrao σ 15620 A moda e x 2 Os quartis sao Q1 x5 x6 2 15 Q2 x10 x11 2 2 Q3 x15 x16 2 4 Com esses valores obtemos os coeficientes de assimetria e xx σ 262 15620 03841 B Q3 Q2Q2 Q1 Q3 Q1 42215 415 15 35 04286 Existe assim uma assimetria positiva nos dados veja o dia grama de pontos na Figura 512 C E D E R J 29 i i i i i i i i Probabilidade e Estatıstica Outras Medidas Estatısticas Figura 512 Solucao do Exercıcio 56 Exercıcio 57 Na tabela a seguir sao apresentados os valores relevantes para a solucao do exercıcio Podemos concluir que o tempo pelo caminho 2 e menos variavel apesar de ser um pouco maior Dessa forma parece que o Prof Celso deva optar por esse ca minho planejandose para sair com a devida antecedˆencia Caminho Media Desvio padrao CV 1 117 36833 03148 2 131 09944 00759 Exercıcio 58 a Ha uma grande concentracao de folhas no ramo 7 Nesses casos e usual quebrar o ramo em dois no ramo superior ficam as folhas de 0 a 4 e no ramo inferior as folhas de 5 a 9 Assim fica mais saliente a maior concentracao de clientes com pontos entre 70 e 74 6 9 9 7 1 1 1 2 2 2 3 3 3 3 4 4 4 4 4 4 4 7 5 5 5 5 6 6 7 7 8 8 0 8 5 b Temos 30 clientes Logo Q2 x15x16 4 74 Q1 x8 72 Q3 x23 75 IQ Q3 Q1 7572 3 30 C E D E R J i i i i i i i i AULA 5 1 M ODULO 1 c Veja a Figura 513 E visıvel a presenca de dois valores discrepantes Excluindo esses dois valores a distribuicao apresenta uma leve assimetria a esquerda note que Q2 esta mais proximo de Q3 do que de Q1 Figura 513 Solucao do Exercıcio 58 d A regra para premiacao especial e a regra de valores dis crepantes assim dois clientes ganharao a garrafa de cham pagne C E D E R J 31