·
Zootecnia ·
Bioestatística
· 2023/1
Envie sua pergunta para a IA e receba a resposta na hora

Prefere sua atividade resolvida por um tutor especialista?
- Receba resolvida até o seu prazo
- Converse com o tutor pelo chat
- Garantia de 7 dias contra erros
Recomendado para você
2
Lista de Exercícios Teste de Hipótes e Regressao Linear Simples-2022 1
Bioestatística
UFPR
2
Lista de Exercícios Estimação Pontual e Intervalar-2023 1
Bioestatística
UFPR
15
Lista Resolvida Bioestatistica-2023 1
Bioestatística
UFPR
26
Introdução ao Software Estatístico R
Bioestatística
UFRB
1
Lista - Regressão Linear Simples e Correlação 2021-2
Bioestatística
UFLA
2
Lista - Teste de Hipóteses 2021-2
Bioestatística
UFLA
19
Introdução ao Software Estatístico R - Parte 2
Bioestatística
UFRB
Texto de pré-visualização
Exercícios da Unidade 3 Estatística Descritiva II Os exercícios foram extraídos de seções do livro: Magalhães, MN; Lima, ACP. Noções de Probabilidade e Estatística. São Paulo: EDUSP, 2008. 1. Um grupo de 84 estudantes do ensino médio foi submetido a um teste de matemática resultando em: Nota Frequência [0; 2) 14 [2; 4) 28 [4; 6) 27 [6; 8) 11 [8; 10) 4 Obtenha o gráfico de caixa e bigodes (box-plot). 2. Alunos da Escola de Educação Física foram submetidos a um teste de resistência quanto ao número de quilômetros que conseguiram correr sem parar. Os dados estão apresentados a seguir. Classes Frequência [0; 4) 438 [4; 8) 205 [8; 12) 125 [12; 16) 22 [16; 20) 9 Obtenha o gráfico de caixa e bigodes (box-plot). 3. Foram feitas medidas em operários da construção civil a respeito da taxa de hemoglobina no sangue em gramas por centímetros cúbicos, apresentando os seguintes resultados: 11.1, 12.2, 11.7, 12.5, 13.9, 12.3, 14.4, 13.6, 12.7, 12.6, 11.3, 11.7, 12.6, 13.4, 15.2, 13.2, 13.0, 16.9, 15.8, 14.7, 13.5, 12.7, 12.3, 13.5, 15.4, 16.3, 15.2, 12.3, 13.7 e 14.1. Determine o terceiro quartil e a mediana. 4. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente do total de pontos. aluno 1 2 3 4 5 6 7 8 9 10 Português 35 35 34 32 31 30 26 26 24 23 Matemática 31 29 27 28 28 26 30 28 25 23 aluno 11 12 13 14 15 16 17 18 19 20 Português 23 12 11 20 17 12 14 20 8 10 Matemática 21 32 31 20 21 25 20 13 23 20 a) Calcule as medidas de centro: média, mediana e moda para cada grupo. b) Calcule as medidas de variabilidade: variância, desvio-padrão, e coeficiente de variação para cada grupo. c) Calcule o resumo dos cinco números (mínimo, Q1, Q2, Q3 e máximo) para cada grupo. d) Construa um gráfico de caixa e bigodes (box-plot) para cada grupo (em um mesmo gráfico para comparação). e) Com todos os resultados obtidos, descreva comparativamente estes dois grupos em termos de medidas de tendência central, variabilidade, amplitude e distribuição (simetria) dos dados. f) Você acha que os aprovados são melhores em português ou matemática? 5. Discuta quais medidas de posição seriam mais adequadas para os conjuntos de dados abaixo. Comente suas escolhas. a) Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja- se planejar a compra mensal de antídoto. b) O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação. c) Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta informação sobre a duração de 100 de suas baterias. d) Num voo internacional uma companhia serve dois tipos de pratos de jantar: peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos 200 voos. Pretende-se planejar o número de cada tipo a ser colocado à disposição dos passageiros. 6. Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes: 2, 2, 2, 3, 1, 2, 1, 1, 1, 1, 0, 1, 2, 2, 2, 2, 3, 1, 1, 3, 1, 2, 1, 0 e 2. Organize os dados numa tabela de frequências e determine as diversas medidas de posição. 7. Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em quilogramas) foram os seguintes: 1.5; 1.6; 2.3; 1.7; 1.5; 2.0; 1.5; 1.8; 2.1; 2.1; 1.9; 1.8; 1.7; 2.5 e 2.2. a) Utilizando os dados brutos, determine média, moda e mediana desse conjunto. b) Organize uma tabela de frequência com classes de amplitude 0.2 a partir de 1.5. c) Calcule, a partir da tabela de frequências e com o ponto médio como representante de cada classe, a média, a moda e a mediana. Comente as diferenças encontradas com o item (a). d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente: o do item (a) ou o de (c)? Ter acesso a computador faz diferença? 8. Você está indeciso em comprar uma televisão e decide avaliar algumas informações estatísticas fornecidas pelo fabricante, sobre a duração (em horas) do tubo de imagem. Marca da TV GA FB HW Média 8000 8200 8000 Mediana 8000 9000 7000 Desvio Padrão 600 1500 2500 Com que marca você ficaria? Justifique. 9. A pulsação de 10 estudantes no início de uma prova de estatística foram as seguintes (em batimentos por minuto): 80, 91, 84, 86, 93, 88, 80, 89, 85 e 86. Calcule a média e a variância desse conjunto de dados. 10. Estudando uma nova técnica de sutura, foram contados os dias necessários para a completa cicatrização de determinada cirurgia. Os resultados de 25 pacientes foram os seguintes: 6, 8, 9, 7, 8, 6, 6, 7, 8, 9, 10, 7, 8, 10, 9, 9, 9, 7, 6, 5, 7, 7, 8, 10 e 11. Organize os dados numa tabela de frequência e calcule a média e a variância. 2 11. As notas finais de estatística para alunos de um curso de Administração foram as seguintes: 7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5, 6, 4, 6, 6, 3, 8, 4, 5, 4, 5, 5 e 6. a) Determine a mediana e a média. b) Separe o conjunto de dados em dois grupos denominados aprovados, com nota maior ou igual a 5, e reprovados para os demais. Compare a variância desses dois grupos. 12. Foram anotados os níveis de colesterol (em mg/100ml) par trinta pacientes de uma clínica cardíaca. As medidas se referem a homens entre 40 e 60 anos de idade que foram à clínica fazer um check-up. Paciente 1 2 3 4 5 6 7 8 9 10 Colesterol 160 160 161 163 167 170 172 172 173 177 Paciente 11 12 13 14 15 16 17 18 19 20 Colesterol 178 181 181 182 185 186 194 197 199 203 Paciente 21 22 23 24 25 26 27 28 29 30 Colesterol 203 205 206 206 208 209 211 214 218 225 a) Calcule a média, a moda e a variância a partir dos dados. b) Organize os dados em uma tabela de frequência com classes de tamanho de 10 a partir de 160. c) Refaça o item (a) usando a tabela de frequência obtida em (b). d) Comente as diferenças encontradas entre os valores das medidas calculadas em (a) e (c). 13. Seja o seguinte quadro da concentração de albumina (g%) e do hormônio do crescimento (mm/ml) no plasma de carneiros. Albumina 1.0 2.0 3.0 4.0 5.0 6.0 7.0 Hormônio 35.0 41.4 46.7 52.8 60.3 65.9 70.3 a) Faça um gráfico adequado para verificar se há uma relação linear entre a concentração de albumina e hormônio do crescimento. b) Quantifique o grau de associação linear entre essas duas variáveis? 14. Para famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de frequência das variáveis número de automóveis (A) e número de TVs (T). A \T 0 1 2 total 0 110 235 120 465 1 51 122 178 351 2 15 74 162 261 total 176 441 460 1077 a) Calcule as marginais de A e T. b) Determine as médias de A e T. 15. Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca relacionar as variáveis: anos de estudo (X) e número de diferentes emprego nos últimos 5 anos (Y ): X 8 9 10 11 12 Y 4 2 1 2 1 O que você pode dizer sobre os dados fornecidos? 3 Respostas 1. O histograma construído a partir da tabela fornecida no enunciado é apresentado abaixo. Notas Frequência Absoluta 0 2 4 6 8 10 0 5 10 15 20 25 30 Q1 Q3 17% 33% 32% 13% 5% Para obter box-plot precisamos de várias quantidades: mínimo = 0, máximo =10, Q1 = 2.50, Q2 = 4, Q3 = 5.56. 0 2 4 6 8 Como encontrar os valores de Q1, Q2 e Q3 a partir da tabela de frequências para dados agrupados em classes? i. Calcular as frequências relativas, as acumuladas e as relativas acumuladas; Nota Frequência Frequência Relativa Frequência Acumulada Frequência Relativa Acumulada [0; 2) 14 0.17 14 0.17 [2; 4) 28 0.33 42 0.5 [4; 6) 27 0.32 69 0.82 [6; 8) 11 0.13 80 0.95 [8; 10) 4 0.05 84 1 ii. Para calcular o quartil de interesse vamos usar a seguinte notação: • n é o número total de observações; 4 • Qi(i = 1, 2, 3) é o quartil que desejamos obter; • (i · n/4) é a posição na qual se encontra o quartil Qi; • l é o limite inferior da classe que contem Qi; • f é a frequência na classe que contem Qi; • h é a amplitude na classe que contem Qi; • Fant é a frequência acumulada até a classe anterior à que contem Qi. O quartil Qi é obtido aplicando-se a seguinte foŕmula: Qi = l + (i · n/4 − Fant) f · h Por exemplo, o quartil Q1 é o valor que deixa 25% das observações abaixo dele. Para os dados deste exercício, observando a coluna de frequências relativas acumuladas, notamos que 17% das observações estão abaixo de 2 e 50% das observações estão abaixo de 4, então Q1 é algum valor no intervalo [2; 4): Q1 = 2 + (1 · 84/4 − 14) 28 · (4 − 2) = 2.5 De modo similar para Q3 temos: Q3 = 4 + (3 · 84/4 − 42) 27 · (6 − 4) = 5.56 Derivando a fórmula acima: A equação genérica acima é obtida por meio de interpolação linear de Qi entre os limites inferior e superior da classe que contem Qi. Esta interpolação na prática implica na seguinte regra de três: (Qi − l) está para i/4 − (Fant/n) assim como h está para (F/n) − (Fant/n), em que F é a frequência acumulada até a classe que contem Qi. Fazendo algumas manipulações matemáticas obtemos a fórmula apresentada acima. (Qi − l) i/4 − (Fant/n) = h (F/n) − (Fant/n) = h (F − Fant)/n = h f/n = n · h f (Qi − l) = (i/4 − (Fant/n)) · n · h f = (i · n/4 − Fant) · h f Qi = l + (i · n/4 − Fant) · h f 2. Histograma construído com base nos dados agrupados em classes da tabela: Distância (km) Frequência Absoluta 0 5 10 15 20 0 100 200 300 400 Q1 Q2 Q3 55% 26% 16% 3% 1% 5 Classes Frequência Frequência Relativa Frequência Acumulada Frequência Relativa Acumulada [0; 4) 438 0.55 438 0.55 [4; 8) 205 0.26 643 0.8 [8; 12) 125 0.16 768 0.96 [12; 16) 22 0.03 790 0.99 [16; 20) 9 0.01 799 1 Para o box-plot use mínimo = 0, Q1 = 1.82; Q2 = 3.65; Q3 = 7.15; máximo = 20. Q1 = 0 + (1 · 799/4 − 0) 438 · (4 − 0) = 1.82 Q2 = 0 + (2 · 799/4 − 0) 438 · (4 − 0) = 3.65 Q3 = 4 + (3 · 799/4 − 438) 205 · (8 − 4) = 7.15 3. Q2 = 13.3 e Q3 = 14.4. 4. a) Medidas de centro Port Mat ¯y 22.15 25.05 md 23 25.5 mo c("12", "20", "23", "26", "35") c("20", "28") b) Medidas de dispersão Port Mat s2 80.13 23.84 s 8.95 4.88 CV 40.4 19.5 c) Medidas resumo Port Mat Min 8 13 Q1 13 21 Q2 23 25.5 Q3 30.5 28.5 Max 35 32 d) mat port 10 15 20 25 30 35 Disciplina Notas 6 e) (Exemplo de resposta) Em média, o número de acertos em matemática (¯ymat = 25.05) foi maior do que o número de acertos em português (¯yport = 22.15). A diferença entre os valores médios e a mediana mostra que existe uma leve assimetria negativa (ou à esquerda) para os dois casos (¯y < md), embora esta diferença seja mais pronuciada nas notas de português. A amplitude dos acertos em português foi de Aport = 35 − 8 = 27, maior do que a amplitude observada para o número de acertos em matemática, que foi de Amat = 32 − 13 = 19. A variabilidade dos acertos em torno da média também foi maior para as notas de português, com variância de s2 port = 80.13 e desvio-padrão de sport = 8.95. Já para a matemática, a variabilidade dos acertos em torno da média também foi menor, com s2 mat = 23.84 e desvio-padrão smat = 4.88. Resumindo estas informações sobre a variabilidade, nota-se que o coeficiente de variação para português foi de 40.4%, enquanto que para a matemática foi menor, com aproximadamente 19.5%. Através do resumo dos cinco múmeros e do gráfico de caixa, percebe-se que 50% dos acertos foram entre 13 e 30.5 em português (diferença entre Q1 e Q3), e entre 21 e 28.5 em matemática, mostrando novamente a menor variabilidade observada para a matemática. f) Use os resultados obtidos nos itens anteriores para formular sua resposta. 5. Este exercício é para possibilitar discussão entre os alunos sobre as várias formas de resumir a informação e portanto não existe uma resposta correta. a) O valor mediano deve ser suficiente em cerca de 50% dos meses. Se há meses com grande número de acidentes por questões sazonais como colheita ou enchentes, a média será afetada. É bom estar atento se a variabilidade dos dados não é grande. b) Para dimensionar a frota de ônibus podemos decidir do ponto de vista do usuário ou da empresa de ônibus. Do ponto de vista do usuário, pretende-se mais espaço sentado e ônibus não muito cheio; a empresa tentaria colocar o maior número de ônibus circulando. O número médio diário de passageiros nesse período pode ser dividido pelo número de assentos ou pela lotação total do ônibus dependendo de qual interesse pretende-se atender. c) A duração média é talvez a melhor medida a observar. Entretanto, se a moda for um valor alto (longa duração) pode ser útil utilizá-la como publicidade. d) Pode-se definir uma variável quantitativa indicando a proporção de quantos pedem frango (ou peixe) em cada voo. A moda dessa variável multiplicada pelo número total de passageiros no voo, poderia ser a quantidade de pratos colocados à disposição para tentar garantir o atendimento de todos os pedidos. 6. Tabela de frequência: TVs 0 1 2 3 total Freq. 2 10 10 3 25 ¯y = 1.56; md = 13o. termo em ordem crescente = 2; mo = 1 ou 2. 7. a) Com os dados brutos ¯y = 1.88; md = 1.8 (observação que ocupa a 8a. posição em ordem crescente); mo = 1.5. b) Tabela de frequência Ganho [1.5; 1.7) [1.7; 1.9) [1.9; 2.1) [2.1; 2.3) [2.3; 2.5] total Freq. 4 4 2 3 2 15 c) Com a tabela de frequência no item anterior e usando o ponto médio da faixa obtemos: ¯y = 1.933; md = 1.8 e mo = [1.5, 1.7); [1.7, 1.9). As diferenças entre as soluções de (a) e (c) não foram grandes nesse caso. A solução de (a) é mais exata. d) Os valores obtidos no item (a) possuem maior precisão, contudo, para um volume grande de dados, o cálculo fica muito trabalhoso para ser feito sem a ajuda de um computador. Notamos que a 7 organização em classes é conveniente e os valores encontrados nas duas formas de calcular não diferem muito. 8. As médias são similares. A mediana de FB é mais alta, o que é um fator positivo. Por outro lado, HW tem a menor mediana e, portanto, essa marca deve ser desconsiderada. Notemos que o desvio de FB é duas vezes e meia maior do que o de GA. Como GA tem mediana não muito baixa e pouca variabilidade, parece ser a melhor opção. Portanto, recomendamos comprar a marca GA. 9. Utilizando as expressões para dados não agrupados, temos: ¯y = 86.20; s2 = 18.18. 10. Tabela de frequência: Dias para cicatrização 5 6 7 8 9 10 11 total Freq. 1 4 6 5 5 3 1 25 Utilizando as expressões para dados não agrupados, temos: ¯y = 7.88; s2 = 2.36. 11. a) md = 5 e ¯y = 5.12 b) s2 aprov. = 1.05 > s2 reprov. = 0.19 mas CVaprov. = 17% e CVreprov. = 12% são próximos. 12. a) ¯y = 188.87; md = 185.5; mo = 160, 172, 181, 203 ou 206 e s2 = 369.29. b) Tabela de frequência: Colesterol [160; 170) [170; 180) [180; 190) [190; 200) [200; 210) [210; 220) [220; 230) total Freq. 5 6 5 3 7 3 1 30 c) Com a tabela de frequência no item anterior e usando o ponto médio da faixa obtemos: ¯y = 189.67; s2 = 311.56; md = 185 e mo = 205. d) Os valores obtidos no item (a) são mais precisos, entretanto, para um grande número de dados, o cálculo fica muito trabalhoso para ser feito sem o auxílio de um computador. Notamos que, mesmo a variável sendo quantitativa discreta, a organização em classes é conveniente e os valores encontrados nas duas formas de calcular não são muito diferentes. 13. a) Um gráfico adequado para visualizar a relação entre duas variáveis quantitativas é o diagrama de dispersão. Neste caso, há uma clara relação linear entre as duas variáveis. 8 _ pe *,sEstatistica - T - [Ensino Remoto Emergencial rR ° Lo Oo Oo 2 ° 2 5 iB 5 5 8 e} 9 S Oo 8 ° 1 2 3 4 5 6 7 Albumina b) Para o calculo do coeficiente de correlagao de Pearson precisamos de 5°; (yi; — 91) (Yai — Yo) = 168.5, (yi — 91)? = 28 e YD, (y2i — Y2)? = 1017. Assim o coeficiente é obtido por (yi — Y i-Yy 168.5 r= iY - I )(y2i — Y2) — — 0.9985 V diy — M1)? J (Yai — Ya)? 28/1017 que indica uma forte associacao positiva entre as varidveis. 14. a) As frequéncias marginais sao dadas pelas margens da tabela de dupla entrada. Portanto, temos: 0 465 0.43 0 176 (0.16 1 351 (0.33 1 441 0.41 2 261 0.24 2 460 0.43 total | 1077 1 total | 1077 1 b) a=0.81 et = 1.27. 15. Existe associagdo. Faga um grafico dos pares (X,Y) e calcule r = —0.775. 9
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
2
Lista de Exercícios Teste de Hipótes e Regressao Linear Simples-2022 1
Bioestatística
UFPR
2
Lista de Exercícios Estimação Pontual e Intervalar-2023 1
Bioestatística
UFPR
15
Lista Resolvida Bioestatistica-2023 1
Bioestatística
UFPR
26
Introdução ao Software Estatístico R
Bioestatística
UFRB
1
Lista - Regressão Linear Simples e Correlação 2021-2
Bioestatística
UFLA
2
Lista - Teste de Hipóteses 2021-2
Bioestatística
UFLA
19
Introdução ao Software Estatístico R - Parte 2
Bioestatística
UFRB
Texto de pré-visualização
Exercícios da Unidade 3 Estatística Descritiva II Os exercícios foram extraídos de seções do livro: Magalhães, MN; Lima, ACP. Noções de Probabilidade e Estatística. São Paulo: EDUSP, 2008. 1. Um grupo de 84 estudantes do ensino médio foi submetido a um teste de matemática resultando em: Nota Frequência [0; 2) 14 [2; 4) 28 [4; 6) 27 [6; 8) 11 [8; 10) 4 Obtenha o gráfico de caixa e bigodes (box-plot). 2. Alunos da Escola de Educação Física foram submetidos a um teste de resistência quanto ao número de quilômetros que conseguiram correr sem parar. Os dados estão apresentados a seguir. Classes Frequência [0; 4) 438 [4; 8) 205 [8; 12) 125 [12; 16) 22 [16; 20) 9 Obtenha o gráfico de caixa e bigodes (box-plot). 3. Foram feitas medidas em operários da construção civil a respeito da taxa de hemoglobina no sangue em gramas por centímetros cúbicos, apresentando os seguintes resultados: 11.1, 12.2, 11.7, 12.5, 13.9, 12.3, 14.4, 13.6, 12.7, 12.6, 11.3, 11.7, 12.6, 13.4, 15.2, 13.2, 13.0, 16.9, 15.8, 14.7, 13.5, 12.7, 12.3, 13.5, 15.4, 16.3, 15.2, 12.3, 13.7 e 14.1. Determine o terceiro quartil e a mediana. 4. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente do total de pontos. aluno 1 2 3 4 5 6 7 8 9 10 Português 35 35 34 32 31 30 26 26 24 23 Matemática 31 29 27 28 28 26 30 28 25 23 aluno 11 12 13 14 15 16 17 18 19 20 Português 23 12 11 20 17 12 14 20 8 10 Matemática 21 32 31 20 21 25 20 13 23 20 a) Calcule as medidas de centro: média, mediana e moda para cada grupo. b) Calcule as medidas de variabilidade: variância, desvio-padrão, e coeficiente de variação para cada grupo. c) Calcule o resumo dos cinco números (mínimo, Q1, Q2, Q3 e máximo) para cada grupo. d) Construa um gráfico de caixa e bigodes (box-plot) para cada grupo (em um mesmo gráfico para comparação). e) Com todos os resultados obtidos, descreva comparativamente estes dois grupos em termos de medidas de tendência central, variabilidade, amplitude e distribuição (simetria) dos dados. f) Você acha que os aprovados são melhores em português ou matemática? 5. Discuta quais medidas de posição seriam mais adequadas para os conjuntos de dados abaixo. Comente suas escolhas. a) Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja- se planejar a compra mensal de antídoto. b) O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação. c) Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta informação sobre a duração de 100 de suas baterias. d) Num voo internacional uma companhia serve dois tipos de pratos de jantar: peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos 200 voos. Pretende-se planejar o número de cada tipo a ser colocado à disposição dos passageiros. 6. Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes: 2, 2, 2, 3, 1, 2, 1, 1, 1, 1, 0, 1, 2, 2, 2, 2, 3, 1, 1, 3, 1, 2, 1, 0 e 2. Organize os dados numa tabela de frequências e determine as diversas medidas de posição. 7. Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em quilogramas) foram os seguintes: 1.5; 1.6; 2.3; 1.7; 1.5; 2.0; 1.5; 1.8; 2.1; 2.1; 1.9; 1.8; 1.7; 2.5 e 2.2. a) Utilizando os dados brutos, determine média, moda e mediana desse conjunto. b) Organize uma tabela de frequência com classes de amplitude 0.2 a partir de 1.5. c) Calcule, a partir da tabela de frequências e com o ponto médio como representante de cada classe, a média, a moda e a mediana. Comente as diferenças encontradas com o item (a). d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente: o do item (a) ou o de (c)? Ter acesso a computador faz diferença? 8. Você está indeciso em comprar uma televisão e decide avaliar algumas informações estatísticas fornecidas pelo fabricante, sobre a duração (em horas) do tubo de imagem. Marca da TV GA FB HW Média 8000 8200 8000 Mediana 8000 9000 7000 Desvio Padrão 600 1500 2500 Com que marca você ficaria? Justifique. 9. A pulsação de 10 estudantes no início de uma prova de estatística foram as seguintes (em batimentos por minuto): 80, 91, 84, 86, 93, 88, 80, 89, 85 e 86. Calcule a média e a variância desse conjunto de dados. 10. Estudando uma nova técnica de sutura, foram contados os dias necessários para a completa cicatrização de determinada cirurgia. Os resultados de 25 pacientes foram os seguintes: 6, 8, 9, 7, 8, 6, 6, 7, 8, 9, 10, 7, 8, 10, 9, 9, 9, 7, 6, 5, 7, 7, 8, 10 e 11. Organize os dados numa tabela de frequência e calcule a média e a variância. 2 11. As notas finais de estatística para alunos de um curso de Administração foram as seguintes: 7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5, 6, 4, 6, 6, 3, 8, 4, 5, 4, 5, 5 e 6. a) Determine a mediana e a média. b) Separe o conjunto de dados em dois grupos denominados aprovados, com nota maior ou igual a 5, e reprovados para os demais. Compare a variância desses dois grupos. 12. Foram anotados os níveis de colesterol (em mg/100ml) par trinta pacientes de uma clínica cardíaca. As medidas se referem a homens entre 40 e 60 anos de idade que foram à clínica fazer um check-up. Paciente 1 2 3 4 5 6 7 8 9 10 Colesterol 160 160 161 163 167 170 172 172 173 177 Paciente 11 12 13 14 15 16 17 18 19 20 Colesterol 178 181 181 182 185 186 194 197 199 203 Paciente 21 22 23 24 25 26 27 28 29 30 Colesterol 203 205 206 206 208 209 211 214 218 225 a) Calcule a média, a moda e a variância a partir dos dados. b) Organize os dados em uma tabela de frequência com classes de tamanho de 10 a partir de 160. c) Refaça o item (a) usando a tabela de frequência obtida em (b). d) Comente as diferenças encontradas entre os valores das medidas calculadas em (a) e (c). 13. Seja o seguinte quadro da concentração de albumina (g%) e do hormônio do crescimento (mm/ml) no plasma de carneiros. Albumina 1.0 2.0 3.0 4.0 5.0 6.0 7.0 Hormônio 35.0 41.4 46.7 52.8 60.3 65.9 70.3 a) Faça um gráfico adequado para verificar se há uma relação linear entre a concentração de albumina e hormônio do crescimento. b) Quantifique o grau de associação linear entre essas duas variáveis? 14. Para famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de frequência das variáveis número de automóveis (A) e número de TVs (T). A \T 0 1 2 total 0 110 235 120 465 1 51 122 178 351 2 15 74 162 261 total 176 441 460 1077 a) Calcule as marginais de A e T. b) Determine as médias de A e T. 15. Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca relacionar as variáveis: anos de estudo (X) e número de diferentes emprego nos últimos 5 anos (Y ): X 8 9 10 11 12 Y 4 2 1 2 1 O que você pode dizer sobre os dados fornecidos? 3 Respostas 1. O histograma construído a partir da tabela fornecida no enunciado é apresentado abaixo. Notas Frequência Absoluta 0 2 4 6 8 10 0 5 10 15 20 25 30 Q1 Q3 17% 33% 32% 13% 5% Para obter box-plot precisamos de várias quantidades: mínimo = 0, máximo =10, Q1 = 2.50, Q2 = 4, Q3 = 5.56. 0 2 4 6 8 Como encontrar os valores de Q1, Q2 e Q3 a partir da tabela de frequências para dados agrupados em classes? i. Calcular as frequências relativas, as acumuladas e as relativas acumuladas; Nota Frequência Frequência Relativa Frequência Acumulada Frequência Relativa Acumulada [0; 2) 14 0.17 14 0.17 [2; 4) 28 0.33 42 0.5 [4; 6) 27 0.32 69 0.82 [6; 8) 11 0.13 80 0.95 [8; 10) 4 0.05 84 1 ii. Para calcular o quartil de interesse vamos usar a seguinte notação: • n é o número total de observações; 4 • Qi(i = 1, 2, 3) é o quartil que desejamos obter; • (i · n/4) é a posição na qual se encontra o quartil Qi; • l é o limite inferior da classe que contem Qi; • f é a frequência na classe que contem Qi; • h é a amplitude na classe que contem Qi; • Fant é a frequência acumulada até a classe anterior à que contem Qi. O quartil Qi é obtido aplicando-se a seguinte foŕmula: Qi = l + (i · n/4 − Fant) f · h Por exemplo, o quartil Q1 é o valor que deixa 25% das observações abaixo dele. Para os dados deste exercício, observando a coluna de frequências relativas acumuladas, notamos que 17% das observações estão abaixo de 2 e 50% das observações estão abaixo de 4, então Q1 é algum valor no intervalo [2; 4): Q1 = 2 + (1 · 84/4 − 14) 28 · (4 − 2) = 2.5 De modo similar para Q3 temos: Q3 = 4 + (3 · 84/4 − 42) 27 · (6 − 4) = 5.56 Derivando a fórmula acima: A equação genérica acima é obtida por meio de interpolação linear de Qi entre os limites inferior e superior da classe que contem Qi. Esta interpolação na prática implica na seguinte regra de três: (Qi − l) está para i/4 − (Fant/n) assim como h está para (F/n) − (Fant/n), em que F é a frequência acumulada até a classe que contem Qi. Fazendo algumas manipulações matemáticas obtemos a fórmula apresentada acima. (Qi − l) i/4 − (Fant/n) = h (F/n) − (Fant/n) = h (F − Fant)/n = h f/n = n · h f (Qi − l) = (i/4 − (Fant/n)) · n · h f = (i · n/4 − Fant) · h f Qi = l + (i · n/4 − Fant) · h f 2. Histograma construído com base nos dados agrupados em classes da tabela: Distância (km) Frequência Absoluta 0 5 10 15 20 0 100 200 300 400 Q1 Q2 Q3 55% 26% 16% 3% 1% 5 Classes Frequência Frequência Relativa Frequência Acumulada Frequência Relativa Acumulada [0; 4) 438 0.55 438 0.55 [4; 8) 205 0.26 643 0.8 [8; 12) 125 0.16 768 0.96 [12; 16) 22 0.03 790 0.99 [16; 20) 9 0.01 799 1 Para o box-plot use mínimo = 0, Q1 = 1.82; Q2 = 3.65; Q3 = 7.15; máximo = 20. Q1 = 0 + (1 · 799/4 − 0) 438 · (4 − 0) = 1.82 Q2 = 0 + (2 · 799/4 − 0) 438 · (4 − 0) = 3.65 Q3 = 4 + (3 · 799/4 − 438) 205 · (8 − 4) = 7.15 3. Q2 = 13.3 e Q3 = 14.4. 4. a) Medidas de centro Port Mat ¯y 22.15 25.05 md 23 25.5 mo c("12", "20", "23", "26", "35") c("20", "28") b) Medidas de dispersão Port Mat s2 80.13 23.84 s 8.95 4.88 CV 40.4 19.5 c) Medidas resumo Port Mat Min 8 13 Q1 13 21 Q2 23 25.5 Q3 30.5 28.5 Max 35 32 d) mat port 10 15 20 25 30 35 Disciplina Notas 6 e) (Exemplo de resposta) Em média, o número de acertos em matemática (¯ymat = 25.05) foi maior do que o número de acertos em português (¯yport = 22.15). A diferença entre os valores médios e a mediana mostra que existe uma leve assimetria negativa (ou à esquerda) para os dois casos (¯y < md), embora esta diferença seja mais pronuciada nas notas de português. A amplitude dos acertos em português foi de Aport = 35 − 8 = 27, maior do que a amplitude observada para o número de acertos em matemática, que foi de Amat = 32 − 13 = 19. A variabilidade dos acertos em torno da média também foi maior para as notas de português, com variância de s2 port = 80.13 e desvio-padrão de sport = 8.95. Já para a matemática, a variabilidade dos acertos em torno da média também foi menor, com s2 mat = 23.84 e desvio-padrão smat = 4.88. Resumindo estas informações sobre a variabilidade, nota-se que o coeficiente de variação para português foi de 40.4%, enquanto que para a matemática foi menor, com aproximadamente 19.5%. Através do resumo dos cinco múmeros e do gráfico de caixa, percebe-se que 50% dos acertos foram entre 13 e 30.5 em português (diferença entre Q1 e Q3), e entre 21 e 28.5 em matemática, mostrando novamente a menor variabilidade observada para a matemática. f) Use os resultados obtidos nos itens anteriores para formular sua resposta. 5. Este exercício é para possibilitar discussão entre os alunos sobre as várias formas de resumir a informação e portanto não existe uma resposta correta. a) O valor mediano deve ser suficiente em cerca de 50% dos meses. Se há meses com grande número de acidentes por questões sazonais como colheita ou enchentes, a média será afetada. É bom estar atento se a variabilidade dos dados não é grande. b) Para dimensionar a frota de ônibus podemos decidir do ponto de vista do usuário ou da empresa de ônibus. Do ponto de vista do usuário, pretende-se mais espaço sentado e ônibus não muito cheio; a empresa tentaria colocar o maior número de ônibus circulando. O número médio diário de passageiros nesse período pode ser dividido pelo número de assentos ou pela lotação total do ônibus dependendo de qual interesse pretende-se atender. c) A duração média é talvez a melhor medida a observar. Entretanto, se a moda for um valor alto (longa duração) pode ser útil utilizá-la como publicidade. d) Pode-se definir uma variável quantitativa indicando a proporção de quantos pedem frango (ou peixe) em cada voo. A moda dessa variável multiplicada pelo número total de passageiros no voo, poderia ser a quantidade de pratos colocados à disposição para tentar garantir o atendimento de todos os pedidos. 6. Tabela de frequência: TVs 0 1 2 3 total Freq. 2 10 10 3 25 ¯y = 1.56; md = 13o. termo em ordem crescente = 2; mo = 1 ou 2. 7. a) Com os dados brutos ¯y = 1.88; md = 1.8 (observação que ocupa a 8a. posição em ordem crescente); mo = 1.5. b) Tabela de frequência Ganho [1.5; 1.7) [1.7; 1.9) [1.9; 2.1) [2.1; 2.3) [2.3; 2.5] total Freq. 4 4 2 3 2 15 c) Com a tabela de frequência no item anterior e usando o ponto médio da faixa obtemos: ¯y = 1.933; md = 1.8 e mo = [1.5, 1.7); [1.7, 1.9). As diferenças entre as soluções de (a) e (c) não foram grandes nesse caso. A solução de (a) é mais exata. d) Os valores obtidos no item (a) possuem maior precisão, contudo, para um volume grande de dados, o cálculo fica muito trabalhoso para ser feito sem a ajuda de um computador. Notamos que a 7 organização em classes é conveniente e os valores encontrados nas duas formas de calcular não diferem muito. 8. As médias são similares. A mediana de FB é mais alta, o que é um fator positivo. Por outro lado, HW tem a menor mediana e, portanto, essa marca deve ser desconsiderada. Notemos que o desvio de FB é duas vezes e meia maior do que o de GA. Como GA tem mediana não muito baixa e pouca variabilidade, parece ser a melhor opção. Portanto, recomendamos comprar a marca GA. 9. Utilizando as expressões para dados não agrupados, temos: ¯y = 86.20; s2 = 18.18. 10. Tabela de frequência: Dias para cicatrização 5 6 7 8 9 10 11 total Freq. 1 4 6 5 5 3 1 25 Utilizando as expressões para dados não agrupados, temos: ¯y = 7.88; s2 = 2.36. 11. a) md = 5 e ¯y = 5.12 b) s2 aprov. = 1.05 > s2 reprov. = 0.19 mas CVaprov. = 17% e CVreprov. = 12% são próximos. 12. a) ¯y = 188.87; md = 185.5; mo = 160, 172, 181, 203 ou 206 e s2 = 369.29. b) Tabela de frequência: Colesterol [160; 170) [170; 180) [180; 190) [190; 200) [200; 210) [210; 220) [220; 230) total Freq. 5 6 5 3 7 3 1 30 c) Com a tabela de frequência no item anterior e usando o ponto médio da faixa obtemos: ¯y = 189.67; s2 = 311.56; md = 185 e mo = 205. d) Os valores obtidos no item (a) são mais precisos, entretanto, para um grande número de dados, o cálculo fica muito trabalhoso para ser feito sem o auxílio de um computador. Notamos que, mesmo a variável sendo quantitativa discreta, a organização em classes é conveniente e os valores encontrados nas duas formas de calcular não são muito diferentes. 13. a) Um gráfico adequado para visualizar a relação entre duas variáveis quantitativas é o diagrama de dispersão. Neste caso, há uma clara relação linear entre as duas variáveis. 8 _ pe *,sEstatistica - T - [Ensino Remoto Emergencial rR ° Lo Oo Oo 2 ° 2 5 iB 5 5 8 e} 9 S Oo 8 ° 1 2 3 4 5 6 7 Albumina b) Para o calculo do coeficiente de correlagao de Pearson precisamos de 5°; (yi; — 91) (Yai — Yo) = 168.5, (yi — 91)? = 28 e YD, (y2i — Y2)? = 1017. Assim o coeficiente é obtido por (yi — Y i-Yy 168.5 r= iY - I )(y2i — Y2) — — 0.9985 V diy — M1)? J (Yai — Ya)? 28/1017 que indica uma forte associacao positiva entre as varidveis. 14. a) As frequéncias marginais sao dadas pelas margens da tabela de dupla entrada. Portanto, temos: 0 465 0.43 0 176 (0.16 1 351 (0.33 1 441 0.41 2 261 0.24 2 460 0.43 total | 1077 1 total | 1077 1 b) a=0.81 et = 1.27. 15. Existe associagdo. Faga um grafico dos pares (X,Y) e calcule r = —0.775. 9