·
Sistemas de Informação ·
Introdução à Estatística
Envie sua pergunta para a IA e receba a resposta na hora

Prefere sua atividade resolvida por um tutor especialista?
- Receba resolvida até o seu prazo
- Converse com o tutor pelo chat
- Garantia de 7 dias contra erros
Recomendado para você
16
Atividade 3 - Introd à Estat 2022 1
Introdução à Estatística
USP
11
Atividade 2 - Introd à Estat 2022 1
Introdução à Estatística
USP
11
Atividade 4 - Introd à Estat 2022-1
Introdução à Estatística
USP
9
Lista 7 - Introdução à Estatística - 2023-1
Introdução à Estatística
USP
11
Atividade 4 - Introd à Estat 2022 1
Introdução à Estatística
USP
11
Atividade 1 - Introd à Estat 2022-1
Introdução à Estatística
USP
4
Lista 6 - Intervalo de Confiança - Introdução à Estatística - 2023-1
Introdução à Estatística
USP
11
Atividade 2 - Introd à Estat 2022-1
Introdução à Estatística
USP
2
Lista - Introd à Estat 2022-1
Introdução à Estatística
USP
9
Lista 7 - Introdução à Estatística - 2023-1
Introdução à Estatística
USP
Texto de pré-visualização
SME 0320: ESTATISTICA DESCRITIVA - 5% Lista de Exercicios Exercicio 1. Mostre que: Calcule as medidas descritivas: minimo, mdézimo, quartis, medi- n _ ana, média, amplitude, desvio médio, variancia, desvio padrdao e (a) SOX —X)=0 coeficiente de variagao. i=l n 2 Exercicio 8. Os dados a seguir representam a duragao da vida (>: x:) util, em anos, medidos do décimo mais préximo, de 30 bombas de n n n y)2 2 2 2 i=1 combustivel: (b) (Xi ~X) = * ~ nx = 2% a 2,0 3,0 03 3,3 1,3 04 02 60 5,5 65 i=l i=l i=l ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ 0,2 2,3 1,0 60 56 1,5 40 59 18 4,7 Exercicio 2. O que acontece com a média, com a varidncia e 0,7 45 03 1,5 0,5 2.5 50 60 1,2 02 com o desvio padrao de um conjunto de dados quando: (a) Construa um histograma para a vida, em anos, das bom- (a) Cada observagaéo é multiplicada por 2. bas de combustivel. Interprete os resultados. (b) Soma-se 10 a cada observagéo. (b) Estabeleca a distribuigéo de frequéncia relativas, acumu- (c) Subtrai-se a média geral de cada observagao. lada e acumulada relativa. (d) De cada observacgao, subtrai-se a média geral e divide-se (c) Calcule a média, a amplitude e o desvio padrao amostrais. pelo desvio padrdao. a. : Exercicio 9. Os dados a seguir correspondem aos recordes de Exercicio 3. A tabela abaizo representa a distribuigao do grau atletas em 10 paises nas Olimpiadas de Los Angeles em 1984 em de instrucao dos funciondrios de uma empresa. algumas provas de atletismo. de Instruga eran eons —— % TABELA 1. Mulheres un bamenta 40 Pats 100m (seg) 400m (seg) 3000m (min) Maratona (min) Médio Incompleto | 10 Argentina 11,61 54,50 9,79 178,52 Médio Completo 25 Brasil 11,31 52,80 9,77 168,75 9 . 1 Chile 12,00 54,90 9,37 171,38 uperior 7 Colémbia 11,60 53,26 9,46 165,42 P6s-gradua¢gao 8 Alemanha 11,01 48,16 8,75 148,53 Franca 11,15 51,73 8,98 155,27 Total 100 Portugal 11,81 54,30 8,84 151,20 (a) Construa um grafico de barras (também conhecido como naa tao 2008 an 48 grafico de colunas) e o grafico de setores da distribuigao Kenya 11,73 52,70 9,20 161 05 do grau de instrucao. (b) Sabendo que a empresa tem 200 funciondrios, quantos tém TABELA 2. Homens pos-graduacao? Pats 100m (seg) 400m (seg) 3000m (min) Maratona (min) : A ta 10,39 6,8. 14,0. 137,72 (c) No grafico de setores, quantos graus haveria o setor que Beal me 10,22 te 04 12 bo 133,13 representa cada categoria de grau de instrugdo? Chile 10,34 46,20 13,61 134,03 Colémbia 10,43 46,10 13,49 131,35 Exercicio 4. Uma industria de componentes eletrénicos esta in- dlemanha a ee ney 135 a0 teressada em determinar a vida util de certo tipo de bateria. Uma Portugal 10,53 46 70 re 128.65 amostra, em horas, segue abaixo: Canadé 10,17 45,68 13,55 131,15 USA 9,93 43,86 13,20 128,22 123, 116, 122, 110, 175, 126, 125, 111, 118, 117. Kenya 10,46 44,92 13,10 129,75 (a) Encontre a média e a mediana amostrais. (b) Qual caracteristica nessa amostra é responsdvel pela con- (a) Separadamente por género e modalidade, faga uma andlise sideravel diferenga entre as duas? descritiva dos recordes. Exercicio 5. Foram registradas as seguintes medidas para 0 tempo (b) Airavés de grdficos do tipo boxplot, faca uma comparacdo de secagem, em horas, de certa marca de tinta ldtex: entre os sexos nas quatro modalidades. Em qual delas, ha ’ ’ . . . 2 34 2,5 48 2,9 3,6 2,8 3,3 5,6 3,7 2,8 44 40 5,2 3,0 48 maior diferenca entre homens e mulheres! Suponha que as medidas sejam uma amostra aleatéria simples. Exercicio 10. Calcule a média, a mediana e a variancia amostrais (a) Qual é 0 tamanho da amostra acima? aproximadas para o conjunto de dados com a seguinte distribuigao (b) Calcule a média, a mediana, a variancia, o desvio padrao e de frequéncia e construa seu histograma. o primeiro e 0 terceiro quartis amostrais para este conjunto de dados. Intervalo de classe Frequéncia (c) Faca um histograma desses dados. Interprete. ci fi —10+0 3 Exercicio 6. Um estudo dos efeitos do tabagismo nos padroes de 010 8 sono é conduzido. A medida observada é 0 tempo, em minutos, 10 k 20 12 que se leva para dormir. Os dados obtidos sao: 20 + 30 16 Fumantes: 69,3 56,0 22,1 47,6 53,2 48,1 52,7 34,4 60,2 43,8 23,2 13,8 30 k 40 9 Nao-fumantes: 28,6 25,1 26,4 34,9 29,8 28,4 38,5 30,2 30,6 31,8 41,6 40+ 50 4 21,1 36,0 37,9 13,9 50 60 2 (a) Encontre a média amostral em cada grupo. (b) Encontre o desvio-padraéo amostral em cada grupo. 7 . . Exercicio 11. Para se estudar o desempenho de 4 corretoras (c) Encontre o coeficiente de variagéo amostral em cada grupo. ~ . . (d) Construa boxplots dos dois conjuntos de dados, na mesma de agées, selecionaram-se de cada uma delas amostras de agdes escala negociadas. Para cada agdo negociada, computou-se a porcentagem (e) Comente o tempo de impacto que o fumo aparenta ter no de lucro durante um pertodo fixado de tempo. Os dados estado a tempo que se leva para dormir. seguir: Corretora A: 21 48 42 87 38 25 29 82 83 383 Exercicio 7. A espessura (mm) de 9 parafusos foi mensurada e Corretora B: 12 42 32 28 26 26 16 18 35 os dados obtidos foram: 2,8; 4,2; 5,5; 3,0; 4,1; 3,9; 2,7; 4,2 e 2,9. Corretora C: 58 32 46 45 50 52 56 56 87 Corretora D: 42 44 22 32 24 37 37 32 31 28 Existe diferen¸ca entre as corretoras com rela¸c˜ao `a porcentagem de lucro durante o per´ıodo estudado? Exerc´ıcio 12. Um experimento foi delineado para determinar o efeito da taxa de fluxo de C2F6 sobre a uniformidade na queima de chapas de silicone usadas na integra¸c˜ao de um circuito de ma- nufatura. Trˆes taxas de fluxo s˜ao utilizadas no experimento e os resultados da uniformidade (em %) de seis chapas avaliadas s˜ao: C2F6 Uniformidade 125 3,6 3,8 3,8 4,2 4,5 4,6 160 3,6 4,2 4,2 4,6 4,9 5,0 200 5,1 5,4 5,6 5,7 6,2 6,5 Vocˆe acredita que a uniformidade na queima de chapas de silicone ´e a mesma para as diferentes taxas de fluxo de C2F6? Justifique. Exerc´ıcio 13. Na companhia A, a m´edia dos sal´arios ´e de R$ 10.000,00 e o 3oquartil ´e R$ 5.000,00. (a) Se vocˆe se apresentasse como candidato a essa firma e se o seu sal´ario fosse escolhido ao acaso entre todos os poss´ıveis sal´arios, o que seria mais prov´avel: ganhar mais ou menos do que R$ 5.000,00? (b) Suponha que na companhia B a m´edia dos sal´ario ´e de R$ 7.000,00 e a variˆancia ´e praticamente zero e que, l´a, o seu sal´ario tamb´em fosse escolhido ao acaso. Em qual companhia vocˆe se apresentaria para arrumar emprego? Exerc´ıcio 14. Para estudar o efeito da condi¸c˜ao do solo no cres- cimento de uma planta, amostras provenientes de 3 tipos de solo e seus crescimentos s˜ao classificados em 3 categorias. Calcule as freq¨uˆencias relativas e compare a qualidade do crescimento para diferentes tipos de solo. Crescimento Tipo de solo Com pedregulho Com areia Argila Fraco 16 8 14 M´edio 31 16 21 Bom 18 36 25 Total 65 60 60 Exerc´ıcio 15. Uma industria utiliza um determinado reagente qu´ımico (X) para obter uma dada substˆancia (Y ). Foram realiza- dos 5 experimentos e as quantidades do reagente e da substˆancia em cada um deles s˜ao as seguintes: 1 2 3 4 5 Reagente (mg) 6,0 5,5 5,0 7,5 12,5 Substˆancia (mg) 2,0 3,0 3,5 4,0 5,0 (a) Construa o gr´afico de dispers˜ao entre as vari´aveis X e Y . (b) Determine o coeficiente de correla¸c˜ao de Pearson entre X e Y . (c) A quantidade de reagente utilizada est´a relacionada com a quantidade de substˆancia produzida? De que forma? Jus- tifique. (d) Se um outro reagente Z for utilizado para a obten¸c˜ao da mesma substˆancia (Y ), e se o seu coeficiente de correla¸c˜ao de Pearson com a substˆancia for ryz = 1, como seria o gr´afico de dispers˜ao entre X e Y ? Exerc´ıcio 16. Muitas vezes, a determina¸c˜ao da capacidade de produ¸c˜ao instalada para certo tipo de ind´ustria ´e um processo dif´ıcil e custoso. Como alternativa, pode-se estimar a capacidade de produ¸c˜ao atrav´es da escolha de uma outra vari´avel de medida mais f´acil e que esteja linearmente relacionada com ela. Suponha que foram observados os valores para as vari´aveis: capacidade de produ¸c˜ao instalada (X), potˆencia instalada (Y ) e ´area constru´ıda (Z). Com base num crit´erio estat´ıstico, qual das vari´aveis vocˆe escolheria para estimar a capacidade de produ¸c˜ao instalada? X: cap. produ¸c˜ao instalada (ton.) 4 5 3 5 8 9 10 11 12 12 Y : Potˆencia instalada (1000 kW) 1 2 1 3 3 5 5 7 6 7 Z: ´Area constru´ıda (100 m) 6 7 10 11 11 9 12 12 11 14 Pedro Quarto e R Utilizaremos o software R para resolução dos exercícios, e através do Quarto iremos fazer essa resolução Importanto os pacotes necessários library(readxl) library(tidyverse) library(DT) library(knitr) library(ggpubr) library(samplingbook) library(fBasics) library(summarytools) library(epiDisplay) Agora vamos as resoluções dos exercícios e 5 a 9. Exercício 5 Vamos armazenar as seguintes medidas para o tempode secagem, em horas temposecagem=c(3.4,2.5,4.8,2.9,3.6,2.8,3.3,5.6,3.7,2.8,4.4,4.0,5.2,3.0,4.8) 1 letra a length(temposecagem) [1] 15 letra b As medidas de dispersão e tendência central pedidas são: mean(temposecagem) [1] 3.786667 median(temposecagem) [1] 3.6 sd(temposecagem) [1] 0.9709102 var(temposecagem) [1] 0.9426667 quantile(temposecagem,probs=c(0.25,0.75)) 25% 75% 2.95 4.60 letra c Histograma: 2 hist(temposecagem,main = ("Histograma tempo de secagem, em horas, de certa marca de tinta látex")) Histograma tempo de secagem, em horas, de certa marca de tinta látex temposecagem Frequency 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 0 1 2 3 4 5 Interpretamos que a taxa de secagem se concentra mais em horas menores. Exercício 6 Dados fumantes fum=c(69.3,56.0,22.1,47.6,53.2,48.1,52.7,34.4,60.2,43.8,23.2,13.8) nfum=c(28.6,25.1,26.4,34.9,29.8,28.4,38.5,30.2,30.6,31.8,41.6,21.1,36.0,37.9,13.9) letra a Media cada grupo: mean(fum) [1] 43.7 3 mean(nfum) [1] 30.32 letra b Desvio padrão: sd(fum) [1] 16.92776 sd(nfum) [1] 7.127833 letra c Coeficiente variação em %: sd(fum)/mean(fum)*100 [1] 38.7363 sd(nfum)/mean(nfum)*100 [1] 23.50868 4 letra d Boxplot ambos os dados boxplot(fum,nfum,names=c("fumantes","Não-fumantes"), col = c("orange","red"),main = "Comparação Fumantes x Não-fumantes") fumantes Não−fumantes 20 40 60 Comparação Fumantes x Não−fumantes letra e Segundo os dados, o tempo, em minutos, para fumantes são maiores, esmo tendo uma maior dispersão, indica que os fumantes levam mais tempo para dormir Exercício 7 Dados espessura(mm) de 9 parafussos par=c(2.8, 4.2, 5.5, 3.0, 4.1, 3.9,2.7, 4.2,2.9) 5 Dados descritivos solicitados Usamos rbind para unir as medidas em um data frane e depois renomeamos a coluna e plotamos a tabela para melhor visualização. descritiva = rbind(Média = mean(par), Mediana = median(par), Máximo=max(par), Mínimo=min(par), Q1=quantile(par,0.25)[[1]], Q2=quantile(par,0.5)[[1]], Q3=quantile(par,0.75)[[1]], Q4=quantile(par,1)[[1]], Amplitude=max(par)-min(par), Variância=var(par), "Desvio-padrão"=sd(par), "CV(%)"=sd(par)/mean(par)) colnames(descritiva) = 'Estatísticas' knitr::kable(descritiva) Estatísticas Média 3.7000000 Mediana 3.9000000 Máximo 5.5000000 Mínimo 2.7000000 Q1 2.9000000 Q2 3.9000000 Q3 4.2000000 Q4 5.5000000 Amplitude 2.8000000 Variância 0.8600000 Desvio-padrão 0.9273618 CV(%) 0.2506383 6 Exercício 8 Dados duração da vida útil, em anos, medidos do décimo mais próximo, de 30 bombas de combustível bombas=c(2.0,3.0,0.3,3.3,1.3,0.4,0.2,6.0,5.5,6.5,0.2,2.3,1.0,6.0,5.6,1.5,4.0,5.9,1.8,4.7,0.7,4.5,0.3,1.5,0.5,2.5,5.0,6.0,1.2,0.2) letra a hist(bombas, main="Vida, em anos, das bombas de combustível") Vida, em anos, das bombas de combustível bombas Frequency 0 1 2 3 4 5 6 7 0 2 4 6 8 Segundo o histograma, interpretamos que a vida das bombas, em anos, está bem disperso e variando, mas se concentrando mais entre 0-2 anos e 5-6 anos. letra b Utilizamos uma função para realizar a tabela de frequência pronta: knitr::kable(freq(bombas, report.nas = FALSE, totals = FALSE, booktabs = FALSE)) 7 Freq % Valid % Valid Cum. % Total % Total Cum. 0.2 3 10.000000 10.00000 10.000000 10.00000 0.3 2 6.666667 16.66667 6.666667 16.66667 0.4 1 3.333333 20.00000 3.333333 20.00000 0.5 1 3.333333 23.33333 3.333333 23.33333 0.7 1 3.333333 26.66667 3.333333 26.66667 1 1 3.333333 30.00000 3.333333 30.00000 1.2 1 3.333333 33.33333 3.333333 33.33333 1.3 1 3.333333 36.66667 3.333333 36.66667 1.5 2 6.666667 43.33333 6.666667 43.33333 1.8 1 3.333333 46.66667 3.333333 46.66667 2 1 3.333333 50.00000 3.333333 50.00000 2.3 1 3.333333 53.33333 3.333333 53.33333 2.5 1 3.333333 56.66667 3.333333 56.66667 3 1 3.333333 60.00000 3.333333 60.00000 3.3 1 3.333333 63.33333 3.333333 63.33333 4 1 3.333333 66.66667 3.333333 66.66667 4.5 1 3.333333 70.00000 3.333333 70.00000 4.7 1 3.333333 73.33333 3.333333 73.33333 5 1 3.333333 76.66667 3.333333 76.66667 5.5 1 3.333333 80.00000 3.333333 80.00000 5.6 1 3.333333 83.33333 3.333333 83.33333 5.9 1 3.333333 86.66667 3.333333 86.66667 6 3 10.000000 96.66667 10.000000 96.66667 6.5 1 3.333333 100.00000 3.333333 100.00000 0 NA NA 0.000000 100.00000 Total 30 100.000000 100.00000 100.000000 100.00000 letra c mean(bombas) [1] 2.796667 max(bombas)-min(bombas) [1] 6.3 8 sd(bombas) [1] 2.227335 Exercício 9 Primeiramente vamos recolher os dados, colocamos o arquivo em excel, importaremos como Dataframes. H=read_excel("ex9.xlsx",range = "B1:E11",sheet=2) M=read_excel("ex9.xlsx",range = "B1:E11",sheet=1) H=H %>% mutate_all(as.numeric) M=M %>% mutate_all(as.numeric) letra a Agora vamos calcular as estatísticas descritivas por gênero knitr::kable(descr(M,stats = "common",headings=FALSE),caption = "Mulheres") Table 3: Mulheres 100m (seg) 3000m (min) 400m (seg) Maratona (min) Mean 11.401000 9.1470000 52.303000 161.23400 Std.Dev 0.404954 0.4427201 2.166308 13.52582 Min 10.790000 8.5000000 48.160000 142.72000 Median 11.455000 9.0900000 52.750000 160.34500 Max 12.000000 9.7900000 54.900000 181.05000 N.Valid 10.000000 10.0000000 10.000000 10.00000 Pct.Valid 100.000000 100.0000000 100.000000 100.00000 knitr::kable(descr(H,stats = "common",headings=FALSE),caption = "Homens") Table 4: Homens 100m (seg) 3000m (min) 400m (seg) Maratona (min) Mean 10.274000 13.4290000 45.5290000 131.85300 9 100m (seg) 3000m (min) 400m (seg) Maratona (min) Std.Dev 0.186857 0.2919075 0.9584762 2.78411 Min 9.930000 13.1000000 43.8600000 128.22000 Median 10.280000 13.4150000 45.4800000 131.79000 Max 10.530000 14.0400000 46.8400000 137.72000 N.Valid 10.000000 10.0000000 10.0000000 10.00000 Pct.Valid 100.000000 100.0000000 100.0000000 100.00000 Analisando os dados descritivos,temos que as mulheres no geral um pouca dispersão da prova de 100m, tendo completado em média por aproximadamente 11 segundos, em 400m, em média 52 segundos, variando de 48 a 52, na prova de 3000m teve um média de 9 minutos, sendo que o melhor tempo foi 8.5 minutos, já para maratona, a média foi de 161 minutos (aproximada- mente 2 horas e meia), seu pior tempo foi 3 horas. Já para os homens, a média de prova de 100m foi 10s segundo, tendo uma dispersão baixissima, para prova de 400m, o melhor tempo foi aproximadamente 48 segundos, na prova de 3000m a média foi de aproximadamente 13 minutos e meio (sendo bem maior que a feminina), para maratona, a média foi 132 minutos, aproximadamente 2 horas, tendo um aproveitamente melhor que as mulheres. letra b Vamos plotar os Boxplots comparando provas entre Homens e Mulheres, para verificar a maior diferença: boxplot(H$`100m (seg)`,M$`100m (seg)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - 100m(seg)") 10 Homens Mulheres 10.0 11.0 12.0 Comparação Entre Sexo − 100m(seg) boxplot(H$`400m (seg)`,M$`400m (seg)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - 400m(seg)") Homens Mulheres 44 48 52 Comparação Entre Sexo − 400m(seg) 11 boxplot(H$`3000m (min)`,M$`3000m (min)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - 3000m(min)") Homens Mulheres 9 11 13 Comparação Entre Sexo − 3000m(min) boxplot(H$`Maratona (min)`,M$`Maratona (min)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - Maratona(min)") 12 Homens Mulheres 130 150 170 Comparação Entre Sexo − Maratona(min) Verificamos que a maior diferença é sobre a prova de 3000M(em minutos), onde a performance das mulheres foram muito superior a dos homens, tendo até mesmo seu pior tempo de prova, superior ao melhor tempo dos homens, sendo assim, muito mais eficiente. 13
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
16
Atividade 3 - Introd à Estat 2022 1
Introdução à Estatística
USP
11
Atividade 2 - Introd à Estat 2022 1
Introdução à Estatística
USP
11
Atividade 4 - Introd à Estat 2022-1
Introdução à Estatística
USP
9
Lista 7 - Introdução à Estatística - 2023-1
Introdução à Estatística
USP
11
Atividade 4 - Introd à Estat 2022 1
Introdução à Estatística
USP
11
Atividade 1 - Introd à Estat 2022-1
Introdução à Estatística
USP
4
Lista 6 - Intervalo de Confiança - Introdução à Estatística - 2023-1
Introdução à Estatística
USP
11
Atividade 2 - Introd à Estat 2022-1
Introdução à Estatística
USP
2
Lista - Introd à Estat 2022-1
Introdução à Estatística
USP
9
Lista 7 - Introdução à Estatística - 2023-1
Introdução à Estatística
USP
Texto de pré-visualização
SME 0320: ESTATISTICA DESCRITIVA - 5% Lista de Exercicios Exercicio 1. Mostre que: Calcule as medidas descritivas: minimo, mdézimo, quartis, medi- n _ ana, média, amplitude, desvio médio, variancia, desvio padrdao e (a) SOX —X)=0 coeficiente de variagao. i=l n 2 Exercicio 8. Os dados a seguir representam a duragao da vida (>: x:) util, em anos, medidos do décimo mais préximo, de 30 bombas de n n n y)2 2 2 2 i=1 combustivel: (b) (Xi ~X) = * ~ nx = 2% a 2,0 3,0 03 3,3 1,3 04 02 60 5,5 65 i=l i=l i=l ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ 0,2 2,3 1,0 60 56 1,5 40 59 18 4,7 Exercicio 2. O que acontece com a média, com a varidncia e 0,7 45 03 1,5 0,5 2.5 50 60 1,2 02 com o desvio padrao de um conjunto de dados quando: (a) Construa um histograma para a vida, em anos, das bom- (a) Cada observagaéo é multiplicada por 2. bas de combustivel. Interprete os resultados. (b) Soma-se 10 a cada observagéo. (b) Estabeleca a distribuigéo de frequéncia relativas, acumu- (c) Subtrai-se a média geral de cada observagao. lada e acumulada relativa. (d) De cada observacgao, subtrai-se a média geral e divide-se (c) Calcule a média, a amplitude e o desvio padrao amostrais. pelo desvio padrdao. a. : Exercicio 9. Os dados a seguir correspondem aos recordes de Exercicio 3. A tabela abaizo representa a distribuigao do grau atletas em 10 paises nas Olimpiadas de Los Angeles em 1984 em de instrucao dos funciondrios de uma empresa. algumas provas de atletismo. de Instruga eran eons —— % TABELA 1. Mulheres un bamenta 40 Pats 100m (seg) 400m (seg) 3000m (min) Maratona (min) Médio Incompleto | 10 Argentina 11,61 54,50 9,79 178,52 Médio Completo 25 Brasil 11,31 52,80 9,77 168,75 9 . 1 Chile 12,00 54,90 9,37 171,38 uperior 7 Colémbia 11,60 53,26 9,46 165,42 P6s-gradua¢gao 8 Alemanha 11,01 48,16 8,75 148,53 Franca 11,15 51,73 8,98 155,27 Total 100 Portugal 11,81 54,30 8,84 151,20 (a) Construa um grafico de barras (também conhecido como naa tao 2008 an 48 grafico de colunas) e o grafico de setores da distribuigao Kenya 11,73 52,70 9,20 161 05 do grau de instrucao. (b) Sabendo que a empresa tem 200 funciondrios, quantos tém TABELA 2. Homens pos-graduacao? Pats 100m (seg) 400m (seg) 3000m (min) Maratona (min) : A ta 10,39 6,8. 14,0. 137,72 (c) No grafico de setores, quantos graus haveria o setor que Beal me 10,22 te 04 12 bo 133,13 representa cada categoria de grau de instrugdo? Chile 10,34 46,20 13,61 134,03 Colémbia 10,43 46,10 13,49 131,35 Exercicio 4. Uma industria de componentes eletrénicos esta in- dlemanha a ee ney 135 a0 teressada em determinar a vida util de certo tipo de bateria. Uma Portugal 10,53 46 70 re 128.65 amostra, em horas, segue abaixo: Canadé 10,17 45,68 13,55 131,15 USA 9,93 43,86 13,20 128,22 123, 116, 122, 110, 175, 126, 125, 111, 118, 117. Kenya 10,46 44,92 13,10 129,75 (a) Encontre a média e a mediana amostrais. (b) Qual caracteristica nessa amostra é responsdvel pela con- (a) Separadamente por género e modalidade, faga uma andlise sideravel diferenga entre as duas? descritiva dos recordes. Exercicio 5. Foram registradas as seguintes medidas para 0 tempo (b) Airavés de grdficos do tipo boxplot, faca uma comparacdo de secagem, em horas, de certa marca de tinta ldtex: entre os sexos nas quatro modalidades. Em qual delas, ha ’ ’ . . . 2 34 2,5 48 2,9 3,6 2,8 3,3 5,6 3,7 2,8 44 40 5,2 3,0 48 maior diferenca entre homens e mulheres! Suponha que as medidas sejam uma amostra aleatéria simples. Exercicio 10. Calcule a média, a mediana e a variancia amostrais (a) Qual é 0 tamanho da amostra acima? aproximadas para o conjunto de dados com a seguinte distribuigao (b) Calcule a média, a mediana, a variancia, o desvio padrao e de frequéncia e construa seu histograma. o primeiro e 0 terceiro quartis amostrais para este conjunto de dados. Intervalo de classe Frequéncia (c) Faca um histograma desses dados. Interprete. ci fi —10+0 3 Exercicio 6. Um estudo dos efeitos do tabagismo nos padroes de 010 8 sono é conduzido. A medida observada é 0 tempo, em minutos, 10 k 20 12 que se leva para dormir. Os dados obtidos sao: 20 + 30 16 Fumantes: 69,3 56,0 22,1 47,6 53,2 48,1 52,7 34,4 60,2 43,8 23,2 13,8 30 k 40 9 Nao-fumantes: 28,6 25,1 26,4 34,9 29,8 28,4 38,5 30,2 30,6 31,8 41,6 40+ 50 4 21,1 36,0 37,9 13,9 50 60 2 (a) Encontre a média amostral em cada grupo. (b) Encontre o desvio-padraéo amostral em cada grupo. 7 . . Exercicio 11. Para se estudar o desempenho de 4 corretoras (c) Encontre o coeficiente de variagéo amostral em cada grupo. ~ . . (d) Construa boxplots dos dois conjuntos de dados, na mesma de agées, selecionaram-se de cada uma delas amostras de agdes escala negociadas. Para cada agdo negociada, computou-se a porcentagem (e) Comente o tempo de impacto que o fumo aparenta ter no de lucro durante um pertodo fixado de tempo. Os dados estado a tempo que se leva para dormir. seguir: Corretora A: 21 48 42 87 38 25 29 82 83 383 Exercicio 7. A espessura (mm) de 9 parafusos foi mensurada e Corretora B: 12 42 32 28 26 26 16 18 35 os dados obtidos foram: 2,8; 4,2; 5,5; 3,0; 4,1; 3,9; 2,7; 4,2 e 2,9. Corretora C: 58 32 46 45 50 52 56 56 87 Corretora D: 42 44 22 32 24 37 37 32 31 28 Existe diferen¸ca entre as corretoras com rela¸c˜ao `a porcentagem de lucro durante o per´ıodo estudado? Exerc´ıcio 12. Um experimento foi delineado para determinar o efeito da taxa de fluxo de C2F6 sobre a uniformidade na queima de chapas de silicone usadas na integra¸c˜ao de um circuito de ma- nufatura. Trˆes taxas de fluxo s˜ao utilizadas no experimento e os resultados da uniformidade (em %) de seis chapas avaliadas s˜ao: C2F6 Uniformidade 125 3,6 3,8 3,8 4,2 4,5 4,6 160 3,6 4,2 4,2 4,6 4,9 5,0 200 5,1 5,4 5,6 5,7 6,2 6,5 Vocˆe acredita que a uniformidade na queima de chapas de silicone ´e a mesma para as diferentes taxas de fluxo de C2F6? Justifique. Exerc´ıcio 13. Na companhia A, a m´edia dos sal´arios ´e de R$ 10.000,00 e o 3oquartil ´e R$ 5.000,00. (a) Se vocˆe se apresentasse como candidato a essa firma e se o seu sal´ario fosse escolhido ao acaso entre todos os poss´ıveis sal´arios, o que seria mais prov´avel: ganhar mais ou menos do que R$ 5.000,00? (b) Suponha que na companhia B a m´edia dos sal´ario ´e de R$ 7.000,00 e a variˆancia ´e praticamente zero e que, l´a, o seu sal´ario tamb´em fosse escolhido ao acaso. Em qual companhia vocˆe se apresentaria para arrumar emprego? Exerc´ıcio 14. Para estudar o efeito da condi¸c˜ao do solo no cres- cimento de uma planta, amostras provenientes de 3 tipos de solo e seus crescimentos s˜ao classificados em 3 categorias. Calcule as freq¨uˆencias relativas e compare a qualidade do crescimento para diferentes tipos de solo. Crescimento Tipo de solo Com pedregulho Com areia Argila Fraco 16 8 14 M´edio 31 16 21 Bom 18 36 25 Total 65 60 60 Exerc´ıcio 15. Uma industria utiliza um determinado reagente qu´ımico (X) para obter uma dada substˆancia (Y ). Foram realiza- dos 5 experimentos e as quantidades do reagente e da substˆancia em cada um deles s˜ao as seguintes: 1 2 3 4 5 Reagente (mg) 6,0 5,5 5,0 7,5 12,5 Substˆancia (mg) 2,0 3,0 3,5 4,0 5,0 (a) Construa o gr´afico de dispers˜ao entre as vari´aveis X e Y . (b) Determine o coeficiente de correla¸c˜ao de Pearson entre X e Y . (c) A quantidade de reagente utilizada est´a relacionada com a quantidade de substˆancia produzida? De que forma? Jus- tifique. (d) Se um outro reagente Z for utilizado para a obten¸c˜ao da mesma substˆancia (Y ), e se o seu coeficiente de correla¸c˜ao de Pearson com a substˆancia for ryz = 1, como seria o gr´afico de dispers˜ao entre X e Y ? Exerc´ıcio 16. Muitas vezes, a determina¸c˜ao da capacidade de produ¸c˜ao instalada para certo tipo de ind´ustria ´e um processo dif´ıcil e custoso. Como alternativa, pode-se estimar a capacidade de produ¸c˜ao atrav´es da escolha de uma outra vari´avel de medida mais f´acil e que esteja linearmente relacionada com ela. Suponha que foram observados os valores para as vari´aveis: capacidade de produ¸c˜ao instalada (X), potˆencia instalada (Y ) e ´area constru´ıda (Z). Com base num crit´erio estat´ıstico, qual das vari´aveis vocˆe escolheria para estimar a capacidade de produ¸c˜ao instalada? X: cap. produ¸c˜ao instalada (ton.) 4 5 3 5 8 9 10 11 12 12 Y : Potˆencia instalada (1000 kW) 1 2 1 3 3 5 5 7 6 7 Z: ´Area constru´ıda (100 m) 6 7 10 11 11 9 12 12 11 14 Pedro Quarto e R Utilizaremos o software R para resolução dos exercícios, e através do Quarto iremos fazer essa resolução Importanto os pacotes necessários library(readxl) library(tidyverse) library(DT) library(knitr) library(ggpubr) library(samplingbook) library(fBasics) library(summarytools) library(epiDisplay) Agora vamos as resoluções dos exercícios e 5 a 9. Exercício 5 Vamos armazenar as seguintes medidas para o tempode secagem, em horas temposecagem=c(3.4,2.5,4.8,2.9,3.6,2.8,3.3,5.6,3.7,2.8,4.4,4.0,5.2,3.0,4.8) 1 letra a length(temposecagem) [1] 15 letra b As medidas de dispersão e tendência central pedidas são: mean(temposecagem) [1] 3.786667 median(temposecagem) [1] 3.6 sd(temposecagem) [1] 0.9709102 var(temposecagem) [1] 0.9426667 quantile(temposecagem,probs=c(0.25,0.75)) 25% 75% 2.95 4.60 letra c Histograma: 2 hist(temposecagem,main = ("Histograma tempo de secagem, em horas, de certa marca de tinta látex")) Histograma tempo de secagem, em horas, de certa marca de tinta látex temposecagem Frequency 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 0 1 2 3 4 5 Interpretamos que a taxa de secagem se concentra mais em horas menores. Exercício 6 Dados fumantes fum=c(69.3,56.0,22.1,47.6,53.2,48.1,52.7,34.4,60.2,43.8,23.2,13.8) nfum=c(28.6,25.1,26.4,34.9,29.8,28.4,38.5,30.2,30.6,31.8,41.6,21.1,36.0,37.9,13.9) letra a Media cada grupo: mean(fum) [1] 43.7 3 mean(nfum) [1] 30.32 letra b Desvio padrão: sd(fum) [1] 16.92776 sd(nfum) [1] 7.127833 letra c Coeficiente variação em %: sd(fum)/mean(fum)*100 [1] 38.7363 sd(nfum)/mean(nfum)*100 [1] 23.50868 4 letra d Boxplot ambos os dados boxplot(fum,nfum,names=c("fumantes","Não-fumantes"), col = c("orange","red"),main = "Comparação Fumantes x Não-fumantes") fumantes Não−fumantes 20 40 60 Comparação Fumantes x Não−fumantes letra e Segundo os dados, o tempo, em minutos, para fumantes são maiores, esmo tendo uma maior dispersão, indica que os fumantes levam mais tempo para dormir Exercício 7 Dados espessura(mm) de 9 parafussos par=c(2.8, 4.2, 5.5, 3.0, 4.1, 3.9,2.7, 4.2,2.9) 5 Dados descritivos solicitados Usamos rbind para unir as medidas em um data frane e depois renomeamos a coluna e plotamos a tabela para melhor visualização. descritiva = rbind(Média = mean(par), Mediana = median(par), Máximo=max(par), Mínimo=min(par), Q1=quantile(par,0.25)[[1]], Q2=quantile(par,0.5)[[1]], Q3=quantile(par,0.75)[[1]], Q4=quantile(par,1)[[1]], Amplitude=max(par)-min(par), Variância=var(par), "Desvio-padrão"=sd(par), "CV(%)"=sd(par)/mean(par)) colnames(descritiva) = 'Estatísticas' knitr::kable(descritiva) Estatísticas Média 3.7000000 Mediana 3.9000000 Máximo 5.5000000 Mínimo 2.7000000 Q1 2.9000000 Q2 3.9000000 Q3 4.2000000 Q4 5.5000000 Amplitude 2.8000000 Variância 0.8600000 Desvio-padrão 0.9273618 CV(%) 0.2506383 6 Exercício 8 Dados duração da vida útil, em anos, medidos do décimo mais próximo, de 30 bombas de combustível bombas=c(2.0,3.0,0.3,3.3,1.3,0.4,0.2,6.0,5.5,6.5,0.2,2.3,1.0,6.0,5.6,1.5,4.0,5.9,1.8,4.7,0.7,4.5,0.3,1.5,0.5,2.5,5.0,6.0,1.2,0.2) letra a hist(bombas, main="Vida, em anos, das bombas de combustível") Vida, em anos, das bombas de combustível bombas Frequency 0 1 2 3 4 5 6 7 0 2 4 6 8 Segundo o histograma, interpretamos que a vida das bombas, em anos, está bem disperso e variando, mas se concentrando mais entre 0-2 anos e 5-6 anos. letra b Utilizamos uma função para realizar a tabela de frequência pronta: knitr::kable(freq(bombas, report.nas = FALSE, totals = FALSE, booktabs = FALSE)) 7 Freq % Valid % Valid Cum. % Total % Total Cum. 0.2 3 10.000000 10.00000 10.000000 10.00000 0.3 2 6.666667 16.66667 6.666667 16.66667 0.4 1 3.333333 20.00000 3.333333 20.00000 0.5 1 3.333333 23.33333 3.333333 23.33333 0.7 1 3.333333 26.66667 3.333333 26.66667 1 1 3.333333 30.00000 3.333333 30.00000 1.2 1 3.333333 33.33333 3.333333 33.33333 1.3 1 3.333333 36.66667 3.333333 36.66667 1.5 2 6.666667 43.33333 6.666667 43.33333 1.8 1 3.333333 46.66667 3.333333 46.66667 2 1 3.333333 50.00000 3.333333 50.00000 2.3 1 3.333333 53.33333 3.333333 53.33333 2.5 1 3.333333 56.66667 3.333333 56.66667 3 1 3.333333 60.00000 3.333333 60.00000 3.3 1 3.333333 63.33333 3.333333 63.33333 4 1 3.333333 66.66667 3.333333 66.66667 4.5 1 3.333333 70.00000 3.333333 70.00000 4.7 1 3.333333 73.33333 3.333333 73.33333 5 1 3.333333 76.66667 3.333333 76.66667 5.5 1 3.333333 80.00000 3.333333 80.00000 5.6 1 3.333333 83.33333 3.333333 83.33333 5.9 1 3.333333 86.66667 3.333333 86.66667 6 3 10.000000 96.66667 10.000000 96.66667 6.5 1 3.333333 100.00000 3.333333 100.00000 0 NA NA 0.000000 100.00000 Total 30 100.000000 100.00000 100.000000 100.00000 letra c mean(bombas) [1] 2.796667 max(bombas)-min(bombas) [1] 6.3 8 sd(bombas) [1] 2.227335 Exercício 9 Primeiramente vamos recolher os dados, colocamos o arquivo em excel, importaremos como Dataframes. H=read_excel("ex9.xlsx",range = "B1:E11",sheet=2) M=read_excel("ex9.xlsx",range = "B1:E11",sheet=1) H=H %>% mutate_all(as.numeric) M=M %>% mutate_all(as.numeric) letra a Agora vamos calcular as estatísticas descritivas por gênero knitr::kable(descr(M,stats = "common",headings=FALSE),caption = "Mulheres") Table 3: Mulheres 100m (seg) 3000m (min) 400m (seg) Maratona (min) Mean 11.401000 9.1470000 52.303000 161.23400 Std.Dev 0.404954 0.4427201 2.166308 13.52582 Min 10.790000 8.5000000 48.160000 142.72000 Median 11.455000 9.0900000 52.750000 160.34500 Max 12.000000 9.7900000 54.900000 181.05000 N.Valid 10.000000 10.0000000 10.000000 10.00000 Pct.Valid 100.000000 100.0000000 100.000000 100.00000 knitr::kable(descr(H,stats = "common",headings=FALSE),caption = "Homens") Table 4: Homens 100m (seg) 3000m (min) 400m (seg) Maratona (min) Mean 10.274000 13.4290000 45.5290000 131.85300 9 100m (seg) 3000m (min) 400m (seg) Maratona (min) Std.Dev 0.186857 0.2919075 0.9584762 2.78411 Min 9.930000 13.1000000 43.8600000 128.22000 Median 10.280000 13.4150000 45.4800000 131.79000 Max 10.530000 14.0400000 46.8400000 137.72000 N.Valid 10.000000 10.0000000 10.0000000 10.00000 Pct.Valid 100.000000 100.0000000 100.0000000 100.00000 Analisando os dados descritivos,temos que as mulheres no geral um pouca dispersão da prova de 100m, tendo completado em média por aproximadamente 11 segundos, em 400m, em média 52 segundos, variando de 48 a 52, na prova de 3000m teve um média de 9 minutos, sendo que o melhor tempo foi 8.5 minutos, já para maratona, a média foi de 161 minutos (aproximada- mente 2 horas e meia), seu pior tempo foi 3 horas. Já para os homens, a média de prova de 100m foi 10s segundo, tendo uma dispersão baixissima, para prova de 400m, o melhor tempo foi aproximadamente 48 segundos, na prova de 3000m a média foi de aproximadamente 13 minutos e meio (sendo bem maior que a feminina), para maratona, a média foi 132 minutos, aproximadamente 2 horas, tendo um aproveitamente melhor que as mulheres. letra b Vamos plotar os Boxplots comparando provas entre Homens e Mulheres, para verificar a maior diferença: boxplot(H$`100m (seg)`,M$`100m (seg)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - 100m(seg)") 10 Homens Mulheres 10.0 11.0 12.0 Comparação Entre Sexo − 100m(seg) boxplot(H$`400m (seg)`,M$`400m (seg)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - 400m(seg)") Homens Mulheres 44 48 52 Comparação Entre Sexo − 400m(seg) 11 boxplot(H$`3000m (min)`,M$`3000m (min)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - 3000m(min)") Homens Mulheres 9 11 13 Comparação Entre Sexo − 3000m(min) boxplot(H$`Maratona (min)`,M$`Maratona (min)`,names=c("Homens","Mulheres"), col = c("orange","red"),main = "Comparação Entre Sexo - Maratona(min)") 12 Homens Mulheres 130 150 170 Comparação Entre Sexo − Maratona(min) Verificamos que a maior diferença é sobre a prova de 3000M(em minutos), onde a performance das mulheres foram muito superior a dos homens, tendo até mesmo seu pior tempo de prova, superior ao melhor tempo dos homens, sendo assim, muito mais eficiente. 13