·
Engenharia Civil ·
Estática para Engenharia
Send your question to AI and receive an answer instantly
Recommended for you
2
Análise Estatística Experimental Influência da Cinza de Casca de Arroz e Nanotubos de Carbono em Concreto
Estática para Engenharia
CEFET/MG
1
Estatística Aplicada - Análise da Resistência à Compressão de Concreto com Resíduos da Construção Civil e Insumos
Estática para Engenharia
CEFET/MG
5
Lista de Exercícios Estatística Aplicada - Análise de Experimentos com Cinza de Casca de Arroz e Nanotubos de Carbono
Estática para Engenharia
CEFET/MG
12
Prova de Estatística Aplicada - Análise de Dados e Testes de Hipóteses
Estática para Engenharia
CEFET/MG
21
Lista de Exercícios Resolvidos - Estatística Aplicada à Engenharia Civil com RStudio
Estática para Engenharia
CEFET/MG
2
Lista de Exercícios - Estatística Aplicada - Análise Experimental e Testes de Hipóteses
Estática para Engenharia
CEFET/MG
5
Lista de Exercícios Estatística Aplicada - Análise de Experimentos com Cinza de Casca de Arroz e Nanotubos de Carbono
Estática para Engenharia
CEFET/MG
19
Teoremas de Pappus-Guldinus - Cálculo de Áreas e Volumes de Revolução
Estática para Engenharia
CEFET/MG
3
Teste de Estatica - Calculo de Momento e Reacoes
Estática para Engenharia
CEFET/MG
12
Prova Substitutiva de Estatística - Análise de Nível de Colesterol, Emprego Temporário e Consumo Per Capita
Estática para Engenharia
CEFET/MG
Preview text
ROGÉRIO CABRAL DE AZEVEDO AZEVEDO ROGÉRIO CABRAL ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO CENTRO FEDERAL DE EDUCAÇÃO TÉCNOLÓGICA DE MINAS GERAIS CEFETMG PROGRAMA DE PÓSGRADUAÇÃO EM ENGENHARIA CIVIL PPGEC Rogério Cabral de Azevedo Prof Dr CEFETMG Departamento de Engenharia Civil Programa de PósGraduação em Engenharia Civil httplattescnpqbr0613519736951060 Janeiro2021 Todos os direitos reservados Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou por qualquer outro meio eletrônico mecânico ou digital sem prévia autorização por escrito dos autores e do CEFETMG CAPA Rogério Cabral de Azevedo imagem gerada pelo software VOSviewer versão 1615 ISBN 9786500154252 httpscblservicosprdblobcorewindowsnetbarcode9786500154252jpeg SUMÁRIO 1 INTRODUÇÃO 1 11 População 1 12 Amostra 2 13 Lote 3 14 Variáveis 3 15 Risco 4 16 Confiabilidade 4 2 TÉCNICAS DE AMOSTRAGEM 5 21 Métodos de Extração dos Elementos 5 22 Métodos para a Escolha dos Elementos 5 23 Definição da Amostra 6 24 Tipos de Variáveis 8 3 ESTATISTICA DESCRITIVA 10 31 Medidas de Posição 10 32 Medidas de Dispersão ou Variabilidade 11 33 Gráficos 15 4 O SOFTWARE RSTUDIO E A ESTATÍSTICA DESCRITIVA 22 5 MODELOS PROBABILISTICOS E DETERMINISTICOS 26 51 Modelos Deterministicos 26 52 Modelos Probabilísticos 26 53 Probabilidade 27 6 DISTRIBUIÇÃO DE PROBABILIDADES 30 61 Distribuição Uniforme Discreta 34 62 Distribuição de Bernoulli 34 63 Distribuição binomial 35 64 Distribuição de Poisson 37 65 Distribuição Geométrica 38 66 Distribuição Hipergeométrica 39 67 Distribuição Normal 41 68 Distribuição QuiQuadrado 44 69 Distribuição t de Student 45 610 Distribuição Gama 46 611 Distribuição Exponencial 46 612 Distribuição de Weibull 47 7 INFERÊNCIA ESTATÍSTICA 49 71 Distribuição Normal Padrão 51 72 Distribuição tStudent 56 73 Identificação da Distribuição de Probabilidades 59 74 Testes de Normalidade 63 75 Testes De Normalidade No Rstudio 67 76 Intervalo De Confiança 72 77 Testes de Hipóteses Comparação de Médias 77 78 Erros Cometidos nos Testes de Hipóteses 95 79 Testes de Hipóteses RStudio 97 8 ANÁLISE DE VARIÂNCIA ANOVA 107 81 ANOVA Um Fator 107 82 ANOVA Dois Fatores 113 83 ANOVA e o RStudio 121 84 ANOVA Análises de Validação 125 85 ANOVA Complementando a análise com o Teste de Tukey 129 86 ANOVA Estudo de Caso 133 9 ANÁLISE DE REGRESSÃO 139 91 Regressão Linear Simples 140 92 Regressão Linear Múltipla 145 93 Regressão Linear No RStudio 147 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 1 1 INTRODUÇÃO Mas afinal o que é estatística e como podemos nos utilizar de seus conceitos e ferramentas para aprimorar nossas pesquisas de graduação ou pósgraduação Uma busca em algumas fontes nos fornece diversas definições para o termo estatística das quais podemos destacar1 Um conjunto de técnicas e métodos de pesquisa que dentre outros tópicos envolve planejar o experimento a ser realizado a coleta qualificada dos dados resultantes do experimento a organização processamento e análise destes dados a inferência ou seja a capacidade de concluir a partir da análise dos dados processados a confiabilidade ou erro associado a estas conclusões e por fim a disseminação das informações Esta definição é bem completa pois abrange todo o cenário no qual um futuro pesquisador está inserido Envolve como planejar um experimento como produzir e coletar os resultados do experimento como organizar processar e analisar os dados obtidos como definir ou identificar a confiabilidade ou o erro associado à inferência e como escolher os métodos mais claros e didáticos para divulgação das informações finais O uso da estatística em trabalhos acadêmicos tem aumentado nos últimos anos Ela tem sido usada principalmente como uma forma de agregar relevância à análise dos resultados obtidos nos experimentos realizados ao oferecer posições estatisticamente conclusivas sobre esses resultados A estatística não oferece novos resultados aos experimentos mas permite que o delineamento dos passos que conduziram aos resultados o método seja realizado de forma a separar os fatores de interesse que foram escolhidos para serem analisados dos fatores chamados de aleatórios que embora possuam influência sobre os resultados devem ser distribuídos de forma a não interferir na análise A estatística é fundamental para a análise dos resultados finais de um trabalho acadêmico Somente apresentar as médias obtidas em um determinado experimento e citar que os resultados obtidos são superiores aos de referência é insuficiente para a realização de uma análise válida uma vez que diversas medidas influenciam a comparação como a variância por exemplo É mais correto e acadêmico comprovar estatisticamente a existência da diferença e citar por exemplo que com 95 de confiabilidade as médias obtidas no experimento são superiores às médias de referência Mas antes de pensarmos em como planejar um experimento ou em como efetuar uma análise estatística dos resultados é necessário conhecer os conceitos nos quais as ações descritas acima são baseadas Nesse sentido alguns conceitos como os de população amostra lote risco e confiabilidade são fundamentais para o entendimento da estatística 11 População População representa o conjunto dos todos os elementos objetos do estudo que possuem uma ou mais características em comum Para exemplificar em uma eleição para presidente a população seria representada por todos os eleitores habilitados do pais já para governador por todos os eleitores habilitados do estado Dentro das engenharias o conceito é semelhante representa todas as peças de mesmo modelo produzidas 1 wwwportalactioncombrestatisticabasica ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 2 por uma determinada fábrica ou linha de montagem todo o lote2 de concreto produzido por uma determinada empresa concreteiras 12 Amostra Amostra é um subconjunto da população que por ser na maior parte das vezes numerosa ou infinita não pode ser avaliada quantitativamente O tamanho quantidade de elementos da amostra deve ser representativo para o estudo das características de interesse da população O tamanho e o método de seleção dos elementos da amostra irão depender dos recursos disponíveis e do conhecimento que se tem da população Uma dúvida recorrente entre os estudantes de pósgraduação se relaciona aos conceitos de população e amostra Quando tratamos de coisas concretas como pessoas árvores ou carros o conceito de população e amostra é claro População representa todas as pessoas e nesse grupo podemos diferenciálo ao citar características como faixa etária sexo estado civil estado cidade ou bairro de residência dentre outros Para árvores ou vegetais temos classificações como ordem família e gênero Por fim para veículos podemos citar características como fabricante modelo e ano de fabricação No entanto quando se trata dos resultados de experimentos desenvolvidos em pesquisas a definição fica um pouco mais confusa Por exemplo em um experimento abordando a adição de resíduos de construção civil ao concreto duas variáveis são analisadas i o tipo de resíduo 3 tipos diferentes A B e C e ii o percentual de adição 4 percentuais 0 25 50 e 100 O que define população e amostra neste caso Analisando o experimento concluímos que o mesmo possui 12 composições diferentes onde o cruzamento entre o tipo de resíduo três tipos e o percentual de adição quatro tipos resulta nas composições diferentes 3 4 12 a serem analisadas Todo o concreto produzido segundo o método definido para o experimento com o uso de cada uma das diferentes composições representa uma população pois possui características diferentes decorrentes das diferentes composições usadas Assim podemos considerar que o experimento produziu 12 populações diferentes Claro que dependendo dos objetivos do experimento os produtos das 12 composições poderiam ser considerados estratos subgrupos de uma única população mas esta consideração não afeta a premissa que queremos expor de que a população não necessita existir fisicamente para ser considerada como tal Basta que possuam características em comum que tornem aquele conjunto único No caso exposto todo concreto produzido adotandose qualquer uma das composições pode ser considerado como população pois possuem características únicas derivadas de suas composições Os corpos de prova que foram geradas especificamente para o experimento formam uma amostra dessa população Como dito os corpos de prova produzidos para cada composição representam a amostra Supondo que no experimento sejam produzidos quatro corpos de prova por composição temos 12 amostras compostas por quatro elementos 2 Em logística um lote representa todos os itens produzidos sob as mesmas condições em um determinado período de tempo e com características físicas químicas dimensionais idênticas Este conceito é importante para o planejamento de um experimento porque é necessário que todos os materiais componentes e insumos utilizados para a produção dos corpos de prova a serem testados possuam as mesmas características ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 3 Por meio deste exemplo é também possível compreender como a influência dos recursos disponíveis determina o tamanho da amostra O senso comum nos leva a crer que quanto maior a quantidade de elementos que compõe a amostra melhor serão os resultados o que é uma premissa verdadeira No entanto na prática a premissa é difícil de ser mantida pois qual a nossa real capacidade em produzir e testar uma grande quantidade de corpos de prova Teremos material suficiente Teremos equipamento e tempo suficiente para testar todos os corpos de prova O conhecimento da população também é importante Na hipótese de existir pouco conhecimento dos resultados da adição de determinado tipo de resíduos da construção civil nas propriedades físicas de concretos amostras com maior número de elementos conduzirão a resultados mais definitivos sobre a população Contudo se a literatura já apresenta informações sobre esta influência e queremos apenas comprovar algum direcionamento específico amostras com menor número de elementos podem ser usadas para esta finalidade 13 Lote O conceito de lote2 também é importante para o planejamento de experimentos No exemplo anterior se o cimento usado para a produção dos corpos de prova apesar de serem do mesmo tipo CPV por exemplo forem oriundos de fabricantes diferentes suas características físicoquímicas podem ter pequenas variações que por sua vez podem ter influência nos resultados do experimento Os conceitos supracitados e as formas como eles se correlacionam demonstram a importância que a amostra ou a técnica utilizada para sua escolha possui para a caracterização correta de uma população Se escolhermos uma amostra de forma errada ou tendenciosa a inferência capacidade de transferir para a população como um todo a análise dos resultados realizada a partir dos dados obtidos com a amostra é prejudicada e o trabalho dispendido inutilizado 14 Variáveis Em estatística uma variável representa uma característica relativa aos elementos que estão sendo investigados e que nos interessa avaliar em um experimento De acordo com os valores que essa característica pode assumir numéricos ou não numéricos ela pode ser classificada em quantitativa ou qualitativa abordado no item 24Tipos de Variáveis Já em relação à um determinado experimento as variáveis podem ser classificadas em Variáveis independentes são as variáveis que podem ser definidas controladas manipuladas e medidas pelo pesquisador em busca de alterações nos valores da variável resposta que está sendo analisada pelo experimento Também são chamadas de varáveis preditoras ou explicativas Variáveis dependentes são variáveis que podem ser medidas pelo pesquisador e cujos valores dependem do comportamento das variáveis independentes Normalmente são associadas aos resultados do experimento e por isso também denominadas como variáveis resposta Variáveis estranhas são variáveis não controladas nem manipuladas pelo pesquisador e que podem influenciar no comportamento ou na medição das variáveis dependentes Também conhecidas como ruído fatores não controláveis variáveis extrínsecas ou de confusão seus efeitos devem ser eliminados ou atenuados Suas principais causas são o viés de seleção quando as unidades de teste possuem características diferentes entre si matéria prima de diferentes lotes variações em fatores não controlados do experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 4 temperatura umidade por exemplo e uso de diferentes equipamentos eou instrumentos de medição que podem introduzir alterações na variável dependente Uma das principais aplicações da estatística é analisar e predizer o comportamento das variáveis dependentes em função de alterações nos valores das variáveis independentes Tratamento o conceito de tratamento é baseado no cruzamento das variáveis independentes de um experimento Tratamento representa o conjunto de combinações dos diferentes valores das variáveis independentes que são aplicadas e analisadas em um experimento No exemplo apresentado no item 12 Amostra duas variáveis independentes tipo de resíduo e percentual de adição do resíduo são tratadas e foram identificadas 12 combinações diferentes resultante do cruzamento dos valores definidos para essas variáveis Cada combinação diferente representa um tratamento 15 Risco Antes de abordarmos a questão das técnicas de amostragem devemos entender o que é o conceito de Risco e como ele se relaciona à composição de uma amostra O risco relativo à amostragem consiste na margem de erro assumida pelo pesquisador em seu experimento motivada pelo fato de que a investigação da população é parcial afinal a população é investigada a partir de uma amostra com número de elementos muito inferior ao da população e isto pode gerar conclusões indevidas risco Assim o risco representa a probabilidade de que as conclusões obtidas a partir da análise da amostra sejam diferentes caso toda a população fosse sujeita ao mesmo procedimento de análise ou seja indica a margem de erro assumida na análise Uma margem de erro de 005 indica que há 5 de probabilidade de que a relação entre as variáveis encontrada na amostra seja apenas um acaso feliz e não seja replicada na população Assim se o experimento for repetido várias vezes podese esperar que uma em cada vinte vezes a relação entre as variáveis em questão seria diferente das observadas nas outras Uma margem de erro de 5 é considerada como o limite aceitável de erro 16 Confiabilidade O conceito de confiabilidade margem de acerto é decorrente do conceito de risco margem de erro Se uma determinada análise possui um risco ou uma margem de erro de 5 isto implica em que a confiabilidade da análise ou nível de confiança é de 95 Existe também outro tipo de risco a ser considerado este mais difícil de ser determinado estatisticamente e que apesar de não estar associado à amostragem pode da mesma forma conduzir a análises incorretas Este risco referese à adoção de procedimentos inadequados interpretação errônea de evidências até mesmo manipulação de resultados Para evitalos os conceitos estatísticos relativos ao planejamento do experimento devem ser aplicados e os procedimentos metodológicos adotados devem estar claramente explicitados permitindo a outros pesquisadores avaliar o método utilizado na pesquisa O próximo capítulo apresenta as técnicas de amostragem mais comuns utilizadas em experimentos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 5 2 TÉCNICAS DE AMOSTRAGEM Em estudos estatísticos as técnicas de amostragem referemse ao modo como selecionamos os elementos de uma população que irão participar de um experimento Se os elementos de uma amostra não forem selecionados de maneira aleatória a amostra poderá ser tendenciosa em relação a algum fator e provavelmente não representarão a população corretamente As técnicas de amostragem podem ser divididas em relação à extração dos elementos e em relação a escolha dos elementos que comporão a amostra 21 Métodos de Extração dos Elementos A primeira técnica para composição de uma amostra referese à extração dos elementos que a comporão A extração dos elementos pode ser realizada com ou sem reposição Extração sem reposição quando um elemento sorteado ou escolhido para compor a amostra não puder ser reposto à população e assim correr o risco de ser escolhido novamente A extração sem reposição é comum quando se realizam ensaios destrutivos onde o elemento tem suas características alteradas pelo próprio ensaio Extração com reposição quando um elemento sorteado ou escolhido para compor a amostra pode ser reintegrado à população e assim ser sorteado novamente Neste método como o elemento é reposto o método não afeta a probabilidade de retirar qualquer elemento da população ou seja as chances serão iguais para sempre 22 Métodos para a Escolha dos Elementos Quanto à escolha dos elementos da amostra esta pode ser probabilística ou não probabilística No método Probabilístico cada elemento da população possui determinada probabilidade de ser selecionado para compor a amostra em geral a mesma probabilidade No método não probabilístico há uma escolha deliberada ou direcionada dos elementos que irão compor a amostra Os principais Métodos Não Probabilísticos são Amostragem Acidental A amostra é composta por elementos que vão aparecendo ou pelos elementos que são possíveis de se obter até que se complete o número de elementos da amostra Esse método é comum por exemplo em pesquisa de opinião nas quais os entrevistados são acidentalmente escolhidos ou em linhas de produção onde os elementos são retirados da linha para testes na medida que o teste anterior é finalizado e enquanto o número de testes previstos não for atingido Amostragem Intencional A amostra é composta por elementos escolhidos por meio de critérios predeterminados ou seja escolhese intencionalmente um grupo de elementos que irão compor a amostra Amostragem por Cotas Neste caso a população é classificada em estratos subgrupos sendo a definição dos estratos estabelecida em função de propriedades relevantes para a característica a ser estudada O processo de seleção dos elementos que integram os estratos deve ser previamente estabelecido Os principais Métodos Probabilísticos são Amostragem Aleatória Simples Nesta técnica de amostragem cada elemento da população possui uma chance igual e maior que zero de ser selecionado para compor a amostra Ela é chamada de aleatória porque ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 6 a seleção dos elementos é feita sob a forma de sorteio não sendo utilizado nenhum critério ou filtro no processo de seleção O único problema em relação a este método é que por ser aleatório qualquer combinação dos elementos presentes na população pode ser gerada e com isto determinada característica desta população pode ser priorizada Amostragem Aleatória Estratificada Para minimizar o problema relatado na amostragem aleatória simples a população pode ser dividida de acordo com propriedades de interesse para a característica estudada estratos e dentro destes dos estratos é realizada a amostragem aleatória simples Há dois tipos de amostragem aleatória estratificada No primeiro as amostras parciais retiradas aleatoriamente de cada estrato possuem o mesmo tamanho amostras com a mesma quantidade de elementos independentemente do tamanho do estrato Por sua vez no segundo método as amostras parciais possuem tamanho proporcional ao tamanho do estrato É bem semelhante a amostragem por cotas não probabilística mas neste caso a seleção dos elementos é aleatória Amostragem Sistemática É um tipo de amostragem aleatória simples com a diferença que os elementos da população são agrupados e ordenados segundo algum critério que não possui influência na característica de interesse Desta forma a existência da ordenação facilita o processo de seleção dos elementos Por exemplo se temos 50 grupos de 50 elementos e desejamos compor uma amostra de 100 elementos é possível definir dois números de ordem aleatórios entre 1 e 50 como por exemplo o 13º e 27º e assim selecionar estes de cada um dos grupos Amostra por Conglomerados É uma técnica de amostragem realizada em duas ou mais etapas Na primeira etapa os grupos ou conglomerados são definidos de acordo com suas características e são sorteados elementos destes conglomerados para representar o próprio conglomerado Esta etapa pode ser recursiva grupos dentro de grupos Na última etapa são sorteados os elementos que serão testados É muito utilizada em pesquisas eleitorais com a definição de diversos grupos cidades de acordo com seu tamanho ou importância bairros de acordo com renda ou situação e por fim eleitores dentro de cada grupo escolhido 23 Definição da Amostra A definição da amostra pode parecer trivial dentro de um experimento mas seus conceitos são fundamentais para que as conclusões obtidas pela análise dos resultados possam ser transferidas para a população Inferência Podemos entender a importância do processo de amostragem a partir de uma situação bem simples Em um determinado experimento foram adquiridos diversos insumos a serem utilizados em um processo construtivo Estes insumos precisam ser caracterizados Um deles agregado fino areia foi recebido doação em caçambas Não se tem informações sobre a origem nem sobre a forma de carregamento do insumo na caçamba mas é necessário caracterizar o insumo para o experimento Qual o método de amostragem mais adequado para a caracterização Antes de propormos uma solução para o problema é necessário entender corretamente o problema Diversas questões devem ser esclarecidas para que a solução adotada seja adequada O experimento possui restrições ou especificações quanto ao agregado fino tipo granulometria ou outra Qual o volume ou peso total necessário para o experimento Quantas caçambas foram entregues O conteúdo de uma caçamba é suficiente para o experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 7 Bem vamos supor que existam especificações quanto às características físicas do agregado fino e que foram entregues duas caçambas sendo que o conteúdo de apenas uma é suficiente para o experimento Neste caso como não é possível determinar a origem do conteúdo de cada caçamba e nem como foram preenchidas pode ser que tenham sido preenchidas com agregados finos com diferentes características físicas o problema reside em escolher qual das caçambas possui o agregado mais adequado características físicas ao experimento o que nos obriga a testar as duas Então vamos ao método de amostragem Qual o método mais adequado para esta situação E dadas as incertezas presentes vai haver um 100 correto Agora entra a questão dos recursos disponíveis tempo equipamento e pessoal para testes recursos financeiros etc Vamos supor que os recursos disponíveis permitam a realização de seis caracterizações ou seja podem ser testadas seis amostras Como escolher seis amostras que representem o conteúdo das duas caçambas A primeira parte é mais simples três amostras para cada caçamba A segunda parte de onde retirar as três amostras em cada caçamba pode ser mais complexa Pode ser aplicada uma amostragem aleatória estratificada Dividir o volume da caçamba em 3 estratos verticais de acordo com a altura da caçamba e cada um dos estratos em 4 áreas horizontais como demonstrado na Figura 1 Um sorteio aleatório de uma das quatro áreas em cada estrato vertical poderia gerar o resultado indicado áreas 1 6 e 11 O mesmo processo é repetido na segunda caçamba gerando assim as seis amostras para caracterização Figura 1 Exemplo de amostragem estratificada aleatória Outro processo aleatório válido para a seleção das três amostras seria o sorteio de três das doze áreas independente do estrato Isto poderia ocasionar a seleção de mais de uma área por estrato mas não invalida o método uma vez que não temos informações sobre a origem do conteúdo de cada caçamba e nem como as mesmas foram preenchidas Em princípio a análise das características físicas de cada amostra indicaria a caçamba mais adequada Mas tudo vai depender dos resultados obtidos nas caracterizações Um dos resultados possíveis é que exista uma caçamba cujo conteúdo seja mais adequado ao experimento devido às características físicas de seu conteúdo Mas e se todas as amostras das caçambas indicarem diferentes características físicas e todas estiverem dentro dos limites estabelecidos para o experimento Estas pequenas diferenças irão influenciar o experimento É ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 8 provável que sim restando ao pesquisador escolher uma das caçambas e adotar procedimentos para homogeneizar seu conteúdo 24 Tipos de Variáveis Mas quais os tipos de dados que podem ser obtidos a partir de uma amostra Para compreendermos os tipos de informações que podemos coletar a partir de uma amostra primeiramente temos que caracterizar o que é um dado e o que é uma variável Dado é uma informação coletada e registrada de um elemento da população ou amostra referente a uma variável Desta forma por exemplo o diâmetro da peça selecionada como amostra é um dado bem como todas as medidas referentes à variável estudada que sejam coletadas na população ou amostra Podemos entender que o dado representa uma única mensuração ou valor de uma característica de interesse Variável é uma característica que pode ser observada ou medida em cada elemento de uma população ou em uma amostra desta população As variáveis assumem valores diferentes em unidades diferentes associadas à característica que está sendo medida como por exemplo diâmetro em mm peso em quilogramas resistência a compressão em MPa etc Assim podemos entender que a variável é a característica de interesse que está sendo mensurada na amostra ou população e é representada pelo conjunto de valores mensurados As variáveis podem assumir dois tipos básicos qualitativas e quantitativas como mostrado na Figura 2 O tipo da variável define a escolha básica da técnica estatística e das interpretações dos resultados Figura 2 Tipos de variáveis Variáveis Qualitativas correspondem a características que podem ser observadas ou identificadas na população em estudo Normalmente possuem valores discretos As variáveis qualitativas são divididas em Nominais e Ordinais As variáveis qualitativas nominais não possuem ordenação própria como por exemplo estado civil cores cidade ou estado de nascimento Já as variáveis qualitativas ordinais possuem uma ordem natural pela qual podem ser ordenadas como classificações de julgamento péssimo ruim regular bom muito bom e ótimo As escalas de likert fazem parte deste tipo de variável e merecem um destaque a parte devido ao seu uso frequente Escala de likert é um tipo de escala de resposta psicométrica usada habitualmente em questionários e é a escala mais usada em pesquisas de opinião A escala representa a concordância do entrevistado com a afirmação contida na questão Um tipo comum de escala de likert é 1 Discordo totalmente 2 Discordo parcialmente 3 Indiferente 4 Concordo parcialmente 5 Concordo totalmente O problema em relação a estas escalas é o uso indevido do numeral associado à opinião do entrevistado 1 2 3 Algumas pesquisas utilizam este numeral que na realidade representa um valor qualitativo a opinião do entrevistado para operações matemáticas como médias o que é incorreto Escalas ordinais podem ser utilizada apenas para ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 9 operações matemáticas de frequência contagem mediana e moda O Quadro 1 exibe exemplos de escalas de likert CONCORDÂNCIA FREQUÊNCIA IMPORTÂNCIA PROBABILIDADE Concordo totalmente Sempre Muito importante Quase sempre verdade Concordo É frequente Importante Geralmente verdade Nem concordo nem discordo É ocasional Moderado As vezes é verdade Discordo É raro Pouco importante Geralmente falso Discordo totalmente Nunca Não é importante Quase sempre falso Quadro 1 Escalas de Likert Variáveis Quantitativas correspondem a características que podem ser mensuradas na população em estudo Podem possuir valores discretos ou contínuos As variáveis quantitativas são ditas discretas quando podem assumir apenas determinados valores do conjunto sendo normalmente associadas a contagens quantidade e são ditas contínuas quando podem assumir qualquer valor dentro do conjunto sendo normalmente associadas a medições peso resistência A principal diferença entre variáveis qualitativas e quantitativas pode ser vista pelos resultados de sua mensuração Variáveis qualitativas por refletirem opiniões podem obter diferentes mensurações de diferentes observadores sobre o mesmo elemento Por exemplo se questionado sobre a importância de um fato um respondente pode optar pela resposta muito importante enquanto outro por moderado São opiniões diferentes sobre o mesmo fato Já as variáveis quantitativas por refletirem medições e não opiniões devem sempre apresentar o mesmo resultado sempre excetuandose diferenças por precisão dos equipamentos de medição Por exemplo se dois observadores forem convidados a contar a quantidade de alunos em uma sala de aula em um dado instante a resposta quantidade de alunos deve ser a mesma Em um outro exemplo se dois pesquisadores diferentes efetuarem a medição do peso de um determinado corpo de prova em uma mesma balança o resultado deve ser o mesmo considerando erros de leitura precisão da balança e manutenção da integridade do corpo de prova Uma vez compreendidos os conceitos de população amostra variável e dados bem como a importância do processo de amostragem o próximo passo é conhecer os números que resumem e descrevem o conjunto de dados amostra A Estatística Descritiva é usada para descrever os dados que representam a amostra Inicialmente os principais conceitos serão apresentados considerando apenas amostras onde todas as observações são conhecidas ou seja a variável de interesse foi determinada observada para cada elemento da amostra Amostras cujos valores estão agrupados em classes representados graficamente por histogramas não serão tratadas por ora ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 10 3 ESTATISTICA DESCRITIVA A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumarizar um conjunto de dados seja referente a uma amostra ou a uma população Diferenciase da inferência estatística ou estatística indutiva pelo fato de organizar e sumarizar os dados ao invés de usar os dados em um processo de aprendizado sobre a população A estatística descritiva é composta por uma série de medidas básicas que apresentam uma análise descritiva de como os dados estão organizados São as medidas de posição medidas de dispersão quartis coeficiente de assimetria e coeficiente de curtose 31 Medidas de Posição As medidas de posição são valores que representam a tendência de concentração ou distribuição dos dados observados em relação à característica de interesse A forma mais usual de representação da tendência de concentração é o gráfico de distribuição de frequência que apresenta no eixo horizontal os valores ou classes agrupadas da característica de interesse e no eixo vertical a frequência associada ao valor ou classe As medidas de posição mais importantes são a média aritmética a mediana e a moda A Média Aritmética ou simplesmente média pode se referir a população média populacional µ ou a amostra média amostral 𝑥 e é calculada pela divisão da soma dos valores observados x pela sua quantidade n A média retrata a posição central dos valores das observações mas não apresenta informações sobre sua dispersão Amostra A 1 2 3 4 5 6 7 Média 𝑥 Valor 97 98 99 99 99 100 101 99 Amostra B 1 2 3 4 5 6 7 8 Média 𝑥 Valor 90 95 97 97 99 103 105 106 99 Tabela 1 Valores de amostras e suas respectivas médias A Tabela 1 apresenta duas amostras ordenadas uma com sete elementos A e outra com oito B representando uma característica física destes elementos comprimento por exemplo Ambas possuem média igual a 99 mas os dados da amostra B possuem uma faixa de variação muito maior A faixa de variação ou amplitude da amostra A é 4 amplitude é definida como a diferença entre o maior e o menor valor do conjunto ou amostra enquanto a amplitude da amostra B é 16 A Mediana é uma medida de posição que indica o ponto central dos valores ordenados ou seja é o valor que divide um conjunto de dados ordenados em duas partes com a mesma quantidade de dados Se a amostra possui número de observações ímpar a mediana será a observação central Se o número de observações for par a mediana será a média aritmética das duas observações centrais Para a amostra A Tabela 1 a mediana é o valor da quarta observação ponto central mediana 99 Já para a amostra B a mediana é dada pela média aritmética entre os valores da quarta e quinta observações mediana 97 99 2 98 A Moda de uma amostra é o valor com maior frequência número de ocorrências na amostra Na amostra A o valor mais frequente é 99 Assim a moda desta amostra é igual a 99 Para a amostra B o valor da moda é 97 pois este é o valor mais frequente Caso não exista um valor mais frequente todos os valores das ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 11 observações são diferentes o conjunto é dito amodal Da mesma forma podem existir amostras com mais de uma moda quando dois ou mais valores possuem o mesmo número de observações superior a um Além destas três medidas de posição descritas acima temos as medidas de separação ou separatrizes que são valores que ocupam determinadas posições em uma distribuição de frequência são os quartis decis e percentis Os quartis dividem uma distribuição de frequência relação ordenada de observações em quatro partes iguais como pode ser visualizado na Figura 3 Podemos notar que o segundo quartil Q2 corresponde a mediana da distribuição Figura 3 Quartis Da mesma forma os decis dividem a distribuição de frequência em 10 partes iguais e os percentis em 100 partes iguais Como pode ser entendido as três medidas média mediana e moda são medidas de tendência central pois apontam para três pontos de centralização das observações obtidas No entanto elas não demonstram a distribuição dos valores das observações muito concentrados ou pouco concentrados Para analisarmos a distribuição dos valores das observações temos as medidas de variabilidade ou de dispersão 32 Medidas de Dispersão ou Variabilidade As Medidas de Variabilidade são medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão dos valores das observações em torno de sua média Elas são utilizadas para medir a representatividade da média São elas Amplitude A amplitude R é o resultado da diferença entre o maior e o menor valor do conjunto de dados Considerando o conjunto ordenado de dados 𝑋1 𝑋2 𝑋3 𝑋𝑛1 𝑋𝑛 Temos que a amplitude é dada por 𝑅 𝑋𝑛 𝑋1 Variância A variância amostral S2 ou populacional σ2 é a medida de dispersão definida como a média do quadrado dos desvios dos elementos em relação à média O cálculo da variância considera mais os valores extremos que os valores intermediários expressando o quanto estes valores estão distantes dispersos de sua média A fórmula da variância populacional é 𝜎2 𝑥𝑖 𝜇2 𝑁 𝑁 𝑖1 Eq 1 Onde N representa o tamanho da população e µ a média populacional ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 12 Quando tratamos de amostras parte da população a média populacional µ é substituída pela média amostral 𝑥 e o tamanho da população N pelo tamanho da amostra menos um n 1 Isto porque ao utilizarmos a média amostral como estimador da média populacional para calcularmos a variância amostral perdemos 1 grau de liberdade3 em relação à variância populacional A fórmula da variância amostral é 𝑠2 𝑥𝑖 𝑥2 𝑛 1 𝑛 𝑖1 Eq 2 Desvio Padrão Sendo a variância uma medida calculada com valores ao quadrado seu uso causa uma certa camuflagem dos valores pois aumenta a medida de dispersão dificultando um pouco o entendimento Uma alternativa para solucionar este problema de entendimento é o desvio padrão O desvio padrão é dado pela raiz quadrada da variância Assim o desvio padrão populacional é dado por 𝜎 𝜎2 𝑥𝑖 𝜇2 𝑁 𝑁 𝑖1 Eq 3 E o desvio padrão amostral é dado por 𝑠 𝑠2 𝑥𝑖 𝑥2 𝑛 1 𝑛 𝑖1 Eq 4 Retomando o exemplo da Tabela 1 amostras A e B ambas com média igual a 99 e calculando a amplitude temos que a amplitude R da amostra A é 4 e da amostra B é 16 Isto demonstra uma maior variação dos valores extremos na amostra B mas não diz nada sobre o restante das observações da amostra Já para a variância cujo cálculo inclui todas as observações da amostra temos que a variância amostral de A é igual a 167 e a de B igual a 2943 A variância amostral de B é cerca de 18 vezes maior que a de A lembre se que são valores elevados ao quadrado Isto demonstra uma dispersão dos valores das observações na amostra B muito maior que na amostra A Agora se compararmos o desvio padrão amostral recordando igual à raiz quadrada da variância o da amostra A é 129 e o de B é igual a 542 Este valor nos apresenta uma medida de dispersão mais próxima dos valores encontrados nas observações principalmente quando os comparamos com a amplitude R A amplitude da amostra A diferença entre o maior e menor valor da amostra é 4 e o desvio padrão amostral raiz quadrada da média do quadrado dos desvios dos elementos em relação à média é 129 Para a amostra B a amplitude é 16 e o desvio padrão amostral é 542 Se fossemos comparar com a variância amostral de B 2943 teríamos um valor superior a diferença entre o maior e o menor valor das observações na amostra B 3 Graus de liberdade de um conjunto de valores representa a quantidade de elementos que podem ter seus valores alterados após terem sido impostas certas restrições a todos os valores Por exemplo se a soma de cinco valores é igual a 100 podemos definir os valores de quatro deles mas o quinto deve obedecer a restrição da soma ser igual a 100 Então temos quatro graus de liberdade para a definição dos cinco valores ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 13 Mas de qualquer forma ambas são medidas de dispersão que indicam o quanto os valores observados se distanciam de sua média No exemplo dado esta comparação ficou mais fácil pois as médias das duas amostras são 99 Com as médias iguais o maior desvio padrão amostral indica a maior dispersão de valores E em casos nos quais as médias são diferentes O desvio padrão e a variância são bastante afetados pela magnitude dos dados e portanto pode não oferecer uma medida consistente quando desejamos comparar amostras com médias diferentes como no exemplo da Tabela 2 Nela são apresentadas quatro amostras com médias bem distintas entre si Como avaliar qual das amostras possui observações mais coesas Amostra 𝑋 𝑆2 𝑆 C 1059 253 159 D 4285 2642 514 E 10821 14161 1190 F 32188 25632 1601 Tabela 2 Média variância e desvio padrão de amostras Neste caso a utilização do Coeficiente de variação CV apresentase como a solução ideal pois ele oferece uma medida de comparação para a variabilidade de diferentes conjuntos de dados e é definido como a razão entre o desvio padrão e a média tanto amostrais quanto populacionais 𝐶𝑉 𝑠 𝑥 100 𝑜𝑢 𝐶𝑉 𝜎 𝜇 100 Eq 5 Assim para verificarmos qual das amostras possui maior uniformidade entre os valores de suas observações menor dispersão dos valores em torno da média basta acrescentar o coeficiente de variação à Tabela 2 Assim na Tabela 3 podemos ver que a amostra F possui o menor coeficiente de variação 5 indicando maior concentração das observações em torno da média Por sua vez a variância amostral é de 25632 mostrando que tanto a variância quanto o desvio padrão são afetados pela magnitude dos dados A amostra mais dispersa para a qual estes valores mais se afastam de sua média é a amostra C cujo coeficiente de variação é 15 Amostra 𝑋 𝑆2 𝑆 CV C 1059 253 159 150 D 4285 2642 514 120 E 10821 14161 1190 110 F 32188 25632 1601 50 Tabela 3 Coeficiente de variação de amostras O Coeficiente de Assimetria é outra medida de dispersão Ele é usado para distinguir as distribuições assimétricas Um resultado negativo indica que a cauda do lado esquerdo da distribuição de frequência é maior que a do lado direito Um resultado positivo para o coeficiente de assimetria indica que a cauda do lado direito é maior que a do lado esquerdo Um valor nulo indica que os valores são simétricos ou seja distribuídos de maneira relativamente iguais em ambos os lados da média o que não implica necessariamente em uma distribuição simétrica A Figura 4 ilustra o coeficiente de assimetria ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 14 Figura 4 Coeficiente de assimetria O coeficiente de assimetria b1 é calculado pela fórmula 𝑏1 1 𝑛 𝑥𝑖 𝑥 𝑠 3 Eq 6 A Curtose b2 é uma medida de dispersão que caracteriza o achatamento da curva de distribuição de frequência e é dada pela fórmula 𝑏2 1 𝑛 𝑥𝑖 𝑥 𝑠 4 3 Eq 7 Se 𝑏2 0 então a função de distribuição tem o mesmo achatamento da distribuição normal4 e a função é chamada de mesócurtica Se 𝑏2 0 a função de distribuição possui a curva da função de distribuição mais afunilada com um pico mais alto do que a distribuição normal e é chamada de leptocúrtica Se 𝑏2 0 a função de distribuição é mais achatada do que a distribuição normal e é chamada de platicúrtica As curvas que ilustram a curtose são mostradas na Figura 5 Figura 5 Curtose Fonte PORTALACTION 2020 4 A distribuição normal é uma das distribuições de probabilidade mais utilizadas para modelar fenômenos naturais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 15 33 Gráficos Tão importante quanto conhecer as medidas que representam uma amostra ou população é a forma de apresentação destes valores ou seja como apresentar estas informações ao leitor Os gráficos estatísticos são formas de apresentação dos dados estatísticos cujo objetivo principal é transmitir ao público de forma simples clara e objetiva as informações relativas ao fenômeno em estudo Diversos tipos de gráficos podem ser utilizados e dentre estes destacamse os histogramas diagramas de Pareto boxplots e gráficos de linha Histograma um histograma é um gráfico de barras verticais ou horizontais que representam uma distribuição de frequência de dados agrupados O histograma pode representar a frequência absoluta número de observações por classe frequência relativa percentual de observações da classe em relação ao total de observações ou densidade frequência relativa dividida pela amplitude do intervalo de classes A construção de um histograma é relativamente simples Vamos ver como construílo com base no exemplo a seguir Exemplo 1 Os testes de resistência a compressão de 100 corpos de prova de concreto de ultra alta resistência são apresentados na Tabela 4 Monte o histograma relativo ao teste Resistência a compressão Concreto de ultra alta resistência MPa 93 101 99 98 105 101 104 95 94 103 101 102 106 100 95 100 98 104 98 104 97 105 102 99 101 97 103 102 94 101 105 96 101 99 101 101 92 98 102 99 98 101 99 97 101 99 100 98 100 103 100 99 102 101 95 101 100 98 102 100 99 96 101 101 100 98 97 104 100 101 102 97 99 97 98 100 101 99 103 100 96 101 101 100 107 95 99 99 105 94 99 104 98 95 102 103 96 104 102 97 Tabela 4 Dados de resistência a compressão O primeiro passo é identificar a amplitude da amostra Uma rápida leitura dos valores das observações indica o valor de 92 MPa como sendo a menor observação e 107 MPa como a maior observação Assim Amplitude maior valor menor valor 107 92 15 Como os valores das observações são discretos e não contínuos podemos optar por montar um histograma diretamente com os valores observados ou por meio da criação de classes Inicialmente vamos trabalhar diretamente com os valores observados Para isto basta contar a quantidade de observações relativas a cada um dos valores de resistência a compressão conforme exibido na Tabela 5 MPa 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 Qtd 1 1 3 5 4 7 10 13 12 18 9 5 6 4 1 1 Tabela 5 Quantidade de observações Com base nos valores observados e na frequência de cada valor quantidade de vezes que ele aparece podemos facilmente montar o histograma Figura 6 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 16 Figura 6 Distribuição de Frequência Uma outra forma mais adequada quando tratamos de valores contínuos é a criação de classes ao invés de nos utilizarmos dos próprios valores Neste caso o primeiro passo é a determinação do número de classes a ser usado Um dos métodos mais utilizados para a determinação do número de classes é a Regra de Sturges5 baseada no número de observações e dada pela equação 𝐾 1 33 𝑙𝑜𝑔10 𝑛 Eq 8 É importante ressaltar que o número de classes não é um parâmetro rígido Ele pode ser adequado para melhor representar os valores em função de Na medida do possível as classes deverão ter amplitudes iguais Escolher os limites dos intervalos entre duas possíveis observações O número de classes não deve ultrapassar 20 Escolher limites de classes que facilitem o agrupamento Para o nosso exemplo o número de classes K resultado da aplicação da fórmula é 76 Assim podemos escolher o número mais próximo que facilite a organização dos dados Como a amplitude é 15 o número de classes ideal seria 8 o que resultaria na representação mostrada na Tabela 6 MPa 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 Qtd 2 8 11 23 30 14 10 2 Tabela 6 Distribuição de frequência classes A representação utilizada 92 93 pode utilizar colchetes eou parêntesis Colchetes indicam a inclusão dos limites 92 𝑥 93 Parêntesis indicam a exclusão dos limites Assim a expressão 92 93 indica 92 𝑥 93 Já a representação 92 93 indicaria a inclusão do limite inferior 92 e a exclusão do limite superior 93 Assim a classe conteria todas as observações maiores ou iguais a 92 e menores que 93 mais adequado a valores contínuos O histograma é mostrado na Figura 7 5 Regra enunciada em 1926 pelo matemático alemão Herbert Sturges ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 17 Figura 7 Distribuição de frequência por classes Diagrama de Pareto O diagrama de Pareto é um gráfico de barras que ordena as frequências das ocorrências da maior para a menor permitindo a priorização dos problemas Contém ainda a frequência acumulada Este diagrama é baseado no Princípio ou Lei de Pareto também conhecido como princípio 8020 que afirma que para muitos fenômenos 80 das consequências advém de 20 das causas Figura 8 Diagrama de Pareto Como exemplo podemos construir um Diagrama de Pareto para exibir a quantidade e causa de defeitos por lote de peças recebidas conforme exibido na Figura 8 Pelo Diagrama de Pareto podemos visualizar que as três primeiras causas de defeitos são responsáveis por 84 do total de defeitos encontrados nas peças e devem ser o principal alvo de ações de correção ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 18 Boxplot Um dos gráficos preferidos e mais usados na comparação entre amostras diferentes e na exibição a distribuição empírica das observações de uma amostra Seu formato é exibido na Figura 9 O boxplot é montado pela junção de cinco medidas da amostra ou população O primeiro quartil Q1 o segundo quartil ou mediana Q2 o terceiro quartil Q3 e dois limites superior e inferior dados pelas equações 𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑄1 15 𝑥 𝑄3 𝑄1 Eq 9 𝐿𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑄3 15 𝑥 𝑄3 𝑄1 Eq 10 As observações valores que estiverem fora destes limites são considerados outliers valores discrepantes e são representados por asteriscos Figura 9 Gráfico Boxplot Os boxplot são muito usados como gráfico de comparação entre amostras como mostra o próximo exemplo Exemplo 2 Foram testadas cinco composições diferentes para obtenção de concreto com adição de resíduos de construção e demolição RCD Para cada composição foram montados 12 corpos de prova A Tabela 7 apresenta os resultados da resistência a compressão dos corpos de prova Composições a b c d e Corpos de prova 1 5439 3189 4170 4235 5045 2 5067 3016 4599 4323 4697 3 4340 3528 3820 4138 4170 4 5361 3952 4733 4763 4095 5 5288 3377 4171 3346 4452 6 5171 3637 3404 4474 4600 7 5504 3369 4042 2597 4515 8 5252 3598 3657 4757 5287 9 4453 3979 4149 2260 4350 10 4736 3521 3680 3825 4782 11 4476 3378 3826 2640 4211 12 5003 2500 4562 4355 3000 Tabela 7 Resistência a compressão dos corpos de prova ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 19 Para montar um boxplot e comparar as amostras basta calcular as cinco medidas limites superior e inferior primeiro quartil segundo quartil ou mediana e terceiro quartil para cada uma das amostras O gráfico resultante é o mostrado na Figura 10 Figura 10 Gráfico com os boxplots de cada amostra Analisando o gráfico podese perceber que a amostra A possui os maiores valores de resistência à compressão e a amostra B os menores A amostra D possui os valores mais dispersos Podese também identificar a presença de outliers valores discrepantes nas amostras B e E Gráficos de Linha Os gráficos de linha são montados a partir de um par de ordenadas x e y Utilizando os dados do Exemplo 2 podemos montar um gráfico de linha contendo o valor y para cada observação x de cada amostra das composições A E O gráfico é mostrado na Figura 11 Figura 11 Gráfico de linhas 000 1000 2000 3000 4000 5000 6000 1 2 3 4 5 6 7 8 9 10 11 12 Resistência à compressão Observações da amostra a b c d e ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 20 A escolha do tipo de gráfico está vinculada ao tipo de informação que queremos transmitir ao leitor Um boxplot é muito mais eficiente para comparação de valores de amostras informação a ser transmitida do que o gráfico de linhas Agora se a intenção for exibir tendências ou comportamento de uma variável x em função de outra variável y o gráfico de linha pode ser muito mais adequado Exemplo 3 Neste exemplo desejamos conhecer o comportamento da resistência a compressão em função da variação do percentual de adição de resíduo de construção e demolição Os resultados de resistência à compressão em função do percentual de adição são mostrados na Tabela 8 adição 0 5 10 15 20 25 30 35 40 45 50 55 MPa 5287 5045 4782 4697 4600 4515 4452 435 4211 417 4095 3000 Tabela 8 Resistência a compressão dos elementos da amostra O gráfico de linha da Figura 12 exibe o comportamento da resistência a compressão em função do percentual de adição Figura 12 Gráfico de linha comportamento da resistência a compressão O gráfico da Figura 12 ilustra perfeitamente a variação da resistência à compressão em função do aumento da adição de RCD A escolha do tipo de gráfico mais adequado a informação é fundamental para que a transmissão desta informação seja realizada completamente Com isto encerramos esta breve introdução a estatística descritiva na qual apenas os principais conceitos e medidas foram apresentados É importante frisar que tudo o conteúdo exposto até o momento é utilizado para caracterizar os valores que foram mensurados a amostra da população Estes valores e medidas não podem ser utilizados para caracterizar a população a não ser quando a amostra seja toda a população um caso extremamente raro de ser obtido Para transferirmos as conclusões de um estudo de amostras para a população que originou a amostra usamos a Inferência um ramo da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de valores representativo da população A inferência estatística faz proposições sobre a população usando dados da amostra obtida por um dos métodos de amostragem descritos Dada uma hipótese sobre a população para a qual nós queremos fazer inferências a inferência estatística consiste em escolher um modelo ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 21 estatístico adequado ao processo que gerou os dados e a partir deste modelo deduzir as proposições conclusões Se por um lado a estatística descritiva detalha precisamente os dados analisados uma vez que as medidas são obtidas a partir destes mesmos dados e somente deles por outro a inferência estatística está sempre associada à uma margem de erro risco entendida como a probabilidade de que as conclusões obtidas a partir da análise da amostra sejam diferentes caso toda a população fosse sujeita ao mesmo procedimento de análise ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 22 4 O SOFTWARE RSTUDIO E A ESTATÍSTICA DESCRITIVA O uso da estatística em trabalhos acadêmicos foi em grande medida facilitado pelo desenvolvimento dos softwares estatísticos Os cálculos de medidas da estatística descritiva podem ser efetuados até mesmo em planilhas Excel inclusive alguns cálculos mais avançados de Inferência Mas apesar do MS Excel ser de conhecimento e domínio da maior parte dos estudantes existem softwares específicos para estatística e o que iremos abordar é o software R6 e o RStudio7 O software R é basicamente uma interface padrão texto para a linguagem R uma linguagem de programação multiparadigma dinâmica fracamente tipada e voltada à manipulação análise e visualização de dados Já o RStudio é um software de interface para o R com menus e atalhos padrão Windows que tornam o uso do R mais simples e amigável Ambos são softwares de plataforma aberta em contínuo desenvolvimento e atualização gratuitos e possuem versões compiladas para Windows Mac e Linux motivo pelo qual são adotados como ferramenta estatística por um grande número de pesquisadores Existem diversos tutoriais e manuais sobre o uso destes softwares disponíveis na internet que podem ser usados como fonte de informações e para treinamento A abordagem sobre estes softwares adotada neste texto é restrita a explicações básicas sobre os comandos e funções necessárias para a compreensão e execução dos exemplos e exercícios apresentados O primeiro exercício é claro a instalação do software R e do RStudio use a internet procureo e instaleo É fácil Após a instalação execute o RStudio A Figura 13 mostra o layout da tela inicial do RStudio versão 362 Figura 13 Software RStudio 6 R Core Team 2019 R A language and environment for statistical computing R Foundation for Statistical Computing Vienna Austria URL httpswwwRprojectorg 7 RStudio Team 2019 RStudio Integrated Development for R RStudio IncBoston MA URL httpwwwrstudiocom ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 23 RStudio e seu uso A primeira informação necessária a respeito do RStudio é a de que ele usa notação inglesa para numeração ou seja o separador de decimais é o ponto e não a vírgula como nós usamos A segunda é que apesar da interface a maior parte dos comandos e funções são digitadas em janela específica ainda que o RStudio possua alguns atalhos Como pode ser visto na Figura 13 o RStudio possui três janelas A da esquerda é a janela de comandos com três abas console terminal e jobs A janela superior direita possui três abas environment history e connections e a inferior direita possui cinco abas files plot packages help e viewer O uso destas janelas e abas será abordado quando necessário Por enquanto vamos usar a janela esquerda console para entrada dos comandos Para iniciarmos veremos como citar o RStudio em trabalhos acadêmicos Digite citation na linha de comando O resultado será citation To cite R in publications use R Core Team 2019 R A language and environment for statistical computing R Foundation for Statistical Computing Vienna Austria URL httpswwwRprojectorg No capítulo anterior aprendemos sobre as medidas de posição e dispersão Vamos iniciar o uso do RStudio executando cálculos com estas medidas Para iniciarmos em primeiro lugar precisamos conhecer como entrar com dados valores no software Há diversas maneiras8 digitação direta leitura de arquivos contendo dados em diversos formatos importação As mais usuais são a digitação e a leitura de arquivos 1 Entrada de dados com o comando c o comando c corresponde a concatenete Seu uso é bem simples Especifique um nome para o vetor que conterá os dados e relacione os dados a serem inseridos no vetor Lembrese o separador de decimais é o ponto e a virgula separa os valores Para visualizar o conteúdo do vetor basta digitar o nome do vetor e enter amostraa c9798999999100101 amostraa 1 97 98 99 99 99 100 101 O comando summary exibe um sumário com as estatísticas de posição relativas ao conteúdo do vetor ou de qualquer outro arranjo como visto a seguir summaryamostraa Min 1st Qu Median Mean 3rd Qu Max 970 985 990 990 995 1010 O comando exibe o valor mínimo primeiro quartil mediana segundo quartil média aritmética terceiro quartil e valor máximo 2 Outra forma de entrada de dados é via teclado com o comando scan Este comando abre a digitação de valores que é encerrada digitandose enter duas vezes consecutivas 8 Para mais informações consulte os tutoriais disponíveis na internet sugestão httpwwwlegufprbrpaulojusembrapaRembrapaRembrapase7html ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 24 amostrab scan 1 90 2 95 3 97 4 97 5 99 6 103 7 105 8 106 9 Read 8 items summaryamostrab Min 1st Qu Median Mean 3rd Qu Max 900 965 980 990 1035 1060 3 O terceiro modo é o uso do comando readxxxx Com este comando é possível ler dados como dbf arquivos DBASE csv separado por virgulas e diversos outros formatos O formato a ser lido é indicado como complemento do comando readcsv2 O formado csv pode ser gravado diretamente a partir de planilhas MS Excel Apenas um cuidado existem três formatos csv no MS Excel separado por vírgulas Macintosh e MSDOS Usaremos o primeiro separado por virgulas juntamente com o comando readcsv2 pois desta forma o RStudio realiza a conversão de virgula para ponto decimal Para este exemplo usaremos os dados que foram usados como base para a construção da Tabela 29 amostras c d e f e na sintaxe do comando indicaremos a abertura da janela para seleção do arquivo filechoose e a existência de cabeçalho para os dados header TRUE ou header T cdef readcsv2filechoose headerTRUE cdef c d e f 1 1229 4315 10563 34386 2 1072 4540 11970 29981 3 973 4379 9993 30324 4 916 5147 9945 32555 5 1093 3861 11577 30518 6 1179 4490 9695 29813 7 1052 4529 8631 30030 8 958 4404 10836 29890 9 980 4270 10176 32334 10 1114 4687 11193 32501 11 861 4959 8568 35711 12 938 4199 9891 32644 13 1211 3543 10343 29976 14 997 4813 12239 32204 15 997 4843 10832 32875 16 1015 4719 11343 31230 17 1022 4117 8840 34483 18 1120 4630 10574 30846 19 1244 3262 9892 32063 20 1235 5556 10315 33969 summarycdef c d e f Min 8610 Min 3262 Min 8568 Min 2981 1st Qu 9783 1st Qu4252 1st Qu 9892 1st Qu3025 Median 10370 Median 4509 Median 10329 Median 3213 Mean 10603 Mean 4463 Mean 10371 Mean 3192 3rd Qu11348 3rd Qu4742 3rd Qu10925 3rd Qu3270 Max 12440 Max 5556 Max 12239 Max 3571 9 Como os números foram gerados aleatoriamente em uma distribuição normal haverá diferenças nos resultados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 25 O comando summarycdef exibe o sumário dos quatro vetores carregados incluindo a média Exercício 1 Procure os comandos para cálculo do desvio padrão e do coeficiente de variação e executeos para os vetores c d e f acima Como o boxplot é um dos gráficos mais importantes na estatística descritiva abordaremos sua construção no RStudio Sua construção é feita a partir do comando boxplot e os argumentos serão os vetores Como os vetores foram inseridos em uma única variável cdef usaremos o para identificalos o parâmetro especifica uma única variável em um vetor Aqui devido a diferença de grandeza entre os vetores mostramos apenas os vetores c e d Figura 14 boxplotcdefccdefd Figura 14 Gráfico Boxplot das amostras c e d Se quisermos acrescentar cores basta complementar o comando boxplot Figura 15 boxplotcdefccdefd colcyelloworange Figura 15 Gráfico Boxplot colorido das amostras c e d Exercício 2 Pesquise o comando boxplot e relacione as opções de configuração e edição do comando Este capítulo foi uma introdução preliminar ao uso do software R e RStudio na resolução de problemas estatísticos É apenas uma pequena amostra de como ele funciona de como interagimos com ele e de sua capacidade Durante os capítulos seguintes o RStudio será utilizado para a demonstração das funções estatísticas No entanto não é objetivo deste texto o aprendizado dos comandos e funções do R Este é um tema extremamente vasto e para o qual existem diversos bons tutoriais Alguns destes tutoriais serão indicados em notas de rodapé ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 26 5 MODELOS PROBABILISTICOS E DETERMINISTICOS Todas as vezes que se estudam fenômenos de observação o primeiro passo é entender o próprio fenômeno e distinguir o modelo matemático que melhor o explique Os fenômenos de observação assim como os modelos matemáticos utilizados para explicar esses fenômenos podem ser divididos em determinísticos e probabilísticos ou aleatórios 51 Modelos Deterministicos Os fenômenos determinísticos conduzem sempre a um mesmo resultado quando as condições iniciais são as mesmas ou seja seguem leis determinísticas e seu resultado é obtido por meio destas leis Como exemplo podemos tomar o tempo de queda livre de um corpo Mantidas as mesmas condições as variações obtidas para o valor do tempo de queda livre de um corpo são extremamente pequenas e se ocorrem normalmente tem origem na imprecisão dos mecanismos de medição Os fenômenos aleatórios são aqueles cujo resultado mesmo em condições normais de experimentação variam de uma observação para outra Estes fenômenos não possuem uma lei ou regra que determine seus resultados ou se possuem esta lei ou regra não é conhecida impossibilitando a previsão de um resultado Assim mesmo que haja um grande número de repetições do fenômeno os resultados não são previsíveis Por exemplo podemos considerar os seguintes experimentos conduzidos como fenômenos aleatórios Lançamento de uma moeda Lançamento de um dado Lançamento de duas moedas Retirada de uma carta de um baralho completo de 52 cartas Considerando que os resultados dos experimentos aleatórios estão sujeitos ao acaso ou seja são experimentos ou situações em que deve ocorrer um dentre os vários resultados possíveis a análise dos resultados dos experimentos relacionados acima revela que Cada experimento pode ser repetido indefinidamente sob as mesmas condições Não se conhece em particular o valor do resultado do experimento a priori porém podese descrever todos os possíveis resultados Quando o experimento for repetido um grande número de vezes surgirá uma regularidade Os modelos que estudam os fenômenos aleatórios são chamados de probabilísticos pois apesar de não podermos prever o resultado podemos determinar a priori a probabilidade de ocorrência de um determinado resultado 52 Modelos Probabilísticos Podemos então conceituar Modelo Probabilístico como sendo modelos construídos a partir de certas hipóteses sobre o problema que está sendo estudado Os modelos probabilísticos são constituídos por duas etapas Da identificação de todos os resultados possíveis de serem obtidos De uma certa lei ou regra que nos informa o quão provável é cada resultado ou grupo de resultados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 27 Da primeira etapa surge o conceito de Espaço Amostral que é o conjunto de todos os resultados possíveis do experimento aleatório e pode ser classificado em Espaço amostral discreto contém um número finito de possibilidades ou uma sequência infinita com tantos elementos quanto são os números inteiros Espaço amostral contínuo contém um número infinito de possibilidades igual ao número de pontos em um segmento de reta Outro conceito importante é o de Evento Evento é um conjunto de resultados do espaço amostral Por definição o evento é sempre um subconjunto do espaço amostral Por exemplo para o lançamento de um dado podemos considerar o evento PAR como a ocorrência de um número par 2 4 6 e o evento IMPAR como a ocorrência de um número ímpar 1 3 5 Como estamos tratando de modelos probabilísticos a determinação da lei ou regra que nos informa o quão provável é cada resultado ou grupo de resultados evento citada na segunda etapa do modelo probabilístico é nosso próximo objetivo 53 Probabilidade A lei que rege o modelo probabilístico é baseada no conceito de probabilidade Probabilidade é um valor entre 0 zero e 1 um associada à ocorrência de um determinado evento A soma das probabilidades de todos os resultados possíveis do experimento deve ser sempre igual a 1 Para entendermos melhor o conceito de probabilidade vamos analisar os seguintes exemplos Ocorrência de um número par no lançamento de um dado Evento A 2 4 6 no Espaço amostral 1 2 3 4 5 6 O Evento A possui 3 ocorrências num total de 6 ocorrências A 3 6 05 Ocorrência de um número menor que 3 no lançamento de um dado Evento B 1 2 no Espaço amostral 1 2 3 4 5 6 O Evento A possui 2 ocorrências num total de 6 ocorrências B 2 6 033 Ocorrência do número 6 Evento C 6 no Espaço amostral 1 2 3 4 5 6 O Evento C possui 1 ocorrência num total de 6 ocorrências C 1 6 017 Ocorrência de um número maior que 6 Evento D no Espaço amostral 1 2 3 4 5 6 O Evento D possui zero ocorrências num total de 6 ocorrências D 0 6 0 Dos exemplos acima podemos entender o Princípio da Equiprobabilidade usado no cálculo da probabilidade de um evento Ele determina que quando todos os resultados possíveis são igualmente prováveis isto é quando as características do experimento sugerem N possíveis resultados todos com igual probabilidade de ocorrência a probabilidade de um evento A contendo NA resultados pode ser definida por 𝑃𝐴 𝑁𝐴 𝑁 Eq 11 Outro princípio usado para cálculo da probabilidade é o Princípio da Independência Dois eventos são independentes quando a ocorrência de um deles não altera a probabilidade da ocorrência do outro Da mesma forma vamos analisar o princípio da independência a partir dos seguintes exemplos Qual a probabilidade de lançar um dado duas vezes e em ambas obtermos números pares Considerando o Espaço Amostral EA 1 2 3 4 5 6 e os eventos desejados E1 E2 2 4 6a probabilidade P E1 x E2 PE1 x PE2 05 x 05 025 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 28 Numa linha de montagem são produzidas bolas de bilhar em lotes de 10 bolas sendo que 2 são vermelhas 2 são verdes 2 são azuis 2 são amarelas e 2 brancas Qual a probabilidade de em um experimento aleatório sem reposição retirarmos 2 bolas brancas Para a primeira retirada temos Espaço Amostral N 10 Evento Bola Branca NA 2 P1 Probabilidade de retirada da primeira bola branca NA N 2 10 1 5 02 Com a retirada da primeira bola branca o Espaço amostral N foi reduzido de 1 e o número de bolas brancas também Portanto Espaço Amostral N 9 Evento Bola Branca NA 1 P2 Probabilidade de retirada da segunda bola branca NA N 1 9 011 Então P P1 P2 15 x 19 145 0022 Teoria da Contagem Dados dois eventos o primeiro dos quais pode ocorrer de m maneiras distintas e o segundo pode ocorrer de n maneiras distintas então os dois eventos conjuntamente podem ocorrer de mn maneiras distintas O cálculo da probabilidade de um evento reduzse a um problema de contagem A Análise Combinatória tem fundamental importância para se contar o nº de casos favoráveis e o total de casos por meio dos conceitos e fórmulas de combinações e arranjos A diferença entre combinação e arranjo é a ordem dos elementos No arranjo a ordem de seleção dos elementos é importante e diferencia os resultados na combinação não Suponhamos que temos cinco elementos A B C D e E e os queremos combinar dois a dois Para o arranjo os resultados Portal Action 2020 e Portal Action 2020 são diferentes Já para a combinação como a ordem não importa Portal Action 2020 e Portal Action 2020 representam o mesmo resultado A fórmula para o cálculo de combinação de r elementos p a p é 𝐶𝑟𝑝 𝑟 𝑝 𝑟 𝑝 Eq 12 A fórmula para o cálculo de arranjo de r elementos p a p é 𝐴𝑟𝑝 𝑟 𝑟 𝑝 Eq 13 A primeira informação necessária para saber o número total de casos será dada por combinação ou arranjo é então saber se a ordem de seleção é importante ou não Analisemos os dois exemplos a seguir Na confecção de amostras de concreto para testes de resistência dentre 10 tipos de aditivos diferentes serão escolhidos três para compor cada amostra Quantos conjuntos diferentes de amostras podem ser formados Considere que os aditivos serão adicionados sempre no percentual indicado pelo fabricante Bom temos três aditivos dentre 10 aditivos que serão adicionados juntos durante o processo de produção do concreto Neste caso a ordem não importa então tratase de combinação de 10 elementos três a três 𝐶103 10 3 𝑥 10 3 10 3 𝑥 7 10 𝑥 9 𝑥 8 𝑥 7 3 𝑥 2 𝑥 1 𝑥 7 720 6 120 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 29 Considerando um grupo de dez pessoas quantas chapas diferentes podemos ter para uma eleição de presidente tesoureiro e secretário Neste caso a ordem importa pois representam resultados diferentes a seleção de uma determinada pessoa para presidente tesoureiro ou secretário Tratase de um arranjo de 10 elementos três a três 𝐴103 10 10 3 10 𝑥 9 𝑥 8 𝑥 7 7 10 𝑥 9 𝑥 8 1 720 Outra forma de analisar o arranjo é para o primeiro cargo existem 10 opções para o segundo cargo nove opções e para o terceiro oito opções pois são 10 pessoas e uma mesma pessoa não pode exercer duas ou mais funções então temos 10 x 9 x 8 720 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 30 6 DISTRIBUIÇÃO DE PROBABILIDADES Como visto no item anterior probabilidade é um valor entre 0 zero e 1 um associada à ocorrência de um determinado evento pertencente ao espaço amostral e que a soma das probabilidades de todos os eventos possíveis todos os elementos do espaço amostral é sempre igual a um 1 A distribuição de probabilidades é uma função que associa uma probabilidade a cada resultado numérico de um experimento ou seja fornece a probabilidade associada a cada elemento do espaço amostral Para que possamos compreender como construir uma distribuição de probabilidades são necessários alguns conceitos Variável aleatória Muitos experimentos aleatórios produzem resultados não numéricos Desta forma é conveniente transformar seus resultados em números o que é feito por meio de uma variável aleatória Assim podemos entender uma variável aleatória como uma função que associa um valor numérico a cada ponto do espaço amostral não numérico Assim a variável aleatória é uma variável que tem um valor único para cada resultado aleatório de um experimento A palavra aleatória indica que em geral só conhecemos aquele valor depois do experimento ser realizado Uma vez definida a variável aleatória que irá associar cada elemento do espaço amostral não numérico nosso próximo objetivo é o cálculo das probabilidades correspondentes O conjunto das variáveis e das probabilidades correspondentes é denominado distribuição de probabilidades isto é 𝑃𝑥 𝑥𝑖 𝑝𝑥𝑖 𝑖 1 2 3 𝑛 Eq 14 A distribuição de probabilidades pode ser mais facilmente visualizada por meio de um exemplo Considere o lançamento de três moedas Qual a probabilidade de obtermos zero uma duas e três caras A busca pela resposta iniciase com a construção do espaço amostral relativo ao experimento Cada lançamento pode resultar em cara e coroa São três lançamentos Assim assumindo que CA representa cara e CO coroa os resultados possíveis e equiprováveis temos o espaço amostral exibido na Tabela 9 ESPAÇO AMOSTRAL 1 CA CA CA 5 CO CA CA 2 CA CA CO 6 CO CA CO 3 CA CO CA 7 CO CO CA 4 CA CO CO 8 CO CO CO Tabela 9 Espaço amostral do experimento O espaço amostral do experimento possui oito alternativas Como nosso interesse é a contagem do número de caras vamos enumerar os eventos de zero a três caras no espaço amostral e associar a cada evento sua frequência Tabela 10 Evento Variável aleatória Elemento do espaço amostral Frequência Probabilidade Zero caras 0 8 1 18 Uma cara 1 4 6 e 7 3 38 Duas caras 2 2 3 e 5 3 38 Três caras 3 1 1 18 Tabela 10 Espaço amostral contagem dos eventos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 31 Na Tabela 10 cada evento foi associado a uma variável aleatória número real Xe sendo a quantidade de ocorrências frequência do evento determinada assim como sua probabilidade NAN A Distribuição de probabilidade associada é mostrada na Figura 16 Figura 16 Distribuição de probabilidades do evento As distribuições de probabilidades são probabilidades associadas a uma variável aleatória representando um evento do espaço amostral e temos duas regras de verificação que se aplicam a qualquer distribuição de probabilidades A soma de todos os valores probabilidades de uma distribuição de probabilidades deve ser igual a um 1 100 Assim 𝑃𝑥 1 onde x assume todos os valores do espaço amostral ou eventos possíveis A probabilidade de um determinado evento não pode ser negativa 0 𝑃𝑥 1 para todo x As variáveis aleatórias podem ser discretas ou contínuas No exemplo anterior temos uma variável aleatória discreta pois somente pode assumir os valores zero um dois ou três Uma variável aleatória contínua é aquela que pode assumir inúmeros valores num intervalo de números reais e é medida em uma escala contínua Vamos analisar isto no próximo exemplo Exemplo 4 Considere uma roleta dividida em quatro quadrantes Seja X a variável aleatória que indica o ponto exato em que o ponteiro para de girar como existem infinitos pontos em cada quadrante esta variável aleatória é contínua Qual a probabilidade de o ponteiro parar no primeiro quadrante 0 a 90o Espaço amostral para uma roleta dividida em quatro quadrantes temos um espaço amostral 𝑄1 𝑄2 𝑄3 𝑒 𝑄4 O evento de interesse é o ponteiro parar no primeiro quadrante então E 𝑄1 Disto decorre que PE 14 Se colocarmos em um gráfico representando os quadrantes em graus teremos Figura 17 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 32 Figura 17 Distribuição de probabilidades Vamos aproveitar o gráfico exibido na Figura 17 e analisarmos um pouco as diversas situações que o gráfico pode representar Se tomamos como base os quadrantes teremos quatro quadrantes e uma probabilidade igual de 14 para cada um destes quadrantes O valor da probabilidade no eixo y seria 14 e o eixo x seria numerado de 1 a 4 A área total sob o gráfico corresponderia a 14 x 4 1 Todas as probabilidades são positivas e estão entre 0 e 1 Nesse caso atende as duas regras de verificação Se tomarmos como base os graus de 0o a 360o teremos que o valor da probabilidade no eixo y seria de 1360 e o eixo x seria numerado de 0 a 360 A área total sob o gráfico corresponderia a 1360 x 360 1 Da mesma forma todas as probabilidades são positivas e estão entre 0 e 1 Ok atende as duas regras de verificação Se assumirmos que o ponteiro da roleta pode indicar um valor contínuo no segmento de reta 0 360 teríamos uma variável aleatória contínua O valor da probabilidade no eixo y não seria possível de ser determinado uma vez que o eixo x possui infinitos valores mas para ser uma distribuição de probabilidades a soma de todas as probabilidades continua sendo igual a 1 e todas as probabilidades estariam entre 0 e 1 A última situação retratada acima mostra que apesar de termos uma variável aleatória contínua infinitos valores as regras das distribuições de probabilidades continuam sendo válidas e podemos nos utilizar delas para o cálculo de probabilidades Vejamos o exemplo10 a seguir Exemplo 5 A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada por uma distribuição Uniforme no intervalo 0 7 Qual é a probabilidade de que uma pane venha a ocorrer nos primeiros 800 metros E qual a probabilidade de que ocorra nos 3 km centrais da rede A distribuição de probabilidade seria Figura 18 Figura 18 Distribuição de probabilidades 10 Reproduzido de httpwwwportalactioncombrprobabilidades61distribuicaouniforme ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 33 A função correspondente a curva chamada de função densidade de probabilidade é dada por 𝑓𝑥 1 7 𝑠𝑒 0 𝑥 7 e zero caso contrário Assim a probabilidade de uma pane ocorrer nos primeiros 800 metros é 𝑃𝑥 08 𝑓𝑥𝑑𝑥 08 0 7 08 0 01142 Já a probabilidade da pane ocorrer nos 3 km centrais seria igual a probabilidade de ocorrência nos 5 km iniciais menos a probabilidade de ocorrência nos 2 km iniciais ou seja 𝑃2 𝑥 5 𝑓𝑥𝑑𝑥 𝑃𝑥 5 𝑃𝑥 2 5 7 2 7 3 7 5 2 04285 Assim não interessa qual seja o formato da curva associada a distribuição de probabilidades dada pela função densidade de probabilidades FX Desde que o espaço amostral seja representado no eixo x a probabilidade de um evento pode ser determinada pela relação entre a área total delimitada pela curva e o eixo x e a área delimitada correspondente ao evento A Figura 19 ilustra o exemplo onde a probabilidade do evento a b é dada pela razão entre a área delimitada pelo evento Ea b e a área total Figura 19 Probabilidade do evento a b Desta forma conseguimos transformar um problema estatístico em um cálculo matemático ou seja para descobrirmos a probabilidade de um certo evento 𝑃𝐸𝑎𝑏 basta montarmos a distribuição de frequência da variável em estudo deduzirmos a equação de sua curva dada pela função densidade de probabilidade 𝐹𝑋 calcularmos a área total sob a curva de 0 a N e a área correspondente ao evento 𝐸𝑎𝑏 A equação correspondente é 𝑃𝐸𝑎𝑏 𝐹𝑋 𝑏 𝑎 𝐹𝑋 𝑁 0 Eq 15 Resolvido Bom não Primeiro porque teríamos que deduzir a equação correspondente a função densidade de probabilidade e isto pode não ser tão simples assim mesmo que tenhamos um espaço amostral que possua um tamanho suficiente quantidade de elementos que o permita Dependendo da quantidade de valores resultados de amostras elementos testados isto pode ser impossível Poderíamos sim estimar com certo grau de precisão o tipo de função de densidade de probabilidade a curva real seguiria e a partir desta estimativa fazer aproximações ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 34 Por isto uma das primeiras atividades para a Inferência é a identificação do Modelo Probabilístico a ser usado O modelo probabilístico é associado ao tipo de distribuição de probabilidades que o espaço amostral em estudo segue Existem diversos tipos de modelos probabilísticos sendo que a distribuição uniforme discreta constante é a que foi utilizada nos dois exemplos anteriores Vamos ver a seguir os tipos de Modelos Probabilísticos mais comuns Os modelos probabilísticos podem ser divididos em dois tipos básicos os discretos baseados em variáveis aleatórias discretas e os modelos contínuos baseados em variáveis aleatórias contínuas A diferença entre eles é o valor que suas variáveis aleatórias podem assumir discretos ou contínuos Os modelos apresentados a seguir são modelos discretos 61 Distribuição Uniforme Discreta O modelo de distribuição uniforme discreta ocorre quando todos os elementos de um espaço amostral definido são igualmente prováveis Este é o modelo que foi utilizado nos exemplos anteriores Sua função de distribuição de probabilidades pode ser vista como uma reta Figura 20 Figura 20 Distribuição de Probabilidades Uniforme Discreta 62 Distribuição de Bernoulli O modelo de distribuição de Bernoulli é a distribuição mais simples de probabilidades Corresponde a um único experimento com resultados iguais a sucesso ou fracasso ou outras variantes como sim ou não cara ou coroa Seu espaço amostral corresponde a Portal Action 2020 onde o valor um corresponde ao sucesso com probabilidade p e o valor zero ao fracasso com probabilidade q 1 p Figura 21 O experimento é dito justo quando p q 05 ambos os eventos possuem a mesma probabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 35 Figura 21 Distribuição de Bernoulli 63 Distribuição binomial Suponhamos que sejam realizados N experimentos cuja distribuição individual é a de Bernoulli ou seja uma série de experimentos cujo resultado admite apenas duas classificações sucesso ou fracasso masculino ou feminino cara ou coroa etc Seja X uma variável aleatória associada ao número de sucessos 1 obtidos nas N realizações do experimento Se a probabilidade de sucesso de cada um dos experimentos individuais é p e a de fracasso é q q 1 p então dizemos que X possui uma distribuição binomial X Bin Np Para entendermos melhor examinemos o seguinte exemplo Exemplo 6 Uma linha de montagem ininterrupta produz bolas pretas e brancas sendo a probabilidade de produção de bolas pretas quatro vezes maior que a de bolas brancas Em 10 eventos independentes de retirada uma bola para compor uma amostra de 10 bolas qual a probabilidade de obtermos três bolas pretas Se a probabilidade de retirarmos uma bola preta é quatro vezes maior vamos assumir que existem quatro vezes mais bolas pretas que brancas ou seja a cada cinco bolas quatro são pretas e uma é branca Assim podemos considerar que cada retirada de uma bola preta ou branca para compor a amostra de 10 bolas como um experimento de Bernoulli onde p bola preta sucesso 08 e q 1 p 02 bola branca fracasso Para a segunda retirada experimentos independentes a probabilidade é a mesma Assim a probabilidade de sucesso em duas retiradas k 2 é igual a p2 08 x 08 ou pk A probabilidade de dois fracassos é igual a 1 p x 1 p ou 1 p2 e generalizando 1 pk A probabilidade de um evento amostral com k sucessos e n k fracassos é dada pela equação 𝑝𝑘1 𝑝𝑛𝑘 Eq 16 A equação representa a probabilidade de qualquer evento do espaço amostral com k sucessos e n k fracassos Assim temos que determinar quantas combinações diferentes podemos obter de uma amostra de 10 bolas combinandoas três a três Para relembrar a equação correspondente Eq 12 é 𝐶𝑁𝑘 𝑁 𝑘 𝑁 𝑘 Assim para k 0 1 2 N ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 36 𝑃𝑋 𝑘 𝐶𝑁𝑘 𝑝𝑘1 𝑝𝑛𝑘 Então para três k sucessos bola preta em uma amostra de 10 bolas N com p 08 𝑃3 10 3 10 3 083𝑥1 08103 120 𝑥 0512 𝑥 00000128 00007864 Então supondo agora que a probabilidade de retirada de bolas brancas é igual a 30 p 03 e sendo k o número de bolas brancas presentes na amostra construa o gráfico de distribuição de probabilidades Pk A equação é a mesma então 𝑝𝑘 0 1 10 𝐶10𝑘 𝑝𝑘 1 𝑝10𝑘 Montando uma tabela da probabilidade pk e probabilidade acumulada Fkem função do número de sucessos k temos os resultados apresentados na Tabela 11 e o gráfico da distribuição de probabilidades correspondente é apresentado na Figura 22 k 𝐶10𝑘 pk Fk 0 1 0028248 0028248 1 10 0121061 0149308 2 45 0233474 0382783 3 120 0266828 0649611 4 210 0200121 0849732 5 252 0102919 0952651 6 210 0036757 0989408 7 120 0009002 0998410 8 45 0001447 0999856 9 10 0000138 0999994 10 1 0000006 1 Tabela 11 Probabilidades e Probabilidades acumulada Figura 22 Distribuição Binomial A distribuição de Bernoulli é um caso especial da distribuição binomial com n 1 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 37 64 Distribuição de Poisson A distribuição de Poisson é uma distribuição de probabilidade que expressa a probabilidade de uma série de eventos ocorrer num certo intervalo de unidade de medida unidade de tempo volume área etc com a restrição de que estes eventos ocorrem independentemente de quando ocorreu o último evento A distribuição de Poisson é uma forma limite da distribuição binomial quando N Ꝏ e p 0 e é usada em casos que envolvem contagem e cuja probabilidade de ocorrência é proporcional ao intervalo de amostragem como por exemplo em número de defeitos em peças erros tipográficos por página impressa mortes por acidente por ano em uma cidade etc Neste caso a variável aleatória é discreta número de ocorrências e o espaço amostral é contínuo tempo área A distribuição de Poisson é caracterizada pelo parâmetro λ derivado de p e q da distribuição binomial que é traduzido como a taxa média de ocorrência por unidade de medida Sua equação é 𝑃𝑥 𝑒𝜆𝜆𝑥 𝑥 Eq 17 Vejamos como fica o gráfico de distribuição de probabilidades de Poisson a partir do próximo exemplo Exemplo 7 Para um projeto de estrada de rodagem uma empresa adquiriu um maquinário capaz de executar 1 km de estrada por dia A especificação do equipamento admite a ocorrência de 00001 defeitos por metro quadrado de estrada Sabendose que o edital prescreve cada trecho de estrada com comprimento de 10 km e 12 metros de largura monte a distribuição de probabilidade correspondente e indique a probabilidade de ocorrência de três defeitos por km linear de estrada Em primeiro lugar devemos calcular o λ tendo como base o km linear de estrada Temos a ocorrência de 00001 defeitos por m2 Então para o km linear temos 12 largura x 1000 comprimento x 00001 12 ocorrências por km linear de estrada equivalente a 12000 m2 de estrada O resultado do cálculo com a aplicação da equação 17 é mostrado na Tabela 12 Qtd defeitos Px 0 030119 1 036143 2 021686 3 008674 4 002602 5 000625 6 000125 7 000021 8 000003 9 000000 10 000000 Tabela 12 Cálculo das probabilidades de defeitos por km de estrada A probabilidade de ocorrência de 3 defeitos por km linear de estrada seria aproximadamente 8674 O gráfico da distribuição de probabilidades é mostrado na Figura 23 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 38 Figura 23 Distribuição de Poisson 65 Distribuição Geométrica Consideremos uma série de experimentos baseados na distribuição de Bernoulli fracasso ou sucesso repetidos até que se obtenha o primeiro sucesso A probabilidade de sucesso é p e a de fracasso é q 1 p Quantos experimentos serão necessários até que se obtenha sucesso O espaço amostral típico é dado pelo conjunto 𝑆 𝐹𝑆 𝐹𝐹𝑆 𝐹𝐹𝐹𝑆 𝐹𝐹𝐹𝐹𝑆 Sendo x o número fracassos antes do primeiro sucesso a função para a distribuição é 𝑃𝑥 𝑞𝑥𝑝 Eq 18 Vamos construir o gráfico de distribuição de probabilidades por meio de um exemplo Exemplo 8 Um experimento possui probabilidade de apresentar reação química positiva de 03 30 Qual a probabilidade de executarmos 5 experimentos antes de obtermos sucesso cinco fracassos e reação química positiva na sexta tentativa Aplicando a fórmula podemos construir a tabela de probabilidades em função do número de experimentos O resultado é mostrado na Tabela 13 x Px 0 0300 1 0210 2 0147 3 0103 4 0072 5 0050 6 0035 7 0025 8 0017 9 0012 10 0008 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 39 Tabela 13 Probabilidades de sucesso após fracassos Como a Tabela 13 mostra a probabilidade de sucesso na sexta tentativa cinco fracassos e um sucesso é de 005 ou 5 Agora se alterarmos um pouco o enunciado do problema teremos outra visão qual a probabilidade de obtermos sucesso até a sexta tentativa Neste caso a obtenção de sucesso na primeira tentativa zero fracassos conta assim como para a segunda terceira quarta quinta e sexta A probabilidade total seria a somatória das linhas de zero a cinco Isto daria 0882 ou 882 Observe que o correto entendimento do problema é fundamental para que a análise estatística seja aplicada corretamente A distribuição de probabilidades associada ao problema é exibida no gráfico da Figura 24 Figura 24 Distribuições Geométricas 66 Distribuição Hipergeométrica Em alguns casos a técnica de amostragem a ser aplicada necessita ser realizada sem a reposição do item porque o teste de aceitação sucesso ou fracasso é realizado à custa do item testado ou porque o processo de seleção da amostra não permite a reposição do item antes da próxima seleção Para estes casos a distribuição hipergeométrica é aplicada O exemplo a seguir ilustra a situação Um baralho comum possui 52 cartas sendo 26 vermelhas e 26 pretas Se cinco cartas são retiradas aleatoriamente qual a probabilidade de serem 3 cartas vermelhas e 2 cartas pretas A retirada é simultânea então não há possibilidade de reposição das cartas A quantidade de combinações de cartas vermelhas três a três é 𝐶263 e a quantidade de combinações possíveis de cartas pretas duas a duas é 𝐶262 considerando a retirada de cinco cartas O número total de combinações para a retirada de cinco cartas das 52 cartas do baralho é 𝐶525 Assim a probabilidade de selecionarmos cinco cartas sem reposição sendo três vermelhas e duas pretas é 𝑃 𝐶263𝐶262 𝐶525 26 3 23 26 2 24 52 547 03251 Em geral a distribuição hipergeométrica é aplicada para analisar experimentos para os quais a taxa de sucesso ou fracasso já está determinada ou seja para uma população de N itens k itens são considerados sucessos e N k fracassos e estamos interessados em determinar a probabilidade de x sucessos em uma amostra sem reposição de n elementos A função de densidade de probabilidade 𝑃𝑥 é ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 40 ℎ𝑥 𝑁 𝑛 𝑘 𝐶𝑘𝑥𝐶𝑁𝑘𝑛𝑥 𝐶𝑁𝑛 𝑜𝑛𝑑𝑒 𝑚𝑎𝑥0 𝑛 𝑁 𝑘 𝑥 𝑚𝑖𝑛𝑛 𝑘 Eq 19 Novamente vamos construir a distribuição de probabilidades por meio de um exemplo Exemplo 9 Foram recebidos 30 sacos de cimento CPV de um determinado fabricante Considere que cinco sacos possuam cimento com propriedades químicas diferentes O laboratório possui equipamento e reagentes para testar sete amostras de cimento Se retirarmos uma amostra de sete elementos colhidas de sacos de cimento diferentes escolhidos aleatoriamente qual a probabilidade de termos todas com as mesmas propriedades químicas Analisando o exemplo temos N 30 população k 25 sucesso propriedades iguais N k 5 fracasso os cinco sacos de cimento com propriedades diferentes x n 7 tamanho da amostra e quantidade de sucessos esperados na amostra 𝑃𝑥 𝐶257𝐶302577 𝐶307 02361 A probabilidade de termos de duas a sete amostras com as mesmas propriedades calculadas com a equação 19 é exibida na Tabela 14 n Px 1 0 2 000015 3 000565 4 006214 5 026098 6 043496 7 023612 8 0 9 0 10 0 Tabela 14 Probabilidades para distribuição hipergeométrica Com o uso da Tabela 14 a probabilidade de termos pelo menos cinco das sete amostras com propriedades iguais então válido para duas três quatro e cinco amostras iguais dentre as sete amostras é igual a probabilidade P2 P3 P4 P5 032892 3289 O gráfico de distribuição de probabilidades é mostrado na Figura 25 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 41 Figura 25 Distribuição Hipergeométrica Estes são os principais modelos de distribuição discreta Existem outros modelos de distribuição discreta que podem ser pesquisados e estudados posteriormente A seguir os principais modelos de distribuição de probabilidades contínuos são apresentados Recordando os modelos contínuos são baseados em variáveis aleatórias contínuas ou seja em variáveis que podem assumir qualquer valor em um faixa ou segmento pertencente aos números reais 67 Distribuição Normal A distribuição normal é a mais importante das distribuições de probabilidades Conhecida como a curva em forma de sino a distribuição normal tem sua origem associada aos erros de mensuração É sabido que quando se efetuam repetidas mensurações de determinada grandeza com um aparelho calibrado não se chega ao mesmo resultado todas as vezes obtémse ao contrário um conjunto de valores que oscilam de modo aproximadamente simétrico em torno do verdadeiro valor Gauss11 deduziu matematicamente a distribuição normal como distribuição de probabilidade dos erros de observação denominandoa então lei normal dos erros A distribuição normal é caracterizada por uma função cujo gráfico descreve uma curva em forma de sino Esta distribuição depende de dois parâmetros a média ou valor esperado e o desvio padrão conforme mostrado na Figura 26 11 Johann Carl Friedrich Gauss nasceu em Braunschweig Alemanha no dia 30 de abril de 1777 e faleceu em Göttingen em 23 de fevereiro de 1855 Foi um matemático astrônomo e físico alemão que contribuiu muito em diversas áreas da ciência dentre elas a teoria dos números estatística análise matemática geometria diferencial geodésia geofísica eletroestática astronomia e ótica ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 42 Figura 26 Gráfico de uma distribuição normal12 Uma variável aleatória contínua X de média µ e desvio σ2 0 possui uma distribuição normal se sua função de densidade fx for 𝑓𝑥 1 2𝜋𝜎2 𝑒 1 2𝜎2 𝑥𝜇2 𝑥 Eq 20 Propriedades da Distribuição Normal 1 Para uma mesma média μ e diferentes desvios padrão σ a distribuição que tem maior desvio padrão se apresenta mais achatada acusando maior dispersão em torno da média A que tem menor desvio padrão apresenta pico mais acentuado e maior concentração em torno da média como pode ser visto na Figura 27 2 Distribuições normais com o mesmo desvio padrão e médias diferentes possuem a mesma dispersão mas diferem quanto à localização Quanto maior a média mais à direita está a curva como pode ser visto na Figura 28 12 Fonte Portal Action wwwportalactioncombr Figura 27 Curvas normais para mesma média e diferentes desvios padrões ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 43 Figura 28 Curvas normais para diferentes médias com mesmo desvio padrão 3 A probabilidade de uma variável assumir valores entre a e b é igual à área sob a curva entre esses dois pontos A determinação dessas probabilidades é realizada matematicamente através da integração da função de densidade de probabilidade entre os pontos a e b de interesse No caso da distribuição normal a Figura 29 apresenta os pontos que pontos que delimitam estas probabilidades Figura 29 Propriedades da distribuição normal O estudo da distribuição normal é importante porque a maioria das variáveis aleatórias de ocorrência natural ou resultante de processos práticos obedece esta distribuição Desta forma os resultados de experimentos resultantes de medições os resultados que normalmente obtemos em nossas pesquisas seguem uma distribuição normal Na maior parte das vezes nas quais o espaço amostral de um experimento envolvendo medições de propriedades não segue uma distribuição normal as seguintes falhas de planejamento do experimento podem ser encontradas Uso de materiais ou componentes de diferentes fontes com propriedades físicoquímicas diferentes ocasionando amostras com diferentes características É como se fosse introduzido um novo fator e este fator não está sendo considerado na análise dos resultados Uso de diferentes equipamentos ou equipes para produzir ou mensurar as amostras Equipamentos diferentes podem possuir calibragens e precisões diferentes e equipes diferentes podem introduzir ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 44 pequenas variações no método ocasionando diferentes processos de produção ou diferentes resultados em mensuração Uso de métodos não aleatórios para ordenação dos elementos a serem mensurados Todo equipamento sofre alterações em sua precisão durante o uso Por exemplo ao início de um processo de mensuração da resistência à compressão de corpos de prova a prensa pode apresentar uma precisão de 2 Durante o uso com o equipamento em funcionamento normal esta precisão pode variar 1 e ao final com os fluidos hidráulicos aquecidos a precisão pode retornar a 2 sendo que todos estes valores estão dentro da faixa de trabalho do equipamento Variações no método de produção dos elementos a serem testados por descuido ou desleixo do pesquisador Como citado anteriormente a distribuição normal é a mais importante das distribuições de probabilidades Nos próximos capítulos voltaremos a abordar com mais detalhes a inferência e as funções estatísticas aplicadas às distribuições normais Além da distribuição normal é importante conhecer outras formas de distribuição contínuas seu uso e ocorrências Vamos apresentar resumidamente as mais importantes 68 Distribuição QuiQuadrado Esta distribuição pode ser vista de duas formas diferentes como a soma de duas distribuições normais ao quadrado ou como um caso particular da distribuição gama apresentada mais adiante A distribuição qui quadrado é utilizada quando estamos analisando a variância de uma amostra que é proveniente de uma população normalmente distribuída Definição Uma variável aleatória contínua X segue uma distribuição quiquadrada com n graus de liberdade denotada por 𝑋𝑛2 se sua função de densidade for 𝑓𝑥 1 2𝑛 2 Γ𝑛 2 𝑥𝑛 21 𝑒𝑥 2 𝑥 0 𝑛 0 Eq 21 Sendo Γw 𝑥𝑤1𝑒𝑥𝑑𝑥 𝑤 0 0 Eq 22 Podemos notar pelo gráfico da distribuição quiquadrado Figura 30 que esta distribuição é positivamente assimétrica À medida que os graus de liberdade aumentam a curva da distribuição aproximase da curva normal GL n Graus de liberdade este conceito abordado inicialmente no item 32 Medidas de Dispersão e Variabilidade é um conceito que deve ser melhor explorado Graus de liberdade de um conjunto de valores amostra representa a quantidade de elementos que podem ter seus valores alterados após terem sido impostas certas restrições a todos os valores Como exemplo suponhamos um experimento de resistência à compressão aplicada a uma amostra de oito 8 elementos cuja média é 40 MPa Assim a soma de todas as resistências à compressão é de 240 MPa restrição 8 x 40 240 Assim temos um grau de liberdade igual a sete 7 8 1 pois sete dos valores podem ser escolhidos aleatoriamente mas o oitavo deve satisfazer a soma das resistências igual a 240 MPa ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 45 Figura 30 Distribuição Quiquadrado 69 Distribuição t de Student Também muito utilizada em estatística principalmente para modelagem e teste de hipóteses a distribuição t de Student é uma variação da distribuição normal com sua característica forma de sino mas refletindo uma maior variabilidade com caudas mais alargadas mais adequada para amostras pequenas produz valores mais extremos que a distribuição normal O único parâmetro que a define e caracteriza é o número de graus de liberdade Quanto maior for o número de graus de liberdade mais a curva da distribuição t se aproxima da distribuição normal Sua função de densidade é dada por 𝑓𝑥 Γ𝑛1 2 𝑛𝜋 Γ𝑛 2 1 𝑥2 𝑛 𝑛1 2 𝑥 Notação X tn Eq 23 A Figura 31 apresenta a variação da curva em função da variação dos graus de liberdade Figura 31 Distribuição tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 46 610 Distribuição Gama É uma das distribuições mais gerais pois diversas distribuições são casos particulares dela como a distribuição exponencial e a distribuição quiquadrado Essa distribuição tem como suas principais aplicações à análise de tempo de vida de produtos em engenharia e à distribuição de precipitação de chuva em meteorologia A distribuição gama é caracterizada por dois parâmetros 𝛼 0 denominado parâmetro de forma e 𝛽 0 denominado parâmetro de taxa denotandose X Gama 𝛼 𝛽 Sua função de densidade é dada por 𝑓𝑥 𝛽𝛼𝑥𝛼1𝑒𝛽𝑥 Γ𝛼 𝑠𝑒 𝑥 0 𝑒 0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 Eq 24 O gráfico da distribuição Gama é apresentado na Figura 32 Figura 32 Distribuição Gama 611 Distribuição Exponencial A distribuição exponencial é caracterizada por ter uma função de taxa de falha constante e é usada como um modelo para o tempo de vida de certos produtos e materiais Ela descreve adequadamente o tempo de vida de óleos isolantes e dielétricos entre outros descreve as probabilidades envolvidas no tempo que decorre para que um determinado evento aconteça em função de sua vida útil Na distribuição exponencial a variável aleatória contínua x é definida como o tempo de falha e λ como o tempo médio de vida Ambos devem ser expressos na mesma unidade isto é se o tempo médio de vida é expresso em horas o tempo de falha também deve ser medido em horas Sua função de densidade é dada pela equação a seguir e seu gráfico e apresentado na Figura 33 𝑓𝑥 1 𝑒𝜆𝑥 𝑝𝑎𝑟𝑎 𝑥 0 𝑜𝑢 0 𝑝𝑎𝑟𝑎 𝑥 0 Eq 25 O exemplo a seguir ilustra o uso da distribuição exponencial A vida útil de um misturador é estimada em 5 anos λ 15 Qual a probabilidade de falha nos primeiros dois anos x 2 𝑓𝑥 1 𝑒1 5 2 1 𝑒 2 5 03297 ou 3297 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 47 Figura 33 Distribuição Exponencial Fonte wwwportalactioncombr 612 Distribuição de Weibull A distribuição de Weibull é usada em estudos relacionados com o tempo de falha devido a fadiga de metais Também é frequentemente usada para descrever o tempo de vida de produtos industriais Seu uso em aplicações práticas é favorecido pelo fato desta distribuição apresentar uma grande variedade de formas todas com uma propriedade básica a sua função de taxa de falha é monótona ou seja ela é estritamente crescente estritamente decrescente ou constante Possui dois parâmetros 𝛼 relacionado a escala ou característica da vida e 𝛽 que é o parâmetro de forma limite ou inclinação Sua função de densidade é dada por 𝑓𝑥 𝛼𝛽𝑥𝛽1𝑒𝛼𝑥𝛽 𝑝𝑎𝑟𝑎 𝑥 0 𝑒 0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 Eq 26 Seu gráfico para 𝛼 2 e 𝛽 05 15 e 3 é mostrado na Figura 34 Figura 34 Distribuição de Weibull Fonte wwwportalactioncombr ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 48 Existem vários outros tipos de distribuição interessantes tais como a Lognormal Logística Beta e outras Apresentamos aqui apenas algumas para que tenhamos uma ideia da forma que suas distribuições de probabilidades se apresentam e desta forma identificar a distribuição de probabilidades mais adequada para a análise de seus dados Neste processo o de identificação do tipo de distribuição que está associado aos dados sob análise o primeiro passo é analisar o próprio experimento e suas respostas os dados que o experimento gerou Dados oriundos de medições de propriedades de uma amostra extraída de uma população geralmente possuem distribuição normal Geralmente mas nem sempre Existem testes estatísticos que identificam se os dados relativos a amostra possuem distribuição normal Estes testes são simples de serem aplicados abordaremos estes testes posteriormente Caso estes testes indiquem que a distribuição de probabilidades da variável aleatória associada a amostra não é normal construa a distribuição de probabilidades e analise o tipo de curva que a mesma segue O tipo de experimento também é uma boa fonte de informações que pode auxiliar Como visto anteriormente experimentos associados ao tempo tempo de vida ocorrência de falhas são melhor explicados por outros tipos de distribuição diferentes da normal Pesquise ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 49 7 INFERÊNCIA ESTATÍSTICA Até este ponto do texto apresentamos os conceitos das medidas de posição médias medianas e outras das medidas de dispersão variância desvio padrão coeficiente de variação das distribuições de probabilidades dentre outras coisas Estes são conceitos que caracterizam a amostra e apenas ela Agora como aplicar estes conceitos para a inferência estatística Como a partir de uma amostra para qual determinamos a média o desvio padrão e sua distribuição de probabilidades transpor estas informações para a população como um todo Como podemos determinar as probabilidades de um determinado evento O primeiro item que o pesquisador deve identificar é a distribuição de probabilidades que os resultados obtidos do experimento seguem A distribuição de probabilidades é a chave para a determinação correta das funções estatísticas a serem aplicadas e os testes que são usados para identificalas serão mostrados mais adiante As funções estatísticas que apresentaremos agora cujo objetivo é justamente este transpor para a população as análises e conclusões retiradas a partir do exame dos dados de uma amostra em seu conceito são aplicáveis a qualquer amostra independente da distribuição de probabilidades que a amostra siga No entanto assim como as funções de probabilidade possuem funções de densidade equações diferentes estas funções também possuem formulações diferentes adequadas especificamente à cada uma das distribuições de probabilidades Assim temos que o conceito da função é sempre o mesmo mas sua formulação maneira de ser calculada ou explicitada no software possui variações para cada uma das distribuições As funções serão apresentadas com base na distribuição normal visto que a maior parte dos resultados medições realizadas em experimentos irá seguir este tipo de distribuição e é sobre esta distribuição que encontramos maior quantidade de informações na literatura facilitando o aprofundamento de sua pesquisa Como já foi mostrado na Figura 29 a distribuição de probabilidades da distribuição normal possui uma curva em forma de sino com as seguintes propriedades considerando uma característica de interesse X medida em uma população com média µ e desvio padrão σ 6826 dos elementos da população possuem o valor de x situado entre µ σ 9546 dos elementos da população possuem o valor de x situado entre µ 2σ 9973 dos elementos da população possuem o valor de x situado entre µ 3σ 99994 dos elementos da população possuem o valor de x situado entre µ 4σ A partir destas propriedades e do conhecimento das informações de uma população podemos fazer algumas inferências como no exemplo seguinte Exemplo 10 Todos os alunos de PósGraduação do CEFETMG foram mensurados e classificados de acordo com as seguintes variáveis peso e altura13 cujas médias e desvios padrões são respectivamente 72 kg 72 kg e 175 cm 175 cm Sabendose que estas variáveis seguem uma distribuição normal e são tratadas como independentes determine as probabilidades de 1 Alunos com altura inferior a 140 cm 2 Alunos com peso superior a 936 kg 13 Dados fictícios ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 50 3 Alunos com peso inferior a 792 kg e altura superior a 210 cm Este é um problema bem fácil de ser resolvido desde que o leiamos com atenção Não precisamos nem precisamos de funções estatísticas pois todo o conhecimento necessário para sua solução está nos dois parágrafos anteriores Primeiro repare que no item 1 a diferença de altura desejada 175 140 35 corresponde a dois desvios padrões e no item 2 a três desvios padrões Assim as próprias propriedades da distribuição normal respondem a estes itens Para facilitar a visualização a Figura 35 reapresenta os dados da Figura 29 1 De acordo com a Figura 35 se 9546 dos elementos de uma população possuem a altura entre a média e dois desvios significa que 100 9546 454 estão fora destes limites para mais e para menos Como queremos apenas os com altura inferior a 140 cm temos que considerar apenas o para menos o que leva a divisão do percentual por dois 454 2 227 Assim temos que 227 dos alunos de PósGraduação do CEFETMG possuem altura inferior a 140 cm 2 Neste caso a diferença de peso corresponde a três desvios padrões 72 x 3 216 kg 9973 dos elementos da população estão situados dentro destes limites Assim 100 9973 027 estão fora dele e da mesma forma para cima e para baixo Como nos interessa apenas os alunos com peso superior temos que o percentual de alunos com peso superior a 936 Kg é de 027 2 0135 3 Neste item temos uma combinação de probabilidades A primeira dos alunos com peso inferior a 792 kg o que corresponde à média mais um desvio padrão Esta probabilidade é melhor visualizada com a ajuda do gráfico da distribuição de probabilidades Figura 35 Distribuição normal probabilidades No gráfico podemos visualizar que a linha azul corresponde ao peso inferior a 792 kg a média 72kg somada a um desvio padrão 72kg Como o percentual dos elementos entre a média e um desvio padrão corresponde a 6826 novamente tanto acima quanto abaixo a metade seria 3413 o que corresponde ao percentual entre 72 e 792 Kg Mas como queremos saber o percentual de alunos abaixo de 792 kg temos que incluir os que estão abaixo de 72 kg também exatamente 50 o que nos dá 50 3413 8413 No mesmo gráfico a linha vermelha corresponde aos alunos com altura superior a 210 cm Para este caso o raciocínio é o mesmo dos itens 1 e 2 A diferença entre as alturas 35 cm corresponde a dois desvios padrões então como no item 1 apenas 227 dos alunos teriam a probabilidade de ter mais do que esta altura ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 51 Agora tratandoas como variáveis independentes temos que a probabilidade do evento conjunto seria P1 x P2 08413 x 00227 00191 ou 191 Assim teríamos a probabilidade de 191 de encontrarmos alunos da PósGraduação com peso inferior a 792 kg e altura superior a 210 cm O resultado apesar de estranho muita altura para pouco peso seria correto se não fosse um pequeno problema E qual é esse problema que invalida a análise realizada Bom para fins didáticos e dentro dos pressupostos apresentados a análise está correta Numa situação real um problema pequeno mas extremamente complexo para a análise estatística a torna inválida no exemplo as variáveis peso e altura foram consideradas independentes e elas não são Para um ser humano o peso está associado à altura Para a mesma constituição física quanto maior a altura maior o peso o que torna estas variáveis dependentes Assim as análises dos itens 1 e 2 estão corretas mas a do item 3 apresenta o erro grave de considerar independentes duas variáveis dependentes Este exemplo didático foi apresentado com dois objetivos O primeiro de introduzir a questão de probabilidades e o segundo de mostrar o quão importante é a análise objetiva de todos os fatores envolvidos Em estatística uma das principais causas de erro é a não compreensão do problema e como consequência a aplicação da técnica ou função incorreta 71 Distribuição Normal Padrão O exemplo anterior foi bem fácil com valores determinados para que a solução fosse baseada apenas nas propriedades informadas da distribuição normal E nos casos reais onde os valores não são tão ajustados assim Como resolver A primeira solução já foi dada anteriormente basta montarmos a distribuição de frequência da variável em estudo deduzirmos a equação de sua curva função densidade de probabilidade e calcularmos as áreas totais sob a curva e a área correspondente ao evento 14 A segunda é nos aproveitarmos da experiência e conhecimento que nos foram legados por pesquisadores que viveram muito tempo antes de nós neste caso específico Johann Carl Friedrich Gauss11 já citado anteriormente que em 1809 definiu a lei de Gauss da distribuição normal de erros e sua curva em formato de sino É o que trataremos a seguir e define os conceitos básicos de inferência estatística Uma das muitas contribuições de Gauss foi o conceito da distribuição normal padrão A curva de distribuição normal possui como parâmetros a média e desvio padrão tornandoa específica para uma população com estas características Gauss a distribuição padrão não baseada na média e desviopadrão e sim na proporção em que os valores se afastam da média em termos de desvio padrão Para isto ele propôs uma distribuição normal padrão baseada na seguinte equação 𝑧 𝑥 𝜇 𝜎 Eq 27 Com esta equação podemos representar a distribuição normal como uma distribuição normal padrão como mostrado Figura 36 A distribuição passa a apresentar as probabilidades em função do desvio dos valores X em relação à média em função de valores do desvio padrão 14 Ver item 6 DISTRIBUIÇÃO DE PROBABILIDADES ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 52 Esta curva especifica de distribuição de frequência ou padronizada uma vez que independe dos valores dos nossos dados possui média 0 zero e desvio padrão 1 um e é chamada de distribuição normal padrão Assim com o objetivo de facilitar a obtenção de determinadas áreas sob a curva normal podemos transformar qualquer distribuição de probabilidades normal FX em uma distribuição normal padrão com média 0 zero e desvio padrão 1 um Figura 36 Distribuição Normal Padrão E qual a contribuição disto Simples Gauss determinou as probabilidades em função da variável Z e as apresentou em tabela facilitando e muito o cálculo das probabilidades O valor Z é conhecido como valor padronizado e é uma medida relativa Mede o quanto X se afasta da média em unidades de desvio padrão Os valores de Z podem ser obtidos a partir de tabelas como a tabela mostrada na Figura 37 Como a curva normal e logicamente a curva normal padrão também é simétrica a tabela também é simétrica Por exemplo o valor da probabilidade para z 15 é p 09332 Então o valor de z 15 tem que ser igual a 1 09332 00668 o que pode ser conferido facilmente na própria tabela Desta forma em algumas fontes encontramos esta tabela com apenas os valores positivos de z A cada parte da tabela da Figura 36 para z positivo e negativo é dividida em 10 colunas A primeira coluna apresenta o valor de z com uma casa decimal As nove colunas seguintes ver cabeçalho das colunas acrescentam a segunda casa decimal O valor de z 275 será encontrado na linha com z 27 na coluna com cabeçalho 005 p 00030 Para mais casas decimais é necessário fazer interpolação entre os valores É aproximado mas resolve Caso não queiramos interpolar há diversas outras maneiras de descobrirmos a probabilidade em função do valor z Com o uso de computador e o software apropriado há diversas opções No MS Excel por exemplo a função DISTNORMPz dá a probabilidade associada ao valor z a tabela anterior foi calculada usando este método No software estatístico R a função pnormx mean sd fornece a probabilidade em função do valor x da média e do desvio padrão ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 53 Figura 37 Tabela Normal de Probabilidades Seguem alguns exemplos de cálculo de probabilidades para a população lembrese usando estes métodos 1 Uma concreteira produz um determinado tipo de concreto com 210 Mpa e 5 Mpa Qual a probabilidade de que um corpo de prova cilíndrico tenha resistência inferior a 200 Mpa Para os dois primeiros métodos o primeiro passo é o cálculo do valor de z Assim 𝑧 𝑥 𝜇 𝜎 200 210 5 20 Na tabela normal padrão o valor da probabilidade para z 20 é p 00228 indicando uma probabilidade de 228 de que um corpo de prova tenha resistência inferior a 200 MPa 𝑃𝑋 200 𝑝𝑧 𝑥 𝜇 𝜎 𝑝𝑧 2 00228 No MS Excel basta digitarmos em uma célula de uma planilha a fórmula DISTNORMP2 agora usando todas as casas decimais O resultado é 002275 ou 2275 de probabilidade pouca diferença do valor obtido usando a tabela não No software R não precisamos de calcular o valor de z A função pode ser digitada diretamente no console como pnorm 200 mean 210 sd 5 e o resultado é 002275013 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 54 2 Por contrato o concreto fornecido pela empreiteira X deve ter resistência a compressão superior a 38 Mpa Sabese que a resistência à compressão média é de 40 MPa com desvio padrão de 265 MPa Qual a probabilidade de o concreto fornecido possuir resistência a compressão inferior a 38 Mpa Novamente iniciamos com o cálculo do valor de z Assim 𝑧 𝑥 𝜇 𝜎 38 40 265 07547 075 Na tabela normal padrão o valor para z 075 é 0022663 indicando uma probabilidade de 227 de que um corpo de prova tenha resistência inferior a 38 MPa 𝑃𝑋 38 𝑝𝑧 𝑥 𝜇 𝜎 𝑝𝑧 075 0022663 No MS Excel basta digitarmos em uma célula de uma planilha a fórmula DISTNORMP075 agora usando todas as casas decimais O resultado é 00226627 ou 2227 de probabilidade novamente pequena diferença do valor obtido usando a tabela No software R digitando a função diretamente no console como pnorm 38 mean 40 sd 265 temos o resultado de 002252094 o que equivale a 2252 3 O concreto produzido por uma empreiteira possui as seguintes características µ 110 MPa e σ 10 MPa Qual a probabilidade de obtermos concreto com resistência a compressão de 100 MPa Este exemplo foi colocado aqui estimular um pouco o pensamento Não desejamos saber a probabilidade de obtenção de concreto com resistência menor que 100 MPa e sim com resistência igual a 100 Como fazer Bom podemos tentar com um artifício considerar que todo concreto com resistência entre 99 e 101 MPa representa o concreto com resistência de 100 MPa Em teoria p99x101 px 101 px 99 Vamos tentar resolver isto no software R com este intervalo 1 MPa pnorm10111010 1 01840601 pnorm9911010 1 01356661 pnorm10111010pnorm9911010 1 004839406 Bom a probabilidade seria de 484 Mas vamos tentar reduzir mais o intervalo para 05 MPa e conferir o resultado pnorm100511010 1 01710561 pnorm99511010 1 01468591 pnorm100511010pnorm99511010 1 002419707 A probabilidade foi reduzida para a metade 242 Por sorte o software R possui outras funções de probabilidade tal como a dnorm densidade de probabilidade que nos informa a probabilidade em um determinado ponto Vamos conferir o seu resultado dnorm10011010 1 002419707 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 55 Como visto a probabilidade determinada pela função dnorm para os dados do exemplo foi igual à probabilidade obtida quando usamos o intervalo de 995 a 1005 MPa Assim podemos concluir que a função dnorm não retorna o valor da probabilidade para o valor exato de 100 MPa e sim para o intervalo de 995 a 1005 MPa pois a probabilidade para o valor exato de 100 MPa é zero Este exemplo é interessante pois nos permite discutir o que é um valor para o software RStudio Quando especificamos que a resistência deveria ser igual a 100 MPa o que a função dnorm considerou De 99 a 101 ou de 995 a 1005 esta de acordo com os resultados anteriores ou ainda de 9999999 a 10000001 A probabilidade está associada a faixa definida Vamos supor que a última faixa seja a faixa solicitada Qual seria a probabilidade pnorm1000000111010pnorm999999911010 1 4839414e07 A probabilidade seria de 0000000484 Teoricamente para o valor exato de 100 MPa a probabilidade seria de 0 pois tratamos de valores contínuos e probabilidade de termos um resultado igual ao especificado com infinitas casas decimais é zero Lembrete Nós trabalhamos neste capítulo com populações Os símbolos µ e σ significam média populacional e desvio padrão populacional Ou seja temos informações sobre a população como um todo Apesar de estarmos calculando probabilidades estamos fazendo isto com dados populacionais A distribuição padrão normal e o valor z apresentam informações sobre a população No próximo capítulo abordaremos amostras e a inferência a transposição das conclusões obtidas a partir da análise dos dados da amostra para a população Sugestão de Pesquisa para ampliar conhecimento O software R possui funções associadas as distribuições de probabilidades Duas foram vistas nos exemplos anteriores pnorm e dnorm Existem outras e podem ser aplicadas a outras distribuições de probabilidades As funções são indicadas pela primeira letra p d q e r seguidas pelo tipo de distribuição a ser aplicada no exemplo norm As funções são Função densidade ou probabilidade calcula o valor da densidade para funções contínuas ou da probabilidade para funções discretas para cada elemento x Indicada pela letra d Função distribuição calcula a distribuição acumulada p x Indicada pela letra p Função probabilidade calcula o valor de x correspondente a probabilidade acumulada inverso da função distribuição Indicada pela letra q Função gerador aleatório gera números aleatórios para a distribuição escolhida Indicada pela letra r Os tipos de distribuição que podem ser associadas a estas funções normalmente já précarregadas no R são apresentadas a seguir Cada uma destas funções possui parâmetros distintos Pesquise os parâmetros de cada uma delas e teste com exemplos norm distribuição normal binom distribuição binomial pois distribuição de Poisson geom distribuição geométrica hyper distribuição hipergeométrica unif distribuição uniforme exp distribuição exponencial gamma distribuição gama chisq distribuição quiquadrado t distribuição tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 56 72 Distribuição tStudent A distribuição normal aplicase quando temos informações sobre a população ou quando nossa amostra contém quantidade de elementos suficiente para que possamos considerala como representativa da população Em estudos que envolvem populações que podem ser definidas classificadas e contadas existem fórmulas específicas baseadas no grau de confiabilidade no erro máximo de estimativa admitido na média e desvio padrão populacional que nos permitem calcular a quantidade mínima de elementos necessárias para a amostra Quando não temos estas informações podemos adotar outras estratégias para a inferência sobre a população A distribuição tStudent é uma delas Quando usamos a distribuição normal para amostras pequenas n 30 são obtidos valores de probabilidades menos precisos Assim adotase distribuição tStudent A distribuição t possui a mesma forma da distribuição normal em forma de sino e é simétrica sobre a média A diferença é que a distribuição t tem caudas mais largas mais áreas nas caudas fazendo com que seus valores críticos sejam maiores que os da distribuição normal É como pagar um preço maior por trabalhar com pequenas amostras Outro fator importante sobre a distribuição t é que ela é construída em função dos graus de liberdade já visto anteriormente e estes estão diretamente relacionados com o tamanho n da amostra Para cada grau de liberdade há uma curva diferente Quanto menor os graus de liberdade mais larga será a cauda Quanto maior mais a curva se aproxima da curva normal recomendase para n 30 usar a curva normal Assim a tabela tStudent é construída com muito menos dados e é necessário muito mais interpolações Imagine se ela fosse construída igual a tabela da distribuição normal abrangendo amostras de 2 a 31 elementos de 1 a 30 graus de liberdade teríamos 30 tabelas de distribuição similares a tabela de distribuição normal A tabela tStudent é exibida na Figura 38 e a a seguir explicaremos suas propriedades e seu uso Como pode ser visto e deve ser entendido claro é como se cada linha desta tabela cada grau de liberdade representasse todas as informações que foram apresentadas na tabela normal padrão São 600 dados resumidos em 12 Então é óbvio que teremos que fazer interpolações para encontrar valores diferentes dos que constam nos cabeçalhos de linhas e colunas E quais são as diferenças e similaridades entres estas tabelas Existem algumas mas são fáceis de serem assimiladas Iniciando do cabeçalho temos Na tabela normal padrão a combinação do cabeçalho de linha com o cabeçalho de coluna representa um valor de probabilidade Na tabela tStudent o valor de probabilidade é representado no cabeçalho das colunas apenas E temos duas linhas de cabeçalho a primeira unicaudal e a segunda bicaudal que podemos interpretar como mostrado a seguir O valor apresentado no conteúdo da tabela representa o valor de 𝑡𝑛 1 1 𝛼 2 ou seja o módulo do valor encontrado na linha correspondente a n 1 graus de liberdade sendo n igual à quantidade de elementos na amostra e 𝛼 2 a probabilidade especificada ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 57 Figura 38 Tabela tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 58 Figura 39 Áreas de Probabilidades na Distribuição tStudent O valor de t é calculado de forma similar ao valor z da tabela de distribuição normal padrão Sua equação é dada por 𝑇 𝑥 𝑋 𝑠 𝑛 Eq 28 Cada linha da tabela dada por um valor de grau de liberdade representa uma distribuição de probabilidades específica para aquele grau de liberdade Por exemplo 1 Uma concreteira produz um determinado tipo de concreto com 𝑋 210 Mpa e s 5 Mpa Qual a probabilidade de que um corpo de prova cilíndrico tenha resistência inferior a 200 Mpa sabendose que a amostra possui 4 elementos Com estes dados o valor de T é 𝑇 200210 54 40 Consultando o valor t3𝛼2 4 correspondente a linha de três graus de liberdade temos que está entre 3896 correspondendo a 0015 e 4541 correspondendo a 001 Fazendo a interpolação conseguimos um valor próximo de 0014 14 Este valor 14 é inferior ao encontrado quando usamos a distribuição normal 2275 É o preço a se pagar por trabalhar com amostras pequenas Bom então vamos aumentar o número de elementos da amostra Suponhamos uma amostra de 8 elementos Assim 𝑇 200210 58 5657 Agora trabalhamos com 7 graus de liberdade n 1 Consultando a linha correspondente 7 graus de liberdade temos que o maior valor de t é 3499 correspondendo a 0005 05 Isto significa que a probabilidade de encontrarmos um corpo de prova com resistência inferior a 200 MPa é inferior a 05 considerando que a média e o desvio foram obtidos a partir de uma amostra de 8 elementos O MS Excel possui função para cálculo da probabilidade associada à distribuição tStudent É a função DISTTt graus de liberdade número de caudas Se a usarmos para o valor acima t 5657 DISTT565771 o resultado será 0000383 indicando a probabilidade de 00383 No software R a função é ptt graus de liberdade lowertail TRUE O resultado é 00003773162 00377 Refaça os outros exemplos usando a distribuição de tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 59 73 Identificação da Distribuição de Probabilidades Como citado anteriormente o primeiro passo para o emprego de funções estatísticas na análise dos resultados de um experimento é a identificação da distribuição de probabilidades que os resultados seguem Como a distribuição normal é a mais comum entre os resultados de experimentos iniciamos por ela Os testes utilizados para identificar se a distribuição de probabilidades associada a um conjunto de dados pode ser aproximada pela distribuição normal são chamados de testes de normalidade As principais técnicas são o papel da probabilidade o teste de Kolmogorov Smirnov o teste de Anderson Darling e o teste de Shapiro Wilk Existem vários outros cada um com características próprias de uso e diferentes capacidades de associação com uma curva normal padrão OUTLIERS Antes de verificarmos se uma amostra de dados pode ser considerada como uma distribuição normal é conveniente verificarmos se dentre os dados da amostra não há nenhum valor que se distancie do restante valores anormais espúrios contaminantes extremos aberrantes Estes valores são denominados outliers e podem mascarar a verdadeira distribuição dos dados A preocupação com a identificação e eliminação de valores outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados A primeira análise a ser feita antes mesmo da identificação de um valor outlier é analisar o experimento com o objetivo de prever a origem de um possível valor outlier pois sua provável origem pode determinar a forma como eles devem ser tratados As principais causas da existência de valores outliers em uma amostra são erros de medição erros de execução e a própria variabilidade inerente dos elementos da população O principal método gráfico para identificação de valores outliers em uma amostra é o boxplot apresentado em capítulo anterior e representado na Figura 9 e Figura 10 Com o uso de boxplot temos as seguintes regras para identificação de outliers 1 Consideramse valores suspeitos de serem outliers os valores Xs situados na faixa dada pela equação dada a seguir Estes valores podem ser aceitos na população após análise de sua origem 𝑥 𝑄1 15 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 15 𝑄3 𝑄1 Eq 29 2 Já são considerados valores extremos outliers os valores X que ultrapassam a faixa definida pela equação abaixo e que devem ser investigados e identificada a origem da dispersão A Figura 40 ilustra o processo 𝑥 𝑄1 3 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 3 𝑄3 𝑄1 Eq 30 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 60 Figura 40 Identificação de valores outliers por Boxplot Vamos utilizar o boxplot do RStudio para verificação de outliers na sequência de dados apresentada Tabela 15 N X Y 1 1110 680 2 920 460 3 900 500 4 1070 590 5 980 500 6 1500 660 7 1180 540 8 1100 510 9 1170 590 10 970 970 11 1120 650 Tabela 15 Valores X e Y para identificação de outliers Carregando o vetor X no RStudio e criando um boxplot a partir do conjunto de dados temos o gráfico exibido na Figura 41 Figura 41 Identificação de outliers pelo Boxplot ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 61 Para sabermos se o valor identificado no gráfico da Figura 41 é realmente um valor outlier temos que além de investigar sua origem e aplicar as regras descritas anteriormente pois o gráfico fornecido pelo RStudio não identifica os limites de suspeição e certeza As barras horizontais limites apresentadas no gráfico mostram os valores máximo 118 e mínimo 90 já excluindo o que ele considerou como outlier 150 Efetuando o cálculo para os limites de suspeição temos 𝑥 𝑄1 15 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 15 𝑄3 𝑄1 correspondendo a x 67 ou x 147 Para os limites de certeza temos 𝑥 𝑄1 3 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 3 𝑄3 𝑄1 correspondendo a x 37 ou x 177 Desta forma o valor 150 está fora da faixa de suspeição e pode ser considerado um outlier Valores dentro da faixa de suspeição também podem ou devem ser excluídos da amostra Tudo depende da precisão desejada e da quantidade de elementos que a amostra contém Eliminado o valor 150 da amostra e recriando o gráfico do boxplot podemos verificar que não foram identificados novos valores outliers conforme mostrado na Figura 42 Figura 42 Boxplot com a remoção de valores outliers TESTE DE GRUBBS Uma outra forma de identificar valores outliers em uma amostra é o Teste de Grubbs É bem simples e fácil de ser executado O Teste de Grubs é baseado na seguinte fórmula 𝐺 𝑥𝑖 𝑥 𝑠 ou seja ele é baseado na razão entre o desvio de um determinado valor da amostra da média da amostra e o desvio padrão da amostra O valor G encontrado é comparado o valor crítico relacionado com o número de elementos da amostra fornecido pela tabela apresentada na Figura 43 onde α indica o erro aceitável ou o nível de confiança 1 α Para o mesmo exemplo anterior podemos usar o teste de Grubbs para conferir os valores outliers presentes Para 11 elementos na amostra e com 95 de confiabilidade 1 α o valor crítico para G apresentado na tabela da Figura 43 é 223 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 62 Figura 43 Valores Críticos para o Teste de Grubbs Verificando os valores de G calculados e apresentados na Tabela 16 podemos verificar que o único valor acima do valor crítico de 223 é o valor de G 245 correspondente ao elemento com valor 150 o que corrobora a identificação de valores outliers realizada por meio do gráfico de boxplot Tabela 16 Identificação de valores outliers pelo Teste de Grubbs Retirando o valor 150 e recalculando os valores G para a amostra agora com 10 elementos descobriremos que o maior valor G encontrado para os valores da Tabela 16 é 149 correspondendo ao elemento com valor 90 O valor de Grubbs crítico para amostras com 10 elementos e 95 de confiabilidade é 218 Assim podemos considerar que o valor 150 é o único valor outlier presente na amostra ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 63 ZSCORES O Zscore é uma variação do Teste de Grubbs Para este teste utilizamos os valores zstandardizados dos dados conforme a fórmula abaixo Da mesma forma que o teste de Grubbs mensuramos o desvio da média em unidades do desvio padrão 𝑍 𝑥 𝜇 𝜎 𝑜𝑢 𝑧 𝑥 𝑥 𝑠 Eq 31 1 Para amostras cujo conjunto dos dados é pequeno inferior a 50 valores que tenham zscores inferiores a 25 ou superiores a 25 devem ser considerados outliers 2 Se o conjunto dos dados é grande entre 50 e 1000 valores que tenham zscores inferiores a 33 ou superiores a 33 são tipicamente considerados outliers 3 Para grandes amostras 1000 valores com zscores extremos 33 podem ser considerados normais 74 Testes de Normalidade Os testes de normalidade são utilizados para verificar se a distribuição de probabilidade associada a um conjunto de dados pode ser aproximada pela distribuição normal As principais técnicas a serem discutidas são Papel da probabilidade Teste de Kolmogorov Smirnov Teste de Anderson Darling Teste de Shapiro Wilk Teste de RyanJoiner Papel da Probabilidade O papel da probabilidade é uma técnica gráfica utilizada para verificar a adequação de um determinado modelo estatístico aos dados Os passos para sua construção são 1 Considere uma amostra Fx X1 X2 Xn 2 Ordene em ordem crescente os N elementos da amostra 3 Simule uma distribuição Normal de N elementos di onde D 1 2 N tal que 𝑑𝑖 𝐷 03 𝑁 04 Eq 32 A correção no numerador de 03 e 04 no denominador é necessário para que não tenhamos di 1 Estas constantes não são padrão dependendo do autor ou software 4 Simule uma distribuição normal de N elementos 5 Calcule a função Z tal que 𝑍 𝑑𝑖 𝑑𝑖 𝑠𝑑𝑖 para di Eq 33 6 Monte o gráfico de dispersão Fx e Z Exemplificando para os valores Fx exibidos na Tabela 17 temos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 64 Fx D di Z 142738 1 006731 14863 152229 2 016346 11560 169742 3 025962 08257 190642 4 035577 04954 198492 5 045192 01651 199568 6 054808 01651 210288 7 064423 04954 222488 8 074038 08257 261826 9 083654 11560 315435 10 093269 14863 Média 05 Despadrão 029112 Tabela 17 Dados para determinação do Gráfico Papel da probabilidade No gráfico gerado Figura 44 podemos avaliar o quanto a distribuição de probabilidades normal ideal Zdi representada pela linha vermelha se distancia dos valores plotados linha azul É uma análise visual e subjetiva sujeita a interpretação do pesquisador e por isto mesmo pouco utilizada em trabalhos acadêmicos Figura 44 Gráfico Papel da Probabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 65 Teste De Kolmogorov Smirnov Grande parte dos problemas que encontramos em estatística são tratados com a hipótese que os dados são retirados de uma população com uma distribuição de probabilidade específica Por exemplo suponha que um pequeno número de observações foi retirada de uma população com distribuição desconhecida e que estamos interessados em testar hipóteses sobre a média desta população O Teste de Kolmogorov Smirnov é um teste de hipóteses e é usado para verificar se a hipótese de os dados de uma determinada amostra seguirem uma distribuição normal pode ser rejeitada ou não Este teste observa a máxima diferença absoluta entre a função normal de distribuição acumulada para os dados e a função de distribuição empírica dos dados Como critério comparamos esta diferença com um valor crítico para um dado nível de significância A Figura 45 ilustra o funcionamento do processo Figura 45 Máxima distância entre a função normal e a função empírica dos dados Para exemplificarmos o teste considere uma amostra aleatória simples 𝑋1 𝑋2 𝑋3 𝑋𝑁 de uma população com função de distribuição acumulada contínua desconhecida A estatística utilizada para o teste é 𝐷𝑛 𝑆𝑢𝑝𝑥𝐹𝑥 𝐹𝑛𝑥 Eq 34 Onde FX representa a função de distribuição acumulada assumida para os dados e FnX representa a função de distribuição acumulada empírica dos dados Esta função corresponde a distância máxima vertical entre os gráficos de FX e FnX sobre a amplitude dos possíveis valores de x Como a função de distribuição empírica é descontínua e a função de distribuição hipotética é contínua vamos considerar duas outras estatísticas 𝐷 𝑆𝑢𝑝𝑥𝑖𝐹𝑥𝑖 𝐹𝑛𝑥𝑖 Eq 35 𝐷 𝑆𝑢𝑝𝑥𝑖𝐹𝑥𝑖 𝐹𝑛𝑥𝑖1 Eq 36 Essas estatísticas medem as distâncias vertical entre os gráficos das duas funções teórica e empírica nos pontos xi1 e xi Com isso podemos utilizar como estatística de teste 𝐷𝑛 max 𝐷 𝐷 Se Dn é maior que o valor crítico para a estatística do teste Figura 46 rejeitamos a hipótese de normalidade dos dados com 1α 100 de confiança Caso contrário não rejeitamos a hipótese de normalidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 66 Figura 46 KolmogorovSmirnov Valores Críticos para a estatística do teste Exemplo 11 Para a amostra abaixo Tabela 18 retirada de testes de resistência a compressão verifique se a distribuição dos dados corresponde à distribuição normal com 95 de confiabilidade a amostra não possui outliers N 1 2 3 4 5 6 7 8 9 10 Xi 385 375 376 378 39 401 408 415 423 425 Tabela 18 Valores de resistência à compressão de uma amostra A Tabela 19 apresenta os passos necessários para o teste de KolmogorovSmirnov já com os valores máximos D e D identificados N Xi Zi PZi FnXi 1n D PZi Fnxi D PZi FnX i1 1 375 1163 01223 01000 00223 01223 2 376 1112 01331 02000 00669 00331 3 378 1009 01565 03000 01435 00435 4 385 0649 02583 04000 01417 00417 5 39 0391 03478 05000 01522 00522 6 401 0175 05695 06000 00305 00695 7 408 0535 07038 07000 00038 01038 8 415 0896 08148 08000 00148 01148 9 423 1308 09045 09000 00045 01045 10 425 1410 09208 10000 00792 00208 Média 3976 DPadrão 194 Tabela 19 Exemplo do teste de Kolmogorov ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 67 A tabela da Figura 46 nos dá o valor crítico para D considerando a amostra com 10 elementos n 10 e 95 de confiabilidade α 005 O valor crítico para a estatística do teste é 0409 Como a estatística do teste Dn max D D 01522 é menor que o valor crítico não podemos rejeitar a hipótese de normalidade dos dados com 1α 100 95 de confiança Exercício Dada as amostras abaixo Tabela 20 verificar se os dados seguem distribuição normal Os dados não foram verificados quanto a presença de outliers Tabela 20 Dados para teste de normalidade Os testes de normalidade são testes de hipóteses onde a hipótese base chamada de hipótese zero ou H0 é de que os dados da amostra seguem a distribuição normal A hipótese contrária H1 os dados não seguem a distribuição normal é aceita quando conseguimos rejeitar H0 e H1 é considerada como a hipótese forte a H0 é a hipótese fraca Quando o teste consegue a rejeição de H0 temos certeza que os dados não seguem a distribuição normal Quando não se consegue rejeitar H0 e consequentemente H0 é aceita não podemos afirmar com certeza que a distribuição é normal simplesmente não conseguimos provar o contrário Costumase chamar o teste de hipóteses de teste de presunção de inocência Todo réu é inocente H0 até que se prove o contrário H1 Se não conseguimos provar a culpa temos que aceitar que o réu é inocente aceitar H0 No caso contrário quando conseguimos provar que o réu é culpado H1 dizemos que conseguimos rejeitar H0 Assim podemos entender que os testes de hipóteses ou conseguem rejeitar H0 provar a culpa com certeza por isso H1 é chamada de hipótese forte ou são obrigados a aceitar H0 aceitar a inocência uma vez que não conseguiram provar a culpa e por isso chamada de hipótese fraca Espero que a lógica por trás dos testes de normalidade tenha sido entendida pois todos os demais testes seguem o mesmo princípio a comparação com a distribuição normal O tipo de comparação varia de um teste para outro alterando a precisão e a confiabilidade com a qual a hipótese da normalidade dos dados H0 é rejeitada ou aceita Os testes de normalidade papel da probabilidade e Kolmogorov possuem cálculo mais simplificado e foram apresentados acima para que a lógica envolvida em sua análise possa ser entendida Os demais testes de normalidade mais complexos e precisos serão apresentados a partir do RStudio 75 Testes De Normalidade No Rstudio Neste tópico vamos nos centrar na execução dos testes de normalidade no RStudio e não na matemática ou estatística que compõe estes testes Vamos comparálos quanto aos resultados e verificar quais são os mais rigorosos e os menos rigorosos Faremos isto a partir de exemplos para facilitar e permitir que os testes sejam replicados como exercícios práticos Consideremos uma amostra de 20 elementos representando a resistência a compressão de corpos de prova Tabela 21 cujos outliers não foram identificados A amostra possui distribuição normal ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 68 N 1 2 3 4 5 6 7 8 9 10 Xi 1058 1108 72 1013 1024 1258 997 1035 1046 139 N 11 12 13 14 15 16 17 18 19 20 Xi 1052 1093 1073 1059 1032 1012 1021 998 1032 1057 Tabela 21 Resistência a compressão de 20 corpos de prova Identificação dos outliers usando boxplot Inicialmente vamos digitar os dados em uma planilha com formato csv separado por vírgulas tendo como cabeçalho as letras res resistência Todos os dados devem ser digitados na coluna A A seguir usando o comando readcsv2 filechoose header TRUE vamos carregar a planilha no RStudio o primeiro parâmetro indica a abertura de janela para a seleção do arquivo e o segundo a existência de header cabeçalho Para verificar se os dados foram corretamente carregados podemos executar o comando summary como mostrado a seguir Os dados foram carregados na variável vetor dados dados readcsv2filechoose header TRUE summarydados x Min 720 1st Qu1019 Median 1040 Mean 1054 3rd Qu1062 Max 1390 O próximo passo é a verificação da existência de outliers Podemos fazer isto executando o teste de Grubbs ou montando um boxplot com o vetor Uma vez que o objetivo é usar o RStudio vamos optar pelo boxplot Figura 47 Figura 47 Identificação de valores outliers Na Figura 47 podemos visualizar a identificação de três valores considerados como outliers O menor valor e dos dois maiores valores Vamos retirálos da amostra recarregar a planilha csv e reexecutar o boxplot Figura 48 dados readcsv2filechoose header TRUE summarydados x Min 997 1st Qu1021 Median 1035 Mean 1042 3rd Qu1058 Max 1108 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 69 Figura 48 Dados do vetor com a remoção dos valores outliers Testes de Normalidade no RStudio Uma vez removido os outliers presentes na amostra podemos executar os testes de normalidade e comparar seus resultados O primeiro será o teste gráfico papel da probabilidade Figura 49 qqnormdados qqlinedados lty 2 col red Figura 49 Gráfico qqnorm papel da probabilidade No gráfico da Figura 49 o eixo y representa os valores de resistência a compressão e o eixo x os quantis15 teóricos da distribuição normal N0 1 A interpretação é subjetiva mas como os pontos estão bem próximos da reta tracejada vermelha podemos ter um bom indicativo da normalidade dos dados Os testes seguintes são testes de hipóteses Vamos aplicar os testes de KolmogorovSmirnov Lilliefors variação do teste de KolmogorovSmirnov Cramervon Mises ShapiroWilk ShapiroFrancia e Anderson Darling Todos estes testes estão disponíveis no pacote Nortest16 Vamos também usar um pouco de código para agrupar os resultados 15 Em estatística é comum o uso do termo quantil para referirse a percentis A diferença é que o quantil é expresso sob a forma decimal quantil 05 percentil 50 16 Se você ainda não tem conhecimento do significado de pacote para o RStudio está na hora de começar a estudar e pesquisar um pouco mais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 70 x meandados s sddados cat Média amostral x Desvio padrão amostral s Média amostral 1041765 Desvio padrão amostral 3114388 O primeiro teste de KolmogorovSmirnov precisa como parâmetros da média e desvio amostrais t1 kstestdados pnorm 1041765 3114388 t2 lillietestdados t3 cvmtestdados t4 shapirotestdados t5 sftestdados t6 adtestdados Os resultados dos testes de normalidade foram armazenados nas variáveis tn Podemos exibilos digitando o nome da variável t5 por exemplo mas vamos continuar com o agrupamento dos resultados criando uma tabela para exibilos testes ct1method t2method t3method t4method t5method t6method descrição do método estt asnumericct1statistic t2statistic t3statistic t4statistic t5statistic t6statistic estat valorp ct1pvalue t2pvalue t3pvalue t4pvalue t5pvalue t6pvalue valor p resulttestes cbindestt valorp inserindo na tabela resultados rownamesresulttestes testes nome das linhas colnamesresulttestes cEstatística p nome das colunas Agora basta digitar o nome da tabela com os resultados resulttestes e analisar cada linha da mesma printresulttestes digits 5 Estatística p Onesample KolmogorovSmirnov test 0115392 097737 Lilliefors KolmogorovSmirnov normality test 0115389 079205 Cramervon Mises normality test 0032028 080417 ShapiroWilk normality test 0961168 065354 ShapiroFrancia normality test 0966677 066747 AndersonDarling normality test 0233047 076041 Interpretação dos resultados Os testes de hipóteses nos softwares estatísticos incluindo o RStudio são dados em termos de pvalor Então antes de analisarmos os resultados vamos entender o significado do pvalor O pvalor representa a probabilidade de obter um efeito pelo menos tão extremo quanto aquele em seus dados amostrais assumindo que a hipótese nula é verdadeira Os pvalores abordam apenas uma questão quão provável são seus dados assumindose que a hipótese nula é verdadeira O pvalor também denominado nível descritivo do teste representa a probabilidade de que a estatística do teste como variável aleatória tenha valor igual ou mais extremo que aquela observada em uma amostra sob a hipótese nula ou seja quando a hipótese H0 é verdadeira Tradicionalmente o valor de corte para rejeitar a hipótese nula é de 005 nível de significância α 005 mas pode ser alterado em qualquer dos testes de acordo com a necessidade do pesquisador o que significa que ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 71 quando não há nenhuma diferença um valor tão extremo para a estatística de teste é esperado em menos de 5 das vezes Um pvalor inferior ao valor prédeterminado para o nível de significância vamos considerar 005 indicando um nível de confiabilidade de 95 por exemplo um pvalor de 003 conduz a rejeição da hipótese nula H0 e consequente aceitação da hipótese alternativa H1 Com o pvalor 003 temos que há apenas uma probabilidade de 3 de se observar a condição imposta sob a hipótese nula Como essa probabilidade inferior a probabilidade arbitrada para o teste 005 ou 5 rejeitamos a hipótese nula Lembrese que é uma análise estatística Sob as condições descritas no parágrafo anterior o pvalor de 003 pode ser interpretado como a possibilidade de em cada 100 amostras iguais extraídas da população 3 amostras confirmarão a hipótese nula e 97 não a confirmarão Como 3 em cada 100 representa um percentual inferior ao estabelecido como nível de significância para o teste 5 em cada 100 a conclusão estatística é pela rejeição da hipótese nula Ainda temos que considerar que estamos trabalhando com amostras teoricamente retiradas aleatoriamente de uma população Assim um pvalor inferior ao nível de significância estabelecido para o teste indica o quanto os dados são improváveis assumindose que a hipótese nula é verdadeira Isto conduz a duas prováveis constatações concorrentes 1 a hipótese nula é verdadeira mas a amostra é incomum e não representa a população ou 2 a hipótese nula é falsa e a amostra é representativa da população Voltando aos resultados dos testes de normalidade o maior pvalor encontrado foi para o teste de KolmogorovSmirnov pvalor 09774 e o menor pvalor foi para o teste de ShapiroWilk pvalor 06535 Todos os pvalor encontrados são superiores a 005 indicando que a hipótese nula H0 normalidade dos dados da amostra não pode ser rejeitada Podemos também entender e a literatura corrobora que os testes mais rigorosos são os de ShapiroWilk e ShapiroFrancia e o menos rigoroso o de KolmogorovSmirnov Para um detalhamento maior vamos executar alguns desses testes de forma isolada O teste de Kolmogorov Smirnov e o teste de ShapiroWilk kstestdados pnorm 1042 31144 Onesample KolmogorovSmirnov test data dados D 011833 pvalue 09712 shapirotestdadosres ShapiroWilk normality test data dadosres W 096117 pvalue 06535 Executando o teste de KolmogorovSmirnov para o exemplo da Tabela 18 temos dados readcsv2filechoose header T summarydados res Min 3750 1st Qu3798 Median 3955 Mean 3976 3rd Qu4133 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 72 Max 4250 x meandadosres sx sddadosres kstestdadosres pnorm x sx Onesample KolmogorovSmirnov test data dadosres D 015218 pvalue 09485 alternative hypothesis twosided O valor da estatística D 015218 resultante do teste executado no RStudio é o mesmo encontrado quando executamos os cálculos no MS Excel 01522 O RStudio não nos mostra o valor crítico Figura 46 mas o p valor nos dá a confiabilidade ou amplitude com a qual podemos aceitar a hipótese nula normalidade dos dados 76 Intervalo De Confiança Um intervalo de confiança IC é um intervalo estimado de um parâmetro de interesse de uma população a média por exemplo Em vez de estimar o parâmetro por um único valor é dado um intervalo de estimativas prováveis centralizado no valor do parâmetro de interesse 𝑋 𝑥 por exemplo Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa em relação ao valor de um parâmetro de interesse Por exemplo em dois experimentos ao compararmos os intervalos de confiança calculados com o mesmo nível de significância α para a média da resistência a compressão obtidos sendo o primeiro 100 15 MPa e o segundo 100 7 MPa podemos concluir que o segundo experimento ofereceu resultados mais confiáveis com menor variação Isto significa que sendo todas as estimativas iguais pesquisas que resultem num IC menor é mais confiável do que uma que resulte num IC maior Um dos principais parâmetros associados ao intervalo de confiança é o coeficiente de confiança ou nível de confiança ou simplesmente confiança 1 𝛼 É o valor complementar do erro esperado se temos 5 de chances de errar uma estimativa 𝛼 005 temos consequentemente 95 de confiança em acertar a mesma estimativa 1 𝛼 Outra forma de entendermos o coeficiente de confiança é a repetição do experimento Com o nível de confiança 1 𝛼 podemos afirmar que se repetirmos muitas vezes o experimento aproximadamente em 100 1 𝛼 das vezes a média populacional estará no intervalo encontrado Uma das principais interpretações do intervalo de confiança consiste em avaliar a incerteza que temos a respeito de estimarmos um determinado parâmetro populacional a partir de uma amostra aleatória de tamanho n Intervalo De Confiança Para A Média Quando queremos estimar inferir a média de uma população por meio da análise dos valores de uma amostra ou seja queremos inferir valores para a população a partir dos dados da amostra temos dois casos distintos a considerar quando a variância da população é conhecida e quando ela é desconhecida Podemos considerar que no primeiro caso variância da população conhecida temos algumas informações sobre a população e podemos adotar métodos que considerem que a amostra é próxima da população No segundo caso variância desconhecida não sabemos nada sobre a população que originou a amostra Neste caso métodos cujo resultado seja mais abrangente são os indicados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 73 Variância Conhecida Consideremos uma amostra aleatória simples X1 Xn obtida de uma população com distribuição normal com média µ e variância σ conhecidas A variável Z nestas situações é dada pela equação 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 Eq 37 Consideremos que a probabilidade da variável Z Figura 50 tomar valores entre 𝑍𝛼2 e 𝑍𝛼2 é de 1 α Então de acordo com a curva da distribuição normal padrão temos que 𝑃𝑍𝛼2 𝑍 𝑍𝛼2 1 𝛼 Substituindo Z na equação de probabilidade acima temos 𝑃 𝑍𝛼2 𝑋 𝜇 𝜎 𝑛 𝑍𝛼2 1 𝛼 Eq 38 Figura 50 Intervalo de confiança para a média Variância Conhecida Isolando a média populacional µ a equação passa a ser 𝑃 𝑋 𝑍𝛼2 𝜎 𝑛 𝜇 𝑋 𝑍𝛼2 𝜎 𝑛 1 𝛼 Eq 39 A equação acima corresponde ao Intervalo de Confiança para a média com um nível de confiabilidade 1 α e pode ser reescrita como 𝐼𝐶𝜇 1 𝛼 𝑋 𝑍𝛼2 𝜎 𝑛 𝑋 𝑍𝛼2 𝜎 𝑛 Eq 40 Como citado anteriormente o intervalo de confiança significa que repetindo o experimento muitas vezes em aproximadamente 100 1 α das vezes a média populacional estará no intervalo encontrado Exemplo 12 Em um experimento para testes de diferentes compostos para produção de concreto de alta resistência com variância conhecida para o exemplo considerar o desvio padrão populacional σ igual ao desvio padrão amostral s foram testadas quatro composições A B C e D diferentes com 4 6 8 e 10 elementos por amostra respectivamente A partir dos resultados de resistência a flexão Tabela 22 observados para os elementos da amostra determine o intervalo de confiança com 95 de confiabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 74 Para a solução do problema apresentado vamos inicialmente carregar os dados no RStudio a partir de uma planilha csv Com a planilha carregada podemos verificar a existência de valores outliers se existirem devem ser excluídos da amostra e executar o teste de normalidade ShapiroWilk que nos parece ser o mais crítico dos testes estudado Tabela 22 Dados de resistência a flexão das amostras Carga dos dados no RStudio e execução do comando para geração do gráfico de boxplot com cores diferentes para cada tratamento mostrado na Figura 51 librarynortest dados readcsv2filechoose headerT dados a b c d 1 6373 7101 9645 9524 2 7215 6538 8252 9513 3 5822 8193 9262 8544 4 5803 7297 9082 8613 5 NA 5868 9436 7950 6 NA 5253 8168 8655 7 NA NA 8149 8444 8 NA NA 9367 10837 9 NA NA NA 9439 10 NA NA NA 9419 boxplotdados colcredblueyellowgray ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 75 Figura 51 Boxplot dos dados das amostras A B C e D O gráfico de boxplot gerado pelo RStudio não indica a presença de valores outliers Assim prosseguimos com o teste de normalidade para os elementos das amostras shapirotestdadosa ShapiroWilk normality test data dadosa W 085583 pvalue 02456 shapirotestdadosb ShapiroWilk normality test data dadosb W 098613 pvalue 09777 shapirotestdadosc ShapiroWilk normality test data dadosc W 083366 pvalue 006479 shapirotestdadosd ShapiroWilk normality test data dadosd W 090921 pvalue 02756 Todos os pvalores são superiores a 005 de onde não podemos rejeitar a hipótese de que os dados das amostras seguem a distribuição normal Assim passamos ao cálculo dos intervalos de confiança para a média para cada uma das amostras Vamos calcular pela fórmula dada anteriormente e pelo RStudio Como o valor do nível de confiança foi definido como 95 1 α isto implica que α é igual a 005 e α2 0025 Com o uso da tabela da distribuição normal padronizada obtemos que Z0025 196 e com a aplicação da fórmula a seguir podemos calcular o intervalo de confiança Eq 40 para todas as amostras conforme mostrado na Tabela 23 𝐼𝐶𝜇 1 𝛼 𝑋 𝑍𝛼2 𝜎 𝑛 𝑋 𝑍𝛼2 𝜎 𝑛 A B C D n 4 6 8 10 Média 6303 6708 8920 9094 DesvP 663 1054 626 822 CV 011 016 007 009 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 76 𝑍𝛼2 𝜎 𝑛 650 844 434 509 IC 5654 5865 8486 8584 IC 6953 7552 9354 9603 Tabela 23 Intervalo de confiança para as amostras Colocando no formato padrão de intervalo de confiança temos Amostra A 𝐼𝐶𝜇 095 56546953 Amostra B 𝐼𝐶𝜇 095 58657552 Amostra C 𝐼𝐶𝜇 095 84869354 Amostra D 𝐼𝐶𝜇 095 85849603 Neste exemplo trabalhamos com diferentes coeficientes de variação razão entre o desvio padrão e a média amostral Se todas as amostras tivessem o mesmo coeficiente de variação poderíamos notar mais explicitamente que à medida que o número de elementos na amostra aumenta a relação entre a amplitude do intervalo de confiança e a média diminui pois com o aumento do tamanho da amostra conseguimos representar melhor a população e assim obter estimativas mais precisas Da mesma forma se considerarmos amostras com a mesma quantidade de elementos quanto maior for o desvio padrão maior será a relação entre a amplitude do intervalo de confiança e a média pois maior variabilidade nos elementos da amostra implica em menor precisão nas estimativas para a população Variância Desconhecida Quando não temos informações sobre a população somente os dados da amostra para a análise a diferença é que usamos a distribuição tStudent ao invés da distribuição normal padrão Consideremos por exemplo uma amostra aleatória simples X1 Xn obtida de uma população com distribuição normal com média e variância desconhecidas Como neste caso a variância é desconhecida utilizaremos a variância amostral S2 no lugar de 2 Assim temos que a fórmula apresentada anteriormente para Z passa a ser 𝑇 𝑋 𝜇 𝑠 𝑛 𝑡𝑛 1 Eq 41 Ou seja a variável obedece a distribuição t de Student com n1 graus de liberdade Então ao fixarmos o nível de significância α obtemos da Tabela da distribuição t de Student com n1 graus de liberdade o valor t n1 α2 que satisfaz a probabilidade P tal que 𝑃 𝑇𝑛1 𝛼 2 𝑇 𝑇𝑛1 𝛼 2 1 𝛼 Eq 42 Repetindo o mesmo raciocínio empregado anteriormente na dedução do intervalo de confiança para a média temos 𝐼𝐶𝜇 1 𝛼 𝑋 𝑡𝛼2 𝑠 𝑛 𝑋 𝑡𝛼2 𝑠 𝑛 Eq 43 Reforçando novamente o intervalo de confiança significa que repetindo o experimento muitas vezes em aproximadamente 100 1 α das vezes a média populacional estará no intervalo encontrado Só que desta ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 77 vez como usamos a distribuição tStudent como base para a inferência da média populacional o intervalo de confiança terá maior amplitude Para visualizarmos isto vamos repetir o exemplo anterior com o pressuposto que não possuímos informações sobre a população variância desconhecida Os dados são apresentados na Tabela 24 Se compararmos com os dados apresentados na Tabela 23 cálculo do IC usando a distribuição normal considerando a variância populacional conhecida podemos facilmente identificar que a amplitude do intervalo da IC para a média aumentou Uma vez que não temos informações sobre a população e vamos inferir usando apenas os dados das amostras as inferências são mais conservadoras As observações feitas anteriormente permanecem Quanto maior o número de elementos da amostra menor a amplitude do IC e quanto maior o desvio padrão maior a amplitude do IC considerandose o outro fator constante A B C D n 4 6 8 10 Média 6303 6708 8920 9094 DesvP 663 1054 626 822 CV 011 016 007 009 tn1 α2 3182 2571 2365 2262 𝑡𝛼2 𝑠 𝑛 1055 1107 523 588 IC 5249 5602 8397 8507 IC 7359 7816 9444 9682 Tabela 24 Cálculo do IC usando a distribuição tStudent 77 Testes de Hipóteses Comparação de Médias Neste item vamos apresentar as ideias fundamentais sobre testes de hipóteses Podemos considerar que um dos principais objetivos de um experimento é confirmar uma determinada afirmação sobre uma população ou mais especificamente sobre um parâmetro dessa população Assim tornase também objetivo do experimento comprovar se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação Esta é a função do teste de hipóteses Vamos supor que um pesquisador deseja saber se a inclusão de um determinado elemento na produção do concreto permite melhorar suas propriedades como resistência mecânica porosidade dentre outras Podemos entender que esta pesquisa levanta hipóteses sobre as propriedades por exemplo a média µ da resistência à compressão tração por compressão diametral absorção por imersão e permeabilidade do material a ser produzido população O pesquisador poderia fazer suposições ou afirmativas sobre a variável aleatória que representa as propriedades de interesse do material produzido qual o percentual de incremento ou decremento em cada uma das propriedades por exemplo Estas afirmações ou suposições são chamadas hipóteses estatísticas Assim podemos dizer que hipótese estatística é uma conjectura sobre um parâmetro ou propriedade a ser comprovada ou rejeitada por meio da análise dos resultados de experimentos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 78 A hipótese base para o teste de hipóteses é chamada de hipótese nula H0 e ela é usualmente caracterizada pela igualdade17 No exemplo anterior a hipótese nula seria a de que as médias das propriedades de interesse são as mesmas com ou sem a adição do novo elemento ou seja a adição do novo elemento não produz melhorias significativas nas propriedades do concreto produzido A hipótese contrária que usamos como alternativa à hipótese nula isto é a hipótese que será aceita quando a hipótese nula é rejeitada é denominada hipótese alternativa H1 também chamada de hipótese do pesquisador Para o exemplo como o pesquisador está interessado em comprovar melhorias nas propriedades a hipótese alternativa seria que as médias das propriedades de interesse são maiores para o concreto com a adição do elemento do que sem a adição Assim poderíamos ter 𝐻0 𝜇0𝑃𝑋 𝜇𝑃𝑋 𝐻1 𝜇0𝑃𝑋 𝜇𝑃𝑋 Onde 𝜇0 é a média da propriedade para o concreto de referência produzido sem a adição do elemento e µ a média com a adição do elemento para a propriedade ou parâmetro 𝑃𝑥 Outros tipos de formulação de hipóteses também são comuns tais como 𝐻0 𝜇0 𝜇 𝐻0 𝜇0 𝜇 𝐻0 𝜇0 𝜇 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 x Os testes de hipóteses podem ser bilaterais quando desejamos saber se a média é diferente neste caso se a média for maior ou menor não importa pois ela é diferente ou unilaterais quando a hipótese H1 é construída com a suposição de aumento maior ou diminuição menor da média Para os testes bilaterais o nível de confiança estipulado para o teste normalmente α 005 deve ser dividido entre as caudas pois queremos ter 95 de certeza de que a média é diferente como mostrado na Figura 52 As hipóteses para o teste são 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 Independente de usarmos a distribuição normal padrão ou a distribuição tStudent o valor de α estipulado para o teste será dividido entre as duas caudas α2 A região central da curva indica a área de aceitação de H0 e as caudas a área de rejeição de H0 e consequente aceitação de H1 Figura 52 17 Ver comentário sobre testes de hipóteses na Página 65 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 79 Figura 52 Teste bilateral Regiões de rejeição Nos testes unilaterais Figura 53 onde as hipóteses são formuladas com a suposição de que a média é maior ou menor as hipóteses formuladas podem ser 1 𝐻0 𝜇0 𝜇 2 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 Figura 53 Testes unilaterais regiões de rejeição No teste unilateral com as hipóteses estipuladas acima menor ou maior que também independente da distribuição que usarmos o valor α estipulado para o teste será alocado na região correspondente à região de rejeição de H0 Afinal agora nos interessa saber com 100 1 α de confiabilidade se rejeitamos ou não a hipótese nula Análise dos dados a serem comparados Antes de iniciarmos os testes de hipóteses temos que analisar os dados e verificar o conhecimento que possuímos sobre os mesmos Quantas amostras desejo comparar As amostras são independentes ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 80 Possuímos alguma informação sobre a população Quantos elementos possui cada amostra Todas estas são questões que irão direcionar o cálculo da estatística que será utilizada para a comparação com a probabilidade extraída da distribuição normal padronizada ou da distribuição de tStudent Podemos dizer que o procedimento estatístico a ser usado na análise dos dados é dependente das questões formuladas acima Amostras Independentes Quando os elementos da amostra são distintos e independentes ou quando não há informações suficientes para determinar similaridades entre os elementos Amostra com Dados Pareados Quando os elementos da amostra são analisados em situações diferentes antes e depois ou seja cada elemento está associado a um par de medidas uma antes de um determinado tratamento e outra depois deste tratamento Outra situação ocorre quando podemos formar pares de elementos tão similares quanto possível e garantindo que os elementos do par sejam direcionados a amostras diferentes Assim poderemos aplicar tratamentos diferentes em cada elemento do par Os procedimentos estatísticos para dados pareados somente devem ser utilizados quando se tem segurança de que no período entre as mensurações o único valor que afeta os dados é o fator em estudo tratamento Caso contrário é mais recomendado um delineamento como amostras independentes Estatística a ser usada Da mesma forma que foi utilizado na determinação do Intervalo de Confiança temos que identificar se temos ou não informações sobre a população para a qual queremos inferir Novamente temos duas situações variância conhecida temos informações sobre a população e variância desconhecida não temos informações sobre a população Se conhecemos a média e a variância populacional usamos a distribuição normal padrão Z Se os dados populacionais são desconhecidos situação que irá abranger a maioria dos experimentos inovadores de engenharia usamos a distribuição tStudent Outro fator que influi na escolha de qual distribuição utilizar para o teste de hipóteses é a quantidade de elementos que a amostra contém Se a amostra contiver mais de 30 elementos 30 mensurações descontandose os valores identificados como outliers podemos usar a distribuição normal padronizada Caso contrário para amostras com 30 ou menos elementos devemos usar a distribuição tStudent A Tabela 25 apresenta o resumo dos conceitos que definem a estatística do teste a ser usada Condição Estatística Variância conhecida OU n 30 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 Variância desconhecida E n 30 𝑇 𝑋 𝜇 𝑠 𝑛 𝑡𝑛 1 Tabela 25 Escolha da estatística a ser usada Testes de Comparação de Médias A seguir apresentamos os testes de comparação de médias construídos com base nos conceitos citados anteriormente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 81 Uma amostra quando citamos a comparação dos dados de uma amostra na realidade nos referimos a uma única variável aleatória associada a esta amostra A comparação é feita para a variável aleatória que representa a propriedade ou parâmetro de interesse O critério de avaliação é Teste bilateral se Tobs Tα2 ou se Tobs Tα2 rejeitamos H0 Caso contrário não rejeitamos H0 Teste unilateral à direita se Tobs Tα rejeitamos H0 Caso contrário não rejeitamos H0 Teste unilateral à esquerda se Tobs Tα rejeitamos H0 Caso contrário não rejeitamos H0 OBS Se a variância for conhecida ou a amostra possuir mais de 30 elementos usamos a distribuição normal padronizada e a estatística para o teste é dada por Z Exemplo 13 De um lote de 1000 dormentes de concreto foram selecionados aleatoriamente 35 dormentes para testes de resistência a flexão É exigido que a resistência a flexão seja igual 54 MPa A média e o desvio padrão amostrais foram de 5681 e 74 MPa respectivamente O lote atende as especificações com 95 de confiabilidade Como o objetivo é determinar se a média populacional é igual a 54 MPa com confiabilidade de 95 α 005 o teste de hipótese é 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 O valor base para a estatística é α2 0025 e como a amostra é formada por 35 elementos vamos usar a distribuição normal padrão e a estatística Z 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 𝑍 5681 54 74 35 225 Assim temos que 𝑍𝑜𝑏𝑠 225 O valor de 𝑍𝛼2 na tabela da distribuição normal padrão é 196 Então temos que Zobs 225 e Zα2 196 o que nos mostra que Zobs está na Zona de rejeição de H0 conforme pode ser observado na Figura 54 Figura 54 Teste bilateral Z observado Também podemos calcular a probabilidade de a média amostral ser igual ao valor proposto para o teste 54 MPa Como temos um teste bilateral e o valor de α foi dividido entre as duas caudas temos que o pvalor é dado por ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 82 𝑃𝑍 𝑍𝑜𝑏𝑠 𝑃𝑍 𝑍𝑜𝑏𝑠 𝑃𝑍 225 𝑃𝑍 225 00122 00122 00244 Assim temos a probabilidade de 244 para a hipótese H0 Como a confiabilidade foi estabelecida em 95 implicando em α 005 a probabilidade para H0 é inferior a estabelecida levando a rejeição de H0 A mesma comparação pode ser realizada em termos do pvalor O pvalor resultante do teste é 00244 e o pvalor estabelecido para o teste é 005 Como o pvalor resultante é inferior ao estabelecido rejeita se H0 Exemplo 14 Os dados abaixo representam a resistência a ruptura por tração de 10 amostras de um cabo de aço Com base nos resultados desejase saber se esse cabo obedece a especificação carga média de ruptura superior a 1500 kgf com 95 de confiabilidade não foram identificados valores outliers na amostra Valores ensaios 1508 1518 1492 1505 1515 1507 1510 1505 1496 1498 Desta vez o objetivo é determinar se a média populacional é superior a 1500 Kgf com confiabilidade de 95 α 005 o teste de hipótese é 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 E usaremos o teste unilateral à direita onde se Tobs Tα rejeitamos H0 Caso contrário não rejeitamos H0 O valor base para a estatística é α 005 e como a amostra é formada por 10 elementos vamos usar a distribuição tStudent A partir dos dados da amostra os seguintes valores foram calculados X 15054 kgf S 81948 kgf N 10 α 005 O valor da estatística do teste é 𝑇 𝑋 𝜇 𝑠 𝑛 𝑡𝑛 1 𝑇 15054 1500 82 10 20825 𝑇𝑜𝑏𝑠 20838 A tabela da distribuição tStudend Figura 38 nos fornece o valor da estatística para α 005 e GL n 1 10 1 9 Assim temos que 𝑇𝛼9 1833 A Figura 55 nos permite visualizar as estatísticas do teste Como 𝑇𝑜𝑏𝑠 𝑇α9 ou seja 20838 1833 a hipótese H0 pode ser rejeitada Isto indica que a resistência média de ruptura é superior a 1500 kgf com 95 de confiabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 83 Figura 55 Teste unilateral a direita Testes de Comparação de Médias com Duas Amostras Quando comparamos duas amostras Figura 56 passamos a ter quatro tipos de situações que devem ser consideradas i a variância populacional de ambas as amostras é conhecida ii a variância populacional das amostras é igual mas desconhecida iii as variâncias populacionais são desconhecidas e iv os dados são pareados Para cada tipo há uma fórmula diferente para a estatística Figura 56 Teste de comparação de médias com duas amostras Variâncias conhecidas Suponha que queremos comparar a diferença nas médias 1 e 2 1 2 Δ0 de duas populações normais e independentes sendo suas variâncias conhecidas A Estatística do teste é dada por 𝑍𝑜𝑏𝑠 𝑋1 𝑋2 0 𝜎1 2 𝑛1 𝜎2 2 𝑛2 𝑜𝑢 𝑋1 𝑋2 0 𝜎 1 𝑛1 1 𝑛2 Eq 44 A hipótese nula é dada por H0 1 2 Δ0 O teste pode ser resumido pela Tabela 26 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 84 H0 1 2 Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 1 2 Δ0 Probabilidade acima de Z0 e abaixo de Z0 P 21 φZ0 Z0 Z α2 ou Z0 Z α2 H1 1 2 Δ0 Probabilidade acima de Z0 P 1 φZ0 Z0 Z α H1 1 2 Δ0 Probabilidade abaixo de Z0 P φZ0 Z0 Z α Tabela 26 Comparação de duas médias com variância conhecida Exemplo 15 Uma empresa está interessada em desenvolver produtos para aceleração da cura do concreto Uma nova formulação é proposta e um experimento de comparação com a formulação antiga é preparado com duas amostras a primeira usa a composição padrão e a segunda tem novo ingrediente para aceleração da cura Esperase que a adição do novo ingrediente não altere a variância da resistência a compressão 27MPa Dez amostras com a formulação 1 foram testadas com 168 horas e tiveram uma resistência média a compressão de 155 MPa Outras 15 amostras com a formulação 2 foram testadas também com 168 horas e tiveram uma resistência a compressão de 172 MPa Sabendose que as condições de preparação e teste foram homogêneas podemos afirmar com 95 de confiabilidade que a adição do novo ingrediente foi benéfica para a cura do concreto aumento da resistência a compressão Neste experimento o objetivo é determinar se a nova formulação adição do novo ingrediente melhora o tempo de cura do concreto Temos duas amostras variância populacional conhecida e igual a 27 e suposta distribuição normal e a confiabilidade exigida é de 95 α 005 Então temos σ1 σ2 σ 27 Mpa n1 10 n2 15 𝑋1 155 𝑋2 172 α 005 O teste de hipótese proposto para o problema é o teste unilateral à direita com as seguintes hipóteses 𝐻0 𝜇2 𝜇1 0 0 A resistência a compressão permanece igual 𝐻1 𝜇2 𝜇1 0 0 Rejeitar H0 se o novo ingrediente aumentar a resistência O teste a ser aplicado é o teste unilateral a direita e o critério de rejeição da hipótese nula estipulado na Tabela 26 é Z0bs Z α Usando a estatística do teste temos 𝑍𝑜𝑏𝑠 𝑋2 𝑋1 0 𝜎2 2 𝑛2 𝜎1 2 𝑛1 172 155 0 272 15 272 10 15423 𝑍𝑜𝑏𝑠 15423 O valor de Z na tabela normal padronizada Figura 37 para α 005 1 α 095 é Zα 16449 Assim temos que Zobs Zα o que nos coloca na região de aceitação de H0 como pode ser visualizado na Figura 57 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 85 Figura 57 Comparação de duas médias com variância conhecida Outra forma de análise é o pvalor probabilidade da estatística 𝑃𝑍𝑜𝑏𝑠 1 𝑃15423 1 09385 00615 O pvalor é igual a 00615 e é maior que a estatista proposta para o teste 005 conduzindo a aceitação de H0 a subtração é realizada porque nos interessa a área de rejeição de H0 e o valor 09385 corresponde à área da curva até o Zα 165 Em termos de probabilidade há uma probabilidade de 615 de encontrarmos médias de resistências a compressão iguais para a população o que é superior ao limite de 5 estabelecido Com base no exposto aceitase H0 1 2 Δ0 0 e fica estabelecido que não há diferenças estatísticas significativas entre as médias das formulações propostas no experimento Variâncias iguais e desconhecidas Suponha que queremos comparar a diferença nas médias 1 e 2 1 2 Δ0 de duas populações normais e independentes sendo suas variâncias iguais mas desconhecidas σ12 σ22 σ2 Como sabemos que as variâncias são iguais mas desconhecidas precisamos combinar as duas variâncias das amostras a partir dos desvios padrões calculados S1 e S2 para formar um estimador da variância σ Este estimador é denominado SP2 e é definido por 𝑠𝑝 𝑛1 1𝑠1 2 𝑛2 1𝑠2 2 𝑛1 𝑛2 2 Eq 45 O número de graus de liberdade para a comparação da média neste caso será dado por 𝑛1 𝑛2 2 A estatística do teste é 𝑇 𝑋1 𝑋2 0 𝑠𝑝 1 𝑛1 1 𝑛2 Eq 46 A hipótese nula é dada por H0 1 2 Δ0 O teste pode ser resumido pela Tabela 27 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 86 H0 1 2 Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 1 2 Δ0 Probabilidade acima de T0 e abaixo de T0 P 21 φT0 T0 T α2 N1N22 ou T0 T α2 N1N22 H1 1 2 Δ0 Probabilidade acima de T0 P 1 φT0 T0 Tα N1N22 H1 1 2 Δ0 Probabilidade abaixo de T0 P φT0 T0 Tα N1N22 Tabela 27 Comparação de duas médias com variância iguais e desconhecidas Exemplo 16 A adição de agregados de resíduos de concreto deve ser testada Para tanto foram testadas duas amostras a primeira com agregados naturais AN e a segunda com substituição de 25 dos agregados naturais por agregados de resíduos de concreto ARC Não houve alteração dos demais fatores Os resultados dos testes de compressão são apresentados a seguir A1 3876 4018 e 4189 e A2 4166 4116 e 4270 Supondose que a variância populacional para os tipos de concreto é igual mas desconhecida analise as amostras no nível de significância de 005 Este experimento pede para que os resultados das amostras sejam analisados São duas formulações diferentes a segunda com adição de resíduos Vamos então analisar se as médias de resistência a compressão são iguais Inicialmente vamos exibir os valores das amostras com o uso do boxplot apresentado na Figura 58 A visualização dos boxplots permite supor que a amostra B possui valores superiores então vamos construir a hipótese para o teste baseado nesta suposição Figura 58 Boxplot com os dados do exemplo 16 Cada amostra possui 3 elementos portanto temos GL 3 3 2 4 e devemos usar a distribuição de tStudent As hipóteses para o teste unilateral à direita são 𝐻0 𝜇𝐵 𝜇𝐴 0 0 A resistência a compressão é igual para as duas amostras 𝐻1 𝜇𝐵 𝜇𝐴 0 0 Rejeitar H0 se o novo ingrediente aumentar a resistência Em primeiro lugar vamos calcular a média e o desvio padrão amostral Tabela 28 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 87 Média DesvPad CR A 3876 4018 4189 4028 157 25 ARC B 4166 4116 4270 4184 079 Tabela 28 Cálculo da média e desvio padrão amostral Antes de calcularmos a estatística do teste temos que calcular o estimador da variância sp 𝑠𝑝 𝑛𝐴 1𝑠𝐴 2 𝑛𝐵 1𝑠𝐵 2 𝑛𝐴 𝑛𝐵 2 3 11572 3 10792 3 3 2 12428 Com a estatística do teste temos 𝑇𝑜𝑏𝑠 𝑋𝐵 𝑋𝐴 0 𝑠𝑝 1 𝑛𝐴 1 𝑛𝐵 4184 4028 0 124281 3 1 3 15373 𝑒 𝑇𝑜𝑏𝑠 15373 O valor de 𝑇𝛼4 na tabela tStudent Figura 38 para α 005 1 α 095 é Tα4 2132 Assim temos que Tobs 𝑇𝛼4 o que nos coloca na região de aceitação de H0 A resistência a compressão é igual para as duas amostras como pode ser visualizado na Figura 59 Figura 59 Comparação de duas médias com variâncias iguais e desconhecidas Usando o pvalor probabilidade da estatística temos 𝑃𝑇𝑜𝑏𝑠 𝑃15373 00995 O pvalor é igual a 00995 e é maior que a estatista proposta para o teste 005 conduzindo a aceitação de H0 Em termos de probabilidade há uma probabilidade de 995 de encontrarmos médias de resistências a compressão iguais para a população o que é superior ao limite de 5 estabelecido Com base no exposto aceitase H0 1 2 Δ0 0 e fica estabelecido que não há diferenças estatísticas significativas entre as médias das amostras apesar da suposição inicial feita pela interpretação dos boxplots exibidos na Figura 58 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 88 Variâncias desconhecidas Suponha que queremos comparar a diferença nas médias 1 e 2 1 2 Δ0 de duas populações normais e independentes sendo suas variâncias desconhecidas σ12 σ22 Neste caso como as variâncias são desconhecidas e possivelmente desiguais precisamos estimar os graus de liberdade 𝜐 com o uso da equação 𝜐 𝑠1 2 𝑛1 𝑠2 2 𝑛2 2 𝑠1 2 𝑛1 2 𝑛1 1 𝑠2 2 𝑛2 2 𝑛2 1 Eq 47 Com o número de graus de liberdade para a comparação da média dado pela expressão acima a estatística do teste é 𝑇𝑜𝑏𝑠 𝑋1 𝑋2 Δ0 𝑠1 2 𝑛1 𝑠2 2 𝑛2 Eq 48 A hipótese nula também é dada por H0 1 2 Δ0 O teste pode ser resumido pela tabela apresentada na Tabela 29 H0 1 2 Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 1 2 Δ0 Probabilidade acima de T0 e abaixo de T0 P 21 φT0 T0 T α2 v ou T0 T α2 v H1 1 2 Δ0 Probabilidade acima de T0 P 1 φT0 T0 Tα v H1 1 2 Δ0 Probabilidade abaixo de T0 P φT0 T0 Tα v Tabela 29 Hipóteses para variâncias desconhecidas Exemplo 17 Segundo o fabricante a adição de determinado aditivo aumenta a resistência a compressão do concreto em no mínimo 10 Para testar este aditivo uma empresa produziu usando o mesmo método duas amostras com 10 elementos mostrados na Tabela 30 A primeira amostra A com a formulação padrão usada pela empresa e a segunda amostra B com a inclusão do aditivo nas proporções indicadas pelo fabricante Os testes da primeira amostra resultaram em uma média amostral 𝑋𝐴 de 4480 MPa e desvio padrão de 393 MPa A segunda amostra obteve média amostral 𝑋𝐵 de 5036 MPa e desvio padrão amostral de 496 MPa Verifique se o aditivo atinge os objetivos propostos com nível de significância de 005 Amostra 1 A 4646 4579 3914 3938 4953 4220 4731 4494 5062 4264 Amostra 2 B 5390 5304 5594 4797 5200 5101 4253 5704 4538 4483 Tabela 30 Valores das amostras A e B Esta é uma situação diferente Temos que verificar se o concreto produzido com o aditivo apresentará um aumento na resistência a compressão de no mínimo 10 São duas formulações diferentes a segunda com o aditivo Novamente iremos usar o gráfico de boxplot para auxiliar a definição das hipóteses A Figura 60 exibe as informações sobre as amostras Como as informações do gráfico de boxplot não permitem suposições vamos nos ater ao enunciado do exemplo ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 89 Figura 60 Boxplot com os dados do exemplo 17 Como a quantidade de elementos das amostras é inferior a 30 e não temos informações sobre a variância populacional devemos usar a distribuição de tStudent com a suposição de variâncias desconhecidas Como o fabricante afirma que o aumento na resistência é superior a 10 as hipóteses para o teste podem ser definidas como unilateral à direita 𝐻0 𝜇𝐵 𝜇𝐴 0 10 𝜇𝐴 A resistência a compressão atingiu o aumento 𝐻1 𝜇𝐵 𝜇𝐴 0 10 𝜇𝐴 Rejeitar H0 se o aumento for superior a 10 fabricante Usando os valores fornecidos para a média e desvio padrão amostrais o teste de hipóteses pode ser transcrito para α 005 como 𝐻0 𝜇𝐵 𝜇𝐴 448 A resistência a compressão atingiu o aumento 𝐻1 𝜇𝐵 𝜇𝐴 448 Rejeitar H0 se o aumento for superior a 10 Inicialmente vamos calcular a estimativa dos graus de liberdade 𝜐 𝜐 𝑠𝐴 2 𝑛1 𝑠𝐵 2 𝑛𝐵 2 𝑠𝐴 2 𝑛𝐴 2 𝑛𝐴 1 𝑠𝐵 2 𝑛𝐵 2 𝑛𝐵 1 3932 10 4962102 3932 10 2 9 4962 10 2 9 171159 17 A estatística do teste é 𝑇𝑜𝑏𝑠 𝑋𝐵 𝑋𝐴 Δ0 𝑠𝐴 2 𝑛𝐴 𝑠𝐵 2 𝑛𝐵 5036 448 448 3932 10 4962 10 05399 O critério para rejeição da hipótese nula Tabela 29 é 𝑇𝑜𝑏𝑠 𝑇𝛼17 O valor de 𝑇𝛼17 na tabela t Student Figura 38 para α 005 1 α 095 é Tα17 174 Assim temos que Tobs 𝑇𝛼17 o que nos coloca na região de aceitação de H0 Calculando a probabilidade com base no valor da estatística do teste 𝑇𝑜𝑏𝑠 temos 𝑃𝑇𝑜𝑏𝑠 𝑃05397 0298134 valor calculado no MS Excel pela função DISTT05399 17 1 respectivamente valor T observado graus de liberdade e unicaudal O pvalor é igual a 0298134 corresponde a uma probabilidade de 2981 e é maior que a estatista proposta para o teste 005 5 conduzindo a aceitação de H0 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 90 Em termos de probabilidade há uma probabilidade de 2981 de encontrarmos médias de resistências a compressão inferiores ao aumento de 10 prometido para o concreto com o aditivo considerando se a população o que é bem superior ao limite de 5 estabelecido Com base no exposto aceitase H0 1 2 Δ0 448 e consequentemente rejeitase H1 aumento superior a 10 Comentários Comparando as médias da amostra sem o aditivo XB 448 MPa e após o uso do aditivo XA 5036 MPa temos a impressão que o objetivo do experimento foi atingido pois as médias demonstram o aumento de 10 448 448 4928 pois o valor de X2 é maior que 4928 MPa No entanto não podemos nos esquecer que a representa apenas o valor central da distribuição Vamos considerar apenas a amostra com o aditivo X1 5036 MPa e levantar a probabilidade de encontramos valores superiores a 4928 MPa usando o RStudio Para o teste o vetor dadosa1 criado com base nos dados da Tabela 30 foi carregado com os dez valores de resistência à compressão da amostra ttestdadosa1mu4928 alternative greater One Sample ttest data dadosa1 t 069178 df 9 pvalue 02533 alternative hypothesis true mean is greater than 4928 95 percent confidence interval 4749156 Inf sample estimates mean of x 50364 Conforme o teste comprova a hipótese 𝐻0 𝜇1 4928 não pode ser rejeitada e consequentemente a hipótese que nos interessa 𝐻1 𝜇1 4928 não pode ser comprovada O pvalor nos indica o percentual de ocorrências de médias superiores a 4928 MPa 2533 e isto considerando apenas a amostra com adição Outra maneira de entendermos o teste é plotarmos a distribuição de probabilidades populacional das duas amostras Figura 61 No gráfico estão destacadas as médias das duas amostras e o valor 4928 que 95 das resistências a compressão dos elementos deveriam superar uma vez que o enunciado pede um nível de significância de 005 Podemos visualizar que um pouco menos que 50 da área sob o gráfico da distribuição de frequência está à esquerda da linha verde que delimita o valor de 4928 MPa indicando que um percentual correspondente à esta área possui resistência a compressão inferior a este limite ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 91 Figura 61 Distribuição de probabilidades populacional das duas amostras Também podemos executar o teste t do RStudio para compararmos a média juntamente com a diferença esperada os vetores a1 e a2 contém os valores de resistência a compressão das amostras ttestdadosa1dadosa2mu 448 varequalFalternativegreater Welch Two Sample ttest data dadosa1 and dadosa2 t 054141 df 17116 pvalue 02976 alternative hypothesis true difference in means is greater than 448 95 percent confidence interval 2084536 Inf sample estimates mean of x mean of y 50364 44801 As hipóteses para o teste as mesmas usadas na solução do exemplo 𝐻0 𝜇1 𝜇2 448 𝐻1 𝜇1 𝜇2 448 Como o pvalor do teste é 02979 não podemos rejeitar a hipótese H0 ela é aceita e consequentemente não conseguimos comprovar que o aumento na resistência a compressão é superior a 10 O pvalor encontrado é bem próximo ao que foi calculado no MS Excel 02981 Dados Pareados Um caso especial de teste t para duas amostras ocorre quando as observações nas duas populações são coletadas em pares Cada par de observações é tomado em condições homogêneas mas que podem mudar de uma observação para outra É o caso de termos o mesmo corpo de prova submetido a duas observações sendo que o único fator que as diferencia é o tratamento ao qual o corpo foi submetido Assim podemos considerar que temos uma amostra de pares X1Y1 X2Y2 XNYN Neste caso o valor de interesse não são as mensurações das amostras mas a diferença entre elas ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 92 Para entendermos melhor o significado de dados pareados imagine um grupo de pessoas submetidas ao mesmo regime e controladas durante o regime Teríamos o peso de cada elemento antes e depois de um certo período de tempo Considerandose que o único fator que pode influenciar a alteração do peso é o regime teríamos dados pareados peso antes e peso depois Denominando de D a diferença entre as mensurações da característica de interesse o teste usa a distribuição tStudent com n 1 graus de liberdade A estatística do teste é dada por 𝑇 𝐷 0 𝑠𝐷 𝑛 Eq 49 Onde D média da diferença das mensurações dos pares Δ0 valor esperado na comparação SD desvio padrão da diferença das mensurações dos pares n número de elementos nas amostras O teste de hipóteses para amostras pareadas é baseado na análise da diferença entre as mensurações dos pares 𝐷𝑖 𝑋𝑖 𝑌𝑖 𝑝𝑎𝑟𝑎 𝑖 1 2 𝑛 sendo 𝜇𝐷 a média destas diferenças As hipóteses para o teste são 𝐻0 𝜇𝐷 0 𝐻0 𝜇𝐷 0 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 𝐻1 𝜇𝐷 0 𝐻1 𝜇𝐷 0 A hipótese nula é dada por H0 D Δ0 O teste resumido é apresentado na Tabela 31 H0 D Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 D Δ0 Probabilidade acima de T0 e abaixo de T0 P 21 φT0 Tobs T α2 n1 ou Tobs T α2 n1 H1 D Δ0 Probabilidade acima de T0 P 1 φT0 Tobs Tα n1 H1 D Δ0 Probabilidade abaixo de T0 P φT0 Tobs Tα n1 Tabela 31 Hipóteses para dados pareados Exemplo 18 Dois métodos A e B diferentes de previsão da resistência à compressão de corpos de prova de concreto estão sendo avaliados em uma pesquisa Os dois métodos foram aplicados em 9 corpos de prova e a resistência à compressão prevista foi calculada Em seguida os corpos de prova foram rompidos e sua resistência a compressão foi mensurada A resistência a compressão mensurada RCM e a prevista pelos métodos RPA e RPB é apresentada na Tabela 32 Com um nível de significância α de 005 e partindo do pressuposto que RCM resistência mensurada representa o valor real da resistência a compressão determine a os métodos A e B podem ser considerados estatisticamente diferentes b comprove qual o método mais adequado As médias e desvios padrão amostrais são exibidos na Tabela 33 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 93 RCM RPA RPB 1 4530 4500 5310 2 4524 4608 6645 3 4688 4977 5891 4 4658 4794 627 5 5407 4426 5943 6 4938 4388 5900 7 4654 5041 4846 8 4905 4439 5169 9 4164 4601 5644 Tabela 32 Resistência a compressão real e prevista pelos métodos A e B RCM RPA RPB Média 4719 4642 5735 DesvP 343 242 556 Tabela 33 Média e desvio padrão amostrais a O método de comparação de dados pareados compara dados de duas amostras pareadas e neste caso temos três amostras Assim os dados devem ser tratados em função do objetivo a saber determinar se os métodos oferecem respostas diferentes em prever RCM A solução é comparar os métodos A e B em função da razão entre a previsão e o valor mensurado A Tabela 34 exibe a relação 𝑅𝑃𝐴 𝑅𝐶𝑀 𝑒 𝑅𝑃𝐵 𝑅𝐶𝑀 calculada a partir dos dados da Tabela 32 rpa 09934 10186 10616 10292 08186 08886 10832 09050 11049 rpb 11722 14688 12566 13461 10991 11948 10413 10538 13554 Di 01788 04503 01950 03169 02806 03062 00419 01488 02505 Tabela 34 Relação entre resistência prevista e resistência mensurada para os métodos A e B Onde Dj é a diferença entre a razão das mensurações da característica de interesse no caso a relação entre as resistências à compressão prevista e mensurada Então temos 𝐷 02317 𝑆𝐷 01366 𝑛 9 𝑒 𝐺𝐿 𝑛 1 8 A hipótese inicial para o teste pode ser verificar se os métodos oferecem respostas diferentes para a previsão de resistência à compressão teste bilateral Assim temos considerando 0 0 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 Onde 𝜇𝐷 representa a média das diferenças 𝐷𝑖 A Tabela 31 nos dá os critérios de rejeição de H0 a saber 𝑇𝑜𝑏𝑠 𝑇00258 𝑜𝑢 𝑇𝑜𝑏𝑠 𝑇00258 O valor de 𝑇00258 pode ser obtido na tabela da Figura 38 e é igual a 2306 A estatística do teste é dada por ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 94 𝑇 𝐷 0 𝑆𝑑 𝑛 02317 0 01366 9 50896 Como 𝑇𝑜𝑏𝑠é menor que 𝑇00258 isto é 50896 2306 a hipótese nula é rejeitada e temos que os resultados gerados pelos métodos são estatisticamente diferentes sendo que a probabilidade associada a estatística T é de 999 muito superior aos 5 permitido pelo teste b Para identificarmos o método mais adequado podemos realizar o teste t pareado comparando o valor real com o previsto em cada um dos métodos Para o método A temos mensurado 4530 4524 4688 4658 5407 4938 4654 4905 4164 método A 4500 4608 4977 4794 4426 4388 5041 4439 4601 Dj 030 084 289 136 981 550 387 466 437 Tabela 35 Resistência mensurada resistência calculada A e diferença entre elas Assim temos 𝐷 077 𝑆𝐷 48467 A hipótese do teste é 𝐻0 𝜇𝐷 0 ou seja o método A representa o valor real da resistência a compressão Assim considerando 0 0 as hipóteses são 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 Novamente a Tabela 31 nos dá os critérios de rejeição de H0 a saber 𝑇𝑜𝑏𝑠 𝑇00258 𝑜𝑢 𝑇𝑜𝑏𝑠 𝑇00258 O valor de 𝑇00258 pode ser obtido na tabela da Figura 38 e é igual a 2306 A estatística do teste é 𝑇𝑜𝑏𝑠 𝐷 0 𝑆𝑑 𝑛 077 0 48467 9 04766 Como 𝑇𝑜𝑏𝑠 04766 𝑇002582306 a hipótese nula não pode ser rejeitada e temos que os resultados gerados pelo método A podem ser considerados similares as mensurações efetuadas Para o método B Tabela 36 mensurado 4530 4524 4688 4658 5407 4938 4654 4905 4164 método B 5310 6645 5891 6270 5943 5900 4846 5169 5644 Dj 780 2121 1203 1612 536 962 192 264 1480 Tabela 36 Resistência mensurada resistência calculada B e diferença entre elas Assim temos 𝐷 1017 𝑆𝐷 6481 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 95 A hipótese do teste continua a mesma ou seja 𝐻0 𝜇𝐷 0 ou seja o método B representa o valor real da resistência a compressão Assim considerando 0 0 as hipóteses são 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 Considerando a mesma situação da comparação anterior temos os mesmos critérios de rejeição de H0 e o valor de 𝑇00258 igual a 2306 A estatística do teste é 𝑇𝑜𝑏𝑠 𝐷 0 𝑆𝑑 𝑛 1017 0 6481 9 47076 Como 𝑇𝑜𝑏𝑠 47076 𝑇002582306 o critério de rejeição de H0 é satisfeito e a hipótese nula é rejeitada Assim podemos concluir que os resultados gerados pelo método B são estatisticamente diferentes das mensurações efetuadas Analisando os resultados das comparações temos que o método A apresenta resultados similares aos dos testes reais e o método B não de onde podemos concluir que o método A é adequado 78 Erros Cometidos nos Testes de Hipóteses Como estamos tratando de hipóteses e probabilidades de acerto nenhum teste é 100 confiável pois há sempre a probabilidade de chegarmos à conclusão errada A realização de um teste de hipóteses conduz a dois tipos de erros possíveis erro tipo I e erro tipo II Os riscos de ocorrência desses dois tipos de erro são inversamente proporcionais ou seja quanto mais nos esforçamos para diminuir um aumentamos o outro Os tipos de erro são determinados pelo nível de significância α do teste e pelo poder do teste β Erro Tipo I Quando a hipótese nula H0 é verdadeira e o teste realizado indica sua rejeição é cometido um erro do tipo I A probabilidade de cometer um erro do tipo I é dada pelo nível de significância α definido para o teste de hipóteses Um α de 005 indica que é aceito uma chance de 5 de que o teste pode errar ao rejeitar a hipótese nula Para reduzir este risco pode ser usado um valor inferior para α Entretanto isto acarreta que o teste terá uma menor probabilidade de detectar uma diferença verdadeira rejeição de H0 quando ela realmente existe Erro Tipo II Quando a hipótese nula H0 é falsa e o teste realizado não a rejeita é cometido um erro de tipo II A probabilidade de cometer um erro de tipo II é dada por β A probabilidade de ocorrência do erro tipo II pode ser diminuída com o aumento do poder do teste Isto pode ser feito por exemplo garantindose que o tamanho da amostra seja grande o suficiente para detectar uma diferença quando ela realmente existir Como a probabilidade de não rejeitar uma hipótese nula falsa é dada por β o valor 1 β referese à probabilidade de realmente rejeitar a hipótese nula falsa H0 Esse valor 1 β é denominado poder ou potência do teste Para entendermos a relação entre os erros tipo I e tipo II e para determinar qual dos tipos de erro terá consequências mais danosas em um determinado teste vamos considerar a seguinte situação Um pesquisador deseja comparar a eficácia de dois aditivos na cura do concreto e estabeleceu as seguintes hipóteses 𝐻𝑂 𝜇1 𝜇2 Os dois aditivos são igualmente eficazes ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 96 𝐻1 𝜇1 𝜇2 Os aditivos não são igualmente eficazes Um erro do tipo I ocorre se o teste realizado pelo pesquisador rejeita a hipótese nula H0 e conclui que os dois aditivos possuem eficácia diferente quando na realidade a eficácia é a mesma Se os aditivos tiverem a mesma eficácia a pesquisa poderá não considerar este erro muito severo porque a cura do concreto será similar independentemente de qual aditivo for usado Contudo se ocorrer um erro do tipo II o teste realizado pelo pesquisador não irá rejeitar a hipótese nula H0 quando essa hipótese deveria ter sido rejeitada Assim a pesquisa irá concluir que os aditivos possuem a mesma eficácia quando na realidade não possuem Este erro possui potencial para invalidar uma pesquisa pois termina por recomendar um aditivo que não é eficaz para o que se propõe Agora imagine a mesma situação para um medicamento prestes a ser comercializado para o público Poder ou Potência do teste O poder ou potência do teste tem como objetivo conhecer o quanto o teste de hipóteses controla um erro do tipo II ou seja qual a probabilidade de não rejeitar a hipótese nula se esta for falsa O poder de um teste de hipóteses é afetado por três fatores tamanho da amostra nível de significância e a diferença entre o valor real e o valor suposto para o teste Tamanho da amostra Como já citado anteriormente quanto maior o tamanho da amostra maior a confiabilidade da análise ou seja com os outros parâmetros constantes quanto maior o tamanho da amostra maior o poder do teste Nível de Significância Se o nível de significância α é aumentado a área de rejeição do teste também aumenta Da mesma forma a região de aceitação 1 α é proporcionalmente reduzida Como resultado aumentam as chances de rejeitar a hipótese nula Isto significa que o teste tem menos chance de aceitar não rejeitar a hipótese nula quando ela é falsa e consequentemente menor chance de cometer um erro do tipo II Então o poder do teste aumenta O valor real do parâmetro a ser testado Quanto maior a diferença entre o valor real do parâmetro e o valor especificado pela hipótese nula maior o poder do teste pois é mais fácil para o teste detectar essa diferença Para entendermos melhor o poder do teste consideremos a estatística Eq 37 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 E o teste de hipóteses 𝐻𝑂 𝜇 𝜇0 𝐻1 𝜇 𝜇0 O erro do tipo II β é cometido ao não rejeitar aceitar a hipótese nula H0 quando ela é falsa H1 é verdadeira Então suponha que a média real é 𝜇 𝜇0 o que leva a hipótese nula ser falsa Considerando isto a estatística do teste passa a ser 𝑍0 𝑋 𝜇0 𝜎 𝑛 𝑋 𝜇0 𝜎 𝑛 𝜎 𝑛 A distribuição de Z0 quando 𝜇 𝜇0 é ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 97 𝑍0𝑁 𝜎 𝑛 1 Para um teste bilateral a probabilidade do erro tipo II não rejeitar H0 é a probabilidade de que Z0 esteja entre 𝑍𝛼 2 e 𝑍𝛼 2 uma vez que H1 é verdadeira Esta probabilidade é dada por 𝛽 Φ 𝑍𝛼 2 𝑛 𝜎 Φ 𝑍𝛼 2 𝑛 𝜎 Eq 50 Onde Φ é a função distribuição acumulada da distribuição normal padrão Para os testes unilaterais à esquerda e à direita as probabilidades do erro tipo II β são respectivamente 1 Φ 𝑍𝛼 2 𝑛 𝜎 𝑒 Φ 𝑍𝛼 2 𝑛 𝜎 Eq 51 E o poder do teste é dado por Poder 1 β Exemplo 19 Uma empresa quer testar com base em uma amostra aleatória de 30 elementos com um nível de significância de 005 se o diâmetro das barras de aço produzidas é de 80 mm A amostra obteve um diâmetro médio de 809 mm e se sabe de experimentos anteriores que o desvio populacional é de 022 mm Verifique a hipótese e determine o poder do teste As hipóteses são 𝐻𝑂 𝜇 80 𝐻1 𝜇 80 Como α 005 e usaremos o teste bilateral temos que 𝑍𝛼 2 𝑍0025 196 o critério a ser aplicado é rejeitar H0 se 𝑍𝑜𝑏𝑠 196 𝑜𝑢 𝑍𝑜𝑏𝑠 196 Assim temos 𝑍𝑜𝑏𝑠 𝑋 𝜇0 𝜎 𝑛 809 80 022 30 224 Como 𝑍𝑜𝑏𝑠 224 196 a hipótese nula H0 é rejeitada ou seja o teste não indica que a média populacional µ seja igual a 80 mm A diferença entre 80 e 809 é significativa O poder do teste bilateral é dado por 1 𝛽 1 Φ 𝑍𝛼 2 𝑛 𝜎 Φ 𝑍𝛼 2 𝑛 𝜎 1 Φ 196 00930 022 Φ 196 00930 022 1 𝛽 1 Φ02807 Φ42007 1 03895 000001 06105 Assim temos que o poder do teste em detectar diferença de 009 mm no diâmetro da barra é de 6105 79 Testes de Hipóteses RStudio No capítulo anterior foi visto os testes de hipóteses com suas respectivas fórmulas e exemplos Neste capítulo vamos dedicar atenção para a execução destes mesmos testes estatísticos no RStudio ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 98 O teste mais usado em comparações de amostras é o ttest baseado na distribuição de tStudent cuja teoria já foi apresentada Os principais parâmetros para a execução deste teste são apresentados no Quadro 2 Para maiores informações acesse a função HELP tecla F1 do RStudio SINTAXE ttestx y NULL alternative twosided less greater mu 0 paired FALSE varequal FALSE conflevel 095 x um vetor numérico não vazio de valores de dados y um vetor numérico não vazio de valores de dados OPCIONAL alternative uma sequência de caracteres twosided greater ou less associada à hipótese alternativa 𝜇0 𝜇 𝜇0 𝜇 ou 𝜇0 𝜇 Apenas a letra inicial pode ser usada OPCIONAL DEFAULT twosided mu valor real da média ou diferença de médias se você estiver executando um teste de duas amostras OPCIONAL DEFAULT 0 zero paired Variável lógica TRUE FALSE indicando se é um teste com dados pareados ou não OPCIONAL DEFAULT FALSE varequal Variável lógica TRUE FALSE indicando se as variâncias são iguais TRUE ou não FALSE Se TRUE então a variância combinada é usada para estimar a variância caso contrário a aproximação de Welch ou Satterthwaite é usada OPCIONAL DEFAULT FALSE conflevel Nível de confiança do intervalo OPCIONAL DEFAULT 095 α 005 Quadro 2 Parâmetros para o ttest no RStudio Vamos iniciar a execução dos testes de comparação de médias no RStudio com o último exemplo visto amostras pareadas usando o mesmo exemplo Exemplo 18 do capítulo anterior Teste t com Dados Pareados Vamos continuar com o exemplo 6 só que agora no RStudio Para facilitar os dados apresentados na Tabela 32 Tabela 34 e Tabela 35 foram carregados em planilha MS Excel no formato csv e importados para o RStudio com os comandos abaixo dados readcsv2filechooseheaderT dados m a b rpa rpb d 1 4530 4500 5310 09933775 1172185 014027014 2 4524 4608 6645 10185676 1468833 033775500 3 4688 4977 5891 10616468 1256613 026585657 4 4658 4794 6270 10291971 1346071 028629437 5 5407 4426 5943 08185685 1099131 009124134 6 4938 4388 5900 08886189 1194816 005166972 7 4654 5041 4846 10831543 1041255 012277458 8 4905 4439 5169 09049949 1053823 004393139 9 4164 4601 5644 11049472 1355427 036717254 Para o comando ttest teste de tStudent para comparação de médias não precisamos calcular o valor D diferença entre as mensurações pois isto é feito internamente Para o teste entraremos com os valores diretamente Entretanto para compararmos os métodos A e B diretamente precisamos da razão entre as mensurações dadas pelas variáveis aleatórias dadosrpa e dadosrpb Assim para o item a a comparação dos métodos A e B o comando no RStudio é ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 99 ttestdadosrpa dadosrpb paired TRUE alternative twosided Paired ttest data dadosrpa and dadosrpb t 50896 df 8 pvalue 00009419 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 03366442 01267071 sample estimates mean of the differences 02316757 O resultado do teste apresenta a estatística T t 50896 é igual a estatística calculada pela fórmula anterior e o pvalor 00009419 é inferior a 005 fazendo com que a hipótese H0 possa ser rejeitada Os dois métodos apresentam resultados diferentes Para o item b podemos comparar diretamente os valores das amostras ma e mb e analisarmos os resultados do teste Comparando a amostra m mensuração da resistência a compressão com a amostra a método A temos ttestdadosm dadosa paired TRUE alternative twosided Paired ttest data dadosm and dadosa t 04773 df 8 pvalue 06459 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 2954365 4496588 sample estimates mean of the differences 07711111 O resultado do teste apresenta a estatística T t 04773 que é praticamente a estatística calculada pela fórmula anterior 04766 e o pvalor 06459 é superior a 005 fazendo com que a hipótese H0 não possa ser rejeitada Assim os resultados obtidos pelo método A podem ser considerados iguais aos resultados reais Já na comparação da amostra m mensuração da resistência a compressão com a amostra b método B temos ttestdadosm dadosb paired TRUE alternative twosided Paired ttest data dadosm and dadosb t 47063 df 8 pvalue 0001529 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 15148201 5185133 sample estimates mean of the differences 1016667 O resultado do teste apresenta a estatística T t 47063 que é a mesma a estatística calculada pela fórmula anterior 47076 e o pvalor 0001529 é inferior a 005 fazendo com que a hipótese H0 possa ser rejeitada Assim os resultados obtidos pelo método B não são iguais aos resultados reais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 100 Testes de Comparação de Médias com Duas Amostras no RStudio Uma das vantagens do uso de softwares estatísticos tipo o RStudio é não precisar consultar tabelas para encontrar os valores críticos para os testes Mas não se esqueça de que existem testes baseados na distribuição tStudent ttest e testes baseados na distribuição normal padronizada ztest Exemplo 20 Pretendese comparar amostras de duas concreteiras diferentes Para tanto cada concreteira produziu amostras com 20 elementos que foram testados quanto a resistência a compressão Os dados obtidos dos testes são mostrados na Tabela 37 Sabendose que a Concreteira A informa que o valor médio da resistência a compressão é 40 MPa e a Concreteira B 50 MPa verifique se as informações são corretas compare as amostras e determine a probabilidade das Concreteiras fornecerem material inferior ou superior ao da concorrente Concreteira A Concreteira B 3663 5517 5200 4937 4823 3076 5289 4776 3204 3859 5301 5197 4426 2999 5311 5129 3922 5777 5857 4942 3718 3531 4909 5026 2786 2673 5249 5416 4150 3436 4431 4839 2013 4999 4755 4300 3720 6001 5482 4776 Tabela 37 Exemplo 20 Resultados de resistência a compressão Em primeiro lugar vamos inserir os dados no RStudio a partir de planilha MS Excel no formato csv dados readcsv2filechooseheaderT dados a b 1 3663 5200 2 4823 5289 3 3204 5301 4 4426 5311 5 3922 5857 6 3718 4909 7 2786 5249 8 4150 4431 9 2013 4755 10 3720 5482 11 5517 4937 12 3076 4776 13 3859 5197 14 2999 5129 15 5777 4942 16 3531 5026 17 2673 5416 18 3436 4839 19 4999 4300 20 6001 4776 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 101 Com os dados carregados podemos executar o teste t para comparação das duas amostras ttestdadosa dadosb alternative twosided conflevel 005 Welch Two Sample ttest data dadosa and dadosb t 6501 df 23356 pvalue 115e06 alternative hypothesis true difference in means is not equal to 5 0 percent confidence interval 114145 114145 sample estimates mean of x mean of y 391465 505610 O resultado do teste mostra que a hipótese H0 as amostras possuem médias iguais é rejeitada pvalor 000000115 Além disto as médias amostrais calculadas são de 3915 MPa para a Concreteira A e 5056 MPa para a Concreteira B Para exemplificar podemos executar o teste t para verificar a igualdade destas médias com os valores declarados no enunciado ttestdadosa mu 40 alternative twosided varequalT conflevel 005 Two Sample ttest data dadosa and 5 t 053447 df 19 pvalue 05992 alternative hypothesis true difference in means is not equal to 40 0 percent confidence interval 341465 341465 sample estimates mean of x mean of y 391465 50000 ttestdadosb mu 50 alternative twosided varequalT conflevel 005 Two Sample ttest data dadosb and 5 t 11891 df 19 pvalue 0249 alternative hypothesis true difference in means is not equal to 50 0 percent confidence interval 45561 45561 sample estimates mean of x mean of y 50561 5000 Em ambos os testes o pvalor é superior a 005 Com isto podemos aceitar a hipótese H0 estabelecida para os testes Podemos aceitar que a média da resistência a compressão do material fornecido pela Concreteira A é igual a 40 MPa e que o mesmo ocorre para a Concreteira B média 50 MPa Agora vamos ver a probabilidade da Concreteira A fornecer um material com resistência a compressão superior ao da Concreteira B média 50 MPa ttestdadosa mu 50 alternative greater One Sample ttest data dadosa t 45414 df 19 pvalue 09999 alternative hypothesis true mean is greater than 50 95 percent confidence interval 3501402 Inf sample estimates mean of x ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 102 391465 Com o pvalor 09999 a probabilidade da Concreteira A fornecer um material com resistência a compressão superior a 50 MPa é igual 1 Px 50 1 09999 00001 Verificando no RStudio com base na estatística do teste e dos graus de liberdade temos pt4541419 1 0000111605 Quanto a probabilidade da Concreteira B fornecer um material com resistência a compressão inferior a 40 MPa basta executarmos o mesmo teste alterando os parâmetros ttestdadosb mu40 alternative less One Sample ttest data dadosb t 12965 df 19 pvalue 1 alternative hypothesis true mean is less than 40 95 percent confidence interval Inf 5196954 sample estimates mean of x 50561 Com o pvalor 1 a probabilidade de fornecimento de concreto com resistência a compressão inferior a 40 MPa é praticamente nula Mas para exemplo vamos verificar a probabilidade associada a estatística do teste 1 pt1296519 1 3470702e11 O resultado é 347 𝑥 109 Acredito que isto pode ser considerado como uma probabilidade praticamente nula18 Outros usos para o teste t No Exemplo 12 foram dados os valores de resistência a compressão de quatro amostras com quantidades diferentes de elementos e foi pedido o intervalo de confiança para a média Vamos calcular este intervalo usando a função ttest e ztest do RStudio para fins de comparação Inicialmente vamos carregar o vetor que contém os dados das amostras e o pacote TeachingDemos dados readcsv2filechoose headerT dados a b c d 1 6373392 7101935 9645293 9524954 2 7215981 6538353 8252394 9513334 3 5822972 8193491 9262981 8544964 4 5803466 7297790 9082530 8613743 5 NA 5868078 9436778 7950997 6 NA 5253909 8168666 8655196 7 NA NA 8149332 8444111 8 NA NA 9367926 10837138 9 NA NA NA 9439628 10 NA NA NA 9419306 18 Um leitor curioso teria notado que no caso anterior era só a probabilidade Neste foi 1 probabilidade Porque ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 103 Como foi informado no enunciado vamos considerar a variância populacional como conhecida o que nos leva ao ztest baseado na distribuição normal Agora observe que como as amostras possuem tamanho diferente teremos que delimitar o vetor em seu uso Além disto o ztest exige que o desvio padrão seja informado Assim teremos que calculálo no RStudio também sda sddadosa14 sda 1 6629346 ztestdadosa14 sdsda One Sample ztest data dadosa14 z 19018 n 40000 Std Dev 66293 Std Dev of the sample mean 33147 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5654289 6953617 sample estimates mean of dadosa14 6303953 Os dados de interesse foram ressaltados no resultado apresentado pelo RStudio Temos o valor da estatística Z o número n de elementos da amostra o pvalor e o intervalo de confiança O valor calculado anteriormente foi 𝐼𝐶𝐴𝜇 095 5654 6953 o que confere com o resultado do teste Fazendo o mesmo para as outras amostras temos sdb sddadosb16 sdb 1 1054357 ztestdadosb16 sdsdb One Sample ztest data dadosb16 z 15586 n 60000 Std Dev 105436 Std Dev of the sample mean 43044 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5865280 7552572 sample estimates mean of dadosb16 6708926 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐵𝜇 095 58657552 sdc sddadosc18 sdc 1 6258621 ztestdadosc18 sdsdc One Sample ztest data dadosc18 z 40315 n 80000 Std Dev 62586 Std Dev of the sample mean 22128 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8487045 9354430 sample estimates mean of dadosc18 8920737 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 104 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐶𝜇 095 8486 9354 sdd sddadosd sdd 1 8218424 ztestdadosd sdsdd One Sample ztest data dadosd z 34993 n 100000 Std Dev 82184 Std Dev of the sample mean 25989 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8584963 9603711 sample estimates mean of dadosd 9094337 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐷𝜇 095 8584 9603 Da mesma forma que no Exemplo 12 podemos repetir os cálculos supondo que a variância populacional é desconhecida Assim sem informações sobre a população usaremos o ttest ttestdadosa14 One Sample ttest data dadosa14 t 19018 df 3 pvalue 00003174 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5249076 7358830 sample estimates mean of x 6303953 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐴𝛼 2 3 52497359 ttestdadosb16 One Sample ttest data dadosb16 t 15586 df 5 pvalue 1975e05 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5602446 7815406 sample estimates mean of x 6708926 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐵𝛼 2 3 56027816 ttestdadosc18 One Sample ttest data dadosc18 t 40315 df 7 pvalue 1506e09 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8397504 9443971 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 105 sample estimates mean of x 8920737 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐶𝛼 2 3 8397 9444 ttestdadosd110 One Sample ttest data dadosd110 t 34993 df 9 pvalue 6281e11 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8506426 9682248 sample estimates mean of x 9094337 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐷𝛼 2 3 8507 9682 Os valores dos intervalos de confiança obtidos a partir da distribuição normal e da distribuição de t Student são exibidos na Tabela 38 Amostra Elementos DistNormal pvalor Dist tStudent pvalor 𝐼𝐶𝐴𝜇 095 4 5654 6953 22e16 52497359 3174e04 𝐼𝐶𝐵𝜇 095 6 5865 7552 22e16 56027816 1975e05 𝐼𝐶𝐶𝜇 095 8 8486 9354 22e16 83979444 1506e09 𝐼𝐶𝐷𝜇 095 10 8584 9603 22e16 85079682 6281e11 Tabela 38 Comparação dos ICs obtidos com base na distribuição normal e de tStudent Como pode ser visualizado na Tabela 38 os intervalos de confiança calculados com base na distribuição normal são menores que quando calculados com a distribuição de tStudent como seria esperado A medida que o número de elementos na amostra aumenta o tamanho do intervalo de confiança diminui para ambas as distribuições sendo que quanto maior a quantidade de elementos da amostra mais o intervalo de confiança calculado pela distribuição tStudent se aproxima do calculado pela distribuição normal Em relação ao pvalor temos o mesmo pvalor para os cálculos do intervalo de confiança calculados com a distribuição normal uma vez a curva da distribuição normal é única em teoria igual a curva da distribuição de tStudent com graus de liberdade tendendo ao infinito e o aumento da quantidade de elementos reflete na diminuição do intervalo em torno da média Já para a distribuição de tStudent o aumento da quantidade de elementos da amostra altera os graus de liberdade número de elementos da amostra 1 e consequentemente a curva da distribuição Assim o aumento da quantidade de elementos da amostra diminui tanto o intervalo de confiança em torno da média quanto o pvalor O Poder do teste no RStudio A função que permite o cálculo do poder do teste pertence ao pacote TeachingDemos Ela depende da quantidade de elementos da amostra do nível de significância e a diferença entre o valor real e o valor suposto para o teste Aplicando os dados do Exemplo 19 onde temos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 106 N 30 Nível de significância α de 005 Desvio populacional de 022 Diferença entre o valor real e o valor suposto 809 80 009 powerttestn 30 delta 009 sd 022 siglevel 005power NULL type onesamplealternative twosidedstrict TRUE Onesample t test power calculation n 30 delta 009 sd 022 siglevel 005 power 05816798 alternative twosided O teste retorna o poder do teste como sendo de 5817 erros de arredondamento justificam a diferença entre este valor e o calculado de 6105 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 107 8 ANÁLISE DE VARIÂNCIA ANOVA No capítulo anterior a Inferência estatística foram analisados casos de estimação e testes de hipóteses Foi o caso dos testes de comparação de médias baseadas na distribuição normal teste z e distribuição de tStudent teste t Assim nos exemplos vistos analisamos a variação da resistência a compressão característica de interesse de amostras criadas com e sem a adição de resíduos de construção e demolição RCDs exemplo 16 de amostras criadas com e sem o uso de aditivos exemplo 17 e oriundas de concreteiras diferentes exemplo 20 Em cada um destes exemplos temos um fator respectivamente RCD aditivo e concreteiras e o fator possui dois níveis com e sem RCD com e sem aditivo concreteiras A e B Análises envolvendo inferência entre uma ou duas amostras e um fator podem ser chamados de problemas de um único fator com dois níveis k 2 Agora se diferentes situações tivessem que ser analisados no mesmo experimento como a comparação da resistência a compressão do concreto produzido por mais de duas concreteiras ou experimentos envolvendo a análise de amostras com diversos percentuais de substituição de agregados por RCD o experimento envolveria um fator concreteiras ou RCD respectivamente com mais de dois níveis quantidade de concreteiras ou os diferentes percentuais de adição de RCD Em experimentos de um fator com mais de dois níveis k 2 é assumido que é necessário K tratamentos amostras cada um com populações de N elementos Por exemplo se a substituição de agregado grosso por RCD fosse testada em cinco percentuais diferentes 0 25 50 75 e 100 teríamos cinco níveis k 5 e seriam necessárias cinco amostras tratamentos de N elementos uma para cada um dos cinco níveis Comparar os resultados das cinco amostras pelos métodos já vistos que permitem comparar duas amostras seria trabalhoso e pouco prático É neste ponto que entra a Análise de Variância ou ANOVA A análise de variância é um modelo estatístico usado para comparar a distribuição de três ou mais grupos de amostras independentes Também podemos entendela como um conjunto de modelos estatísticos nos quais a variância amostral é fracionada em componentes associados aos diferentes fatores variáveis de um experimento sendo que estes fatores que podem estar relacionados à característica de interesse resultado do processo produto ou serviço objeto de estudo do experimento Por meio desse fracionamento a análise de variância estuda a influência dos fatores na característica de interesse A definição acima nos mostra que a ANOVA não somente se aplica a experimentos de um fator com vários níveis mas também é capaz de analisar vários fatores cada um em diferentes níveis Além disto a ANOVA é capaz de identificar a influência que um fator exerce em outro fator interação mas primeiro vamos conhecer a análise de variância com um único fator 81 ANOVA Um Fator Um procedimento de análise de variância possui como pressupostos as seguintes suposições As observações são independentes ou seja cada mensuração da característica de interesse de um elemento da amostra deve ser independente As amostras possuem a mesma variância populacional Os erros variações entre uma mensuração e a média da amostra são independentes e provenientes de uma distribuição normal padrão com média igual a zero e variância constante ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 108 Isto porque é claro existem variações entre as mensurações e entre as médias das amostras Estas variações podem ser divididas em dois grupos i variações entre as mensurações de uma amostra e ii variações entre as médias das amostras As variações entre as mensurações de uma amostra podem ser produzidas por diversos fatos tais como diferenças de temperatura ou umidade no momento do preparo da amostra preparo da amostra por pesquisadores diferentes heterogeneidade nas matérias primas empregadas mensuração da característica de interesse por diferentes equipamentos ou em momentos diferentes dentre muitas outras Em qualquer proporção a variação observada entre as mensurações deve ser considerada ou como uma variável aleatória ou como fruto do acaso É parte da função da análise de variância determinar se essa variação observada são as que esperaríamos ter em função do acaso ou se alguma variável foi provavelmente negligenciada As variações entre as médias das amostras ou tratamentos são o objeto do estudo A função da análise de variância é esta verificar se os níveis do fator ou dos fatores envolvidos no experimento são os responsáveis pelas variações da média encontradas nas amostras Isto remete a própria definição da ANOVA estudar a influência dos fatores na característica de interesse Contextualizando a Aplicação da ANOVA Exemplo 21 Uma empresa fabricante de cimento está testando aditivos para melhoria da resistência mecânica do concreto com o objetivo de incorporálo ao cimento Decidiuse testar com nível de significância de 005 cinco aditivos diferentes na proporção recomendada tratamento e seis amostras aleatórias de cada tratamento foram selecionadas para preparo e teste gerando um total de 30 elementos a serem testados Os dados obtidos estão registrados na Tabela 39 n tratamento 1 2 3 4 5 1 4280 4125 4749 4933 4393 2 5668 4476 4472 5558 4576 3 4870 4524 4402 4633 4307 4 4184 4509 5336 4892 5036 5 3762 3683 4863 5040 4670 6 4642 3627 5428 5107 4188 média 4568 4157 4875 5027 4528 desvio 661 416 429 307 304 Tabela 39 Resistência mecânica dos tratamentos com aditivos Agora como comparar os resultados observações produzidos por cada um dos aditivos A preparação dos elementos pode ter influenciado algum resultado maior temperatura ou pequenas diferenças na dosagem dos insumos Para verificar se a resistência mecânica realmente variou em função do tipo de aditivo devemos utilizar um teste estatístico que além de considerar as médias dos tratamentos também leve em conta a variação da resistência dentro de cada tratamento Em primeiro lugar vamos representar estes dados sob a forma de gráfico de boxplot usando o RStudio Figura 62 Por meio do gráfico podemos comparar a distribuição dos valores de cada amostra mas isto não nos confirma se são iguais ou diferentes Para descobrirmos se os aditivos influenciam na resistência mecânica do concreto precisamos de análises estatísticas mais complexas tais como a análise de variância que veremos a seguir ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 109 Figura 62 BoxPlot dos dados A Análise de Variância Simples Para a análise de variância assumese que as K populações são independentes e normalmente distribuídas com médias 𝜇1 𝜇2 𝜇𝐾 e variância comum σ2 Isto pode ser assumido desde que a aleatorização seja critério para o experimento garantindo uma distribuição uniforme do erro experimental por todo o tratamento As hipóteses padrões para o teste são 𝐻0 𝜇1 𝜇2 𝜇𝐾 𝐻1 𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑑𝑢𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑖𝑔𝑢𝑎𝑖𝑠 Vamos denotar como 𝑦𝑖𝑗 como a jésima observação do iésimo tratamento e vamos organizar os dados como mostrado na Tabela 40 Nela 𝑌𝑖 é a soma das observações na amostra do iésimo tratamento 𝑦𝑖 é a média das observações do iésimo tratamento 𝑌 é a soma de todas as nk observações e 𝑦 é a média de todas as nk observações Tratamento 1 2 i k 𝑦11 𝑦21 𝑦𝑖1 𝑦𝑘1 𝑦12 𝑦22 𝑦𝑖2 𝑦𝑘2 𝑦1𝑛 𝑦2𝑛 𝑦𝑖𝑛 𝑦𝑘𝑛 Total 𝑌1 𝑌2 𝑌𝑖 𝑌𝑘 𝑌 Média 𝑦1 𝑦2 𝑦𝑖 𝑦𝑘 𝑦 Tabela 40 Amostras aleatórias do experimento Onde cada observação pode ser escrita da forma 𝑦𝑖𝑗 𝑦𝑖 𝜖𝑖𝑗 Eq 52 Onde 𝜖𝑖𝑗 mede o desvio da jésima observação da iésima média amostral do tratamento correspondente O termo 𝜖𝑖𝑗 representa o erro aleatório Da mesma forma considerandose que as médias de cada tratamento desviamse da média geral 𝑦 devido à influência deste tratamento i e denotando 𝛼𝑖 como o efeito do iésimo tratamento podemos reescrever a fórmula acima como 𝑦𝑖𝑗 𝑦 𝛼𝑖 𝜖𝑖𝑗 Eq 53 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 110 Desta forma a hipótese nula de que todas as k médias são iguais e a hipótese alternativa de que pelo menos duas das médias são diferentes pode ser escrita como 𝐻0 𝛼1 𝛼2 𝛼𝐾 0 𝐻1 𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑑𝑜𝑠 𝛼𝑖 𝑛ã𝑜 é 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑧𝑒𝑟𝑜 O teste da análise de variância é baseado na comparação de duas estimativas independentes da variância populacional 𝜎2 dada pela equação 𝜎2 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 Eq 54 Estas duas estimativas independentes são obtidas dividindose a variabilidade total dos dados em dois componentes 𝜎2 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 𝑦𝑖 𝑦2 𝑛 𝑗1 𝑘 𝑖1 𝑦𝑖𝑗 𝑦𝑖 2 𝑛 𝑗1 𝑘 𝑖1 Eq 55 Ou simplesmente 𝑆𝑄𝑇 𝑆𝑄𝐴 𝑆𝑄𝐸 de onde passaremos a denotar 𝑆𝑄𝑇 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 soma dos quadrados total responsável por medir a variabilidade total dos dados 𝑆𝑄𝐴 𝑦𝑖 𝑦2 𝑛 𝑗1 𝑘 𝑖1 soma dos quadrados dos desvios dos tratamentos é o desvio das médias estimadas em cada tratamento em torno da média geral dos dados e representa a variabilidade devido ao tratamento 𝑆𝑄𝐸 𝑦𝑖𝑗 𝑦𝑖 2 𝑛 𝑗1 𝑘 𝑖1 Soma dos quadrados dos erros é o desvio das observações em torno da média estimada do seu tratamento e representa a variabilidade de das observações dentro do tratamento Uma equação alternativa para SQA é mostrada a seguir A segunda somatória é substituída por uma multiplicação uma vez que o termo da somatória não varia em função de n 𝑆𝑄𝐴 𝑛 𝑦𝑖 𝑦2 𝑘 𝑖1 Eq 56 Como citado anteriormente estamos tratando de estimativas independentes da variância populacional 𝜎2 Suposto que a variância amostral pode ser obtida dividindose SQT pelos seus graus de liberdade n 1 o mesmo pode ser realizado com seus componentes para se obter as duas estimativas independentes 𝑠1 2 𝑆𝑄𝐴 𝑘 1 𝑒 𝑠2 𝑆𝑄𝐸 𝑘𝑛 1 Eq 57 Assim temos que 𝑠1 2 é uma estimativa não viciada de 𝜎2 pois se H0 for verdadeira a somatória dos 𝛼𝑖 será zero o que faz 𝑠1 2 𝜎2 Entretanto se H1 for verdadeira 𝑠1 2 estima 𝜎2 e mais um termo adicional que mensura a variação devido a efeitos sistemáticos Desta forma quando H0 é falsa 𝑠1 2 superestima 𝜎2 𝑠1 2 𝜎2 Já a estimativa 𝑠2 é uma estimativa não viciada independente da verdade ou da falsidade da hipótese nula Disto decorre que a razão entre 𝑠1 2 e 𝑠2 denotada razão f pode ser usada para avaliar a igualdade das médias ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 111 Desta forma a razão 𝑓 𝑠1 2 𝑠2 é um valor da variável aleatória F com k 1 e kn 1 graus de liberdade Assim temos que a hipótese nula é rejeitada no nível de significância α quando 𝑓𝑐 𝑓𝛼𝑘 1 𝑘𝑛 1 Eq 58 A Tabela 41 resume a análise de variância ANOVA simples e a Figura 63 apresenta a tabela F com os valores críticos com k 1 e kn 1 graus de liberdade Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado Tratamento SQA k 1 𝑠1 2 𝑆𝑄𝐴 𝑘 1 𝑓𝑐 𝑠1 2 𝑠2 Erro SQE k n 1 𝑠2 𝑆𝑄𝐸 𝑘𝑛 1 Total SQT kn 1 Tabela 41 Análise de variância ANOVA simples Figura 63 Distribuição F com v1 graus de liberdade do numerador e v2 graus de liberdade do numerador para alpha 005 Retornando ao Exemplo 21 vamos realizar os cálculos do ANOVA em uma planilha MS Excel para acompanhamento do processo A1 A2 A3 A4 A5 1 4280 4125 4749 4933 4393 2 5668 4476 4472 5558 4576 3 4870 4524 4402 4633 4307 4 4184 4509 5336 4892 5036 5 3762 3683 4863 5040 4670 6 4642 3627 5428 5107 4188 média 4568 4157 4875 5027 4528 4631 Tabela 42 Dados para o cálculo do ANOVA ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 112 Parte 1 Cálculo do SQT onde cada célula contém o valor 𝑦𝑖𝑗 𝑦 2 𝑆𝑄𝑇 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 1233 2561 139 911 567 10752 241 253 8591 030 571 115 525 000 1050 1999 149 4969 681 1639 7553 8989 538 1672 015 001 10082 6350 2265 1963 SQT 76406 Parte 2 Cálculo do SQA onde cada célula contém o valor 𝑦𝑖 𝑦2 𝑆𝑄𝐴 𝑛 𝑦𝑖 𝑦2 𝑘 𝑖1 040 2245 595 1569 106 SQA 27324 Parte 3 Cálculo do SQE onde cada célula contém o valor 𝑦𝑖𝑗 𝑦𝑖 2 𝑆𝑄𝐸 𝑦𝑖𝑗 𝑦𝑖 2 𝑛 𝑗1 𝑘 𝑖1 828 010 159 089 183 12107 1015 1624 2818 023 914 1344 2237 1554 490 1472 1237 2125 183 2577 6491 2250 001 002 201 055 2813 3058 064 1158 SQE 49082 Parte 4 Tabela resumo da ANOVA Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado F005 4 25 Tratamento 27324 4 6831 348 276 Erro 49082 25 1963 Total 76406 29 pvalor0021619 Conclusão Como 𝑓𝑐 𝑓𝛼𝑘 1 𝑘𝑛 1 isto é 348 276 temos que com nível de significância igual a 005 podemos rejeitar a hipótese nula igualdade das médias Assim temos constatação estatística que pelo menos duas das médias são diferentes Bom agora a pergunta e é só Pelo menos duas das médias são diferentes e o que isto significa O principal uso da análise de variância não é apenas a comparação de médias mas a análise da significância do tratamento nos resultados do experimento Se pelo menos duas das médias são diferentes significa que os aditivos influenciam de forma diferente na resistência mecânica do concreto ou seja eles influenciam os resultados Ainda não sabemos quais são as médias diferentes nem se a maior delas difere das outras afinal procuramos o melhor tratamento Para isto são necessários outros testes de comparação de médias como o teste de 19 Calculado com a função DISTFF calculado Graus de liberdade do tratamento Graus de liberdade do erro do MS Excel DISTF348 4 25 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 113 Tukey ou o teste de Ducan que serão apresentados após o ANOVA O teste t também pode ser usado para complementar a análise Com o uso do teste t cada uma das médias dos tratamentos pode ser comparada com a média geral ou entre elas mesmas A ANOVA é a principal forma de avaliar estatisticamente a influência de um tratamento nos resultados de um experimento No texto anterior foi apresentada a ANOVA de um fator com k níveis O mesmo raciocínio pode ser aplicado para experimentos com diversos fatores cada um deles com número de níveis diferentes 82 ANOVA Dois Fatores Na grande maioria dos experimentos estamos interessados em avaliar a influência que dois ou mais fatores podem exercer sobre a característica de interesse resposta Quando o experimento envolve dois fatores em diferentes níveis dizse que temos uma ANOVA de dois fatores ou ANOVA two way Se envolve mais de dois fatores é chamada de ANOVA Fatorial Um fato interessante a ser notado é que quando temos mais de um fator existe sempre a possibilidade da influência mútua entre os fatores ou seja a possibilidade de interação entre os fatores do experimento Assim além da influência que cada fator exerce sobre a característica de interesse fato que pode ser identificado por meio da ANOVA de um fator a análise de variância deve considerar a possibilidade que um dos fatores atue como catalizador ou bloqueador da influência do outro fator Exemplo 22 Consideremos o seguinte experimento Um pesquisador deseja avaliar o impacto da substituição parcial de dois insumos na produção de cimento Para tanto realizou um experimento de dois fatores A e B cada um com dois níveis de substituição representados por e e para cada tratamento foram elaborados 4 elementos para teste O resultado é apresentado na Tabela 43 A B 5897 5765 6712 6516 6510 6633 6492 6680 7192 6689 7534 7320 6827 6894 7520 7215 Tabela 43 Estudo de interação entre fatores Interação entre Fatores A interação entre os fatores corresponde à diferença de comportamento de um fator fator A por exemplo nos diferentes níveis do outro fator fator B com respeito a característica de interesse resposta Uma das primeiras e mais simples formas de avaliação da interação entre os fatores são o gráfico de interação e o gráfico dos efeitos principais Gráfico de interação O gráfico de interação é montado a partir das médias amostrais dos fatores agrupados em seus níveis Para entendermos o processo vamos resumir o quadro apresentado na Tabela 43 substituindo os valores dos elementos das amostras pela média amostral Tabela 44 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 114 A B 6201 6600 6900 7397 Tabela 44 Efeito dos Fatores média amostral O gráfico é montado com os níveis do fator A no eixo x e o fator B como resposta ou ao contrário Nele analisamos se a diferença na resposta entre os níveis de um fator não é a mesma em todos os níveis dos outros fatores Quando isto ocorre há uma interação entre os fatores Figura 64 Análise das interações entre os fatores Ao analisarmos o gráfico da Figura 64 vemos que a diferença entre os níveis do fator B é a mesma para A e A indicando não haver interação entre os fatores No caso de não haver interações podemos interpretar o gráfico dos efeitos principais O gráfico dos efeitos principais é montado com as médias de cada fator em cada nível a exemplo Tabela 45 O gráfico correspondente é exibido na Figura 65 A 6551 6999 B 6401 7149 Tabela 45 Dados para gráfico dos efeitos principais médias amostrais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 115 Figura 65 Gráfico dos efeitos principais A análise do gráfico Figura 65 nos mostra que ambos os fatores impactam na característica de interesse embora o fator B possa possuir maior contribuição para o resultado Neste exemplo foi analisado um experimento de dois fatores cada um com dois níveis ambos com influência positiva na característica de interesse e sem interação entre os fatores Exemplo 23 Agora vamos analisar uma nova situação Novamente um experimento com dois fatores de dois níveis um com influência positiva e outro com influência negativa na característica de interesse e sem interação entre os fatores A Tabela 46 apresenta os valores das médias amostrais de cada tratamento para facilitar a montagem dos gráficos A B 4628 5400 4179 4954 Tabela 46 Efeito dos Fatores influências positiva e negativa dos fatores O gráfico de interação Figura 66 foi novamente montado com o fator A no eixo x Nele podemos visualizar que a diferença entre os níveis do fator B é a mesma para A e A indicando não haver interação entre os fatores Note que o gráfico é montado a partir das médias amostrais que podem possuir desvios em relação as médias populacionais Assim pequenas diferenças entre os níveis dos fatores são admissíveis Figura 66 Gráfico de Interação com fatores com influências diferentes na característica de interesse ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 116 Já o gráfico dos efeitos principais Figura 67 baseado nos dados da Tabela 47 mostra a contribuição de cada fator para a característica de interesse Nele é possível ver claramente que o fator A possui influência positiva na característica de interesse enquanto o fator B possui influência negativa A 4404 5014 B 5177 4567 Tabela 47 Dados para gráfico dos efeitos principais Figura 67 Gráfico dos Efeitos Principais Influências positiva e negativa na característica de interesse Exemplo 24 E por último antes de iniciarmos o ANOVA propriamente dito vamos analisar um terceiro exemplo Um experimento com dois fatores de dois níveis ambos com influência na característica de interesse e com interação entre os fatores que para ambos pode ser positiva ou negativa A Tabela 48 apresenta os valores das médias amostrais de cada tratamento Neste caso haverá interação entre os fatores A B 3148 4915 3187 4296 Tabela 48 Efeito dos Fatores influências positiva e interação entre os fatores O gráfico de interação Figura 68 foi montado com o fator A no eixo x Nele podemos visualizar que a diferença entre os níveis do fator B não é a mesma para A e A indicando haver interação entre os fatores ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 117 Figura 68 Gráfico de interação influência da interação entre os fatores Os dados para a montagem do gráfico dos efeitos principais é mostrado na Tabela 49 e o gráfico é mostrado na Figura 69 A 3168 3722 B 4606 4051 Tabela 49 Dados para gráfico dos efeitos principais Figura 69 Gráfico dos efeitos principais com interação entre os fatores Pela análise do gráfico Figura 69 poderíamos supor que ambos os fatores possuem efeito positivo na característica de interesse mas como foi dito anteriormente existe interação entre os fatores ou seja uma nova influência foi estabelecida e o gráfico indica apenas os efeitos principais Assim pode ser que a interação entre eles esteja ocultando a real influência de um dos fatores Para analisarmos a influência de cada um dos fatores e da interação entre eles precisamos da ANOVA Modelo da ANOVA Dois Fatores Consideremos um experimento com dois fatores A e B no qual o fator A tem a níveis e o fator B tem b níveis Para cada combinação de níveis temos n elementos Na Tabela 50 apresentamos os dados do experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 118 Fator A Fator B Média 1 2 b 1 𝑦111 𝑦11𝑛 𝑦121 𝑦12𝑛 𝑦1𝑏1 𝑦1𝑏𝑛 𝑦1 2 𝑦211 𝑦21𝑛 𝑦221 𝑦22𝑛 𝑦2𝑏1 𝑦1𝑏𝑛 𝑦2 a 𝑦𝑎11 𝑦𝑎1𝑛 𝑦𝑎21 𝑦𝑎2𝑛 𝑦𝑎𝑏1 𝑦𝑎𝑏𝑛 𝑦𝑎 Média 𝑦1 𝑦2 𝑦𝑏 𝑦 Tabela 50 Dados para ANOVA de dois fatores Da mesma forma que na ANOVA de um fator cada observação pode ser descrita da forma 𝑦𝑖𝑗𝑘 𝑦 𝜖𝑖𝑗𝑘 Eq 59 Onde 𝜖𝑖𝑗𝑘 mede os desvios dos valores dos elementos 𝑦𝑖𝑗𝑘 da média da população 𝑦 Ainda repetindo o raciocínio empregado no ANOVA de um fator podemos considerar que o valor de cada elemento desviase da média geral 𝑦 devido à i influência do efeito do nível i do fator A denotando como 𝛼𝑖 ii influência do efeito do nível j fator B denotado 𝛽𝑗 e ii influência da possível interação ij dos fatores A e B denotada 𝛼𝛽𝑖𝑗 e assim reescrever a fórmula acima como 𝑦𝑖𝑗𝑘 𝑦 𝛼𝑖 𝛽𝑗 𝛼𝛽𝑖𝑗 𝜖𝑖𝑗𝑘 Eq 60 Na qual temos que impor as seguintes restrições 𝛼𝑖 𝑎 𝑖1 0 𝛽𝑗 𝑏 𝑗1 0 𝛼𝛽𝑖 𝑎 𝑖1 0 𝛼𝛽𝑗 𝑏 𝑗1 0 Eq 61 Como citado anteriormente em um experimento com dois fatores precisamos avaliar se existe interação entre os fatores O gráfico de interação nos mostra evidências da existência de interação O ANOVA avalia o efeito da interação por meio de um teste de hipóteses Caso o efeito da interação não seja significativo O ANOVA avalia os efeitos principais individuais também por meio de testes de hipóteses apropriados Os testes de hipóteses são apresentados a seguir Objetivo Hipótese Efeito do Fator A 𝐻0 𝛼1 𝛼2 𝛼3 𝛼𝑎 0 𝐻1 𝑃𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑑𝑜𝑠 𝛼𝑖 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜 Efeito do Fator B 𝐻0 𝛽1 𝛽2 𝛽3 𝛽𝑏 0 𝐻1 𝑃𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑑𝑜𝑠 𝛽𝑗 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜 Efeito da Interação A B 𝐻0 𝛼𝛽11 𝛼𝛽12 𝛼𝛽13 𝛼𝛽𝑎𝑏 0 𝐻1 𝑃𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑑𝑜𝑠 𝛼𝛽𝑖𝑗 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜 Alertamos para o fato de que caso a interação tenha grande influência sobre a característica de interesse ela pode mascarar os efeitos dos fatores principais Por isto é recomendável que a análise da interação seja realizada primeiro Caso seja constatado que a interação entre os fatores é desprezível as hipóteses 1 e 2 podem ser testadas e a interpretação é simples Caso a interação seja significativa a análise pode se tornar mais complexa Da mesma forma que no ANOVA de um fator vamos decompor a variabilidade total dos dados 𝜎2 denotada soma dos quadrados em quatro componentes tais que ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 119 𝜎2 𝑆𝑄𝑇 𝑆𝑄𝐴 𝑆𝑄𝐵 𝑆𝑄𝐴𝐵 𝑆𝑄𝐸 Eq 62 De onde passaremos a denotar 𝑆𝑄𝑇 𝑦𝑖𝑗𝑘 𝑦 2 𝑛 𝑘1 𝑏 𝑗1 𝑎 𝑖1 soma dos quadrados total responsável por medir a variabilidade total dos dados 𝑆𝑄𝐴 𝑏𝑛 𝑦𝑖 𝑦 2 𝑎 𝑖1 soma dos quadrados do tratamento A é o desvio das médias estimadas em no tratamento A em torno de sua média geral e representa a variabilidade devido ao tratamento A 𝑆𝑄𝐵 𝑎𝑛 𝑦𝑗 𝑦 2 𝑏 𝑗1 soma dos quadrados do tratamento B é o desvio das médias estimadas em no tratamento B em torno de sua média geral e representa a variabilidade devido ao tratamento B 𝑆𝑄𝐴𝐵 𝑛 𝑦𝑖𝑗 𝑦𝑖 𝑦𝑗 𝑦 2 𝑏 𝑗1 𝑎 𝑖1 Soma dos quadrados da interação AB 𝑆𝑄𝐸 𝑦𝑖𝑗𝑘 𝑦 2 𝑛 𝑘1 𝑏 𝑗1 𝑎 𝑖1 Soma dos quadrados dos erros é o desvio das observações em torno da média estimada e representa a variabilidade de das observações Como estamos tratando de estimativas independentes da variância populacional 𝜎2 podemos supor que a variância amostral pode ser obtida dividindose SQT pelos seus graus de liberdade n 1 o mesmo pode ser realizado com seus componentes para se obter as duas estimativas independentes 𝑠1 2 𝑆𝑄𝐴 𝑎 1 𝑠2 2 𝑆𝑄𝐵 𝑏 1 𝑠12 2 𝑆𝑄𝐴𝐵 𝑎 1𝑏 1 𝑒 𝑠2 𝑆𝑄𝐸 𝑎𝑏𝑛 1 𝜎2 Eq 63 Assim temos que estas estimativas de variância são estimativas independentes e não viciadas de 𝜎2 com a condição de que o somatório dos efeitos 𝛼𝑖 𝛽𝑗𝑒 𝛼𝛽𝑖𝑗 são nulos Assim para testar as hipóteses podemos comparar cada desvio com o desvio 𝜎2 como detalhado a seguir na Tabela 51 Objetivo Estimador Critério Efeito do Fator A 𝐻0 𝑓1 𝑠1 2 𝑠2 𝑓1 𝑓𝛼𝑎 1 𝑎𝑏𝑛 1 Efeito do Fator B 𝐻0 𝑓2 𝑠2 2 𝑠2 𝑓2 𝑓𝛼𝑏 1 𝑎𝑏𝑛 1 Efeito da Interação A B 𝐻0 𝑓3 𝑠12 2 𝑠2 𝑓3 𝑓𝛼𝑎 1𝑏 1 𝑎𝑏𝑛 1 Tabela 51 Teste e critérios para ANOVA dois fatores A Tabela 52 apresentada na a seguir resume a análise de variância ANOVA dois fatores Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado Tratamento A SQA a 1 𝑠1 2 𝑆𝑄𝐴 𝑎 1 𝑓𝑐 𝑠1 2 𝑠2 Tratamento B SQB b 1 𝑠2 2 𝑆𝑄𝐵 𝑏 1 𝑓𝑐 𝑠2 2 𝑠2 Interação AB SQAB a 1b 1 𝑠12 2 𝑆𝑄𝐴𝐵 𝑎 1𝑏 1 𝑓𝑐 𝑠12 2 𝑠2 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 120 Erro SQE ab n 1 𝑠2 𝑆𝑄𝐸 𝑎𝑏𝑛 1 Total SQT abn 1 Tabela 52 Análise de variância ANOVA dois fatores Para exemplificar o processo vamos retomar o Exemplo 24 cujos dados foram apresentados na Tabela 48 A análise gráfica nos mostrou que havia interação entre os fatores Os dados originais são apresentados na Tabela 53 B A 3111 3483 3179 3092 2972 3029 3344 3135 4261 4268 5117 4821 4132 4524 4952 4772 Tabela 53 Dados para cálculo do ANOVA Com base nos dados da tabela apresentada acima foram calculados os valores de SQA SQB SQAB SQE e SQT apresentados na Tabela 54 Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado Fα Pvalor Tratamento A 82695 1 82695 28573 475 985x1010 Tratamento B 4332 1 4332 1497 475 000223 Interação AB 3368 1 3368 1164 251 000516 Erro 3473 12 289 Total 93868 15 Tabela 54 Resultado Anova dois fatores Análise dos resultados Em primeiro lugar podemos verificar que todos os F calculados são superiores ao Fα para encontrar o Fα foi utilizado 005 como nível de confiança e os graus de liberdade dados pela coluna critérios da Tabela 51 Com isto para todas as hipóteses a H0 igualdade pode ser rejeitada e temos que ambos os fatores A e B e também sua interação são significativos para a característica de interesse Outra forma de vermos isto é fornecida pelo pvalor Em todas as três hipóteses o pvalor é inferior a 005 levando a rejeição da hipótese nula nas três situações Bom sabemos que ambos os fatores e sua interação são significativos mas como eles influenciam a característica de interesse O ANOVA não nos dá essa informação Apenas podemos concluir o que foi expresso acima Se não houvesse interação o próprio gráfico dos efeitos principais nos daria a resposta Mas a interação existe e a análise fica mais complexa Para que possam ter uma ideia do significado desta complexidade vamos apresentar a base que foi utilizada para geração dos dados usados no exemplo ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 121 A característica de interesse X foi determinada a partir da equação 𝑥 25 60𝐴 5𝐵 55𝐴𝐵 onde os níveis de A foram 01 02 e os níveis de B foram 10 20 Com isto conseguimos os valores esperados para a média de cada tratamento A partir do valor esperado para a média foi gerada uma distribuição aleatória de frequência com 4 elementos para compor a amostra mantendose o desvio padrão inferior a 10 do valor esperado para a média Estes foram as medidas utilizadas para os elementos da amostra Este conjunto de passos gerou os dados usados no exemplo A análise da equação empregada mostra que o efeito do fator B é negativo ou seja ele influencia negativamente a característica de interesse No entanto o valor da interação AB é positivo e é superior à contribuição do fator B O gráfico de interações Figura 68 mostra que há interação entre os fatores o que foi confirmado pela ANOVA O gráfico dos efeitos principais Figura 69 que analisa apenas os efeitos destes fatores na característica de interesse foi mascarado pela interação entre os fatores que é positiva e maior que a influência negativa do fator B A ANOVA apesar de extremamente útil nos informa sobre a significância dos fatores sobre a característica de interesse e não sobre como os fatores atuam sobre esta característica Assim se não temos informação prévia sobre o tipo de contribuição do fator sobre o resultado informação esta que poderia ser obtida de estudos anteriores análise da literatura temos que tomar outras providências que nos auxiliarão a definir o tipo de contribuição como Pesquisar mais afinal é difícil encontrar algo que é tão inédito e inovador a ponto de nunca ter sido tentado anteriormente Aumentar o número de níveis nos fatores incluindo o nível zero sem a inclusão do fator para podermos analisar separadamente a influência do fator sobre a característica de interesse Fracionar o experimento realizando experimentos prévios menores com o objetivo de descobrir como cada fator contribui para os resultados quanto temos mais de dois fatores E também sempre podemos avançar no estudo da estatística pois existem outras funções estatísticas que podem nos auxiliar a identificar como cada fator contribui para a característica de interesse como a Análise de Regressão Por enquanto vamos continuar com a ANOVA e apresentar mais exemplos de sua utilização e importância desta vez com o auxílio do software RStudio 83 ANOVA e o RStudio A teoria base da Análise de Variância ANOVA já foi apresentada A partir desse ponto acreditamos ser mais simples e fácil compreender e avaliar a importância da ANOVA a partir da análise de seu uso em experimentos e da forma como ela contribui para o entendimento dos resultados Antes é necessário um esclarecimento sobre a função ANOVA no RStudio A base para os cálculos da análise de variância é uma só mas as fórmulas variam como pode ser visto para o ANOVA de um fator e de dois fatores Quanto maior o número de fatores mais complexas se tornam as fórmulas A função ANOVA função aov ou lm no RStudio é uma só e atende a todas as variações Apenas seus parâmetros irão variar se usada para um fator dois fatores ou mais de dois fatores Antes de apresentarmos problemas mais complexos vamos repetir os exemplos anteriores da ANOVA ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 122 Exemplo 21 neste experimento tivemos o teste de cinco aditivos com amostras de seis elementos Vamos carregar os dados no RStudio e depois com os dados carregados podemos executar a análise de variância Vamos designar uma variável para armazenar seus resultados dadosan e logo após a execução exibir o resultados pode ser pelo comando anova ou summary Carga dos dados dados readcsv2filechoose header T summarydados a res a16 Min 3627 a26 1st Qu4328 a36 Median 4605 a46 Mean 4631 a56 3rd Qu4923 Max 5668 Execução da ANOVA dadosan aovresa data dados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 4 27324 68309 34794 002165 Residuals 25 49082 19633 Signif codes 0 0001 001 005 01 1 Resgatando aqui o resumo da ANOVA apresentado anteriormente para fins de comparação podemos ver que os resultados são os mesmos Tabela resumo da ANOVA Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado F005 4 25 Tratamento 27324 4 6831 348 276 Erro 49082 25 1963 Total 76406 29 pvalor00216 A função aov que executa a ANOVA nos traz como resultado o pvalor a ser comparado com o nível de significância estabelecido para o teste sendo que o valor padrão é 005 Também apresenta um resumo similar ao quadro estudado anteriormente com a soma dos quadrados Sum sq graus de liberdade Df quadrado médio Mean sq e o valor da estatística F calculada F value A função lm também executa a ANOVA da mesma forma A diferença entre elas é que com o uso da função lm podemos extrair informações mais detalhadas com o uso da função summary Já a função aov permite o uso do teste de tukey comparação múltipla de médias Abaixo a execução da ANOVA é repetida com a função lm para conferência dos resultados dadoslm lmresa datadados anovadadoslm Analysis of Variance Table ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 123 Response res Df Sum Sq Mean Sq F value PrF a 4 27324 68309 34794 002165 Residuals 25 49082 19633 Signif codes 0 0001 001 005 01 1 Exemplo 22 Neste experimento ANOVA de dois fatores foi avaliado o impacto da substituição parcial de dois insumos na produção de cimento Vamos carregar e exibir os dados no RStudio antes de executar a análise de variância dados readcsv2filechoose header T dados a b res 1 a b 5897 2 a b 6510 3 a b 5765 4 a b 6633 5 a b 7192 6 a b 6827 7 a b 6689 8 a b 6894 9 a b 6712 10 a b 6492 11 a b 6516 12 a b 6680 13 a b 7534 14 a b 7520 15 a b 7320 16 a b 7215 Repare que os dados a serem carregados foram organizados de forma diferente com os fatores e a característica de interesse organizadas em colunas Esse é o padrão para a entrada de dados no RStudio os dados do exemplo anterior também foram carregados neste formato Uma outra informação a função aov permite executar a análise de variância com ou sem a análise das interações entre os fatores A diferença é a forma de entrada dos parâmetros relativos aos fatores e a característica de interesse res a b indica execução da análise de variância sem a análise da interação e res a b indica execução da análise de variância com a análise da interação Vamos executar primeiramente com a análise da interação dadosan aovres a b data dados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 80192 80192 118747 0004841 b 1 223951 223951 331624 9039e05 ab 1 0960 0960 01422 0712674 Residuals 12 81038 6753 Signif codes 0 0001 001 005 01 1 A análise do resultado da análise de variância nos mostra que tanto o fator A quanto o Fator B são significativos para a determinação do valor da característica de interesse isto é ambos os fatores influenciam na característica de interesse pvalor 005 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 124 Já a interação entre os fatores ab não possui influência na característica de interesse pvalor 071 005 como já havia mostrado o gráfico de interações exibido na Figura 64 Análise das interações entre os fatores A execução do ANOVA sem interações mostra dadosan aovres a b datadados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 80192 80192 12714 0003452 b 1 223951 223951 35505 4757e05 Residuals 13 81998 6308 Signif codes 0 0001 001 005 01 1 Obviamente há uma pequena diferença entre os resultados pois como as medidas dos elementos da amostra foram geradas por meio da distribuição de frequências normalizada valores aleatórios existe ruído oriundo do desvio da média amostral em relação ao valor esperado dados da geração dos valores Assim saber de antemão se há interação entre os fatores ou não direciona a execução correta da função aov tornando a análise mais precisa Exemplo 23 Neste exemplo foi analisado um experimento de dois fatores de dois níveis um com influência positiva e outro com influência negativa na característica de interesse e sem interação entre os fatores O processo de carregamento dos dados e execução do ANOVA é o mesmo dados readcsv2filechoose header T dadosan aovresabdatadados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 238780 238780 41707 2139e05 b 1 79968 79968 13968 0002487 Residuals 13 74428 5725 Signif codes 0 0001 001 005 01 1 A análise do resultado acima nos mostra que ambos os fatores são significativos para a determinação do valor da característica de interesse isto é ambos os fatores influenciam na característica de interesse pvalor muito menor que 005 No entanto a análise não mostra o tipo de contribuição positiva ou negativa que foi exibida na Figura 67 Gráfico dos Efeitos Principais Influências positiva e negativa na característica de interesse Exemplo 24 Este exemplo abordou um experimento com dois fatores de dois níveis ambos com influência na característica de interesse e com interação entre os fatores Como já sabemos de antemão que há interação entre os fatores optase por usar a formulação da função aov que considera a interação res a b O resultado confirma o resumo apresentado na Tabela 54 Tanto os fatores quanto a interação são significativos para a característica de interesse pvalor 005 e novamente é ressaltado que a análise não nos mostra o tipo de contribuição de cada fator ou da interação se é positiva ou negativa conforme foi discutido anteriormente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 125 dados readcsv2filechoose header T dadosan aovresab datadados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 82685 82685 285518 9885e10 b 1 4330 4330 14951 0002242 ab 1 3370 3370 11636 0005162 Residuals 12 3475 290 Signif codes 0 0001 001 005 01 1 84 ANOVA Análises de Validação No Capítulo 81 foram apresentados os requisitos relativos aos dados para a execução da análise de variância a saber observações independentes variâncias iguais e distribuições normais A independência das observações é um pressuposto que o planejamento do experimento deve garantir e as normalidade das distribuições dos tratamentos deve ser testada como mostrado anteriormente testes de ShapiroWilk e ShapiroFrancia Quanto a igualdade da variância ela pode ser verificada como mostrado mais adiante Estes requisitos existem para garantir que os resultados da ANOVA expressem de forma correta a realidade da correlação e influência dos fatores em relação à característica de interesse Uma das formas de verificarmos isto é o coeficiente de determinação R2 Coeficiente de Determinação O coeficiente de determinação R2 mede o quanto a característica de interesse é explicada pelo modelo Quanto maior o valor de R2 melhor o modelo explica a variação da característica de interesse Um valor acima de 070 indica que o modelo proposto está explicando bem a relação entre os fatores e a característica de interesse A equação usada para calcular o R2 é dada por 𝑅2 1 𝑆𝑄𝐸 𝑆𝑄𝑇 Eq 64 Para verificarmos o quanto cada modelo estatístico apresentado nos exemplos de 21 a 24 explica a relação entre os fatores e a característica de interesse vamos calcular o valor de R2 para cada um deles O resultado é apresentado na Tabela 55 Exemplo SQE SQT 𝑅2 1 𝑆𝑄𝐸 𝑆𝑄𝑇 21 49082 76406 03576 22 81038 386141 07901 23 74428 393176 08107 24 34730 938680 09630 Tabela 55 Cálculo de R2 para os exemplos anteriores Como pode ser visto acima o modelo do exemplo 21 é o único que considerando o coeficiente de determinação R2 não explica adequadamente a relação entre os fatores e a característica de interesse Mas isto tem um motivo e esse motivo será entendido quando complementarmos nossa análise com o uso de outras ferramentas estatísticas ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 126 Gráficos de Diagnóstico do Modelo Estatístico A ANOVA possui quatro gráficos para diagnóstico do modelo estatístico Esses gráficos são fornecidos pela função plot associada ao nome da variável que armazena os resultados da ANOVA ex plotdadosan onde dadosan é a variável indicada para armazenar o resultado do ANOVA A seguir os quatro gráficos gerados para o modelo estatístico do Exemplo 21 são exibidos e explicados O gráfico 1 resíduos vs Valores ajustados ou Residual vs Fitted20 mostra indícios sobre o comportamento da variância dos resíduos com relação aos valores ajustados preditos pelo modelo sendo ideal para analisar a presença de nãolinearidades no modelo A linha vermelha no gráfico Figura 70 denota a média dos resíduos e deve se ajustar ao valor zero Para o Exemplo 21 os valores dos resíduos estão uniformemente distribuídos em torno do valor zero Assim o modelo é considerado como linear e válido Figura 70 Gráfico Residuos x Valores ajustados O gráfico 2 QQ21 dos resíduos padronizados é usado para verificação da normalidade dos resíduos verificandose o afastamento da curva ideal Um certo afastamento principalmente no início e final caudas da distribuição normal é esperado Para o Exemplo 21 tendo como hipótese nula a normalidade dos resíduos o gráfico Figura 71 indica a aceitação da hipótese uma vez que não há afastamentos extremos da curva 20 O gráfico resíduos vs valores ajustados deve exibir uma nuvem de pontos aleatórios e homogêneos distribuídos em torno do eixo horizontal y 0 21 O gráfico QQ quantilquantil ou qqplot é um recurso gráfico exploratório usado para verificar a validade de um pressuposto de distribuição para um dado conjunto de dados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 127 Figura 71 Grafico Normal QQ O gráfico 3 ScaleLocation é semelhante ao gráfico 1 Residual x Fitted mas simplifica a análise da variação constante dos resíduos Usa a raiz quadrada do valor absoluto dos resíduos padronizados ao invés do valor do próprio resíduo A linha vermelha quando horizontal indica que a magnitude média dos resíduos padronizados não muda muito em função dos valores ajustados No caso do Exemplo 21 Figura 72 existe uma variação mínima nos intervalos entre 06 e 10 Figura 72 Gráfico Scale Location O gráfico 4 constante de Leverage pode ser útil para detectar a presença de pontos com alta influência no modelo estatístico No gráfico quando uma linha tracejada vermelha delimita a distância de Cook indicada pelo nome de Cooks distance e os pontos situados além desta linha são pontos com maior influência no modelo estatístico e sua exclusão pode melhorar o coeficiente de determinação No caso do Exemplo 21 Figura 73 não há a representação da linha tracejada vermelha Cooks distance indicando que os resíduos padronizados estão distantes da linha de Cook e que não existem pontos com maior influência sobre o modelo estatístico ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 128 Figura 73 Gráfico Constante de Leverage Ainda como exemplo os quatro gráficos para a análise do modelo apresentado no Exemplo 24 são exibidos na Figura 74 Como pode ser notado os gráficos não indicam discrepâncias que possam invalidar o modelo ANOVA desenvolvido no exemplo Figura 74 Gráficos para diagnóstico do modelo ANOVA do exemplo 11 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 129 85 ANOVA Complementando a análise com o Teste de Tukey Com o uso da análise de variância ANOVA muitas informações são esclarecidas como quais fatores são significantes para a característica de interesse mas ainda existem dúvidas a serem solucionadas O Exemplo 21 onde foram analisados cinco diferentes tipos de aditivos a ANOVA nos mostrou que podíamos rejeitar a hipótese nula e com isto rejeitamos a igualdade das médias dos cinco tratamentos No exemplo temos pelo menos duas médias que não são iguais Também temos que o coeficiente de determinação R2 03576 nos mostrou que o modelo ANOVA não explica bem a relação entre o fator aditivo e a característica de interesse resistência mecânica Além disto a pergunta principal qual aditivo produziu os melhores resultados ainda não foi respondida Se olharmos novamente o gráfico boxplot da Figura 62 que descreve as variações dos tratamentos poderíamos escolher entre o aditivo A3 ou o A4 que apresentam os melhores resultados Mas eles serão estatisticamente diferentes e diferentes dos outros resultados Para responder isto poderíamos fazer uma série de comparações de médias usando o teste t tStudent ou uma única comparação múltipla de médias Os testes de Tukey e Duncan fazem exatamente isto e possuem o mesmo suporte teórico do teste t Portanto vamos abordálos diretamente no RStudio Teste de Tukey Dentre os testes de comparações múltiplas existentes o Teste de Tukey se destaca por fazer comparações entre todos os pares possíveis médias dos tratamentos e também por apresentar resultados rigorosos Também conhecido como Teste de Tukey HSD Teste de Tukey da Diferença Honestamente Significativa é calculado pela seguinte equação 𝐷𝑀𝑆 𝑞𝛼𝑔 𝑁 𝑔𝑄𝑀𝐸 𝑛 Eq 65 Onde DMS diferença mínima significativa 𝑞𝛼 valor tabelado Tabela Teste de Tukey g número de grupos a serem comparados N número total de elementos dos tratamentos n número de elementos no tratamento QME quadrado médio do erro SQEGraus de liberdade ou s2 Com o teste rejeitase a igualdade de dois grupamentos de médias i e j se 𝑦𝑖 𝑦𝑗 𝐷𝑀𝑆 Resgatando os dados do Exemplo 21 temos tratamento 1 2 3 4 5 médias 4568 4157 4875 5027 4528 α 005 g 5 grupamentos correspondente as amostras dos cinco níveis aditivos n 6 seis elementos por amostra grupamento N 30 elementos seis elementos por cinco amostras QME 1963 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 130 𝑞0055 25 416 Assim temos 𝐷𝑀𝑆 416 1963 6 752 Calculando a diferença entre as médias 𝑦𝑖 𝑦𝑗 temos os valores exibidos na Tabela 56 onde podemos verificar que apenas a diferença entre as médias dos grupos 2 e 4 aditivos 2 e 4 são superiores ao DMS Então temos apenas duas médias estatisticamente diferentes Grupo Diferença Grupo Diferença Grupo Diferença Grupo Diferença Y12 411 Y23 718 Y34 152 Y45 499 Y13 307 Y24 87 Y35 347 Y14 459 Y25 371 Y15 04 Tabela 56 Diferença entre as médias dos tratamentos A interpretação dos resultados é simples o aditivo 4 somente apresenta resultados significativos melhoria quando comparado ao aditivo 2 Nas demais comparações não há diferenças estatísticas significativas Esta conclusão justifica o baixo valor do coeficiente de determinação R2 03576 obtido para o exemplo afinal apenas uma comparação de grupos apresentou diferença estatística No modelo ANOVA a significância obtida pvalor 00216 advém unicamente desta diferença Os outros aditivos 1 3 e 5 não resultam em melhoria significativa e mesmo os aditivos 2 e 4 não apresentam diferença quando comparados com os aditivos 1 3 e 5 Teste de Tukey no RStudio O teste de Tukey é executado no RStudio por meio da função TukeyHSDvar onde var é o nome da variável que armazena o resultado da ANOVA ou seja a execução do teste de tukey exige execução prévia da análise de variância Existem outras funções que também executam o teste de Tukey mas são fornecidas por outros pacotes que devem ser previamente instalados como a função HSDtest fornecida pelo pacote agricolae e a função TukeyC fornecida pelo pacote TukeyC As funções de pacotes específicos costumam oferecer respostas mais completas Para o procedimento vamos carregar os dados do Exemplo 21 executar a ANOVA e em seguida o teste de Tukey padrão dados readcsv2filechooseheaderT dadosan aovres a datadados TukeyHSDdadosan Tukey multiple comparisons of means 95 familywise confidence level Fit aovformula res a data dados a diff lwr upr p adj a2a1 41033333 116163534 3409687 05086528 a3a1 30733333 44396867 10586353 07505567 a4a1 45950000 29180200 12108020 03978124 a5a1 03933333 79063534 7119687 09998650 a3a2 71766667 03363534 14689687 00662092 a4a2 86983333 11853133 16211353 00175529 a5a2 37100000 38030200 11223020 06025015 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 131 a4a3 15216667 59913534 9034687 09745999 a5a3 34666667 109796867 4046353 06605841 a5a4 49883333 125013534 2524687 03185660 Como pode ser visualizado a primeira coluna contém a diferença entre as médias dos grupos a segunda e a terceira os valores inferior e superior do intervalo de confiança da diferença entre as médias e a quarta o p valor A única comparação onde o pvalor é inferior a 005 nível de confiança é a4 a2 confirmando o resultado anterior Em seguida vamos executar o teste de Tukey fornecido pelo pacote TukeyC TukeyCdadosan Results Means G1 G2 a4 5027 a a3 4875 a b a1 4568 a b a5 4528 a b a2 4157 b Siglevel 005 DiffProb a4 a3 a1 a5 a2 a4 0000 1522 4595 4988 8698 a3 0975 0000 3073 3467 7177 a1 0398 0751 0000 0393 4103 a5 0319 0661 1000 0000 3710 a2 0018 0066 0509 0603 0000 MSD a4 a3 a1 a5 a2 a4 0000 7513 7513 7513 7513 a3 7513 0000 7513 7513 7513 a1 7513 7513 0000 7513 7513 a5 7513 7513 7513 0000 7513 a2 7513 7513 7513 7513 0000 Este pacote acrescenta o agrupamento das médias Os tratamentos a1 a3 e a5 foram colocados nos dois grupos A e B O tratamento a2 somente no grupo A e o tratamento a4 somente no grupo B A interpretação é que os aditivos 1 2 3 e 4 possuem médias iguais e os aditivos 2 3 4 e 5 também possuem médias iguais Somente as médias dos aditivos 2 e 4 são diferentes O RStudio também permite plotar a análise gráfica do resultado como mostrado na Figura 75 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 132 Figura 75 Análise gráfica do teste de Tukey E por último o teste de Tukey do pacote agricolae libraryagricolae dados readcsv2filechoose headerT dadosan aovres a datadados tukeyan HSDtestdadosan ca mainres a consoleTRUE Study res a HSD Test for res Mean Square Error 1963272 a means res std r Min Max a1 4567667 6613192 6 3762 5668 a2 4157333 4164020 6 3627 4524 a3 4875000 4290660 6 4402 5428 a4 5027167 3068638 6 4633 5558 a5 4528333 3043673 6 4188 5036 Alpha 005 DF Error 25 Critical Value of Studentized Range 4153363 Minimun Significant Difference 751302 Treatments with the same letter are not significantly different res groups a4 5027167 a a3 4875000 ab a1 4567667 ab a5 4528333 ab a2 4157333 b Este pacote também fornece o agrupamento das médias e apresenta o valor crítico da tabela do teste de Tukey 4153363 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 133 Para complementarmos as análises dos outros exemplos precisamos avançar um pouco mais pois estes exemplos abordavam situações mais complexas que comparação de médias Para estes precisamos ver as Análises de Regressão linear e múltipla Para encerrar este item vamos apresentar um estudo de caso que ilustra muito bem o uso da ANOVA para identificar os fatores significantes em um experimento 86 ANOVA Estudo de Caso Análise da influência de fatores físicos localização no consumo energético mensal médio das unidades habitacionais22 O objetivo do estudo é analisar a influência dos fatores físicos relativos à localização e posicionamento das unidades habitacionais no consumo energético mensal médio destas unidades para posterior desenvolvimento de um modelo termoenergético de uma edificação no software EnergyPlus Para tanto foi selecionado um conjunto habitacional localizada na cidade do Rio de Janeiro identificada como uma das três capitais estaduais com os piores cenários climáticos frente ao conforto dos usuários O conjunto habitacional selecionado é composto por quatro condomínios e possui 900 apartamentos Para objeto de estudo foi selecionado o Condomínio 2 com 200 apartamentos de 2 quartos Figura 76 Figura 76 Localização dos Condomínios Fonte PRJ 2013 O Condomínio 2 indicado pela seta vermelha é composto por 10 blocos de 5 andares com 4 apartamentos por andar Figura 77 Dos 200 apartamentos do condomínio foram levantados os consumos mensais de 67 apartamentos representando 335 do total de unidades quantidade considerada significativa para um estudo preliminar cujo objetivo é identificar os fatores que podem ter influência no consumo de energia das unidades habitacionais 22 Dados fornecidos pela Doutoranda Fernanda Dutra Mourão de Oliveira PPGECCEFETMG obtidos de sua dissertação de Mestrado os dados foram modificados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 134 Os dados de consumo mensal foram levantados juntamente com a quantidade de moradores de cada unidade Assim temos como informações preliminares i bloco ii unidade iii quantidade de habitantes iv mês e v consumo O levantamento dos dados foi realizado presencialmente mediante de solicitação e permissão para registrar os dados de consumo Também foram solicitadas informações sobre equipamentos instalados quantidade de moradores rotina de uso As unidades que não forneceram estes dados foram excluídas do levantamento A característica de interesse o consumo de energia mensal por unidade segundo pesquisa bibliográfica realizada está relacionado principalmente à quantidade de habitantes por unidade ao perfil de uso dos equipamentos eletroeletrônicos destacandose chuveiros arcondicionadoaquecedores fornos elétricos dentre outros e ao gradiente de temperatura internoexterno Destes fatores o perfil de uso não pode ser adequadamente classificado por faltaincorreção das informações obtidas No entanto acreditase que o mesmo pode ser representado pela quantidade de habitantes Já o gradiente de temperatura internoexterno está relacionado às médias mensais de temperatura da cidade e por consequência ao mês do consumo registrado Todas as unidades possuem preparação para instalação de arcondicionado nos quartos e salas mas não foi possível levantar as situações de uso deste equipamento Figura 77 Planta baixa andar dos blocos Assim a análise inicial da significância dos dados foi realizada com os fatores bloco blc número do bloco mês mês e quantidade de habitantes qha sendo a quantidade de habitantes representada por a 1 habitante b 2 habitantes c 3 habitantes d 4 habitantes e e mais de 4 habitantes Os dados foram carregados no RStudio por meio de planilha MS Excel no formato csv e inicialmente analisados sem considerar interações dados readcsv2filechoose headerT dadosan aovformulares blc mes cls data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3673 00557 mes 11 531815 48347 12035 2e16 qha 4 1626052 406513 101198 2e16 Residuals 671 2695424 4017 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 135 Signif codes 0 0001 001 005 01 1 A análise inicial confirma a significância já prevista para o mês e para a quantidade de habitantes pvalor próximo de zero O bloco localização do prédio no terreno possui pouca significância pvalor 00557 O coeficiente de determinação R2 foi calculado e foi igual a 04463 inferior a 070 demonstrando que o modelo pode não representar corretamente o problema Para analisar a interação entre os fatores a ANOVA foi executada novamente desta vez com interação A execução da ANOVA com interação mostrou que a interação entre os fatores mês e quantidade de habitantes possui significância pvalor 0000495 e a interação entre os outros fatores não dadosan aovformulares blc mes qha data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3673 00557 mes 11 531815 48347 12035 2e16 qha 4 1626052 406513 101198 2e16 Residuals 671 2695424 4017 Signif codes 0 0001 001 005 01 1 1 observation deleted due to missingness dadosan aovformulares blc mes qha data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3772 0052585 mes 11 531815 48347 12362 2e16 qha 4 1626052 406513 103940 2e16 blcmes 11 8263 751 0192 0998006 blcqha 4 18090 4522 1156 0329127 mesqha 38 296234 7796 1993 0000495 blcmesqha 32 80974 2530 0647 0934612 Residuals 586 2291864 3911 Signif codes 0 0001 001 005 01 1 Como o objetivo principal do estudo é analisar a influência dos fatores físicos relativos à localização e posicionamento de apartamentos no consumo energético e existem estudos comprovando esta influência a primeira suspeita é de que o fator bloco não esteja representando corretamente a localização e posicionamento da unidade Novas pesquisas bibliográficas conduzidas a fim de identificar quais os fatores relativos ao posicionamento podem ser influenciadores do consumo indicaram os seguintes aspectos a serem considerados Andar and unidades localizadas no andar térreo 1º andar possuem normalmente temperaturas internas mais baixas devido ao contato com o solo As unidades localizadas no último andar 5º andar possuem temperaturas internas mais elevadas devido ao aquecimento direto da cobertura do prédio pela irradiação solar Orientação dir para a zona bioclimática do Rio de Janeiro unidades habitacionais com fachada voltada para oeste possuem temperatura interna mais elevada uma vez que recebem maior irradiação solar na fachada Estes novos fatores foram acrescentados aos fatores já usados sendo que o fator bloco foi mantido para verificar se com a adição dos novos fatores este fator como representante da posição do prédio no terreno ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 136 seria significante O fator orientação dir foi associado à orientação da fachada principal da unidade Leste Norte Sul Oeste O fator andar foi associado ao andar de localização da unidade de 1 a 5 Os dados alterados foram novamente carregados no RStudio e a ANOVA executada Antes da realização da análise do resultado da ANOVA o coeficiente de determinação R2 foi calculado e o seu valor R2 08413 mostrou que o modelo pode ser considerado como um modelo que representa bem o problema R2 070 ou seja a introdução dos novos fatores aprimorou o modelo A análise do resultado da ANOVA confirma que os fatores anteriormente identificados como significativos a saber mês mes quantidade de habitantes qha e a interação entre estes fatores mêsqha são significativos neste novo modelo também O fator bloco blc teve seu pvalor ligeiramente aumentado de 0052585 para 005968 o que basicamente não altera sua significância Dos novos fatores introduzidos no modelo direção e andar a direção de orientação da fachada dir mostrou se significante pvalor 00000382 bem como sua interação com o bloco posicionamento do prédio no terreno blcand Isto confirma a pesquisa bibliográfica realizada e nos permite supor que uma melhor representação do posicionamento do bloco representado por seu número possa trazer melhores resultados dadosan aovformulares blc and dir mes qha data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3590 005968 and 1 10122 10122 2463 011826 dir 3 100816 33605 8176 382e05 mes 11 533120 48465 11791 2e16 qha 4 1576094 394023 95863 2e16 blcand 1 23771 23771 5783 001715 blcdir 3 40649 13550 3297 002165 anddir 3 20487 6829 1661 017681 blcmes 11 7650 695 0169 099883 andmes 11 25413 2310 0562 085775 dirmes 33 72278 2190 0533 098300 blcqha 4 11959 2990 0727 057428 andqha 4 27207 6802 1655 016229 dirqha 11 64872 5897 1435 016017 mesqha 38 276920 7287 1773 000679 blcanddir 3 29772 9924 2414 006798 blcandmes 11 15703 1428 0347 097351 blcdirmes 33 118812 3600 0876 066439 anddirmes 33 40646 1232 0300 099994 blcandqha 4 11629 2907 0707 058785 blcdirqha 10 29483 2948 0717 070758 anddirqha 9 43778 4864 1183 030774 blcmesqha 31 94335 3043 0740 083856 andmesqha 29 160938 5550 1350 012125 dirmesqha 70 219145 3131 0762 090529 blcanddirmes 33 154231 4674 1137 029135 blcanddirqha 7 26990 3856 0938 047833 blcandmesqha 20 83957 4198 1021 043915 blcdirmesqha 41 155124 3784 0921 061164 anddirmesqha 22 93140 4234 1030 042975 blcanddirmesqha 4 11519 2880 0701 059242 Residuals 188 772730 4110 Signif codes 0 0001 001 005 01 1 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 137 Já o fator andar and não se mostrou significante para o consumo mensal de energia por unidade pvalor 011826 No entanto a interação entre bloco e andar blcand e entre bloco andar e direção blcanddir mostram certa significância reforçando a suposição anterior melhor representação do posicionamento do bloco talvez por orientação similar à direção Como resultado da análise os seguintes fatores e interações foram identificados como significativos para o consumo mensal de energia de cada unidade habitacional e devem ser considerados no modelo termoenergético a ser desenvolvido no software EnergyPlus23 Mês uma vez que as médias mensais de temperatura da cidade influenciam no gradiente de temperatura internoexterno e os usuários se valem de meios de aquecimentoresfriamento para compensar o gradiente de temperatura Quantidade de habitantes a quantidade de pessoas e seus padrões de uso vão influenciar diretamente o consumo mensal de energia portanto é fundamental que o modelo do EnergyPlus os represente corretamente Direção a orientação de fachada de cada unidade habitacional influi na quantidade de irradiação solar recebida e consequentemente na temperatura interna da unidade A interação entre os fatores bloco e andar pvalor 001715 é significativa mas necessita ser melhor explicitada no modelo uma vez que a representação numérica do bloco pode não ser a melhor a ser adotada no modelo a ser desenvolvido A interação entre os fatores bloco e direção pvalor 002165 é significativa e as considerações anteriores são válidas para ela também A interação entre os fatores bloco andar e direção pvalor 006798 possui significância superior a 005 e poderia ser desprezada No entanto esta interação merece ser investigada novamente após alteração da representação do fator bloco Os gráficos de validação do modelo ANOVA são exibidos na Figura 78 A interpretação dos gráficos pode ser conferida no item 84 ANOVA Análises de Validação onde os gráficos são explicados e não indicam problemas no modelo estatístico 23 EnergyPlus é um programa de simulação de energia de edifícios para modelagem doo consumo de energia aquecimento resfriamento ventilação iluminação ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 138 Figura 78 Gráficos de Validação do modelo ANOVA ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 139 9 ANÁLISE DE REGRESSÃO No capítulo anterior a Análise de Variância estudamos ferramentas estatísticas que nos permitiram identificar quais os fatores ou variáveis de entrada que influenciavam a característica de interesse ou variável de saída No entanto não nos foi possível identificar como os fatores influenciam a característica de interesse se positiva ou negativamente Em diversas situações é necessário identificar como as entradas de um processo estão influenciando os resultados obtidos Nestes casos é necessário estabelecer um modelo matemático que explique a relação entre as variáveis de entrada e a de saída Este tipo de modelagem é denominado REGRESSÃO e ajuda a entender como o comportamento das variáveis de entrada pode mudar o comportamento da variável de saída Como exemplo vamos supor que o valor de um imóvel possa ser determinado unicamente pela relação R entre a área construída 𝑎𝑐 e a área do terreno 𝑎𝑡 Assim um terreno totalmente construído teria uma relação de um 1 e um com nada construído teria uma relação de zero 0 Uma forma razoável de expressar a relação entre a entrada e a saída seria 𝑉𝑎𝑙𝑜𝑟 𝛼 𝛽𝑅 𝑜𝑛𝑑𝑒 𝑅 𝑎𝑐 𝑎𝑡 Eq 66 Ou chamando a variável de saída de Y e a variável de entrada de X temos 𝑌 𝛼 𝛽𝑥 e sua representação gráfica seria dada pela Figura 79 Figura 79 Gráfico de uma relação linear Onde α é o intercepto representando o valor do terreno sem construções e β a inclinação da reta Na regressão as variáveis de saída característica de interesse resposta ou saída do processo são denominadas varáveis dependentes porque seus valores são determinados pelas variáveis de entrada fatores que por sua vez são denominadas variáveis independentes ou regressores naturais Se a relação entre a variável dependente e seu regressor for exata tratase de uma relação determinística e não há componente aleatório ou probabilístico nela No entanto nos exemplos estudados e em praticamente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 140 todos os experimentos de engenharia e outras ciências esta relação não é determinística Ela é probabilística e desta forma para um dado valor de x nem sempre obtemos o mesmo valor de Y O conceito de Análise de Regressão tenta encontrar o melhor modelo matemático que explique a relação entre x e Y quantificando a força desta relação e permitindo a previsão dos valores de Y em função dos valores possíveis do regressor x A previsão dos valores de Y em função de x é um dos atributos mais importantes da regressão uma vez que podemos utilizar o modelo para obtermos os valores de Y correspondentes aos valores de x que não estavam entre os dados usados para gerar o modelo Este procedimento é chamado predição e em geral é válida para os valores de x que estão dentro do intervalo de x estudado A utilização de valores fora do intervalo estudado recebe o nome de extrapolação e deve ser usada com cuidado pois o modelo é válido no intervalo estudado Fora deste intervalo não podemos ter certeza de sua acuracidade A predição é a aplicação mais comum para os modelos de regressão Além da predição a regressão nos permite identificar os regressores mais significativos para a variável dependente O modelo matemático resultante nos permite visualizar os regressores que mais contribuem e eliminar aqueles cuja contribuição não seja importante em processo similar ao que a ANOVA realiza A análise de regressão depende da coleta de dados e da quantidade de níveis de cada tratamento Se tivermos apenas dois níveis independentemente da quantidade de elementos na amostra de cada nível a resposta obtida será sempre uma linha reta unido os pontos médios média amostral de cada nível Com mais de dois níveis podemos avaliar se a resposta é realmente linear ou não e existem artifícios que podem ser empregados caso a resposta obtida não seja linear O estudo dos modelos de regressão podem ser divididos em Regressão Linear Simples onde apenas uma variável de entrada regressor possui influência sobre a variável dependente resposta Regressão Linear Múltipla onde a variável dependente está relacionada com mais de um regressor vários fatores influenciam a resposta e Regressão Logística onde a variável dependente é uma variável qualitativa e apresenta valores como possíveis realizações uma qualidade ou atributo e não mais como resultado de uma mensuração 91 Regressão Linear Simples O modelo da regressão linear simples pressupõe que apenas um regressor afete a variável dependente assim a resposta Y está relacionada com o regressor x variável independente por meio da equação 𝑌 𝛼 𝛽𝑥 𝜖 Eq 67 Onde α e β são os parâmetros desconhecidos do intercepto e da inclinação respectivamente e Є é uma variável aleatória assumida como sendo distribuída com 𝜖 0 Da equação que representa o modelo podemos intuir que A variável dependente Y também é aleatória já que Є é aleatório O valor da variável regressora x não é aleatório e pode ser mensurado com erro desprezível O valor de Є chamado de erro aleatório ou distúrbio aleatório ruído evita que o modelo se torne um modelo determinístico Como Є está distribuído de forma que 𝜖 0 temos que para um valor de x específico os valores de Y estão distribuídos ao redor da reta de regressão real 𝑌 𝛼 𝛽𝑥 Se o modelo matemático for bem determinado ou seja se não houver regressores adicionais não considerados e a suposição de linearidade for adequada ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 141 dentro do intervalo de valores estudados a somatória dos erros positivos e negativos ao redor da regressão real será próxima de zero Na prática não conhecemos a reta da regressão real mas podemos supor que ela exista e podemos desenhar uma reta estimada que satisfaça da melhor forma possível a suposição 𝜖 0 A Figura 80 apresenta a reta de regressão real de um caso hipotético com os erros de cada observação enfatizados Figura 80 Diagrama de dispersão dos dados hipotéticos xy ao redor da reta de regressão real Voltamos a reafirmar que a reta representada na Figura 80 é uma idealização Em uma situação real desconhecemos a regressão real e precisamos determinala com as observações disponíveis o que pode resultar em uma ótima representação ou não Isto depende principalmente da qualidade dos dados disponíveis Para melhor entendermos isto vamos plotar o gráfico de dispersão de uma outra situação envolvendo um experimento de um fator com quatro níveis com amostra de três elementos para cada nível Esta situação é ilustrada na Figura 81 Figura 81 Gráfico de dispersão de um experimento de 4 níveis com amostras de 3 elementos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 142 Os níveis do experimento estão representados no eixo x e a resposta no eixo Y Como temos três respostas para cada nível qualquer suposição de reta entre os pontos que representam as amostras poderia ser a regressão real como as duas retas exibidas no gráfico A questão passa a ser então como determinar a melhor aproximação linear que represente a regressão real Assim como usado na ANOVA o método dos mínimos quadrados é o modelo matemático utilizado para determinar os valores de α e β Da mesma forma que para a ANOVA temos que estabelecer os pressupostos que orientam o modelo de regressão A relação matemática entre x e Y é linear no intervalo de estudo A variável independente x não é uma variável aleatória ou seja seus valores são fixos controlados A média do erro é nula ou seja 𝜖 0 Para um dado valor de x a variância do erro є é sempre 𝜎2 ou seja a variância dos erros é sempre igual Os erros є são aleatórios e seguem a distribuição normal e o erro de uma observação não está correlacionado com o erro de outra observação Método dos Mínimos Quadrados Supondo que a relação entre x e Y é linear no intervalo estudado podemos estimar os parâmetros α e β para obter a melhor reta que represente a relação entre as variáveis O Método dos Mínimos Quadrados é uma estratégia de estimação dos parâmetros da regressão e sua aplicação não se limita apenas às relações lineares Para a análise de regressão o primeiro passo é obter as estimativas dos parâmetros α e β Os valores das estimativas são obtidos a partir dos desvios de cada elemento xi Yi i 1 n da amostra єi em relação a uma reta arbitrária 𝛼 𝛽𝑥 passando por estes pontos como mostrado no gráfico da Figura 82 Para o valor xi do regressor o valor predito por esta reta é 𝛼 𝛽𝑥𝑖 enquanto o valor observado é Yi Os desvios entre estes dois valores é 𝜖𝑖 𝑌𝑖 𝛼 𝛽𝑥𝑖 que corresponde a distância vertical do ponto à reta arbitrária Figura 82 Reta de regressão ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 143 O objetivo do modelo de regressão é estimar os parâmetros α e β de modo que o quadrado dos desvios 𝜖𝑖 entre os valores observados e estimados sejam os menores possíveis O método de mínimos quadrados usado no modelo de regressão é baseado na minimização da soma dos quadrados dos erros em torno da reta de regressão denominada SQE Assim devemos determinar α e β de forma que o valor de SQE seja o menor possível 𝑆𝑄𝐸 𝜖𝑖 2 𝑛 𝑖1 𝑌𝑖 𝑌𝑖2 𝑛 𝑖1 𝑌𝑖 𝛼 𝛽𝑥𝑖2 𝑛 𝑖𝑖 Eq 68 Deixando as deduções matemáticas para aqueles que queiram se aprofundar no estudo da Estatística a equação acima pode ser decomposta em três fatores principais a soma dos quadrados dos desvios das médias de x e de Y e a soma dos produtos cruzados de x e Y conforme expresso a seguir 𝑆𝑥𝑥 𝑥𝑖 𝑥2 𝑛 𝑖1 somatório dos quadrados dos desvios de xi em relação à média de 𝑥 𝑆𝑦𝑦 𝑌𝑖 𝑌2 𝑛 𝑖1 Somatório dos quadrados dos desvios de Yi em relação à média de 𝑌 𝑆𝑥𝑦 𝑥𝑖 𝑥𝑌𝑖 𝑌 𝑛 𝑖1 Somatório dos quadrados do produto cruzado de xi e Yi em relação ao produto da média de 𝑥 e 𝑌 Ou ainda prosseguindo com a dedução matemática 𝑆𝑥𝑥 𝑥𝑖 2 𝑛 𝑖1 𝑛𝑥2 𝑆𝑦𝑦 𝑌𝑖 2 𝑛 𝑖1 𝑛𝑌2 𝑆𝑥𝑦 𝑥𝑖𝑌𝑖 𝑛𝑥𝑌 𝑛 𝑖1 Eq 69 Desta forma as estimativas de mínimos quadrados de α e β em termos desta notação são 𝛽 𝑆𝑥𝑦 𝑆𝑥𝑥 Eq 70 𝛼 𝑌 𝛼𝑥 Eq 71 Coeficiente de Determinação Da mesma forma que para a ANOVA o coeficiente R2 mede o quanto a característica de interesse é explicada pela curva de regressão linear Quanto maior o valor de R2 melhor a equação da curva traduz a variação da característica de interesse Um valor acima de 070 indica que o modelo proposto está explicando bem a relação entre os fatores e a característica de interesse A expressão usada para calcular o R2 é dada por 𝑅2 𝑆𝑥𝑌 2 𝑆𝑥𝑥 𝑆𝑌𝑌 Eq 72 Exemplo 25 A influência da adição de cinza de bagaço de cana de açúcar na resistência de compressão diametral de peças queimadas de cerâmica vermelha foi testada por meio de um experimento de um fator com cinco níveis respectivamente 0 5 10 15 e 20 de adição de cinzas As outras matérias primas foram mantidas constantes Para cada tratamento foram feitas amostras de cinco elementos cujos resultados de resistência são mostrados na Tabela 57 Monte o gráfico de dispersão e determine a curva de regressão linear correspondente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 144 Tratamentos 0 5 10 15 20 1 291 255 139 104 085 2 289 240 148 110 097 3 276 259 151 117 092 4 290 234 150 106 089 5 311 241 156 113 093 Tabela 57 Resultados dos ensaios de resistência MPa O gráfico de dispersão é bem simples de ser montado Basta plotar os tratamentos no eixo x e os valores da resistência de cada tratamento no eixo y resultando no gráfico mostrado na Figura 83 Observando o gráfico podemos verificar que a suposição de linearidade da curva é válida principalmente no intervalo de 0 a 15 de adição A dispersão do tratamento com 20 de adição de cinza de bagaço de cana foge um pouco da linearidade para este tratamento mas não impede que a análise seja realizada Figura 83 Gráfico de dispersão do Exemplo 12 Para facilitar os cálculos de Sxx SYY e SxY podemos organizar os resultados dos ensaios em duas colunas a primeira x com os valores dos percentuais de adição 0 5 10 15 e 20 e a segunda com o valor da resistência à compressão diametral Neste formato os valores do percentual de adição irão se repetir para cada elemento da amostra Com este formato fica mais fácil de calcularmos os valores base para a equação conforme mostrado na Tabela 58 Calculando os parâmetros α e β 𝛽 𝑆𝑥𝑌 𝑆𝑥𝑥 13405 1250 010724 𝛼 𝑌 𝛽𝑥 17744 010724 10 28468 O que se traduz na equação da curva da regressão linear 𝑌 28468 010724 𝑥 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 145 𝒙𝒊 𝒀𝒊 𝒙𝒊 𝒙𝟐 𝒀𝒊 𝒀𝟐 𝒙𝒊 𝒙𝟐 𝒀𝒊 𝒀𝟐 0 291 100 1289587 11356 0 289 100 1244563 160041 0 311 100 1783827 184302 5 255 25 0601555 383086 5 240 25 0391375 899222 5 241 25 0403987 104505 20 085 100 0854515 4347486 20 093 100 0713011 1478366 𝒙 𝒀 𝑺𝒙𝒙 𝑺𝒀𝒀 𝑺𝒙𝒀 10 17744 1250 153758 13405 Tabela 58 Valores para cálculo de regressão Para sabermos se a equação acima representa bem o comportamento da característica de interesse resposta Y em função da variável independente x vamos determinar o coeficiente de determinação R2 𝑅2 𝑆𝑥𝑌 2 𝑆𝑥𝑥 𝑆𝑌𝑌 134052 1250 153758 0934944 O valor de R2 é superior a 070 significando uma boa representatividade para a curva de regressão linear apresentada 92 Regressão Linear Múltipla Regressão múltipla é uma coleção de técnicas estatísticas usadas para construir modelos que descrevem as relações entre as várias variáveis independentes de entrada e a saída de um determinado processo A diferença entre a regressão linear simples e a múltipla é que a regressão múltipla possui duas ou mais variáveis independentes relacionadas à uma única resposta Na maioria dos problemas em que a análise de regressão é aplicada é necessário de mais de uma variável independente no modelo de regressão ou seja a resposta Y é influenciada por mais de um fator Um modelo de regressão linear múltipla com k variáveis independentes 𝑥1 𝑥2 𝑥𝑘 associadas a uma resposta Y é dado pela equação 𝑌 𝛼 𝛽1𝑥1 𝛽2𝑥2 𝛽𝑘𝑥𝑘 Eq 73 Onde cada coeficiente β é estimado com base nos dados da amostra usando o método dos mínimos quadrados Para um modelo de regressão linear múltipla com duas variáveis independentes 𝑥1 𝑒 𝑥2 e sem interação entre si a equação pode ser transcrita como ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 146 𝑌 𝛼 𝛽1𝑥1 𝛽2𝑥2 Eq 74 Se formos considerar a possibilidade de interação entre as variáveis independentes ou seja o efeito de 𝑥1 na resposta média depende do nível de 𝑥2 e analogamente o efeito de 𝑥2 na resposta média depende de 𝑥1 o modelo de regressão passa a ser 𝑌 𝛼 𝛽1𝑥1 𝛽2𝑥2 𝛽3𝑥1𝑥2 Eq 75 Os pressupostos necessários para o desenvolvimento do Modelo de Regressão Linear Múltipla são O erro tem média zero e variância 𝜎2 desconhecida Os erros são não correlacionados Os erros têm distribuição normal Os valores da variáveis independentes 𝑥1 𝑥2 𝑥𝑘 não são aleatórios e podem ser mensurados com erro desprezível Para o desenvolvimento do modelo suponha um experimento com n observações da variável resposta e das p variáveis independentes n p Sendo 𝑌𝑖 o valor da variável resposta na iésima observação e 𝑥𝑖𝑗 o valor da variável independente 𝑥𝑗 também na iésima observação para j 1 2 p O modelo pode ser representado como mostrado na Tabela 59 Y 𝒙𝟏 𝒙𝟐 𝒙𝒑 𝒀𝟏 𝒙𝟏𝟏 𝒙𝟐𝟐 𝒙𝟏𝒑 𝒀𝟐 𝒙𝟐𝟏 𝒙𝟐𝟑 𝒙𝟐𝒑 𝒀𝒏 𝒙𝒏𝟏 𝒙𝒏𝟐 𝒙𝒏𝒑 Tabela 59 Representação dos dados para modelo de regressão linear múltipla Cada observação 𝑌𝑖 deve satisfazer a equação 𝑌𝑖 𝛼 𝛽1𝑥𝑖1 𝛽2𝑥𝑖2 𝛽𝑝𝑥𝑖𝑝 𝜖𝑖 Eq 76 O objetivo do método dos mínimos quadrados é fazer com que a somatória de 𝜖𝑖 tenda a zero ou seja minimizar a equação 𝜖𝑖 2 𝑌𝑖 𝛼 𝛽1𝑥𝑖1 𝛽2𝑥𝑖2 𝛽𝑝𝑥𝑖𝑝 2 𝑛 𝑖1 𝑛 𝑖1 Eq 77 O que podemos obter derivando a equação em função de todos os βs o que vai conduzir a uma representação matricial cuja equação simplificada é 𝑌 𝑥𝛽 𝜖 Eq 78 Onde 𝑌 𝑌1 𝑌𝑛 𝑥 1 1 1 𝑥11 𝑥1𝑝 𝑥𝑛1 𝑥𝑛𝑝 𝛽 𝛽1 𝛽𝑝 𝜖 𝜖1 𝜖𝑝 Eq 79 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 147 O cálculo e determinação dos valores dos coeficientes α e βs envolve cálculos matriciais um pouco mais complexos que os desenvolvimentos anteriores apresentados para a ANOVA e para a Regressão Linear Simples Como nosso objetivo é o uso prático dos recursos estatístico sem detrimento da teoria que orienta o raciocínio do pesquisador acreditamos ser mais produtivo apresentar o uso da Regressão Linear Múltipla por meio do RStudio nosso próximo item 93 Regressão Linear No RStudio A execução da regressão linear no RStudio é realizada pela função lm Sim a mesma função que também executa a ANOVA afinal ambas as análises estatísticas são baseadas no método dos mínimos quadrados A função lm é utilizada tanto para Regressão Linear Simples quanto Múltipla assim como a função aov da ANOVA Regressão Linear Simples Em primeiro lugar vamos ver como funciona a Regressão Linear Simples com os dados do Exemplo 25 A influência da adição de cinza de bagaço de cana de açúcar na resistência de compressão diametral de peças queimadas de cerâmica vermelha Os dados devem ser fornecidos ao software em colunas uma para a variável independente x e outra para os resultados Y O quadro abaixo exibe a entrada dos dados e a execução da regressão linear dados readcsv2filechoose header T summarydados x y Min 0 Min 0850 1st Qu 5 1st Qu1060 Median 10 Median 1500 Mean 10 Mean 1774 3rd Qu15 3rd Qu2550 Max 20 Max 3110 dadoslm lmy x data dados summarydadoslm Call lmformula y x data dados Residuals Min 1Q Median 3Q Max 03844 01782 00432 01880 02794 Coefficients Estimate Std Error t value Prt Intercept 2846800 0072242 3941 2e16 x 0107240 0005899 1818 382e15 Signif codes 0 0001 001 005 01 1 Residual standard error 02085 on 23 degrees of freedom Multiple Rsquared 09349 Adjusted Rsquared 09321 Fstatistic 3305 on 1 and 23 DF pvalue 3825e15 Se resgatarmos a equação calculada anteriormente 𝑌 28468 010724 𝑥 veremos que os coeficientes α e β apresentam os mesmos valores assim como o coeficiente de determinação 𝑅2 0934944 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 148 Além do coeficiente de determinação os mesmos gráficos de diagnóstico do modelo apresentados para a ANOVA podem ser utilizados para verificar a acuracidade do modelo gerado Recordando seus conceitos temos O Gráfico Residual vs Fitted Figura 84 apresenta o comportamento da variância dos resíduos com relação aos valores ajustados preditos pelo modelo sendo ideal para analisar a presença de nãolinearidades no modelo A linha vermelha no gráfico denota a média dos resíduos e deve se aproximar de uma linha reta considerar a escala utilizada Figura 84 Gráfico Residuos x Valores ajustados O gráfico Normal QQ Figura 85 dos resíduos padronizados analisa a normalidade dos resíduos verificando o afastamento da curva ideal Figura 85 Grafico Normal QQ O gráfico ScaleLocation Figura 86 é semelhante ao gráfico Residual x Fitted mas usa a raiz quadrada do valor absoluto dos resíduos padronizados ao invés do valor do próprio resíduo A linha vermelha quando horizontal indica a perfeita ausência de variação ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 149 Figura 86 Gráfico Scale Location O gráfico da Constante de Leverage Figura 87 é útil para detectar a presença de pontos influenciadores Figura 87 Gráfico Constante de Leverage Como dissemos anteriormente na análise do gráfico de dispersão o tratamento com 20 de adição de cinza de bagaço de cana foge um pouco da linearidade ideal da curva Assim podemos determinar a curva de regressão somente com os tratamentos de 0 a 15 e assim identificar as diferenças nos parâmetros α e β e verificar se o coeficiente de determinação R2 apresenta melhoria Vamos montar uma nova entrada de dados excluindo os dados relativos ao tratamento com 20 de adição dos dados de entrada e reexecutar a análise estatística O coeficiente de determinação aumentou de 09349 para 09589 indicando uma melhora na representatividade da curva da regressão linear Também podemos comparar os valores médios das amostras de cada tratamento com os valores preditos pelas equações das curvas e analisar os resíduos Tabela 60 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 150 dados readcsv2filechoose header T dadoslm lmy x data dados summarydadoslm Call lmformula y x data dados Residuals Min 1Q Median 3Q Max 02794 01219 00206 01000 02794 Coefficients Estimate Std Error t value Prt Intercept 2951800 0058564 5040 2e16 x 0128240 0006261 2048 638e14 Signif codes 0 0001 001 005 01 1 Residual standard error 01565 on 18 degrees of freedom Multiple Rsquared 09589 Adjusted Rsquared 09566 Fstatistic 4196 on 1 and 18 DF pvalue 6376e14 𝒙𝒊 𝒀 Yeq1 Yeq2 𝒀 𝒀𝒆𝒒 𝟏 𝒀 𝒀𝒆𝒒 𝟐 0 2914 28468 29518 0067 0038 5 2458 23106 23106 0147 0147 10 1488 17744 16694 0286 0181 15 11 12382 10282 0138 0072 20 0912 0702 0387 0210 0525 Tabela 60 Valores preditos para Y Como pode ser visto a segunda equação apresenta valores um pouco mais próximos da média amostral do que a primeira para os valores preditos de 𝑥𝑖 de 0 a 15 mas a diferença é pequena Também podemos observar que para a segunda equação o valor de 𝑌𝑖 para 20 de adição está bem distante da média amostral extrapolação cálculo para valor de 𝑥𝑖 fora do intervalo de estudo Isto devese ao fato da curva de regressão ter sido construída para o intervalo de 0 a 15 que representa a parte mais linear das médias amostrais O gráfico com os valores das médias amostrais e os valores preditos Figura 88 também permite uma visualização da proximidade das curvas das regressões lineares ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 151 Figura 88 Exemplo 25 Gráfico com as médias amostrais e os valores preditos Regressão Linear Múltipla Agora finalmente podemos retomar o Exemplo 24 onde foi apresentado um experimento com dois fatores de dois níveis ambos com influência na característica de interesse e com interação entre os fatores que para ambos pode ser positiva ou negativa A ANOVA nos confirmou que ambos os fatores e sua interação são significantes para a variável resposta e cuja equação que originou os dados curva de regressão original 𝑥 25 60𝐴 5𝐵 55𝐴𝐵 foi apresentada logo após a Tabela 54 Vamos carregar os dados no RStudio e verificar o quão próximo à curva de regressão proposta é da curva original Lembrese que agora devemos representar os valores dos fatores com seus valores reais e não como a a b e b Os valores dos níveis de A foram 01 02 e os níveis de B foram 10 20 A fórmula da Regressão Linear Múltipla deve ser adequada para refletir a interação entre os fatores variáveis independentes Assim usaremos a notação res a b ao invés de res a b que é usada quando temos certeza de que não há interações entre os fatores dados readcsv2filechoose header T dadoslm lmres a b datadados summarydadoslm Call lmformula res a b data dados Residuals Min 1Q Median 3Q Max 1768 1016 0365 0665 3342 Coefficients Estimate Std Error t value Prt Intercept 25430 4254 5977 644e05 a 56700 26907 2107 005681 b 5417 2691 2013 006706 ab 58050 17018 3411 000516 Signif codes 0 0001 001 005 01 1 Residual standard error 1702 on 12 degrees of freedom Multiple Rsquared 0963 Adjusted Rsquared 09537 Fstatistic 104 on 3 and 12 DF pvalue 7434e09 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 152 A aplicação da Regressão Linear Múltipla resultou na equação abaixo e para efeito de comparação vamos repetir a equação original que foi usada para o cálculo da média predita para cada tratamento considere que a média amostral não refletiu perfeitamente a média predita devido a aleatorização dos valores dos elementos 𝑟𝑒𝑠 2543 567 𝑎 5417 𝑏 5805 𝑎𝑏 Equação da curva de regressão 𝑥 2500 6000 𝑎 500 𝑏 5500 𝑎𝑏 Equação original A equação da curva de regressão apresentada confirma a premissa apresentada anteriormente da influência positiva do fator a negativa para o fator b e positiva para a interação entre os fatores a e b positiva e superior a influência negativa do fator b Tendose em conta que os valores de cada tratamento foram gerados aleatoriamente quatro elementos por tratamento e a média amostral não reflete exatamente o valor predito determinado pela equação original podemos dizer que a Regressão Linear determinou com a maior exatidão possível a equação da curva de regressão Os coeficientes obtidos estão extremamente próximos dos usados na equação original e a Regressão Linear foi capaz de determinar com precisão o tipo de contribuição de cada fator e da interação para a resposta Se apresentarmos em uma tabela Tabela 61 os valores de a b da média amostral MA dos valores calculados pela equação original X ori e os valores preditos pela curva de regressão RESrlm veremos o quão próximo eles são a b MA Xori RESrlm 01 1 3149 3150 3149 01 2 3188 3200 3188 02 1 4296 4300 4296 02 2 4915 4900 4916 Tabela 61 Valores calculados e preditos pela Regressão Linear Múltipla O gráfico da Figura 89 praticamente sobrepõe as curvas que representam os valores originais tomados como base para as quatros amostra de 4 elementos representados por sua média amostral os valores calculados pela equação original e os valores preditos pela curva de regressão linear Figura 89 Gráfico com as curvas original de regressão e média amostral ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 153 Podemos ver que as curvas não são bem lineares e sim formadas por segmentos de reta unindo os pontos referenciados dos quatro tratamentos E já que temos a equação original e a equação dada pela Regressão podemos inserir mais pontos para ver o formato real da curva mostrado na Figura 90 Nas curvas da Figura 90 inserimos no eixo x a indicação de extrapolação E quando os valores calculados pela curva de regressão estão fora do intervalo de estudo e de predição P quando os valores calculados estão dentro do intervalo de estudo Figura 90 Curvas original e da regressão linear múltipla com predição e extrapolação de valores Agora devemos ressaltar que este é um exemplo teórico e portanto não foi influenciado por outros fatores Os valores dos elementos das amostras foram aleatorizados mas ajustados para refletir da melhor forma possível a média amostral desejada Em um experimento real dificilmente conseguiríamos uma situação assim Diversos fatores não previstos os ditos fatores aleatórios iriam influenciar o experimento tais como Diferenças de dosagem das matérias primas Fadiga de equipamento tanto na mensuração quanto no preparo Fatores não controláveis como temperatura pressão umidade e outros Falta de planejamento do experimento cansaço ou desatenção do pesquisador E muitos outros Além disto o exemplo teórico não considera fatos que normalmente aconteceriam em um experimento como a saturação que ocorre quando o aumento na adição de um componente não influencia mais o resultado ou assume comportamento contrário ao anterior passa a influenciar negativamente ao invés de positivamente Assim este exemplo deve ser visto apenas como explicativo para o poder da Regressão Linear Múltipla em representar e facilitar a análise da influência dos fatores e de sua interação na característica de interesse ou seja a resposta do experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 1 REFERÊNCIAS ALVES M C Teste t de Student Seção Técnica de Informática Piracicaba 2017 BARBETTA P A Estatística Aplicada às Ciências Sociais 8 Florianópolis SC 2012 ISBN 9788532806048 FARIAS A M L D DEMARQUI F N Análise de Variância de um Fator 2017 FUKUCHI R K Análise de Variância ANOVA RStudio Pubs 2019 GREENWOOD M BANNER K ANOVA model diagnostics including QQplots Statistics with R Creative Commons 2015a Histograms boxplots and density curves Statistics with R Creative Commons 2015b Multiple pairwise comparisons using Tukeys HSD and the compact letter display Statistics with R Statistics with R Creative Commons 2015c Summary of importance Rcode Statistics with R Creative Commons 2015d GUIMARÃES A M Análise de Variância ANOVA oneway e Tukey usando R Medium California US A Medium Corporation 2019 MINITAB L Entendendo Análise de Variância ANOVA e o teste F Editor Minitab Minitab 2019a Interpretar os principais resultados para ANOVA para 1 fator Editor Minitab Minitab 2019b Quais são os erros do tipo I e II Editor Minitab Minitab 2019c MONTGOMERY D C RUNGER G C Estatística Aplicada e Probabilidade para Engenheiros 6 Rio de Janeiro RJ John Wiley Sons Inc 2016 629 ISBN 1309781118539712 PANOSSO A R MALHEIROS E B Estatística Experimental Aplicada Software R Jaboticabal SP FCAV UNESP Campus de Jaboticabal Portal Action 2020 Disponível em httpwwwportalactioncombr PORTALACTION Portal Action São Carlos SP 2020 Disponível em httpwwwportalactioncombr PROVETE D B Intervalo de confiança ztest e ttest RPubs RPubs 2017 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 2 REIS M M Simulação e Cálculo do Poder do Teste e de Tamanho de Amostra para Testes no aplicativo R INE6006 Procedimentos Florianópolis RODRIGUES É C Modelos de Regressão Linear Simples 2016a Modelos de Regressão Linear Simples Análise de Resíduos 2016b Modelos de Regressão Múltipla 2016c SIMON L YOUNG D PARDOE I STAT 462 Applied Regression Analysis The Pennsylvania State University 2019 TRIOLA M F Introdução à estatística LTC Rio de Janeiro 2005 WALPOLE R E MYERS R H MYERS S L YE K Probabilidade Estatística para engenharias e ciências 8 São Paulo SP Pearson Prentice Hall 2009 491 ISBN 9788576051992
Send your question to AI and receive an answer instantly
Recommended for you
2
Análise Estatística Experimental Influência da Cinza de Casca de Arroz e Nanotubos de Carbono em Concreto
Estática para Engenharia
CEFET/MG
1
Estatística Aplicada - Análise da Resistência à Compressão de Concreto com Resíduos da Construção Civil e Insumos
Estática para Engenharia
CEFET/MG
5
Lista de Exercícios Estatística Aplicada - Análise de Experimentos com Cinza de Casca de Arroz e Nanotubos de Carbono
Estática para Engenharia
CEFET/MG
12
Prova de Estatística Aplicada - Análise de Dados e Testes de Hipóteses
Estática para Engenharia
CEFET/MG
21
Lista de Exercícios Resolvidos - Estatística Aplicada à Engenharia Civil com RStudio
Estática para Engenharia
CEFET/MG
2
Lista de Exercícios - Estatística Aplicada - Análise Experimental e Testes de Hipóteses
Estática para Engenharia
CEFET/MG
5
Lista de Exercícios Estatística Aplicada - Análise de Experimentos com Cinza de Casca de Arroz e Nanotubos de Carbono
Estática para Engenharia
CEFET/MG
19
Teoremas de Pappus-Guldinus - Cálculo de Áreas e Volumes de Revolução
Estática para Engenharia
CEFET/MG
3
Teste de Estatica - Calculo de Momento e Reacoes
Estática para Engenharia
CEFET/MG
12
Prova Substitutiva de Estatística - Análise de Nível de Colesterol, Emprego Temporário e Consumo Per Capita
Estática para Engenharia
CEFET/MG
Preview text
ROGÉRIO CABRAL DE AZEVEDO AZEVEDO ROGÉRIO CABRAL ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO CENTRO FEDERAL DE EDUCAÇÃO TÉCNOLÓGICA DE MINAS GERAIS CEFETMG PROGRAMA DE PÓSGRADUAÇÃO EM ENGENHARIA CIVIL PPGEC Rogério Cabral de Azevedo Prof Dr CEFETMG Departamento de Engenharia Civil Programa de PósGraduação em Engenharia Civil httplattescnpqbr0613519736951060 Janeiro2021 Todos os direitos reservados Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou por qualquer outro meio eletrônico mecânico ou digital sem prévia autorização por escrito dos autores e do CEFETMG CAPA Rogério Cabral de Azevedo imagem gerada pelo software VOSviewer versão 1615 ISBN 9786500154252 httpscblservicosprdblobcorewindowsnetbarcode9786500154252jpeg SUMÁRIO 1 INTRODUÇÃO 1 11 População 1 12 Amostra 2 13 Lote 3 14 Variáveis 3 15 Risco 4 16 Confiabilidade 4 2 TÉCNICAS DE AMOSTRAGEM 5 21 Métodos de Extração dos Elementos 5 22 Métodos para a Escolha dos Elementos 5 23 Definição da Amostra 6 24 Tipos de Variáveis 8 3 ESTATISTICA DESCRITIVA 10 31 Medidas de Posição 10 32 Medidas de Dispersão ou Variabilidade 11 33 Gráficos 15 4 O SOFTWARE RSTUDIO E A ESTATÍSTICA DESCRITIVA 22 5 MODELOS PROBABILISTICOS E DETERMINISTICOS 26 51 Modelos Deterministicos 26 52 Modelos Probabilísticos 26 53 Probabilidade 27 6 DISTRIBUIÇÃO DE PROBABILIDADES 30 61 Distribuição Uniforme Discreta 34 62 Distribuição de Bernoulli 34 63 Distribuição binomial 35 64 Distribuição de Poisson 37 65 Distribuição Geométrica 38 66 Distribuição Hipergeométrica 39 67 Distribuição Normal 41 68 Distribuição QuiQuadrado 44 69 Distribuição t de Student 45 610 Distribuição Gama 46 611 Distribuição Exponencial 46 612 Distribuição de Weibull 47 7 INFERÊNCIA ESTATÍSTICA 49 71 Distribuição Normal Padrão 51 72 Distribuição tStudent 56 73 Identificação da Distribuição de Probabilidades 59 74 Testes de Normalidade 63 75 Testes De Normalidade No Rstudio 67 76 Intervalo De Confiança 72 77 Testes de Hipóteses Comparação de Médias 77 78 Erros Cometidos nos Testes de Hipóteses 95 79 Testes de Hipóteses RStudio 97 8 ANÁLISE DE VARIÂNCIA ANOVA 107 81 ANOVA Um Fator 107 82 ANOVA Dois Fatores 113 83 ANOVA e o RStudio 121 84 ANOVA Análises de Validação 125 85 ANOVA Complementando a análise com o Teste de Tukey 129 86 ANOVA Estudo de Caso 133 9 ANÁLISE DE REGRESSÃO 139 91 Regressão Linear Simples 140 92 Regressão Linear Múltipla 145 93 Regressão Linear No RStudio 147 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 1 1 INTRODUÇÃO Mas afinal o que é estatística e como podemos nos utilizar de seus conceitos e ferramentas para aprimorar nossas pesquisas de graduação ou pósgraduação Uma busca em algumas fontes nos fornece diversas definições para o termo estatística das quais podemos destacar1 Um conjunto de técnicas e métodos de pesquisa que dentre outros tópicos envolve planejar o experimento a ser realizado a coleta qualificada dos dados resultantes do experimento a organização processamento e análise destes dados a inferência ou seja a capacidade de concluir a partir da análise dos dados processados a confiabilidade ou erro associado a estas conclusões e por fim a disseminação das informações Esta definição é bem completa pois abrange todo o cenário no qual um futuro pesquisador está inserido Envolve como planejar um experimento como produzir e coletar os resultados do experimento como organizar processar e analisar os dados obtidos como definir ou identificar a confiabilidade ou o erro associado à inferência e como escolher os métodos mais claros e didáticos para divulgação das informações finais O uso da estatística em trabalhos acadêmicos tem aumentado nos últimos anos Ela tem sido usada principalmente como uma forma de agregar relevância à análise dos resultados obtidos nos experimentos realizados ao oferecer posições estatisticamente conclusivas sobre esses resultados A estatística não oferece novos resultados aos experimentos mas permite que o delineamento dos passos que conduziram aos resultados o método seja realizado de forma a separar os fatores de interesse que foram escolhidos para serem analisados dos fatores chamados de aleatórios que embora possuam influência sobre os resultados devem ser distribuídos de forma a não interferir na análise A estatística é fundamental para a análise dos resultados finais de um trabalho acadêmico Somente apresentar as médias obtidas em um determinado experimento e citar que os resultados obtidos são superiores aos de referência é insuficiente para a realização de uma análise válida uma vez que diversas medidas influenciam a comparação como a variância por exemplo É mais correto e acadêmico comprovar estatisticamente a existência da diferença e citar por exemplo que com 95 de confiabilidade as médias obtidas no experimento são superiores às médias de referência Mas antes de pensarmos em como planejar um experimento ou em como efetuar uma análise estatística dos resultados é necessário conhecer os conceitos nos quais as ações descritas acima são baseadas Nesse sentido alguns conceitos como os de população amostra lote risco e confiabilidade são fundamentais para o entendimento da estatística 11 População População representa o conjunto dos todos os elementos objetos do estudo que possuem uma ou mais características em comum Para exemplificar em uma eleição para presidente a população seria representada por todos os eleitores habilitados do pais já para governador por todos os eleitores habilitados do estado Dentro das engenharias o conceito é semelhante representa todas as peças de mesmo modelo produzidas 1 wwwportalactioncombrestatisticabasica ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 2 por uma determinada fábrica ou linha de montagem todo o lote2 de concreto produzido por uma determinada empresa concreteiras 12 Amostra Amostra é um subconjunto da população que por ser na maior parte das vezes numerosa ou infinita não pode ser avaliada quantitativamente O tamanho quantidade de elementos da amostra deve ser representativo para o estudo das características de interesse da população O tamanho e o método de seleção dos elementos da amostra irão depender dos recursos disponíveis e do conhecimento que se tem da população Uma dúvida recorrente entre os estudantes de pósgraduação se relaciona aos conceitos de população e amostra Quando tratamos de coisas concretas como pessoas árvores ou carros o conceito de população e amostra é claro População representa todas as pessoas e nesse grupo podemos diferenciálo ao citar características como faixa etária sexo estado civil estado cidade ou bairro de residência dentre outros Para árvores ou vegetais temos classificações como ordem família e gênero Por fim para veículos podemos citar características como fabricante modelo e ano de fabricação No entanto quando se trata dos resultados de experimentos desenvolvidos em pesquisas a definição fica um pouco mais confusa Por exemplo em um experimento abordando a adição de resíduos de construção civil ao concreto duas variáveis são analisadas i o tipo de resíduo 3 tipos diferentes A B e C e ii o percentual de adição 4 percentuais 0 25 50 e 100 O que define população e amostra neste caso Analisando o experimento concluímos que o mesmo possui 12 composições diferentes onde o cruzamento entre o tipo de resíduo três tipos e o percentual de adição quatro tipos resulta nas composições diferentes 3 4 12 a serem analisadas Todo o concreto produzido segundo o método definido para o experimento com o uso de cada uma das diferentes composições representa uma população pois possui características diferentes decorrentes das diferentes composições usadas Assim podemos considerar que o experimento produziu 12 populações diferentes Claro que dependendo dos objetivos do experimento os produtos das 12 composições poderiam ser considerados estratos subgrupos de uma única população mas esta consideração não afeta a premissa que queremos expor de que a população não necessita existir fisicamente para ser considerada como tal Basta que possuam características em comum que tornem aquele conjunto único No caso exposto todo concreto produzido adotandose qualquer uma das composições pode ser considerado como população pois possuem características únicas derivadas de suas composições Os corpos de prova que foram geradas especificamente para o experimento formam uma amostra dessa população Como dito os corpos de prova produzidos para cada composição representam a amostra Supondo que no experimento sejam produzidos quatro corpos de prova por composição temos 12 amostras compostas por quatro elementos 2 Em logística um lote representa todos os itens produzidos sob as mesmas condições em um determinado período de tempo e com características físicas químicas dimensionais idênticas Este conceito é importante para o planejamento de um experimento porque é necessário que todos os materiais componentes e insumos utilizados para a produção dos corpos de prova a serem testados possuam as mesmas características ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 3 Por meio deste exemplo é também possível compreender como a influência dos recursos disponíveis determina o tamanho da amostra O senso comum nos leva a crer que quanto maior a quantidade de elementos que compõe a amostra melhor serão os resultados o que é uma premissa verdadeira No entanto na prática a premissa é difícil de ser mantida pois qual a nossa real capacidade em produzir e testar uma grande quantidade de corpos de prova Teremos material suficiente Teremos equipamento e tempo suficiente para testar todos os corpos de prova O conhecimento da população também é importante Na hipótese de existir pouco conhecimento dos resultados da adição de determinado tipo de resíduos da construção civil nas propriedades físicas de concretos amostras com maior número de elementos conduzirão a resultados mais definitivos sobre a população Contudo se a literatura já apresenta informações sobre esta influência e queremos apenas comprovar algum direcionamento específico amostras com menor número de elementos podem ser usadas para esta finalidade 13 Lote O conceito de lote2 também é importante para o planejamento de experimentos No exemplo anterior se o cimento usado para a produção dos corpos de prova apesar de serem do mesmo tipo CPV por exemplo forem oriundos de fabricantes diferentes suas características físicoquímicas podem ter pequenas variações que por sua vez podem ter influência nos resultados do experimento Os conceitos supracitados e as formas como eles se correlacionam demonstram a importância que a amostra ou a técnica utilizada para sua escolha possui para a caracterização correta de uma população Se escolhermos uma amostra de forma errada ou tendenciosa a inferência capacidade de transferir para a população como um todo a análise dos resultados realizada a partir dos dados obtidos com a amostra é prejudicada e o trabalho dispendido inutilizado 14 Variáveis Em estatística uma variável representa uma característica relativa aos elementos que estão sendo investigados e que nos interessa avaliar em um experimento De acordo com os valores que essa característica pode assumir numéricos ou não numéricos ela pode ser classificada em quantitativa ou qualitativa abordado no item 24Tipos de Variáveis Já em relação à um determinado experimento as variáveis podem ser classificadas em Variáveis independentes são as variáveis que podem ser definidas controladas manipuladas e medidas pelo pesquisador em busca de alterações nos valores da variável resposta que está sendo analisada pelo experimento Também são chamadas de varáveis preditoras ou explicativas Variáveis dependentes são variáveis que podem ser medidas pelo pesquisador e cujos valores dependem do comportamento das variáveis independentes Normalmente são associadas aos resultados do experimento e por isso também denominadas como variáveis resposta Variáveis estranhas são variáveis não controladas nem manipuladas pelo pesquisador e que podem influenciar no comportamento ou na medição das variáveis dependentes Também conhecidas como ruído fatores não controláveis variáveis extrínsecas ou de confusão seus efeitos devem ser eliminados ou atenuados Suas principais causas são o viés de seleção quando as unidades de teste possuem características diferentes entre si matéria prima de diferentes lotes variações em fatores não controlados do experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 4 temperatura umidade por exemplo e uso de diferentes equipamentos eou instrumentos de medição que podem introduzir alterações na variável dependente Uma das principais aplicações da estatística é analisar e predizer o comportamento das variáveis dependentes em função de alterações nos valores das variáveis independentes Tratamento o conceito de tratamento é baseado no cruzamento das variáveis independentes de um experimento Tratamento representa o conjunto de combinações dos diferentes valores das variáveis independentes que são aplicadas e analisadas em um experimento No exemplo apresentado no item 12 Amostra duas variáveis independentes tipo de resíduo e percentual de adição do resíduo são tratadas e foram identificadas 12 combinações diferentes resultante do cruzamento dos valores definidos para essas variáveis Cada combinação diferente representa um tratamento 15 Risco Antes de abordarmos a questão das técnicas de amostragem devemos entender o que é o conceito de Risco e como ele se relaciona à composição de uma amostra O risco relativo à amostragem consiste na margem de erro assumida pelo pesquisador em seu experimento motivada pelo fato de que a investigação da população é parcial afinal a população é investigada a partir de uma amostra com número de elementos muito inferior ao da população e isto pode gerar conclusões indevidas risco Assim o risco representa a probabilidade de que as conclusões obtidas a partir da análise da amostra sejam diferentes caso toda a população fosse sujeita ao mesmo procedimento de análise ou seja indica a margem de erro assumida na análise Uma margem de erro de 005 indica que há 5 de probabilidade de que a relação entre as variáveis encontrada na amostra seja apenas um acaso feliz e não seja replicada na população Assim se o experimento for repetido várias vezes podese esperar que uma em cada vinte vezes a relação entre as variáveis em questão seria diferente das observadas nas outras Uma margem de erro de 5 é considerada como o limite aceitável de erro 16 Confiabilidade O conceito de confiabilidade margem de acerto é decorrente do conceito de risco margem de erro Se uma determinada análise possui um risco ou uma margem de erro de 5 isto implica em que a confiabilidade da análise ou nível de confiança é de 95 Existe também outro tipo de risco a ser considerado este mais difícil de ser determinado estatisticamente e que apesar de não estar associado à amostragem pode da mesma forma conduzir a análises incorretas Este risco referese à adoção de procedimentos inadequados interpretação errônea de evidências até mesmo manipulação de resultados Para evitalos os conceitos estatísticos relativos ao planejamento do experimento devem ser aplicados e os procedimentos metodológicos adotados devem estar claramente explicitados permitindo a outros pesquisadores avaliar o método utilizado na pesquisa O próximo capítulo apresenta as técnicas de amostragem mais comuns utilizadas em experimentos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 5 2 TÉCNICAS DE AMOSTRAGEM Em estudos estatísticos as técnicas de amostragem referemse ao modo como selecionamos os elementos de uma população que irão participar de um experimento Se os elementos de uma amostra não forem selecionados de maneira aleatória a amostra poderá ser tendenciosa em relação a algum fator e provavelmente não representarão a população corretamente As técnicas de amostragem podem ser divididas em relação à extração dos elementos e em relação a escolha dos elementos que comporão a amostra 21 Métodos de Extração dos Elementos A primeira técnica para composição de uma amostra referese à extração dos elementos que a comporão A extração dos elementos pode ser realizada com ou sem reposição Extração sem reposição quando um elemento sorteado ou escolhido para compor a amostra não puder ser reposto à população e assim correr o risco de ser escolhido novamente A extração sem reposição é comum quando se realizam ensaios destrutivos onde o elemento tem suas características alteradas pelo próprio ensaio Extração com reposição quando um elemento sorteado ou escolhido para compor a amostra pode ser reintegrado à população e assim ser sorteado novamente Neste método como o elemento é reposto o método não afeta a probabilidade de retirar qualquer elemento da população ou seja as chances serão iguais para sempre 22 Métodos para a Escolha dos Elementos Quanto à escolha dos elementos da amostra esta pode ser probabilística ou não probabilística No método Probabilístico cada elemento da população possui determinada probabilidade de ser selecionado para compor a amostra em geral a mesma probabilidade No método não probabilístico há uma escolha deliberada ou direcionada dos elementos que irão compor a amostra Os principais Métodos Não Probabilísticos são Amostragem Acidental A amostra é composta por elementos que vão aparecendo ou pelos elementos que são possíveis de se obter até que se complete o número de elementos da amostra Esse método é comum por exemplo em pesquisa de opinião nas quais os entrevistados são acidentalmente escolhidos ou em linhas de produção onde os elementos são retirados da linha para testes na medida que o teste anterior é finalizado e enquanto o número de testes previstos não for atingido Amostragem Intencional A amostra é composta por elementos escolhidos por meio de critérios predeterminados ou seja escolhese intencionalmente um grupo de elementos que irão compor a amostra Amostragem por Cotas Neste caso a população é classificada em estratos subgrupos sendo a definição dos estratos estabelecida em função de propriedades relevantes para a característica a ser estudada O processo de seleção dos elementos que integram os estratos deve ser previamente estabelecido Os principais Métodos Probabilísticos são Amostragem Aleatória Simples Nesta técnica de amostragem cada elemento da população possui uma chance igual e maior que zero de ser selecionado para compor a amostra Ela é chamada de aleatória porque ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 6 a seleção dos elementos é feita sob a forma de sorteio não sendo utilizado nenhum critério ou filtro no processo de seleção O único problema em relação a este método é que por ser aleatório qualquer combinação dos elementos presentes na população pode ser gerada e com isto determinada característica desta população pode ser priorizada Amostragem Aleatória Estratificada Para minimizar o problema relatado na amostragem aleatória simples a população pode ser dividida de acordo com propriedades de interesse para a característica estudada estratos e dentro destes dos estratos é realizada a amostragem aleatória simples Há dois tipos de amostragem aleatória estratificada No primeiro as amostras parciais retiradas aleatoriamente de cada estrato possuem o mesmo tamanho amostras com a mesma quantidade de elementos independentemente do tamanho do estrato Por sua vez no segundo método as amostras parciais possuem tamanho proporcional ao tamanho do estrato É bem semelhante a amostragem por cotas não probabilística mas neste caso a seleção dos elementos é aleatória Amostragem Sistemática É um tipo de amostragem aleatória simples com a diferença que os elementos da população são agrupados e ordenados segundo algum critério que não possui influência na característica de interesse Desta forma a existência da ordenação facilita o processo de seleção dos elementos Por exemplo se temos 50 grupos de 50 elementos e desejamos compor uma amostra de 100 elementos é possível definir dois números de ordem aleatórios entre 1 e 50 como por exemplo o 13º e 27º e assim selecionar estes de cada um dos grupos Amostra por Conglomerados É uma técnica de amostragem realizada em duas ou mais etapas Na primeira etapa os grupos ou conglomerados são definidos de acordo com suas características e são sorteados elementos destes conglomerados para representar o próprio conglomerado Esta etapa pode ser recursiva grupos dentro de grupos Na última etapa são sorteados os elementos que serão testados É muito utilizada em pesquisas eleitorais com a definição de diversos grupos cidades de acordo com seu tamanho ou importância bairros de acordo com renda ou situação e por fim eleitores dentro de cada grupo escolhido 23 Definição da Amostra A definição da amostra pode parecer trivial dentro de um experimento mas seus conceitos são fundamentais para que as conclusões obtidas pela análise dos resultados possam ser transferidas para a população Inferência Podemos entender a importância do processo de amostragem a partir de uma situação bem simples Em um determinado experimento foram adquiridos diversos insumos a serem utilizados em um processo construtivo Estes insumos precisam ser caracterizados Um deles agregado fino areia foi recebido doação em caçambas Não se tem informações sobre a origem nem sobre a forma de carregamento do insumo na caçamba mas é necessário caracterizar o insumo para o experimento Qual o método de amostragem mais adequado para a caracterização Antes de propormos uma solução para o problema é necessário entender corretamente o problema Diversas questões devem ser esclarecidas para que a solução adotada seja adequada O experimento possui restrições ou especificações quanto ao agregado fino tipo granulometria ou outra Qual o volume ou peso total necessário para o experimento Quantas caçambas foram entregues O conteúdo de uma caçamba é suficiente para o experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 7 Bem vamos supor que existam especificações quanto às características físicas do agregado fino e que foram entregues duas caçambas sendo que o conteúdo de apenas uma é suficiente para o experimento Neste caso como não é possível determinar a origem do conteúdo de cada caçamba e nem como foram preenchidas pode ser que tenham sido preenchidas com agregados finos com diferentes características físicas o problema reside em escolher qual das caçambas possui o agregado mais adequado características físicas ao experimento o que nos obriga a testar as duas Então vamos ao método de amostragem Qual o método mais adequado para esta situação E dadas as incertezas presentes vai haver um 100 correto Agora entra a questão dos recursos disponíveis tempo equipamento e pessoal para testes recursos financeiros etc Vamos supor que os recursos disponíveis permitam a realização de seis caracterizações ou seja podem ser testadas seis amostras Como escolher seis amostras que representem o conteúdo das duas caçambas A primeira parte é mais simples três amostras para cada caçamba A segunda parte de onde retirar as três amostras em cada caçamba pode ser mais complexa Pode ser aplicada uma amostragem aleatória estratificada Dividir o volume da caçamba em 3 estratos verticais de acordo com a altura da caçamba e cada um dos estratos em 4 áreas horizontais como demonstrado na Figura 1 Um sorteio aleatório de uma das quatro áreas em cada estrato vertical poderia gerar o resultado indicado áreas 1 6 e 11 O mesmo processo é repetido na segunda caçamba gerando assim as seis amostras para caracterização Figura 1 Exemplo de amostragem estratificada aleatória Outro processo aleatório válido para a seleção das três amostras seria o sorteio de três das doze áreas independente do estrato Isto poderia ocasionar a seleção de mais de uma área por estrato mas não invalida o método uma vez que não temos informações sobre a origem do conteúdo de cada caçamba e nem como as mesmas foram preenchidas Em princípio a análise das características físicas de cada amostra indicaria a caçamba mais adequada Mas tudo vai depender dos resultados obtidos nas caracterizações Um dos resultados possíveis é que exista uma caçamba cujo conteúdo seja mais adequado ao experimento devido às características físicas de seu conteúdo Mas e se todas as amostras das caçambas indicarem diferentes características físicas e todas estiverem dentro dos limites estabelecidos para o experimento Estas pequenas diferenças irão influenciar o experimento É ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 8 provável que sim restando ao pesquisador escolher uma das caçambas e adotar procedimentos para homogeneizar seu conteúdo 24 Tipos de Variáveis Mas quais os tipos de dados que podem ser obtidos a partir de uma amostra Para compreendermos os tipos de informações que podemos coletar a partir de uma amostra primeiramente temos que caracterizar o que é um dado e o que é uma variável Dado é uma informação coletada e registrada de um elemento da população ou amostra referente a uma variável Desta forma por exemplo o diâmetro da peça selecionada como amostra é um dado bem como todas as medidas referentes à variável estudada que sejam coletadas na população ou amostra Podemos entender que o dado representa uma única mensuração ou valor de uma característica de interesse Variável é uma característica que pode ser observada ou medida em cada elemento de uma população ou em uma amostra desta população As variáveis assumem valores diferentes em unidades diferentes associadas à característica que está sendo medida como por exemplo diâmetro em mm peso em quilogramas resistência a compressão em MPa etc Assim podemos entender que a variável é a característica de interesse que está sendo mensurada na amostra ou população e é representada pelo conjunto de valores mensurados As variáveis podem assumir dois tipos básicos qualitativas e quantitativas como mostrado na Figura 2 O tipo da variável define a escolha básica da técnica estatística e das interpretações dos resultados Figura 2 Tipos de variáveis Variáveis Qualitativas correspondem a características que podem ser observadas ou identificadas na população em estudo Normalmente possuem valores discretos As variáveis qualitativas são divididas em Nominais e Ordinais As variáveis qualitativas nominais não possuem ordenação própria como por exemplo estado civil cores cidade ou estado de nascimento Já as variáveis qualitativas ordinais possuem uma ordem natural pela qual podem ser ordenadas como classificações de julgamento péssimo ruim regular bom muito bom e ótimo As escalas de likert fazem parte deste tipo de variável e merecem um destaque a parte devido ao seu uso frequente Escala de likert é um tipo de escala de resposta psicométrica usada habitualmente em questionários e é a escala mais usada em pesquisas de opinião A escala representa a concordância do entrevistado com a afirmação contida na questão Um tipo comum de escala de likert é 1 Discordo totalmente 2 Discordo parcialmente 3 Indiferente 4 Concordo parcialmente 5 Concordo totalmente O problema em relação a estas escalas é o uso indevido do numeral associado à opinião do entrevistado 1 2 3 Algumas pesquisas utilizam este numeral que na realidade representa um valor qualitativo a opinião do entrevistado para operações matemáticas como médias o que é incorreto Escalas ordinais podem ser utilizada apenas para ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 9 operações matemáticas de frequência contagem mediana e moda O Quadro 1 exibe exemplos de escalas de likert CONCORDÂNCIA FREQUÊNCIA IMPORTÂNCIA PROBABILIDADE Concordo totalmente Sempre Muito importante Quase sempre verdade Concordo É frequente Importante Geralmente verdade Nem concordo nem discordo É ocasional Moderado As vezes é verdade Discordo É raro Pouco importante Geralmente falso Discordo totalmente Nunca Não é importante Quase sempre falso Quadro 1 Escalas de Likert Variáveis Quantitativas correspondem a características que podem ser mensuradas na população em estudo Podem possuir valores discretos ou contínuos As variáveis quantitativas são ditas discretas quando podem assumir apenas determinados valores do conjunto sendo normalmente associadas a contagens quantidade e são ditas contínuas quando podem assumir qualquer valor dentro do conjunto sendo normalmente associadas a medições peso resistência A principal diferença entre variáveis qualitativas e quantitativas pode ser vista pelos resultados de sua mensuração Variáveis qualitativas por refletirem opiniões podem obter diferentes mensurações de diferentes observadores sobre o mesmo elemento Por exemplo se questionado sobre a importância de um fato um respondente pode optar pela resposta muito importante enquanto outro por moderado São opiniões diferentes sobre o mesmo fato Já as variáveis quantitativas por refletirem medições e não opiniões devem sempre apresentar o mesmo resultado sempre excetuandose diferenças por precisão dos equipamentos de medição Por exemplo se dois observadores forem convidados a contar a quantidade de alunos em uma sala de aula em um dado instante a resposta quantidade de alunos deve ser a mesma Em um outro exemplo se dois pesquisadores diferentes efetuarem a medição do peso de um determinado corpo de prova em uma mesma balança o resultado deve ser o mesmo considerando erros de leitura precisão da balança e manutenção da integridade do corpo de prova Uma vez compreendidos os conceitos de população amostra variável e dados bem como a importância do processo de amostragem o próximo passo é conhecer os números que resumem e descrevem o conjunto de dados amostra A Estatística Descritiva é usada para descrever os dados que representam a amostra Inicialmente os principais conceitos serão apresentados considerando apenas amostras onde todas as observações são conhecidas ou seja a variável de interesse foi determinada observada para cada elemento da amostra Amostras cujos valores estão agrupados em classes representados graficamente por histogramas não serão tratadas por ora ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 10 3 ESTATISTICA DESCRITIVA A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumarizar um conjunto de dados seja referente a uma amostra ou a uma população Diferenciase da inferência estatística ou estatística indutiva pelo fato de organizar e sumarizar os dados ao invés de usar os dados em um processo de aprendizado sobre a população A estatística descritiva é composta por uma série de medidas básicas que apresentam uma análise descritiva de como os dados estão organizados São as medidas de posição medidas de dispersão quartis coeficiente de assimetria e coeficiente de curtose 31 Medidas de Posição As medidas de posição são valores que representam a tendência de concentração ou distribuição dos dados observados em relação à característica de interesse A forma mais usual de representação da tendência de concentração é o gráfico de distribuição de frequência que apresenta no eixo horizontal os valores ou classes agrupadas da característica de interesse e no eixo vertical a frequência associada ao valor ou classe As medidas de posição mais importantes são a média aritmética a mediana e a moda A Média Aritmética ou simplesmente média pode se referir a população média populacional µ ou a amostra média amostral 𝑥 e é calculada pela divisão da soma dos valores observados x pela sua quantidade n A média retrata a posição central dos valores das observações mas não apresenta informações sobre sua dispersão Amostra A 1 2 3 4 5 6 7 Média 𝑥 Valor 97 98 99 99 99 100 101 99 Amostra B 1 2 3 4 5 6 7 8 Média 𝑥 Valor 90 95 97 97 99 103 105 106 99 Tabela 1 Valores de amostras e suas respectivas médias A Tabela 1 apresenta duas amostras ordenadas uma com sete elementos A e outra com oito B representando uma característica física destes elementos comprimento por exemplo Ambas possuem média igual a 99 mas os dados da amostra B possuem uma faixa de variação muito maior A faixa de variação ou amplitude da amostra A é 4 amplitude é definida como a diferença entre o maior e o menor valor do conjunto ou amostra enquanto a amplitude da amostra B é 16 A Mediana é uma medida de posição que indica o ponto central dos valores ordenados ou seja é o valor que divide um conjunto de dados ordenados em duas partes com a mesma quantidade de dados Se a amostra possui número de observações ímpar a mediana será a observação central Se o número de observações for par a mediana será a média aritmética das duas observações centrais Para a amostra A Tabela 1 a mediana é o valor da quarta observação ponto central mediana 99 Já para a amostra B a mediana é dada pela média aritmética entre os valores da quarta e quinta observações mediana 97 99 2 98 A Moda de uma amostra é o valor com maior frequência número de ocorrências na amostra Na amostra A o valor mais frequente é 99 Assim a moda desta amostra é igual a 99 Para a amostra B o valor da moda é 97 pois este é o valor mais frequente Caso não exista um valor mais frequente todos os valores das ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 11 observações são diferentes o conjunto é dito amodal Da mesma forma podem existir amostras com mais de uma moda quando dois ou mais valores possuem o mesmo número de observações superior a um Além destas três medidas de posição descritas acima temos as medidas de separação ou separatrizes que são valores que ocupam determinadas posições em uma distribuição de frequência são os quartis decis e percentis Os quartis dividem uma distribuição de frequência relação ordenada de observações em quatro partes iguais como pode ser visualizado na Figura 3 Podemos notar que o segundo quartil Q2 corresponde a mediana da distribuição Figura 3 Quartis Da mesma forma os decis dividem a distribuição de frequência em 10 partes iguais e os percentis em 100 partes iguais Como pode ser entendido as três medidas média mediana e moda são medidas de tendência central pois apontam para três pontos de centralização das observações obtidas No entanto elas não demonstram a distribuição dos valores das observações muito concentrados ou pouco concentrados Para analisarmos a distribuição dos valores das observações temos as medidas de variabilidade ou de dispersão 32 Medidas de Dispersão ou Variabilidade As Medidas de Variabilidade são medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão dos valores das observações em torno de sua média Elas são utilizadas para medir a representatividade da média São elas Amplitude A amplitude R é o resultado da diferença entre o maior e o menor valor do conjunto de dados Considerando o conjunto ordenado de dados 𝑋1 𝑋2 𝑋3 𝑋𝑛1 𝑋𝑛 Temos que a amplitude é dada por 𝑅 𝑋𝑛 𝑋1 Variância A variância amostral S2 ou populacional σ2 é a medida de dispersão definida como a média do quadrado dos desvios dos elementos em relação à média O cálculo da variância considera mais os valores extremos que os valores intermediários expressando o quanto estes valores estão distantes dispersos de sua média A fórmula da variância populacional é 𝜎2 𝑥𝑖 𝜇2 𝑁 𝑁 𝑖1 Eq 1 Onde N representa o tamanho da população e µ a média populacional ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 12 Quando tratamos de amostras parte da população a média populacional µ é substituída pela média amostral 𝑥 e o tamanho da população N pelo tamanho da amostra menos um n 1 Isto porque ao utilizarmos a média amostral como estimador da média populacional para calcularmos a variância amostral perdemos 1 grau de liberdade3 em relação à variância populacional A fórmula da variância amostral é 𝑠2 𝑥𝑖 𝑥2 𝑛 1 𝑛 𝑖1 Eq 2 Desvio Padrão Sendo a variância uma medida calculada com valores ao quadrado seu uso causa uma certa camuflagem dos valores pois aumenta a medida de dispersão dificultando um pouco o entendimento Uma alternativa para solucionar este problema de entendimento é o desvio padrão O desvio padrão é dado pela raiz quadrada da variância Assim o desvio padrão populacional é dado por 𝜎 𝜎2 𝑥𝑖 𝜇2 𝑁 𝑁 𝑖1 Eq 3 E o desvio padrão amostral é dado por 𝑠 𝑠2 𝑥𝑖 𝑥2 𝑛 1 𝑛 𝑖1 Eq 4 Retomando o exemplo da Tabela 1 amostras A e B ambas com média igual a 99 e calculando a amplitude temos que a amplitude R da amostra A é 4 e da amostra B é 16 Isto demonstra uma maior variação dos valores extremos na amostra B mas não diz nada sobre o restante das observações da amostra Já para a variância cujo cálculo inclui todas as observações da amostra temos que a variância amostral de A é igual a 167 e a de B igual a 2943 A variância amostral de B é cerca de 18 vezes maior que a de A lembre se que são valores elevados ao quadrado Isto demonstra uma dispersão dos valores das observações na amostra B muito maior que na amostra A Agora se compararmos o desvio padrão amostral recordando igual à raiz quadrada da variância o da amostra A é 129 e o de B é igual a 542 Este valor nos apresenta uma medida de dispersão mais próxima dos valores encontrados nas observações principalmente quando os comparamos com a amplitude R A amplitude da amostra A diferença entre o maior e menor valor da amostra é 4 e o desvio padrão amostral raiz quadrada da média do quadrado dos desvios dos elementos em relação à média é 129 Para a amostra B a amplitude é 16 e o desvio padrão amostral é 542 Se fossemos comparar com a variância amostral de B 2943 teríamos um valor superior a diferença entre o maior e o menor valor das observações na amostra B 3 Graus de liberdade de um conjunto de valores representa a quantidade de elementos que podem ter seus valores alterados após terem sido impostas certas restrições a todos os valores Por exemplo se a soma de cinco valores é igual a 100 podemos definir os valores de quatro deles mas o quinto deve obedecer a restrição da soma ser igual a 100 Então temos quatro graus de liberdade para a definição dos cinco valores ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 13 Mas de qualquer forma ambas são medidas de dispersão que indicam o quanto os valores observados se distanciam de sua média No exemplo dado esta comparação ficou mais fácil pois as médias das duas amostras são 99 Com as médias iguais o maior desvio padrão amostral indica a maior dispersão de valores E em casos nos quais as médias são diferentes O desvio padrão e a variância são bastante afetados pela magnitude dos dados e portanto pode não oferecer uma medida consistente quando desejamos comparar amostras com médias diferentes como no exemplo da Tabela 2 Nela são apresentadas quatro amostras com médias bem distintas entre si Como avaliar qual das amostras possui observações mais coesas Amostra 𝑋 𝑆2 𝑆 C 1059 253 159 D 4285 2642 514 E 10821 14161 1190 F 32188 25632 1601 Tabela 2 Média variância e desvio padrão de amostras Neste caso a utilização do Coeficiente de variação CV apresentase como a solução ideal pois ele oferece uma medida de comparação para a variabilidade de diferentes conjuntos de dados e é definido como a razão entre o desvio padrão e a média tanto amostrais quanto populacionais 𝐶𝑉 𝑠 𝑥 100 𝑜𝑢 𝐶𝑉 𝜎 𝜇 100 Eq 5 Assim para verificarmos qual das amostras possui maior uniformidade entre os valores de suas observações menor dispersão dos valores em torno da média basta acrescentar o coeficiente de variação à Tabela 2 Assim na Tabela 3 podemos ver que a amostra F possui o menor coeficiente de variação 5 indicando maior concentração das observações em torno da média Por sua vez a variância amostral é de 25632 mostrando que tanto a variância quanto o desvio padrão são afetados pela magnitude dos dados A amostra mais dispersa para a qual estes valores mais se afastam de sua média é a amostra C cujo coeficiente de variação é 15 Amostra 𝑋 𝑆2 𝑆 CV C 1059 253 159 150 D 4285 2642 514 120 E 10821 14161 1190 110 F 32188 25632 1601 50 Tabela 3 Coeficiente de variação de amostras O Coeficiente de Assimetria é outra medida de dispersão Ele é usado para distinguir as distribuições assimétricas Um resultado negativo indica que a cauda do lado esquerdo da distribuição de frequência é maior que a do lado direito Um resultado positivo para o coeficiente de assimetria indica que a cauda do lado direito é maior que a do lado esquerdo Um valor nulo indica que os valores são simétricos ou seja distribuídos de maneira relativamente iguais em ambos os lados da média o que não implica necessariamente em uma distribuição simétrica A Figura 4 ilustra o coeficiente de assimetria ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 14 Figura 4 Coeficiente de assimetria O coeficiente de assimetria b1 é calculado pela fórmula 𝑏1 1 𝑛 𝑥𝑖 𝑥 𝑠 3 Eq 6 A Curtose b2 é uma medida de dispersão que caracteriza o achatamento da curva de distribuição de frequência e é dada pela fórmula 𝑏2 1 𝑛 𝑥𝑖 𝑥 𝑠 4 3 Eq 7 Se 𝑏2 0 então a função de distribuição tem o mesmo achatamento da distribuição normal4 e a função é chamada de mesócurtica Se 𝑏2 0 a função de distribuição possui a curva da função de distribuição mais afunilada com um pico mais alto do que a distribuição normal e é chamada de leptocúrtica Se 𝑏2 0 a função de distribuição é mais achatada do que a distribuição normal e é chamada de platicúrtica As curvas que ilustram a curtose são mostradas na Figura 5 Figura 5 Curtose Fonte PORTALACTION 2020 4 A distribuição normal é uma das distribuições de probabilidade mais utilizadas para modelar fenômenos naturais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 15 33 Gráficos Tão importante quanto conhecer as medidas que representam uma amostra ou população é a forma de apresentação destes valores ou seja como apresentar estas informações ao leitor Os gráficos estatísticos são formas de apresentação dos dados estatísticos cujo objetivo principal é transmitir ao público de forma simples clara e objetiva as informações relativas ao fenômeno em estudo Diversos tipos de gráficos podem ser utilizados e dentre estes destacamse os histogramas diagramas de Pareto boxplots e gráficos de linha Histograma um histograma é um gráfico de barras verticais ou horizontais que representam uma distribuição de frequência de dados agrupados O histograma pode representar a frequência absoluta número de observações por classe frequência relativa percentual de observações da classe em relação ao total de observações ou densidade frequência relativa dividida pela amplitude do intervalo de classes A construção de um histograma é relativamente simples Vamos ver como construílo com base no exemplo a seguir Exemplo 1 Os testes de resistência a compressão de 100 corpos de prova de concreto de ultra alta resistência são apresentados na Tabela 4 Monte o histograma relativo ao teste Resistência a compressão Concreto de ultra alta resistência MPa 93 101 99 98 105 101 104 95 94 103 101 102 106 100 95 100 98 104 98 104 97 105 102 99 101 97 103 102 94 101 105 96 101 99 101 101 92 98 102 99 98 101 99 97 101 99 100 98 100 103 100 99 102 101 95 101 100 98 102 100 99 96 101 101 100 98 97 104 100 101 102 97 99 97 98 100 101 99 103 100 96 101 101 100 107 95 99 99 105 94 99 104 98 95 102 103 96 104 102 97 Tabela 4 Dados de resistência a compressão O primeiro passo é identificar a amplitude da amostra Uma rápida leitura dos valores das observações indica o valor de 92 MPa como sendo a menor observação e 107 MPa como a maior observação Assim Amplitude maior valor menor valor 107 92 15 Como os valores das observações são discretos e não contínuos podemos optar por montar um histograma diretamente com os valores observados ou por meio da criação de classes Inicialmente vamos trabalhar diretamente com os valores observados Para isto basta contar a quantidade de observações relativas a cada um dos valores de resistência a compressão conforme exibido na Tabela 5 MPa 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 Qtd 1 1 3 5 4 7 10 13 12 18 9 5 6 4 1 1 Tabela 5 Quantidade de observações Com base nos valores observados e na frequência de cada valor quantidade de vezes que ele aparece podemos facilmente montar o histograma Figura 6 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 16 Figura 6 Distribuição de Frequência Uma outra forma mais adequada quando tratamos de valores contínuos é a criação de classes ao invés de nos utilizarmos dos próprios valores Neste caso o primeiro passo é a determinação do número de classes a ser usado Um dos métodos mais utilizados para a determinação do número de classes é a Regra de Sturges5 baseada no número de observações e dada pela equação 𝐾 1 33 𝑙𝑜𝑔10 𝑛 Eq 8 É importante ressaltar que o número de classes não é um parâmetro rígido Ele pode ser adequado para melhor representar os valores em função de Na medida do possível as classes deverão ter amplitudes iguais Escolher os limites dos intervalos entre duas possíveis observações O número de classes não deve ultrapassar 20 Escolher limites de classes que facilitem o agrupamento Para o nosso exemplo o número de classes K resultado da aplicação da fórmula é 76 Assim podemos escolher o número mais próximo que facilite a organização dos dados Como a amplitude é 15 o número de classes ideal seria 8 o que resultaria na representação mostrada na Tabela 6 MPa 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 Qtd 2 8 11 23 30 14 10 2 Tabela 6 Distribuição de frequência classes A representação utilizada 92 93 pode utilizar colchetes eou parêntesis Colchetes indicam a inclusão dos limites 92 𝑥 93 Parêntesis indicam a exclusão dos limites Assim a expressão 92 93 indica 92 𝑥 93 Já a representação 92 93 indicaria a inclusão do limite inferior 92 e a exclusão do limite superior 93 Assim a classe conteria todas as observações maiores ou iguais a 92 e menores que 93 mais adequado a valores contínuos O histograma é mostrado na Figura 7 5 Regra enunciada em 1926 pelo matemático alemão Herbert Sturges ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 17 Figura 7 Distribuição de frequência por classes Diagrama de Pareto O diagrama de Pareto é um gráfico de barras que ordena as frequências das ocorrências da maior para a menor permitindo a priorização dos problemas Contém ainda a frequência acumulada Este diagrama é baseado no Princípio ou Lei de Pareto também conhecido como princípio 8020 que afirma que para muitos fenômenos 80 das consequências advém de 20 das causas Figura 8 Diagrama de Pareto Como exemplo podemos construir um Diagrama de Pareto para exibir a quantidade e causa de defeitos por lote de peças recebidas conforme exibido na Figura 8 Pelo Diagrama de Pareto podemos visualizar que as três primeiras causas de defeitos são responsáveis por 84 do total de defeitos encontrados nas peças e devem ser o principal alvo de ações de correção ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 18 Boxplot Um dos gráficos preferidos e mais usados na comparação entre amostras diferentes e na exibição a distribuição empírica das observações de uma amostra Seu formato é exibido na Figura 9 O boxplot é montado pela junção de cinco medidas da amostra ou população O primeiro quartil Q1 o segundo quartil ou mediana Q2 o terceiro quartil Q3 e dois limites superior e inferior dados pelas equações 𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑄1 15 𝑥 𝑄3 𝑄1 Eq 9 𝐿𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑄3 15 𝑥 𝑄3 𝑄1 Eq 10 As observações valores que estiverem fora destes limites são considerados outliers valores discrepantes e são representados por asteriscos Figura 9 Gráfico Boxplot Os boxplot são muito usados como gráfico de comparação entre amostras como mostra o próximo exemplo Exemplo 2 Foram testadas cinco composições diferentes para obtenção de concreto com adição de resíduos de construção e demolição RCD Para cada composição foram montados 12 corpos de prova A Tabela 7 apresenta os resultados da resistência a compressão dos corpos de prova Composições a b c d e Corpos de prova 1 5439 3189 4170 4235 5045 2 5067 3016 4599 4323 4697 3 4340 3528 3820 4138 4170 4 5361 3952 4733 4763 4095 5 5288 3377 4171 3346 4452 6 5171 3637 3404 4474 4600 7 5504 3369 4042 2597 4515 8 5252 3598 3657 4757 5287 9 4453 3979 4149 2260 4350 10 4736 3521 3680 3825 4782 11 4476 3378 3826 2640 4211 12 5003 2500 4562 4355 3000 Tabela 7 Resistência a compressão dos corpos de prova ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 19 Para montar um boxplot e comparar as amostras basta calcular as cinco medidas limites superior e inferior primeiro quartil segundo quartil ou mediana e terceiro quartil para cada uma das amostras O gráfico resultante é o mostrado na Figura 10 Figura 10 Gráfico com os boxplots de cada amostra Analisando o gráfico podese perceber que a amostra A possui os maiores valores de resistência à compressão e a amostra B os menores A amostra D possui os valores mais dispersos Podese também identificar a presença de outliers valores discrepantes nas amostras B e E Gráficos de Linha Os gráficos de linha são montados a partir de um par de ordenadas x e y Utilizando os dados do Exemplo 2 podemos montar um gráfico de linha contendo o valor y para cada observação x de cada amostra das composições A E O gráfico é mostrado na Figura 11 Figura 11 Gráfico de linhas 000 1000 2000 3000 4000 5000 6000 1 2 3 4 5 6 7 8 9 10 11 12 Resistência à compressão Observações da amostra a b c d e ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 20 A escolha do tipo de gráfico está vinculada ao tipo de informação que queremos transmitir ao leitor Um boxplot é muito mais eficiente para comparação de valores de amostras informação a ser transmitida do que o gráfico de linhas Agora se a intenção for exibir tendências ou comportamento de uma variável x em função de outra variável y o gráfico de linha pode ser muito mais adequado Exemplo 3 Neste exemplo desejamos conhecer o comportamento da resistência a compressão em função da variação do percentual de adição de resíduo de construção e demolição Os resultados de resistência à compressão em função do percentual de adição são mostrados na Tabela 8 adição 0 5 10 15 20 25 30 35 40 45 50 55 MPa 5287 5045 4782 4697 4600 4515 4452 435 4211 417 4095 3000 Tabela 8 Resistência a compressão dos elementos da amostra O gráfico de linha da Figura 12 exibe o comportamento da resistência a compressão em função do percentual de adição Figura 12 Gráfico de linha comportamento da resistência a compressão O gráfico da Figura 12 ilustra perfeitamente a variação da resistência à compressão em função do aumento da adição de RCD A escolha do tipo de gráfico mais adequado a informação é fundamental para que a transmissão desta informação seja realizada completamente Com isto encerramos esta breve introdução a estatística descritiva na qual apenas os principais conceitos e medidas foram apresentados É importante frisar que tudo o conteúdo exposto até o momento é utilizado para caracterizar os valores que foram mensurados a amostra da população Estes valores e medidas não podem ser utilizados para caracterizar a população a não ser quando a amostra seja toda a população um caso extremamente raro de ser obtido Para transferirmos as conclusões de um estudo de amostras para a população que originou a amostra usamos a Inferência um ramo da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de valores representativo da população A inferência estatística faz proposições sobre a população usando dados da amostra obtida por um dos métodos de amostragem descritos Dada uma hipótese sobre a população para a qual nós queremos fazer inferências a inferência estatística consiste em escolher um modelo ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 21 estatístico adequado ao processo que gerou os dados e a partir deste modelo deduzir as proposições conclusões Se por um lado a estatística descritiva detalha precisamente os dados analisados uma vez que as medidas são obtidas a partir destes mesmos dados e somente deles por outro a inferência estatística está sempre associada à uma margem de erro risco entendida como a probabilidade de que as conclusões obtidas a partir da análise da amostra sejam diferentes caso toda a população fosse sujeita ao mesmo procedimento de análise ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 22 4 O SOFTWARE RSTUDIO E A ESTATÍSTICA DESCRITIVA O uso da estatística em trabalhos acadêmicos foi em grande medida facilitado pelo desenvolvimento dos softwares estatísticos Os cálculos de medidas da estatística descritiva podem ser efetuados até mesmo em planilhas Excel inclusive alguns cálculos mais avançados de Inferência Mas apesar do MS Excel ser de conhecimento e domínio da maior parte dos estudantes existem softwares específicos para estatística e o que iremos abordar é o software R6 e o RStudio7 O software R é basicamente uma interface padrão texto para a linguagem R uma linguagem de programação multiparadigma dinâmica fracamente tipada e voltada à manipulação análise e visualização de dados Já o RStudio é um software de interface para o R com menus e atalhos padrão Windows que tornam o uso do R mais simples e amigável Ambos são softwares de plataforma aberta em contínuo desenvolvimento e atualização gratuitos e possuem versões compiladas para Windows Mac e Linux motivo pelo qual são adotados como ferramenta estatística por um grande número de pesquisadores Existem diversos tutoriais e manuais sobre o uso destes softwares disponíveis na internet que podem ser usados como fonte de informações e para treinamento A abordagem sobre estes softwares adotada neste texto é restrita a explicações básicas sobre os comandos e funções necessárias para a compreensão e execução dos exemplos e exercícios apresentados O primeiro exercício é claro a instalação do software R e do RStudio use a internet procureo e instaleo É fácil Após a instalação execute o RStudio A Figura 13 mostra o layout da tela inicial do RStudio versão 362 Figura 13 Software RStudio 6 R Core Team 2019 R A language and environment for statistical computing R Foundation for Statistical Computing Vienna Austria URL httpswwwRprojectorg 7 RStudio Team 2019 RStudio Integrated Development for R RStudio IncBoston MA URL httpwwwrstudiocom ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 23 RStudio e seu uso A primeira informação necessária a respeito do RStudio é a de que ele usa notação inglesa para numeração ou seja o separador de decimais é o ponto e não a vírgula como nós usamos A segunda é que apesar da interface a maior parte dos comandos e funções são digitadas em janela específica ainda que o RStudio possua alguns atalhos Como pode ser visto na Figura 13 o RStudio possui três janelas A da esquerda é a janela de comandos com três abas console terminal e jobs A janela superior direita possui três abas environment history e connections e a inferior direita possui cinco abas files plot packages help e viewer O uso destas janelas e abas será abordado quando necessário Por enquanto vamos usar a janela esquerda console para entrada dos comandos Para iniciarmos veremos como citar o RStudio em trabalhos acadêmicos Digite citation na linha de comando O resultado será citation To cite R in publications use R Core Team 2019 R A language and environment for statistical computing R Foundation for Statistical Computing Vienna Austria URL httpswwwRprojectorg No capítulo anterior aprendemos sobre as medidas de posição e dispersão Vamos iniciar o uso do RStudio executando cálculos com estas medidas Para iniciarmos em primeiro lugar precisamos conhecer como entrar com dados valores no software Há diversas maneiras8 digitação direta leitura de arquivos contendo dados em diversos formatos importação As mais usuais são a digitação e a leitura de arquivos 1 Entrada de dados com o comando c o comando c corresponde a concatenete Seu uso é bem simples Especifique um nome para o vetor que conterá os dados e relacione os dados a serem inseridos no vetor Lembrese o separador de decimais é o ponto e a virgula separa os valores Para visualizar o conteúdo do vetor basta digitar o nome do vetor e enter amostraa c9798999999100101 amostraa 1 97 98 99 99 99 100 101 O comando summary exibe um sumário com as estatísticas de posição relativas ao conteúdo do vetor ou de qualquer outro arranjo como visto a seguir summaryamostraa Min 1st Qu Median Mean 3rd Qu Max 970 985 990 990 995 1010 O comando exibe o valor mínimo primeiro quartil mediana segundo quartil média aritmética terceiro quartil e valor máximo 2 Outra forma de entrada de dados é via teclado com o comando scan Este comando abre a digitação de valores que é encerrada digitandose enter duas vezes consecutivas 8 Para mais informações consulte os tutoriais disponíveis na internet sugestão httpwwwlegufprbrpaulojusembrapaRembrapaRembrapase7html ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 24 amostrab scan 1 90 2 95 3 97 4 97 5 99 6 103 7 105 8 106 9 Read 8 items summaryamostrab Min 1st Qu Median Mean 3rd Qu Max 900 965 980 990 1035 1060 3 O terceiro modo é o uso do comando readxxxx Com este comando é possível ler dados como dbf arquivos DBASE csv separado por virgulas e diversos outros formatos O formato a ser lido é indicado como complemento do comando readcsv2 O formado csv pode ser gravado diretamente a partir de planilhas MS Excel Apenas um cuidado existem três formatos csv no MS Excel separado por vírgulas Macintosh e MSDOS Usaremos o primeiro separado por virgulas juntamente com o comando readcsv2 pois desta forma o RStudio realiza a conversão de virgula para ponto decimal Para este exemplo usaremos os dados que foram usados como base para a construção da Tabela 29 amostras c d e f e na sintaxe do comando indicaremos a abertura da janela para seleção do arquivo filechoose e a existência de cabeçalho para os dados header TRUE ou header T cdef readcsv2filechoose headerTRUE cdef c d e f 1 1229 4315 10563 34386 2 1072 4540 11970 29981 3 973 4379 9993 30324 4 916 5147 9945 32555 5 1093 3861 11577 30518 6 1179 4490 9695 29813 7 1052 4529 8631 30030 8 958 4404 10836 29890 9 980 4270 10176 32334 10 1114 4687 11193 32501 11 861 4959 8568 35711 12 938 4199 9891 32644 13 1211 3543 10343 29976 14 997 4813 12239 32204 15 997 4843 10832 32875 16 1015 4719 11343 31230 17 1022 4117 8840 34483 18 1120 4630 10574 30846 19 1244 3262 9892 32063 20 1235 5556 10315 33969 summarycdef c d e f Min 8610 Min 3262 Min 8568 Min 2981 1st Qu 9783 1st Qu4252 1st Qu 9892 1st Qu3025 Median 10370 Median 4509 Median 10329 Median 3213 Mean 10603 Mean 4463 Mean 10371 Mean 3192 3rd Qu11348 3rd Qu4742 3rd Qu10925 3rd Qu3270 Max 12440 Max 5556 Max 12239 Max 3571 9 Como os números foram gerados aleatoriamente em uma distribuição normal haverá diferenças nos resultados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 25 O comando summarycdef exibe o sumário dos quatro vetores carregados incluindo a média Exercício 1 Procure os comandos para cálculo do desvio padrão e do coeficiente de variação e executeos para os vetores c d e f acima Como o boxplot é um dos gráficos mais importantes na estatística descritiva abordaremos sua construção no RStudio Sua construção é feita a partir do comando boxplot e os argumentos serão os vetores Como os vetores foram inseridos em uma única variável cdef usaremos o para identificalos o parâmetro especifica uma única variável em um vetor Aqui devido a diferença de grandeza entre os vetores mostramos apenas os vetores c e d Figura 14 boxplotcdefccdefd Figura 14 Gráfico Boxplot das amostras c e d Se quisermos acrescentar cores basta complementar o comando boxplot Figura 15 boxplotcdefccdefd colcyelloworange Figura 15 Gráfico Boxplot colorido das amostras c e d Exercício 2 Pesquise o comando boxplot e relacione as opções de configuração e edição do comando Este capítulo foi uma introdução preliminar ao uso do software R e RStudio na resolução de problemas estatísticos É apenas uma pequena amostra de como ele funciona de como interagimos com ele e de sua capacidade Durante os capítulos seguintes o RStudio será utilizado para a demonstração das funções estatísticas No entanto não é objetivo deste texto o aprendizado dos comandos e funções do R Este é um tema extremamente vasto e para o qual existem diversos bons tutoriais Alguns destes tutoriais serão indicados em notas de rodapé ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 26 5 MODELOS PROBABILISTICOS E DETERMINISTICOS Todas as vezes que se estudam fenômenos de observação o primeiro passo é entender o próprio fenômeno e distinguir o modelo matemático que melhor o explique Os fenômenos de observação assim como os modelos matemáticos utilizados para explicar esses fenômenos podem ser divididos em determinísticos e probabilísticos ou aleatórios 51 Modelos Deterministicos Os fenômenos determinísticos conduzem sempre a um mesmo resultado quando as condições iniciais são as mesmas ou seja seguem leis determinísticas e seu resultado é obtido por meio destas leis Como exemplo podemos tomar o tempo de queda livre de um corpo Mantidas as mesmas condições as variações obtidas para o valor do tempo de queda livre de um corpo são extremamente pequenas e se ocorrem normalmente tem origem na imprecisão dos mecanismos de medição Os fenômenos aleatórios são aqueles cujo resultado mesmo em condições normais de experimentação variam de uma observação para outra Estes fenômenos não possuem uma lei ou regra que determine seus resultados ou se possuem esta lei ou regra não é conhecida impossibilitando a previsão de um resultado Assim mesmo que haja um grande número de repetições do fenômeno os resultados não são previsíveis Por exemplo podemos considerar os seguintes experimentos conduzidos como fenômenos aleatórios Lançamento de uma moeda Lançamento de um dado Lançamento de duas moedas Retirada de uma carta de um baralho completo de 52 cartas Considerando que os resultados dos experimentos aleatórios estão sujeitos ao acaso ou seja são experimentos ou situações em que deve ocorrer um dentre os vários resultados possíveis a análise dos resultados dos experimentos relacionados acima revela que Cada experimento pode ser repetido indefinidamente sob as mesmas condições Não se conhece em particular o valor do resultado do experimento a priori porém podese descrever todos os possíveis resultados Quando o experimento for repetido um grande número de vezes surgirá uma regularidade Os modelos que estudam os fenômenos aleatórios são chamados de probabilísticos pois apesar de não podermos prever o resultado podemos determinar a priori a probabilidade de ocorrência de um determinado resultado 52 Modelos Probabilísticos Podemos então conceituar Modelo Probabilístico como sendo modelos construídos a partir de certas hipóteses sobre o problema que está sendo estudado Os modelos probabilísticos são constituídos por duas etapas Da identificação de todos os resultados possíveis de serem obtidos De uma certa lei ou regra que nos informa o quão provável é cada resultado ou grupo de resultados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 27 Da primeira etapa surge o conceito de Espaço Amostral que é o conjunto de todos os resultados possíveis do experimento aleatório e pode ser classificado em Espaço amostral discreto contém um número finito de possibilidades ou uma sequência infinita com tantos elementos quanto são os números inteiros Espaço amostral contínuo contém um número infinito de possibilidades igual ao número de pontos em um segmento de reta Outro conceito importante é o de Evento Evento é um conjunto de resultados do espaço amostral Por definição o evento é sempre um subconjunto do espaço amostral Por exemplo para o lançamento de um dado podemos considerar o evento PAR como a ocorrência de um número par 2 4 6 e o evento IMPAR como a ocorrência de um número ímpar 1 3 5 Como estamos tratando de modelos probabilísticos a determinação da lei ou regra que nos informa o quão provável é cada resultado ou grupo de resultados evento citada na segunda etapa do modelo probabilístico é nosso próximo objetivo 53 Probabilidade A lei que rege o modelo probabilístico é baseada no conceito de probabilidade Probabilidade é um valor entre 0 zero e 1 um associada à ocorrência de um determinado evento A soma das probabilidades de todos os resultados possíveis do experimento deve ser sempre igual a 1 Para entendermos melhor o conceito de probabilidade vamos analisar os seguintes exemplos Ocorrência de um número par no lançamento de um dado Evento A 2 4 6 no Espaço amostral 1 2 3 4 5 6 O Evento A possui 3 ocorrências num total de 6 ocorrências A 3 6 05 Ocorrência de um número menor que 3 no lançamento de um dado Evento B 1 2 no Espaço amostral 1 2 3 4 5 6 O Evento A possui 2 ocorrências num total de 6 ocorrências B 2 6 033 Ocorrência do número 6 Evento C 6 no Espaço amostral 1 2 3 4 5 6 O Evento C possui 1 ocorrência num total de 6 ocorrências C 1 6 017 Ocorrência de um número maior que 6 Evento D no Espaço amostral 1 2 3 4 5 6 O Evento D possui zero ocorrências num total de 6 ocorrências D 0 6 0 Dos exemplos acima podemos entender o Princípio da Equiprobabilidade usado no cálculo da probabilidade de um evento Ele determina que quando todos os resultados possíveis são igualmente prováveis isto é quando as características do experimento sugerem N possíveis resultados todos com igual probabilidade de ocorrência a probabilidade de um evento A contendo NA resultados pode ser definida por 𝑃𝐴 𝑁𝐴 𝑁 Eq 11 Outro princípio usado para cálculo da probabilidade é o Princípio da Independência Dois eventos são independentes quando a ocorrência de um deles não altera a probabilidade da ocorrência do outro Da mesma forma vamos analisar o princípio da independência a partir dos seguintes exemplos Qual a probabilidade de lançar um dado duas vezes e em ambas obtermos números pares Considerando o Espaço Amostral EA 1 2 3 4 5 6 e os eventos desejados E1 E2 2 4 6a probabilidade P E1 x E2 PE1 x PE2 05 x 05 025 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 28 Numa linha de montagem são produzidas bolas de bilhar em lotes de 10 bolas sendo que 2 são vermelhas 2 são verdes 2 são azuis 2 são amarelas e 2 brancas Qual a probabilidade de em um experimento aleatório sem reposição retirarmos 2 bolas brancas Para a primeira retirada temos Espaço Amostral N 10 Evento Bola Branca NA 2 P1 Probabilidade de retirada da primeira bola branca NA N 2 10 1 5 02 Com a retirada da primeira bola branca o Espaço amostral N foi reduzido de 1 e o número de bolas brancas também Portanto Espaço Amostral N 9 Evento Bola Branca NA 1 P2 Probabilidade de retirada da segunda bola branca NA N 1 9 011 Então P P1 P2 15 x 19 145 0022 Teoria da Contagem Dados dois eventos o primeiro dos quais pode ocorrer de m maneiras distintas e o segundo pode ocorrer de n maneiras distintas então os dois eventos conjuntamente podem ocorrer de mn maneiras distintas O cálculo da probabilidade de um evento reduzse a um problema de contagem A Análise Combinatória tem fundamental importância para se contar o nº de casos favoráveis e o total de casos por meio dos conceitos e fórmulas de combinações e arranjos A diferença entre combinação e arranjo é a ordem dos elementos No arranjo a ordem de seleção dos elementos é importante e diferencia os resultados na combinação não Suponhamos que temos cinco elementos A B C D e E e os queremos combinar dois a dois Para o arranjo os resultados Portal Action 2020 e Portal Action 2020 são diferentes Já para a combinação como a ordem não importa Portal Action 2020 e Portal Action 2020 representam o mesmo resultado A fórmula para o cálculo de combinação de r elementos p a p é 𝐶𝑟𝑝 𝑟 𝑝 𝑟 𝑝 Eq 12 A fórmula para o cálculo de arranjo de r elementos p a p é 𝐴𝑟𝑝 𝑟 𝑟 𝑝 Eq 13 A primeira informação necessária para saber o número total de casos será dada por combinação ou arranjo é então saber se a ordem de seleção é importante ou não Analisemos os dois exemplos a seguir Na confecção de amostras de concreto para testes de resistência dentre 10 tipos de aditivos diferentes serão escolhidos três para compor cada amostra Quantos conjuntos diferentes de amostras podem ser formados Considere que os aditivos serão adicionados sempre no percentual indicado pelo fabricante Bom temos três aditivos dentre 10 aditivos que serão adicionados juntos durante o processo de produção do concreto Neste caso a ordem não importa então tratase de combinação de 10 elementos três a três 𝐶103 10 3 𝑥 10 3 10 3 𝑥 7 10 𝑥 9 𝑥 8 𝑥 7 3 𝑥 2 𝑥 1 𝑥 7 720 6 120 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 29 Considerando um grupo de dez pessoas quantas chapas diferentes podemos ter para uma eleição de presidente tesoureiro e secretário Neste caso a ordem importa pois representam resultados diferentes a seleção de uma determinada pessoa para presidente tesoureiro ou secretário Tratase de um arranjo de 10 elementos três a três 𝐴103 10 10 3 10 𝑥 9 𝑥 8 𝑥 7 7 10 𝑥 9 𝑥 8 1 720 Outra forma de analisar o arranjo é para o primeiro cargo existem 10 opções para o segundo cargo nove opções e para o terceiro oito opções pois são 10 pessoas e uma mesma pessoa não pode exercer duas ou mais funções então temos 10 x 9 x 8 720 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 30 6 DISTRIBUIÇÃO DE PROBABILIDADES Como visto no item anterior probabilidade é um valor entre 0 zero e 1 um associada à ocorrência de um determinado evento pertencente ao espaço amostral e que a soma das probabilidades de todos os eventos possíveis todos os elementos do espaço amostral é sempre igual a um 1 A distribuição de probabilidades é uma função que associa uma probabilidade a cada resultado numérico de um experimento ou seja fornece a probabilidade associada a cada elemento do espaço amostral Para que possamos compreender como construir uma distribuição de probabilidades são necessários alguns conceitos Variável aleatória Muitos experimentos aleatórios produzem resultados não numéricos Desta forma é conveniente transformar seus resultados em números o que é feito por meio de uma variável aleatória Assim podemos entender uma variável aleatória como uma função que associa um valor numérico a cada ponto do espaço amostral não numérico Assim a variável aleatória é uma variável que tem um valor único para cada resultado aleatório de um experimento A palavra aleatória indica que em geral só conhecemos aquele valor depois do experimento ser realizado Uma vez definida a variável aleatória que irá associar cada elemento do espaço amostral não numérico nosso próximo objetivo é o cálculo das probabilidades correspondentes O conjunto das variáveis e das probabilidades correspondentes é denominado distribuição de probabilidades isto é 𝑃𝑥 𝑥𝑖 𝑝𝑥𝑖 𝑖 1 2 3 𝑛 Eq 14 A distribuição de probabilidades pode ser mais facilmente visualizada por meio de um exemplo Considere o lançamento de três moedas Qual a probabilidade de obtermos zero uma duas e três caras A busca pela resposta iniciase com a construção do espaço amostral relativo ao experimento Cada lançamento pode resultar em cara e coroa São três lançamentos Assim assumindo que CA representa cara e CO coroa os resultados possíveis e equiprováveis temos o espaço amostral exibido na Tabela 9 ESPAÇO AMOSTRAL 1 CA CA CA 5 CO CA CA 2 CA CA CO 6 CO CA CO 3 CA CO CA 7 CO CO CA 4 CA CO CO 8 CO CO CO Tabela 9 Espaço amostral do experimento O espaço amostral do experimento possui oito alternativas Como nosso interesse é a contagem do número de caras vamos enumerar os eventos de zero a três caras no espaço amostral e associar a cada evento sua frequência Tabela 10 Evento Variável aleatória Elemento do espaço amostral Frequência Probabilidade Zero caras 0 8 1 18 Uma cara 1 4 6 e 7 3 38 Duas caras 2 2 3 e 5 3 38 Três caras 3 1 1 18 Tabela 10 Espaço amostral contagem dos eventos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 31 Na Tabela 10 cada evento foi associado a uma variável aleatória número real Xe sendo a quantidade de ocorrências frequência do evento determinada assim como sua probabilidade NAN A Distribuição de probabilidade associada é mostrada na Figura 16 Figura 16 Distribuição de probabilidades do evento As distribuições de probabilidades são probabilidades associadas a uma variável aleatória representando um evento do espaço amostral e temos duas regras de verificação que se aplicam a qualquer distribuição de probabilidades A soma de todos os valores probabilidades de uma distribuição de probabilidades deve ser igual a um 1 100 Assim 𝑃𝑥 1 onde x assume todos os valores do espaço amostral ou eventos possíveis A probabilidade de um determinado evento não pode ser negativa 0 𝑃𝑥 1 para todo x As variáveis aleatórias podem ser discretas ou contínuas No exemplo anterior temos uma variável aleatória discreta pois somente pode assumir os valores zero um dois ou três Uma variável aleatória contínua é aquela que pode assumir inúmeros valores num intervalo de números reais e é medida em uma escala contínua Vamos analisar isto no próximo exemplo Exemplo 4 Considere uma roleta dividida em quatro quadrantes Seja X a variável aleatória que indica o ponto exato em que o ponteiro para de girar como existem infinitos pontos em cada quadrante esta variável aleatória é contínua Qual a probabilidade de o ponteiro parar no primeiro quadrante 0 a 90o Espaço amostral para uma roleta dividida em quatro quadrantes temos um espaço amostral 𝑄1 𝑄2 𝑄3 𝑒 𝑄4 O evento de interesse é o ponteiro parar no primeiro quadrante então E 𝑄1 Disto decorre que PE 14 Se colocarmos em um gráfico representando os quadrantes em graus teremos Figura 17 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 32 Figura 17 Distribuição de probabilidades Vamos aproveitar o gráfico exibido na Figura 17 e analisarmos um pouco as diversas situações que o gráfico pode representar Se tomamos como base os quadrantes teremos quatro quadrantes e uma probabilidade igual de 14 para cada um destes quadrantes O valor da probabilidade no eixo y seria 14 e o eixo x seria numerado de 1 a 4 A área total sob o gráfico corresponderia a 14 x 4 1 Todas as probabilidades são positivas e estão entre 0 e 1 Nesse caso atende as duas regras de verificação Se tomarmos como base os graus de 0o a 360o teremos que o valor da probabilidade no eixo y seria de 1360 e o eixo x seria numerado de 0 a 360 A área total sob o gráfico corresponderia a 1360 x 360 1 Da mesma forma todas as probabilidades são positivas e estão entre 0 e 1 Ok atende as duas regras de verificação Se assumirmos que o ponteiro da roleta pode indicar um valor contínuo no segmento de reta 0 360 teríamos uma variável aleatória contínua O valor da probabilidade no eixo y não seria possível de ser determinado uma vez que o eixo x possui infinitos valores mas para ser uma distribuição de probabilidades a soma de todas as probabilidades continua sendo igual a 1 e todas as probabilidades estariam entre 0 e 1 A última situação retratada acima mostra que apesar de termos uma variável aleatória contínua infinitos valores as regras das distribuições de probabilidades continuam sendo válidas e podemos nos utilizar delas para o cálculo de probabilidades Vejamos o exemplo10 a seguir Exemplo 5 A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada por uma distribuição Uniforme no intervalo 0 7 Qual é a probabilidade de que uma pane venha a ocorrer nos primeiros 800 metros E qual a probabilidade de que ocorra nos 3 km centrais da rede A distribuição de probabilidade seria Figura 18 Figura 18 Distribuição de probabilidades 10 Reproduzido de httpwwwportalactioncombrprobabilidades61distribuicaouniforme ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 33 A função correspondente a curva chamada de função densidade de probabilidade é dada por 𝑓𝑥 1 7 𝑠𝑒 0 𝑥 7 e zero caso contrário Assim a probabilidade de uma pane ocorrer nos primeiros 800 metros é 𝑃𝑥 08 𝑓𝑥𝑑𝑥 08 0 7 08 0 01142 Já a probabilidade da pane ocorrer nos 3 km centrais seria igual a probabilidade de ocorrência nos 5 km iniciais menos a probabilidade de ocorrência nos 2 km iniciais ou seja 𝑃2 𝑥 5 𝑓𝑥𝑑𝑥 𝑃𝑥 5 𝑃𝑥 2 5 7 2 7 3 7 5 2 04285 Assim não interessa qual seja o formato da curva associada a distribuição de probabilidades dada pela função densidade de probabilidades FX Desde que o espaço amostral seja representado no eixo x a probabilidade de um evento pode ser determinada pela relação entre a área total delimitada pela curva e o eixo x e a área delimitada correspondente ao evento A Figura 19 ilustra o exemplo onde a probabilidade do evento a b é dada pela razão entre a área delimitada pelo evento Ea b e a área total Figura 19 Probabilidade do evento a b Desta forma conseguimos transformar um problema estatístico em um cálculo matemático ou seja para descobrirmos a probabilidade de um certo evento 𝑃𝐸𝑎𝑏 basta montarmos a distribuição de frequência da variável em estudo deduzirmos a equação de sua curva dada pela função densidade de probabilidade 𝐹𝑋 calcularmos a área total sob a curva de 0 a N e a área correspondente ao evento 𝐸𝑎𝑏 A equação correspondente é 𝑃𝐸𝑎𝑏 𝐹𝑋 𝑏 𝑎 𝐹𝑋 𝑁 0 Eq 15 Resolvido Bom não Primeiro porque teríamos que deduzir a equação correspondente a função densidade de probabilidade e isto pode não ser tão simples assim mesmo que tenhamos um espaço amostral que possua um tamanho suficiente quantidade de elementos que o permita Dependendo da quantidade de valores resultados de amostras elementos testados isto pode ser impossível Poderíamos sim estimar com certo grau de precisão o tipo de função de densidade de probabilidade a curva real seguiria e a partir desta estimativa fazer aproximações ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 34 Por isto uma das primeiras atividades para a Inferência é a identificação do Modelo Probabilístico a ser usado O modelo probabilístico é associado ao tipo de distribuição de probabilidades que o espaço amostral em estudo segue Existem diversos tipos de modelos probabilísticos sendo que a distribuição uniforme discreta constante é a que foi utilizada nos dois exemplos anteriores Vamos ver a seguir os tipos de Modelos Probabilísticos mais comuns Os modelos probabilísticos podem ser divididos em dois tipos básicos os discretos baseados em variáveis aleatórias discretas e os modelos contínuos baseados em variáveis aleatórias contínuas A diferença entre eles é o valor que suas variáveis aleatórias podem assumir discretos ou contínuos Os modelos apresentados a seguir são modelos discretos 61 Distribuição Uniforme Discreta O modelo de distribuição uniforme discreta ocorre quando todos os elementos de um espaço amostral definido são igualmente prováveis Este é o modelo que foi utilizado nos exemplos anteriores Sua função de distribuição de probabilidades pode ser vista como uma reta Figura 20 Figura 20 Distribuição de Probabilidades Uniforme Discreta 62 Distribuição de Bernoulli O modelo de distribuição de Bernoulli é a distribuição mais simples de probabilidades Corresponde a um único experimento com resultados iguais a sucesso ou fracasso ou outras variantes como sim ou não cara ou coroa Seu espaço amostral corresponde a Portal Action 2020 onde o valor um corresponde ao sucesso com probabilidade p e o valor zero ao fracasso com probabilidade q 1 p Figura 21 O experimento é dito justo quando p q 05 ambos os eventos possuem a mesma probabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 35 Figura 21 Distribuição de Bernoulli 63 Distribuição binomial Suponhamos que sejam realizados N experimentos cuja distribuição individual é a de Bernoulli ou seja uma série de experimentos cujo resultado admite apenas duas classificações sucesso ou fracasso masculino ou feminino cara ou coroa etc Seja X uma variável aleatória associada ao número de sucessos 1 obtidos nas N realizações do experimento Se a probabilidade de sucesso de cada um dos experimentos individuais é p e a de fracasso é q q 1 p então dizemos que X possui uma distribuição binomial X Bin Np Para entendermos melhor examinemos o seguinte exemplo Exemplo 6 Uma linha de montagem ininterrupta produz bolas pretas e brancas sendo a probabilidade de produção de bolas pretas quatro vezes maior que a de bolas brancas Em 10 eventos independentes de retirada uma bola para compor uma amostra de 10 bolas qual a probabilidade de obtermos três bolas pretas Se a probabilidade de retirarmos uma bola preta é quatro vezes maior vamos assumir que existem quatro vezes mais bolas pretas que brancas ou seja a cada cinco bolas quatro são pretas e uma é branca Assim podemos considerar que cada retirada de uma bola preta ou branca para compor a amostra de 10 bolas como um experimento de Bernoulli onde p bola preta sucesso 08 e q 1 p 02 bola branca fracasso Para a segunda retirada experimentos independentes a probabilidade é a mesma Assim a probabilidade de sucesso em duas retiradas k 2 é igual a p2 08 x 08 ou pk A probabilidade de dois fracassos é igual a 1 p x 1 p ou 1 p2 e generalizando 1 pk A probabilidade de um evento amostral com k sucessos e n k fracassos é dada pela equação 𝑝𝑘1 𝑝𝑛𝑘 Eq 16 A equação representa a probabilidade de qualquer evento do espaço amostral com k sucessos e n k fracassos Assim temos que determinar quantas combinações diferentes podemos obter de uma amostra de 10 bolas combinandoas três a três Para relembrar a equação correspondente Eq 12 é 𝐶𝑁𝑘 𝑁 𝑘 𝑁 𝑘 Assim para k 0 1 2 N ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 36 𝑃𝑋 𝑘 𝐶𝑁𝑘 𝑝𝑘1 𝑝𝑛𝑘 Então para três k sucessos bola preta em uma amostra de 10 bolas N com p 08 𝑃3 10 3 10 3 083𝑥1 08103 120 𝑥 0512 𝑥 00000128 00007864 Então supondo agora que a probabilidade de retirada de bolas brancas é igual a 30 p 03 e sendo k o número de bolas brancas presentes na amostra construa o gráfico de distribuição de probabilidades Pk A equação é a mesma então 𝑝𝑘 0 1 10 𝐶10𝑘 𝑝𝑘 1 𝑝10𝑘 Montando uma tabela da probabilidade pk e probabilidade acumulada Fkem função do número de sucessos k temos os resultados apresentados na Tabela 11 e o gráfico da distribuição de probabilidades correspondente é apresentado na Figura 22 k 𝐶10𝑘 pk Fk 0 1 0028248 0028248 1 10 0121061 0149308 2 45 0233474 0382783 3 120 0266828 0649611 4 210 0200121 0849732 5 252 0102919 0952651 6 210 0036757 0989408 7 120 0009002 0998410 8 45 0001447 0999856 9 10 0000138 0999994 10 1 0000006 1 Tabela 11 Probabilidades e Probabilidades acumulada Figura 22 Distribuição Binomial A distribuição de Bernoulli é um caso especial da distribuição binomial com n 1 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 37 64 Distribuição de Poisson A distribuição de Poisson é uma distribuição de probabilidade que expressa a probabilidade de uma série de eventos ocorrer num certo intervalo de unidade de medida unidade de tempo volume área etc com a restrição de que estes eventos ocorrem independentemente de quando ocorreu o último evento A distribuição de Poisson é uma forma limite da distribuição binomial quando N Ꝏ e p 0 e é usada em casos que envolvem contagem e cuja probabilidade de ocorrência é proporcional ao intervalo de amostragem como por exemplo em número de defeitos em peças erros tipográficos por página impressa mortes por acidente por ano em uma cidade etc Neste caso a variável aleatória é discreta número de ocorrências e o espaço amostral é contínuo tempo área A distribuição de Poisson é caracterizada pelo parâmetro λ derivado de p e q da distribuição binomial que é traduzido como a taxa média de ocorrência por unidade de medida Sua equação é 𝑃𝑥 𝑒𝜆𝜆𝑥 𝑥 Eq 17 Vejamos como fica o gráfico de distribuição de probabilidades de Poisson a partir do próximo exemplo Exemplo 7 Para um projeto de estrada de rodagem uma empresa adquiriu um maquinário capaz de executar 1 km de estrada por dia A especificação do equipamento admite a ocorrência de 00001 defeitos por metro quadrado de estrada Sabendose que o edital prescreve cada trecho de estrada com comprimento de 10 km e 12 metros de largura monte a distribuição de probabilidade correspondente e indique a probabilidade de ocorrência de três defeitos por km linear de estrada Em primeiro lugar devemos calcular o λ tendo como base o km linear de estrada Temos a ocorrência de 00001 defeitos por m2 Então para o km linear temos 12 largura x 1000 comprimento x 00001 12 ocorrências por km linear de estrada equivalente a 12000 m2 de estrada O resultado do cálculo com a aplicação da equação 17 é mostrado na Tabela 12 Qtd defeitos Px 0 030119 1 036143 2 021686 3 008674 4 002602 5 000625 6 000125 7 000021 8 000003 9 000000 10 000000 Tabela 12 Cálculo das probabilidades de defeitos por km de estrada A probabilidade de ocorrência de 3 defeitos por km linear de estrada seria aproximadamente 8674 O gráfico da distribuição de probabilidades é mostrado na Figura 23 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 38 Figura 23 Distribuição de Poisson 65 Distribuição Geométrica Consideremos uma série de experimentos baseados na distribuição de Bernoulli fracasso ou sucesso repetidos até que se obtenha o primeiro sucesso A probabilidade de sucesso é p e a de fracasso é q 1 p Quantos experimentos serão necessários até que se obtenha sucesso O espaço amostral típico é dado pelo conjunto 𝑆 𝐹𝑆 𝐹𝐹𝑆 𝐹𝐹𝐹𝑆 𝐹𝐹𝐹𝐹𝑆 Sendo x o número fracassos antes do primeiro sucesso a função para a distribuição é 𝑃𝑥 𝑞𝑥𝑝 Eq 18 Vamos construir o gráfico de distribuição de probabilidades por meio de um exemplo Exemplo 8 Um experimento possui probabilidade de apresentar reação química positiva de 03 30 Qual a probabilidade de executarmos 5 experimentos antes de obtermos sucesso cinco fracassos e reação química positiva na sexta tentativa Aplicando a fórmula podemos construir a tabela de probabilidades em função do número de experimentos O resultado é mostrado na Tabela 13 x Px 0 0300 1 0210 2 0147 3 0103 4 0072 5 0050 6 0035 7 0025 8 0017 9 0012 10 0008 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 39 Tabela 13 Probabilidades de sucesso após fracassos Como a Tabela 13 mostra a probabilidade de sucesso na sexta tentativa cinco fracassos e um sucesso é de 005 ou 5 Agora se alterarmos um pouco o enunciado do problema teremos outra visão qual a probabilidade de obtermos sucesso até a sexta tentativa Neste caso a obtenção de sucesso na primeira tentativa zero fracassos conta assim como para a segunda terceira quarta quinta e sexta A probabilidade total seria a somatória das linhas de zero a cinco Isto daria 0882 ou 882 Observe que o correto entendimento do problema é fundamental para que a análise estatística seja aplicada corretamente A distribuição de probabilidades associada ao problema é exibida no gráfico da Figura 24 Figura 24 Distribuições Geométricas 66 Distribuição Hipergeométrica Em alguns casos a técnica de amostragem a ser aplicada necessita ser realizada sem a reposição do item porque o teste de aceitação sucesso ou fracasso é realizado à custa do item testado ou porque o processo de seleção da amostra não permite a reposição do item antes da próxima seleção Para estes casos a distribuição hipergeométrica é aplicada O exemplo a seguir ilustra a situação Um baralho comum possui 52 cartas sendo 26 vermelhas e 26 pretas Se cinco cartas são retiradas aleatoriamente qual a probabilidade de serem 3 cartas vermelhas e 2 cartas pretas A retirada é simultânea então não há possibilidade de reposição das cartas A quantidade de combinações de cartas vermelhas três a três é 𝐶263 e a quantidade de combinações possíveis de cartas pretas duas a duas é 𝐶262 considerando a retirada de cinco cartas O número total de combinações para a retirada de cinco cartas das 52 cartas do baralho é 𝐶525 Assim a probabilidade de selecionarmos cinco cartas sem reposição sendo três vermelhas e duas pretas é 𝑃 𝐶263𝐶262 𝐶525 26 3 23 26 2 24 52 547 03251 Em geral a distribuição hipergeométrica é aplicada para analisar experimentos para os quais a taxa de sucesso ou fracasso já está determinada ou seja para uma população de N itens k itens são considerados sucessos e N k fracassos e estamos interessados em determinar a probabilidade de x sucessos em uma amostra sem reposição de n elementos A função de densidade de probabilidade 𝑃𝑥 é ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 40 ℎ𝑥 𝑁 𝑛 𝑘 𝐶𝑘𝑥𝐶𝑁𝑘𝑛𝑥 𝐶𝑁𝑛 𝑜𝑛𝑑𝑒 𝑚𝑎𝑥0 𝑛 𝑁 𝑘 𝑥 𝑚𝑖𝑛𝑛 𝑘 Eq 19 Novamente vamos construir a distribuição de probabilidades por meio de um exemplo Exemplo 9 Foram recebidos 30 sacos de cimento CPV de um determinado fabricante Considere que cinco sacos possuam cimento com propriedades químicas diferentes O laboratório possui equipamento e reagentes para testar sete amostras de cimento Se retirarmos uma amostra de sete elementos colhidas de sacos de cimento diferentes escolhidos aleatoriamente qual a probabilidade de termos todas com as mesmas propriedades químicas Analisando o exemplo temos N 30 população k 25 sucesso propriedades iguais N k 5 fracasso os cinco sacos de cimento com propriedades diferentes x n 7 tamanho da amostra e quantidade de sucessos esperados na amostra 𝑃𝑥 𝐶257𝐶302577 𝐶307 02361 A probabilidade de termos de duas a sete amostras com as mesmas propriedades calculadas com a equação 19 é exibida na Tabela 14 n Px 1 0 2 000015 3 000565 4 006214 5 026098 6 043496 7 023612 8 0 9 0 10 0 Tabela 14 Probabilidades para distribuição hipergeométrica Com o uso da Tabela 14 a probabilidade de termos pelo menos cinco das sete amostras com propriedades iguais então válido para duas três quatro e cinco amostras iguais dentre as sete amostras é igual a probabilidade P2 P3 P4 P5 032892 3289 O gráfico de distribuição de probabilidades é mostrado na Figura 25 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 41 Figura 25 Distribuição Hipergeométrica Estes são os principais modelos de distribuição discreta Existem outros modelos de distribuição discreta que podem ser pesquisados e estudados posteriormente A seguir os principais modelos de distribuição de probabilidades contínuos são apresentados Recordando os modelos contínuos são baseados em variáveis aleatórias contínuas ou seja em variáveis que podem assumir qualquer valor em um faixa ou segmento pertencente aos números reais 67 Distribuição Normal A distribuição normal é a mais importante das distribuições de probabilidades Conhecida como a curva em forma de sino a distribuição normal tem sua origem associada aos erros de mensuração É sabido que quando se efetuam repetidas mensurações de determinada grandeza com um aparelho calibrado não se chega ao mesmo resultado todas as vezes obtémse ao contrário um conjunto de valores que oscilam de modo aproximadamente simétrico em torno do verdadeiro valor Gauss11 deduziu matematicamente a distribuição normal como distribuição de probabilidade dos erros de observação denominandoa então lei normal dos erros A distribuição normal é caracterizada por uma função cujo gráfico descreve uma curva em forma de sino Esta distribuição depende de dois parâmetros a média ou valor esperado e o desvio padrão conforme mostrado na Figura 26 11 Johann Carl Friedrich Gauss nasceu em Braunschweig Alemanha no dia 30 de abril de 1777 e faleceu em Göttingen em 23 de fevereiro de 1855 Foi um matemático astrônomo e físico alemão que contribuiu muito em diversas áreas da ciência dentre elas a teoria dos números estatística análise matemática geometria diferencial geodésia geofísica eletroestática astronomia e ótica ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 42 Figura 26 Gráfico de uma distribuição normal12 Uma variável aleatória contínua X de média µ e desvio σ2 0 possui uma distribuição normal se sua função de densidade fx for 𝑓𝑥 1 2𝜋𝜎2 𝑒 1 2𝜎2 𝑥𝜇2 𝑥 Eq 20 Propriedades da Distribuição Normal 1 Para uma mesma média μ e diferentes desvios padrão σ a distribuição que tem maior desvio padrão se apresenta mais achatada acusando maior dispersão em torno da média A que tem menor desvio padrão apresenta pico mais acentuado e maior concentração em torno da média como pode ser visto na Figura 27 2 Distribuições normais com o mesmo desvio padrão e médias diferentes possuem a mesma dispersão mas diferem quanto à localização Quanto maior a média mais à direita está a curva como pode ser visto na Figura 28 12 Fonte Portal Action wwwportalactioncombr Figura 27 Curvas normais para mesma média e diferentes desvios padrões ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 43 Figura 28 Curvas normais para diferentes médias com mesmo desvio padrão 3 A probabilidade de uma variável assumir valores entre a e b é igual à área sob a curva entre esses dois pontos A determinação dessas probabilidades é realizada matematicamente através da integração da função de densidade de probabilidade entre os pontos a e b de interesse No caso da distribuição normal a Figura 29 apresenta os pontos que pontos que delimitam estas probabilidades Figura 29 Propriedades da distribuição normal O estudo da distribuição normal é importante porque a maioria das variáveis aleatórias de ocorrência natural ou resultante de processos práticos obedece esta distribuição Desta forma os resultados de experimentos resultantes de medições os resultados que normalmente obtemos em nossas pesquisas seguem uma distribuição normal Na maior parte das vezes nas quais o espaço amostral de um experimento envolvendo medições de propriedades não segue uma distribuição normal as seguintes falhas de planejamento do experimento podem ser encontradas Uso de materiais ou componentes de diferentes fontes com propriedades físicoquímicas diferentes ocasionando amostras com diferentes características É como se fosse introduzido um novo fator e este fator não está sendo considerado na análise dos resultados Uso de diferentes equipamentos ou equipes para produzir ou mensurar as amostras Equipamentos diferentes podem possuir calibragens e precisões diferentes e equipes diferentes podem introduzir ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 44 pequenas variações no método ocasionando diferentes processos de produção ou diferentes resultados em mensuração Uso de métodos não aleatórios para ordenação dos elementos a serem mensurados Todo equipamento sofre alterações em sua precisão durante o uso Por exemplo ao início de um processo de mensuração da resistência à compressão de corpos de prova a prensa pode apresentar uma precisão de 2 Durante o uso com o equipamento em funcionamento normal esta precisão pode variar 1 e ao final com os fluidos hidráulicos aquecidos a precisão pode retornar a 2 sendo que todos estes valores estão dentro da faixa de trabalho do equipamento Variações no método de produção dos elementos a serem testados por descuido ou desleixo do pesquisador Como citado anteriormente a distribuição normal é a mais importante das distribuições de probabilidades Nos próximos capítulos voltaremos a abordar com mais detalhes a inferência e as funções estatísticas aplicadas às distribuições normais Além da distribuição normal é importante conhecer outras formas de distribuição contínuas seu uso e ocorrências Vamos apresentar resumidamente as mais importantes 68 Distribuição QuiQuadrado Esta distribuição pode ser vista de duas formas diferentes como a soma de duas distribuições normais ao quadrado ou como um caso particular da distribuição gama apresentada mais adiante A distribuição qui quadrado é utilizada quando estamos analisando a variância de uma amostra que é proveniente de uma população normalmente distribuída Definição Uma variável aleatória contínua X segue uma distribuição quiquadrada com n graus de liberdade denotada por 𝑋𝑛2 se sua função de densidade for 𝑓𝑥 1 2𝑛 2 Γ𝑛 2 𝑥𝑛 21 𝑒𝑥 2 𝑥 0 𝑛 0 Eq 21 Sendo Γw 𝑥𝑤1𝑒𝑥𝑑𝑥 𝑤 0 0 Eq 22 Podemos notar pelo gráfico da distribuição quiquadrado Figura 30 que esta distribuição é positivamente assimétrica À medida que os graus de liberdade aumentam a curva da distribuição aproximase da curva normal GL n Graus de liberdade este conceito abordado inicialmente no item 32 Medidas de Dispersão e Variabilidade é um conceito que deve ser melhor explorado Graus de liberdade de um conjunto de valores amostra representa a quantidade de elementos que podem ter seus valores alterados após terem sido impostas certas restrições a todos os valores Como exemplo suponhamos um experimento de resistência à compressão aplicada a uma amostra de oito 8 elementos cuja média é 40 MPa Assim a soma de todas as resistências à compressão é de 240 MPa restrição 8 x 40 240 Assim temos um grau de liberdade igual a sete 7 8 1 pois sete dos valores podem ser escolhidos aleatoriamente mas o oitavo deve satisfazer a soma das resistências igual a 240 MPa ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 45 Figura 30 Distribuição Quiquadrado 69 Distribuição t de Student Também muito utilizada em estatística principalmente para modelagem e teste de hipóteses a distribuição t de Student é uma variação da distribuição normal com sua característica forma de sino mas refletindo uma maior variabilidade com caudas mais alargadas mais adequada para amostras pequenas produz valores mais extremos que a distribuição normal O único parâmetro que a define e caracteriza é o número de graus de liberdade Quanto maior for o número de graus de liberdade mais a curva da distribuição t se aproxima da distribuição normal Sua função de densidade é dada por 𝑓𝑥 Γ𝑛1 2 𝑛𝜋 Γ𝑛 2 1 𝑥2 𝑛 𝑛1 2 𝑥 Notação X tn Eq 23 A Figura 31 apresenta a variação da curva em função da variação dos graus de liberdade Figura 31 Distribuição tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 46 610 Distribuição Gama É uma das distribuições mais gerais pois diversas distribuições são casos particulares dela como a distribuição exponencial e a distribuição quiquadrado Essa distribuição tem como suas principais aplicações à análise de tempo de vida de produtos em engenharia e à distribuição de precipitação de chuva em meteorologia A distribuição gama é caracterizada por dois parâmetros 𝛼 0 denominado parâmetro de forma e 𝛽 0 denominado parâmetro de taxa denotandose X Gama 𝛼 𝛽 Sua função de densidade é dada por 𝑓𝑥 𝛽𝛼𝑥𝛼1𝑒𝛽𝑥 Γ𝛼 𝑠𝑒 𝑥 0 𝑒 0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 Eq 24 O gráfico da distribuição Gama é apresentado na Figura 32 Figura 32 Distribuição Gama 611 Distribuição Exponencial A distribuição exponencial é caracterizada por ter uma função de taxa de falha constante e é usada como um modelo para o tempo de vida de certos produtos e materiais Ela descreve adequadamente o tempo de vida de óleos isolantes e dielétricos entre outros descreve as probabilidades envolvidas no tempo que decorre para que um determinado evento aconteça em função de sua vida útil Na distribuição exponencial a variável aleatória contínua x é definida como o tempo de falha e λ como o tempo médio de vida Ambos devem ser expressos na mesma unidade isto é se o tempo médio de vida é expresso em horas o tempo de falha também deve ser medido em horas Sua função de densidade é dada pela equação a seguir e seu gráfico e apresentado na Figura 33 𝑓𝑥 1 𝑒𝜆𝑥 𝑝𝑎𝑟𝑎 𝑥 0 𝑜𝑢 0 𝑝𝑎𝑟𝑎 𝑥 0 Eq 25 O exemplo a seguir ilustra o uso da distribuição exponencial A vida útil de um misturador é estimada em 5 anos λ 15 Qual a probabilidade de falha nos primeiros dois anos x 2 𝑓𝑥 1 𝑒1 5 2 1 𝑒 2 5 03297 ou 3297 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 47 Figura 33 Distribuição Exponencial Fonte wwwportalactioncombr 612 Distribuição de Weibull A distribuição de Weibull é usada em estudos relacionados com o tempo de falha devido a fadiga de metais Também é frequentemente usada para descrever o tempo de vida de produtos industriais Seu uso em aplicações práticas é favorecido pelo fato desta distribuição apresentar uma grande variedade de formas todas com uma propriedade básica a sua função de taxa de falha é monótona ou seja ela é estritamente crescente estritamente decrescente ou constante Possui dois parâmetros 𝛼 relacionado a escala ou característica da vida e 𝛽 que é o parâmetro de forma limite ou inclinação Sua função de densidade é dada por 𝑓𝑥 𝛼𝛽𝑥𝛽1𝑒𝛼𝑥𝛽 𝑝𝑎𝑟𝑎 𝑥 0 𝑒 0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 Eq 26 Seu gráfico para 𝛼 2 e 𝛽 05 15 e 3 é mostrado na Figura 34 Figura 34 Distribuição de Weibull Fonte wwwportalactioncombr ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 48 Existem vários outros tipos de distribuição interessantes tais como a Lognormal Logística Beta e outras Apresentamos aqui apenas algumas para que tenhamos uma ideia da forma que suas distribuições de probabilidades se apresentam e desta forma identificar a distribuição de probabilidades mais adequada para a análise de seus dados Neste processo o de identificação do tipo de distribuição que está associado aos dados sob análise o primeiro passo é analisar o próprio experimento e suas respostas os dados que o experimento gerou Dados oriundos de medições de propriedades de uma amostra extraída de uma população geralmente possuem distribuição normal Geralmente mas nem sempre Existem testes estatísticos que identificam se os dados relativos a amostra possuem distribuição normal Estes testes são simples de serem aplicados abordaremos estes testes posteriormente Caso estes testes indiquem que a distribuição de probabilidades da variável aleatória associada a amostra não é normal construa a distribuição de probabilidades e analise o tipo de curva que a mesma segue O tipo de experimento também é uma boa fonte de informações que pode auxiliar Como visto anteriormente experimentos associados ao tempo tempo de vida ocorrência de falhas são melhor explicados por outros tipos de distribuição diferentes da normal Pesquise ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 49 7 INFERÊNCIA ESTATÍSTICA Até este ponto do texto apresentamos os conceitos das medidas de posição médias medianas e outras das medidas de dispersão variância desvio padrão coeficiente de variação das distribuições de probabilidades dentre outras coisas Estes são conceitos que caracterizam a amostra e apenas ela Agora como aplicar estes conceitos para a inferência estatística Como a partir de uma amostra para qual determinamos a média o desvio padrão e sua distribuição de probabilidades transpor estas informações para a população como um todo Como podemos determinar as probabilidades de um determinado evento O primeiro item que o pesquisador deve identificar é a distribuição de probabilidades que os resultados obtidos do experimento seguem A distribuição de probabilidades é a chave para a determinação correta das funções estatísticas a serem aplicadas e os testes que são usados para identificalas serão mostrados mais adiante As funções estatísticas que apresentaremos agora cujo objetivo é justamente este transpor para a população as análises e conclusões retiradas a partir do exame dos dados de uma amostra em seu conceito são aplicáveis a qualquer amostra independente da distribuição de probabilidades que a amostra siga No entanto assim como as funções de probabilidade possuem funções de densidade equações diferentes estas funções também possuem formulações diferentes adequadas especificamente à cada uma das distribuições de probabilidades Assim temos que o conceito da função é sempre o mesmo mas sua formulação maneira de ser calculada ou explicitada no software possui variações para cada uma das distribuições As funções serão apresentadas com base na distribuição normal visto que a maior parte dos resultados medições realizadas em experimentos irá seguir este tipo de distribuição e é sobre esta distribuição que encontramos maior quantidade de informações na literatura facilitando o aprofundamento de sua pesquisa Como já foi mostrado na Figura 29 a distribuição de probabilidades da distribuição normal possui uma curva em forma de sino com as seguintes propriedades considerando uma característica de interesse X medida em uma população com média µ e desvio padrão σ 6826 dos elementos da população possuem o valor de x situado entre µ σ 9546 dos elementos da população possuem o valor de x situado entre µ 2σ 9973 dos elementos da população possuem o valor de x situado entre µ 3σ 99994 dos elementos da população possuem o valor de x situado entre µ 4σ A partir destas propriedades e do conhecimento das informações de uma população podemos fazer algumas inferências como no exemplo seguinte Exemplo 10 Todos os alunos de PósGraduação do CEFETMG foram mensurados e classificados de acordo com as seguintes variáveis peso e altura13 cujas médias e desvios padrões são respectivamente 72 kg 72 kg e 175 cm 175 cm Sabendose que estas variáveis seguem uma distribuição normal e são tratadas como independentes determine as probabilidades de 1 Alunos com altura inferior a 140 cm 2 Alunos com peso superior a 936 kg 13 Dados fictícios ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 50 3 Alunos com peso inferior a 792 kg e altura superior a 210 cm Este é um problema bem fácil de ser resolvido desde que o leiamos com atenção Não precisamos nem precisamos de funções estatísticas pois todo o conhecimento necessário para sua solução está nos dois parágrafos anteriores Primeiro repare que no item 1 a diferença de altura desejada 175 140 35 corresponde a dois desvios padrões e no item 2 a três desvios padrões Assim as próprias propriedades da distribuição normal respondem a estes itens Para facilitar a visualização a Figura 35 reapresenta os dados da Figura 29 1 De acordo com a Figura 35 se 9546 dos elementos de uma população possuem a altura entre a média e dois desvios significa que 100 9546 454 estão fora destes limites para mais e para menos Como queremos apenas os com altura inferior a 140 cm temos que considerar apenas o para menos o que leva a divisão do percentual por dois 454 2 227 Assim temos que 227 dos alunos de PósGraduação do CEFETMG possuem altura inferior a 140 cm 2 Neste caso a diferença de peso corresponde a três desvios padrões 72 x 3 216 kg 9973 dos elementos da população estão situados dentro destes limites Assim 100 9973 027 estão fora dele e da mesma forma para cima e para baixo Como nos interessa apenas os alunos com peso superior temos que o percentual de alunos com peso superior a 936 Kg é de 027 2 0135 3 Neste item temos uma combinação de probabilidades A primeira dos alunos com peso inferior a 792 kg o que corresponde à média mais um desvio padrão Esta probabilidade é melhor visualizada com a ajuda do gráfico da distribuição de probabilidades Figura 35 Distribuição normal probabilidades No gráfico podemos visualizar que a linha azul corresponde ao peso inferior a 792 kg a média 72kg somada a um desvio padrão 72kg Como o percentual dos elementos entre a média e um desvio padrão corresponde a 6826 novamente tanto acima quanto abaixo a metade seria 3413 o que corresponde ao percentual entre 72 e 792 Kg Mas como queremos saber o percentual de alunos abaixo de 792 kg temos que incluir os que estão abaixo de 72 kg também exatamente 50 o que nos dá 50 3413 8413 No mesmo gráfico a linha vermelha corresponde aos alunos com altura superior a 210 cm Para este caso o raciocínio é o mesmo dos itens 1 e 2 A diferença entre as alturas 35 cm corresponde a dois desvios padrões então como no item 1 apenas 227 dos alunos teriam a probabilidade de ter mais do que esta altura ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 51 Agora tratandoas como variáveis independentes temos que a probabilidade do evento conjunto seria P1 x P2 08413 x 00227 00191 ou 191 Assim teríamos a probabilidade de 191 de encontrarmos alunos da PósGraduação com peso inferior a 792 kg e altura superior a 210 cm O resultado apesar de estranho muita altura para pouco peso seria correto se não fosse um pequeno problema E qual é esse problema que invalida a análise realizada Bom para fins didáticos e dentro dos pressupostos apresentados a análise está correta Numa situação real um problema pequeno mas extremamente complexo para a análise estatística a torna inválida no exemplo as variáveis peso e altura foram consideradas independentes e elas não são Para um ser humano o peso está associado à altura Para a mesma constituição física quanto maior a altura maior o peso o que torna estas variáveis dependentes Assim as análises dos itens 1 e 2 estão corretas mas a do item 3 apresenta o erro grave de considerar independentes duas variáveis dependentes Este exemplo didático foi apresentado com dois objetivos O primeiro de introduzir a questão de probabilidades e o segundo de mostrar o quão importante é a análise objetiva de todos os fatores envolvidos Em estatística uma das principais causas de erro é a não compreensão do problema e como consequência a aplicação da técnica ou função incorreta 71 Distribuição Normal Padrão O exemplo anterior foi bem fácil com valores determinados para que a solução fosse baseada apenas nas propriedades informadas da distribuição normal E nos casos reais onde os valores não são tão ajustados assim Como resolver A primeira solução já foi dada anteriormente basta montarmos a distribuição de frequência da variável em estudo deduzirmos a equação de sua curva função densidade de probabilidade e calcularmos as áreas totais sob a curva e a área correspondente ao evento 14 A segunda é nos aproveitarmos da experiência e conhecimento que nos foram legados por pesquisadores que viveram muito tempo antes de nós neste caso específico Johann Carl Friedrich Gauss11 já citado anteriormente que em 1809 definiu a lei de Gauss da distribuição normal de erros e sua curva em formato de sino É o que trataremos a seguir e define os conceitos básicos de inferência estatística Uma das muitas contribuições de Gauss foi o conceito da distribuição normal padrão A curva de distribuição normal possui como parâmetros a média e desvio padrão tornandoa específica para uma população com estas características Gauss a distribuição padrão não baseada na média e desviopadrão e sim na proporção em que os valores se afastam da média em termos de desvio padrão Para isto ele propôs uma distribuição normal padrão baseada na seguinte equação 𝑧 𝑥 𝜇 𝜎 Eq 27 Com esta equação podemos representar a distribuição normal como uma distribuição normal padrão como mostrado Figura 36 A distribuição passa a apresentar as probabilidades em função do desvio dos valores X em relação à média em função de valores do desvio padrão 14 Ver item 6 DISTRIBUIÇÃO DE PROBABILIDADES ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 52 Esta curva especifica de distribuição de frequência ou padronizada uma vez que independe dos valores dos nossos dados possui média 0 zero e desvio padrão 1 um e é chamada de distribuição normal padrão Assim com o objetivo de facilitar a obtenção de determinadas áreas sob a curva normal podemos transformar qualquer distribuição de probabilidades normal FX em uma distribuição normal padrão com média 0 zero e desvio padrão 1 um Figura 36 Distribuição Normal Padrão E qual a contribuição disto Simples Gauss determinou as probabilidades em função da variável Z e as apresentou em tabela facilitando e muito o cálculo das probabilidades O valor Z é conhecido como valor padronizado e é uma medida relativa Mede o quanto X se afasta da média em unidades de desvio padrão Os valores de Z podem ser obtidos a partir de tabelas como a tabela mostrada na Figura 37 Como a curva normal e logicamente a curva normal padrão também é simétrica a tabela também é simétrica Por exemplo o valor da probabilidade para z 15 é p 09332 Então o valor de z 15 tem que ser igual a 1 09332 00668 o que pode ser conferido facilmente na própria tabela Desta forma em algumas fontes encontramos esta tabela com apenas os valores positivos de z A cada parte da tabela da Figura 36 para z positivo e negativo é dividida em 10 colunas A primeira coluna apresenta o valor de z com uma casa decimal As nove colunas seguintes ver cabeçalho das colunas acrescentam a segunda casa decimal O valor de z 275 será encontrado na linha com z 27 na coluna com cabeçalho 005 p 00030 Para mais casas decimais é necessário fazer interpolação entre os valores É aproximado mas resolve Caso não queiramos interpolar há diversas outras maneiras de descobrirmos a probabilidade em função do valor z Com o uso de computador e o software apropriado há diversas opções No MS Excel por exemplo a função DISTNORMPz dá a probabilidade associada ao valor z a tabela anterior foi calculada usando este método No software estatístico R a função pnormx mean sd fornece a probabilidade em função do valor x da média e do desvio padrão ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 53 Figura 37 Tabela Normal de Probabilidades Seguem alguns exemplos de cálculo de probabilidades para a população lembrese usando estes métodos 1 Uma concreteira produz um determinado tipo de concreto com 210 Mpa e 5 Mpa Qual a probabilidade de que um corpo de prova cilíndrico tenha resistência inferior a 200 Mpa Para os dois primeiros métodos o primeiro passo é o cálculo do valor de z Assim 𝑧 𝑥 𝜇 𝜎 200 210 5 20 Na tabela normal padrão o valor da probabilidade para z 20 é p 00228 indicando uma probabilidade de 228 de que um corpo de prova tenha resistência inferior a 200 MPa 𝑃𝑋 200 𝑝𝑧 𝑥 𝜇 𝜎 𝑝𝑧 2 00228 No MS Excel basta digitarmos em uma célula de uma planilha a fórmula DISTNORMP2 agora usando todas as casas decimais O resultado é 002275 ou 2275 de probabilidade pouca diferença do valor obtido usando a tabela não No software R não precisamos de calcular o valor de z A função pode ser digitada diretamente no console como pnorm 200 mean 210 sd 5 e o resultado é 002275013 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 54 2 Por contrato o concreto fornecido pela empreiteira X deve ter resistência a compressão superior a 38 Mpa Sabese que a resistência à compressão média é de 40 MPa com desvio padrão de 265 MPa Qual a probabilidade de o concreto fornecido possuir resistência a compressão inferior a 38 Mpa Novamente iniciamos com o cálculo do valor de z Assim 𝑧 𝑥 𝜇 𝜎 38 40 265 07547 075 Na tabela normal padrão o valor para z 075 é 0022663 indicando uma probabilidade de 227 de que um corpo de prova tenha resistência inferior a 38 MPa 𝑃𝑋 38 𝑝𝑧 𝑥 𝜇 𝜎 𝑝𝑧 075 0022663 No MS Excel basta digitarmos em uma célula de uma planilha a fórmula DISTNORMP075 agora usando todas as casas decimais O resultado é 00226627 ou 2227 de probabilidade novamente pequena diferença do valor obtido usando a tabela No software R digitando a função diretamente no console como pnorm 38 mean 40 sd 265 temos o resultado de 002252094 o que equivale a 2252 3 O concreto produzido por uma empreiteira possui as seguintes características µ 110 MPa e σ 10 MPa Qual a probabilidade de obtermos concreto com resistência a compressão de 100 MPa Este exemplo foi colocado aqui estimular um pouco o pensamento Não desejamos saber a probabilidade de obtenção de concreto com resistência menor que 100 MPa e sim com resistência igual a 100 Como fazer Bom podemos tentar com um artifício considerar que todo concreto com resistência entre 99 e 101 MPa representa o concreto com resistência de 100 MPa Em teoria p99x101 px 101 px 99 Vamos tentar resolver isto no software R com este intervalo 1 MPa pnorm10111010 1 01840601 pnorm9911010 1 01356661 pnorm10111010pnorm9911010 1 004839406 Bom a probabilidade seria de 484 Mas vamos tentar reduzir mais o intervalo para 05 MPa e conferir o resultado pnorm100511010 1 01710561 pnorm99511010 1 01468591 pnorm100511010pnorm99511010 1 002419707 A probabilidade foi reduzida para a metade 242 Por sorte o software R possui outras funções de probabilidade tal como a dnorm densidade de probabilidade que nos informa a probabilidade em um determinado ponto Vamos conferir o seu resultado dnorm10011010 1 002419707 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 55 Como visto a probabilidade determinada pela função dnorm para os dados do exemplo foi igual à probabilidade obtida quando usamos o intervalo de 995 a 1005 MPa Assim podemos concluir que a função dnorm não retorna o valor da probabilidade para o valor exato de 100 MPa e sim para o intervalo de 995 a 1005 MPa pois a probabilidade para o valor exato de 100 MPa é zero Este exemplo é interessante pois nos permite discutir o que é um valor para o software RStudio Quando especificamos que a resistência deveria ser igual a 100 MPa o que a função dnorm considerou De 99 a 101 ou de 995 a 1005 esta de acordo com os resultados anteriores ou ainda de 9999999 a 10000001 A probabilidade está associada a faixa definida Vamos supor que a última faixa seja a faixa solicitada Qual seria a probabilidade pnorm1000000111010pnorm999999911010 1 4839414e07 A probabilidade seria de 0000000484 Teoricamente para o valor exato de 100 MPa a probabilidade seria de 0 pois tratamos de valores contínuos e probabilidade de termos um resultado igual ao especificado com infinitas casas decimais é zero Lembrete Nós trabalhamos neste capítulo com populações Os símbolos µ e σ significam média populacional e desvio padrão populacional Ou seja temos informações sobre a população como um todo Apesar de estarmos calculando probabilidades estamos fazendo isto com dados populacionais A distribuição padrão normal e o valor z apresentam informações sobre a população No próximo capítulo abordaremos amostras e a inferência a transposição das conclusões obtidas a partir da análise dos dados da amostra para a população Sugestão de Pesquisa para ampliar conhecimento O software R possui funções associadas as distribuições de probabilidades Duas foram vistas nos exemplos anteriores pnorm e dnorm Existem outras e podem ser aplicadas a outras distribuições de probabilidades As funções são indicadas pela primeira letra p d q e r seguidas pelo tipo de distribuição a ser aplicada no exemplo norm As funções são Função densidade ou probabilidade calcula o valor da densidade para funções contínuas ou da probabilidade para funções discretas para cada elemento x Indicada pela letra d Função distribuição calcula a distribuição acumulada p x Indicada pela letra p Função probabilidade calcula o valor de x correspondente a probabilidade acumulada inverso da função distribuição Indicada pela letra q Função gerador aleatório gera números aleatórios para a distribuição escolhida Indicada pela letra r Os tipos de distribuição que podem ser associadas a estas funções normalmente já précarregadas no R são apresentadas a seguir Cada uma destas funções possui parâmetros distintos Pesquise os parâmetros de cada uma delas e teste com exemplos norm distribuição normal binom distribuição binomial pois distribuição de Poisson geom distribuição geométrica hyper distribuição hipergeométrica unif distribuição uniforme exp distribuição exponencial gamma distribuição gama chisq distribuição quiquadrado t distribuição tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 56 72 Distribuição tStudent A distribuição normal aplicase quando temos informações sobre a população ou quando nossa amostra contém quantidade de elementos suficiente para que possamos considerala como representativa da população Em estudos que envolvem populações que podem ser definidas classificadas e contadas existem fórmulas específicas baseadas no grau de confiabilidade no erro máximo de estimativa admitido na média e desvio padrão populacional que nos permitem calcular a quantidade mínima de elementos necessárias para a amostra Quando não temos estas informações podemos adotar outras estratégias para a inferência sobre a população A distribuição tStudent é uma delas Quando usamos a distribuição normal para amostras pequenas n 30 são obtidos valores de probabilidades menos precisos Assim adotase distribuição tStudent A distribuição t possui a mesma forma da distribuição normal em forma de sino e é simétrica sobre a média A diferença é que a distribuição t tem caudas mais largas mais áreas nas caudas fazendo com que seus valores críticos sejam maiores que os da distribuição normal É como pagar um preço maior por trabalhar com pequenas amostras Outro fator importante sobre a distribuição t é que ela é construída em função dos graus de liberdade já visto anteriormente e estes estão diretamente relacionados com o tamanho n da amostra Para cada grau de liberdade há uma curva diferente Quanto menor os graus de liberdade mais larga será a cauda Quanto maior mais a curva se aproxima da curva normal recomendase para n 30 usar a curva normal Assim a tabela tStudent é construída com muito menos dados e é necessário muito mais interpolações Imagine se ela fosse construída igual a tabela da distribuição normal abrangendo amostras de 2 a 31 elementos de 1 a 30 graus de liberdade teríamos 30 tabelas de distribuição similares a tabela de distribuição normal A tabela tStudent é exibida na Figura 38 e a a seguir explicaremos suas propriedades e seu uso Como pode ser visto e deve ser entendido claro é como se cada linha desta tabela cada grau de liberdade representasse todas as informações que foram apresentadas na tabela normal padrão São 600 dados resumidos em 12 Então é óbvio que teremos que fazer interpolações para encontrar valores diferentes dos que constam nos cabeçalhos de linhas e colunas E quais são as diferenças e similaridades entres estas tabelas Existem algumas mas são fáceis de serem assimiladas Iniciando do cabeçalho temos Na tabela normal padrão a combinação do cabeçalho de linha com o cabeçalho de coluna representa um valor de probabilidade Na tabela tStudent o valor de probabilidade é representado no cabeçalho das colunas apenas E temos duas linhas de cabeçalho a primeira unicaudal e a segunda bicaudal que podemos interpretar como mostrado a seguir O valor apresentado no conteúdo da tabela representa o valor de 𝑡𝑛 1 1 𝛼 2 ou seja o módulo do valor encontrado na linha correspondente a n 1 graus de liberdade sendo n igual à quantidade de elementos na amostra e 𝛼 2 a probabilidade especificada ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 57 Figura 38 Tabela tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 58 Figura 39 Áreas de Probabilidades na Distribuição tStudent O valor de t é calculado de forma similar ao valor z da tabela de distribuição normal padrão Sua equação é dada por 𝑇 𝑥 𝑋 𝑠 𝑛 Eq 28 Cada linha da tabela dada por um valor de grau de liberdade representa uma distribuição de probabilidades específica para aquele grau de liberdade Por exemplo 1 Uma concreteira produz um determinado tipo de concreto com 𝑋 210 Mpa e s 5 Mpa Qual a probabilidade de que um corpo de prova cilíndrico tenha resistência inferior a 200 Mpa sabendose que a amostra possui 4 elementos Com estes dados o valor de T é 𝑇 200210 54 40 Consultando o valor t3𝛼2 4 correspondente a linha de três graus de liberdade temos que está entre 3896 correspondendo a 0015 e 4541 correspondendo a 001 Fazendo a interpolação conseguimos um valor próximo de 0014 14 Este valor 14 é inferior ao encontrado quando usamos a distribuição normal 2275 É o preço a se pagar por trabalhar com amostras pequenas Bom então vamos aumentar o número de elementos da amostra Suponhamos uma amostra de 8 elementos Assim 𝑇 200210 58 5657 Agora trabalhamos com 7 graus de liberdade n 1 Consultando a linha correspondente 7 graus de liberdade temos que o maior valor de t é 3499 correspondendo a 0005 05 Isto significa que a probabilidade de encontrarmos um corpo de prova com resistência inferior a 200 MPa é inferior a 05 considerando que a média e o desvio foram obtidos a partir de uma amostra de 8 elementos O MS Excel possui função para cálculo da probabilidade associada à distribuição tStudent É a função DISTTt graus de liberdade número de caudas Se a usarmos para o valor acima t 5657 DISTT565771 o resultado será 0000383 indicando a probabilidade de 00383 No software R a função é ptt graus de liberdade lowertail TRUE O resultado é 00003773162 00377 Refaça os outros exemplos usando a distribuição de tStudent ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 59 73 Identificação da Distribuição de Probabilidades Como citado anteriormente o primeiro passo para o emprego de funções estatísticas na análise dos resultados de um experimento é a identificação da distribuição de probabilidades que os resultados seguem Como a distribuição normal é a mais comum entre os resultados de experimentos iniciamos por ela Os testes utilizados para identificar se a distribuição de probabilidades associada a um conjunto de dados pode ser aproximada pela distribuição normal são chamados de testes de normalidade As principais técnicas são o papel da probabilidade o teste de Kolmogorov Smirnov o teste de Anderson Darling e o teste de Shapiro Wilk Existem vários outros cada um com características próprias de uso e diferentes capacidades de associação com uma curva normal padrão OUTLIERS Antes de verificarmos se uma amostra de dados pode ser considerada como uma distribuição normal é conveniente verificarmos se dentre os dados da amostra não há nenhum valor que se distancie do restante valores anormais espúrios contaminantes extremos aberrantes Estes valores são denominados outliers e podem mascarar a verdadeira distribuição dos dados A preocupação com a identificação e eliminação de valores outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados A primeira análise a ser feita antes mesmo da identificação de um valor outlier é analisar o experimento com o objetivo de prever a origem de um possível valor outlier pois sua provável origem pode determinar a forma como eles devem ser tratados As principais causas da existência de valores outliers em uma amostra são erros de medição erros de execução e a própria variabilidade inerente dos elementos da população O principal método gráfico para identificação de valores outliers em uma amostra é o boxplot apresentado em capítulo anterior e representado na Figura 9 e Figura 10 Com o uso de boxplot temos as seguintes regras para identificação de outliers 1 Consideramse valores suspeitos de serem outliers os valores Xs situados na faixa dada pela equação dada a seguir Estes valores podem ser aceitos na população após análise de sua origem 𝑥 𝑄1 15 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 15 𝑄3 𝑄1 Eq 29 2 Já são considerados valores extremos outliers os valores X que ultrapassam a faixa definida pela equação abaixo e que devem ser investigados e identificada a origem da dispersão A Figura 40 ilustra o processo 𝑥 𝑄1 3 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 3 𝑄3 𝑄1 Eq 30 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 60 Figura 40 Identificação de valores outliers por Boxplot Vamos utilizar o boxplot do RStudio para verificação de outliers na sequência de dados apresentada Tabela 15 N X Y 1 1110 680 2 920 460 3 900 500 4 1070 590 5 980 500 6 1500 660 7 1180 540 8 1100 510 9 1170 590 10 970 970 11 1120 650 Tabela 15 Valores X e Y para identificação de outliers Carregando o vetor X no RStudio e criando um boxplot a partir do conjunto de dados temos o gráfico exibido na Figura 41 Figura 41 Identificação de outliers pelo Boxplot ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 61 Para sabermos se o valor identificado no gráfico da Figura 41 é realmente um valor outlier temos que além de investigar sua origem e aplicar as regras descritas anteriormente pois o gráfico fornecido pelo RStudio não identifica os limites de suspeição e certeza As barras horizontais limites apresentadas no gráfico mostram os valores máximo 118 e mínimo 90 já excluindo o que ele considerou como outlier 150 Efetuando o cálculo para os limites de suspeição temos 𝑥 𝑄1 15 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 15 𝑄3 𝑄1 correspondendo a x 67 ou x 147 Para os limites de certeza temos 𝑥 𝑄1 3 𝑄3 𝑄1 𝑜𝑢 𝑥 𝑄3 3 𝑄3 𝑄1 correspondendo a x 37 ou x 177 Desta forma o valor 150 está fora da faixa de suspeição e pode ser considerado um outlier Valores dentro da faixa de suspeição também podem ou devem ser excluídos da amostra Tudo depende da precisão desejada e da quantidade de elementos que a amostra contém Eliminado o valor 150 da amostra e recriando o gráfico do boxplot podemos verificar que não foram identificados novos valores outliers conforme mostrado na Figura 42 Figura 42 Boxplot com a remoção de valores outliers TESTE DE GRUBBS Uma outra forma de identificar valores outliers em uma amostra é o Teste de Grubbs É bem simples e fácil de ser executado O Teste de Grubs é baseado na seguinte fórmula 𝐺 𝑥𝑖 𝑥 𝑠 ou seja ele é baseado na razão entre o desvio de um determinado valor da amostra da média da amostra e o desvio padrão da amostra O valor G encontrado é comparado o valor crítico relacionado com o número de elementos da amostra fornecido pela tabela apresentada na Figura 43 onde α indica o erro aceitável ou o nível de confiança 1 α Para o mesmo exemplo anterior podemos usar o teste de Grubbs para conferir os valores outliers presentes Para 11 elementos na amostra e com 95 de confiabilidade 1 α o valor crítico para G apresentado na tabela da Figura 43 é 223 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 62 Figura 43 Valores Críticos para o Teste de Grubbs Verificando os valores de G calculados e apresentados na Tabela 16 podemos verificar que o único valor acima do valor crítico de 223 é o valor de G 245 correspondente ao elemento com valor 150 o que corrobora a identificação de valores outliers realizada por meio do gráfico de boxplot Tabela 16 Identificação de valores outliers pelo Teste de Grubbs Retirando o valor 150 e recalculando os valores G para a amostra agora com 10 elementos descobriremos que o maior valor G encontrado para os valores da Tabela 16 é 149 correspondendo ao elemento com valor 90 O valor de Grubbs crítico para amostras com 10 elementos e 95 de confiabilidade é 218 Assim podemos considerar que o valor 150 é o único valor outlier presente na amostra ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 63 ZSCORES O Zscore é uma variação do Teste de Grubbs Para este teste utilizamos os valores zstandardizados dos dados conforme a fórmula abaixo Da mesma forma que o teste de Grubbs mensuramos o desvio da média em unidades do desvio padrão 𝑍 𝑥 𝜇 𝜎 𝑜𝑢 𝑧 𝑥 𝑥 𝑠 Eq 31 1 Para amostras cujo conjunto dos dados é pequeno inferior a 50 valores que tenham zscores inferiores a 25 ou superiores a 25 devem ser considerados outliers 2 Se o conjunto dos dados é grande entre 50 e 1000 valores que tenham zscores inferiores a 33 ou superiores a 33 são tipicamente considerados outliers 3 Para grandes amostras 1000 valores com zscores extremos 33 podem ser considerados normais 74 Testes de Normalidade Os testes de normalidade são utilizados para verificar se a distribuição de probabilidade associada a um conjunto de dados pode ser aproximada pela distribuição normal As principais técnicas a serem discutidas são Papel da probabilidade Teste de Kolmogorov Smirnov Teste de Anderson Darling Teste de Shapiro Wilk Teste de RyanJoiner Papel da Probabilidade O papel da probabilidade é uma técnica gráfica utilizada para verificar a adequação de um determinado modelo estatístico aos dados Os passos para sua construção são 1 Considere uma amostra Fx X1 X2 Xn 2 Ordene em ordem crescente os N elementos da amostra 3 Simule uma distribuição Normal de N elementos di onde D 1 2 N tal que 𝑑𝑖 𝐷 03 𝑁 04 Eq 32 A correção no numerador de 03 e 04 no denominador é necessário para que não tenhamos di 1 Estas constantes não são padrão dependendo do autor ou software 4 Simule uma distribuição normal de N elementos 5 Calcule a função Z tal que 𝑍 𝑑𝑖 𝑑𝑖 𝑠𝑑𝑖 para di Eq 33 6 Monte o gráfico de dispersão Fx e Z Exemplificando para os valores Fx exibidos na Tabela 17 temos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 64 Fx D di Z 142738 1 006731 14863 152229 2 016346 11560 169742 3 025962 08257 190642 4 035577 04954 198492 5 045192 01651 199568 6 054808 01651 210288 7 064423 04954 222488 8 074038 08257 261826 9 083654 11560 315435 10 093269 14863 Média 05 Despadrão 029112 Tabela 17 Dados para determinação do Gráfico Papel da probabilidade No gráfico gerado Figura 44 podemos avaliar o quanto a distribuição de probabilidades normal ideal Zdi representada pela linha vermelha se distancia dos valores plotados linha azul É uma análise visual e subjetiva sujeita a interpretação do pesquisador e por isto mesmo pouco utilizada em trabalhos acadêmicos Figura 44 Gráfico Papel da Probabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 65 Teste De Kolmogorov Smirnov Grande parte dos problemas que encontramos em estatística são tratados com a hipótese que os dados são retirados de uma população com uma distribuição de probabilidade específica Por exemplo suponha que um pequeno número de observações foi retirada de uma população com distribuição desconhecida e que estamos interessados em testar hipóteses sobre a média desta população O Teste de Kolmogorov Smirnov é um teste de hipóteses e é usado para verificar se a hipótese de os dados de uma determinada amostra seguirem uma distribuição normal pode ser rejeitada ou não Este teste observa a máxima diferença absoluta entre a função normal de distribuição acumulada para os dados e a função de distribuição empírica dos dados Como critério comparamos esta diferença com um valor crítico para um dado nível de significância A Figura 45 ilustra o funcionamento do processo Figura 45 Máxima distância entre a função normal e a função empírica dos dados Para exemplificarmos o teste considere uma amostra aleatória simples 𝑋1 𝑋2 𝑋3 𝑋𝑁 de uma população com função de distribuição acumulada contínua desconhecida A estatística utilizada para o teste é 𝐷𝑛 𝑆𝑢𝑝𝑥𝐹𝑥 𝐹𝑛𝑥 Eq 34 Onde FX representa a função de distribuição acumulada assumida para os dados e FnX representa a função de distribuição acumulada empírica dos dados Esta função corresponde a distância máxima vertical entre os gráficos de FX e FnX sobre a amplitude dos possíveis valores de x Como a função de distribuição empírica é descontínua e a função de distribuição hipotética é contínua vamos considerar duas outras estatísticas 𝐷 𝑆𝑢𝑝𝑥𝑖𝐹𝑥𝑖 𝐹𝑛𝑥𝑖 Eq 35 𝐷 𝑆𝑢𝑝𝑥𝑖𝐹𝑥𝑖 𝐹𝑛𝑥𝑖1 Eq 36 Essas estatísticas medem as distâncias vertical entre os gráficos das duas funções teórica e empírica nos pontos xi1 e xi Com isso podemos utilizar como estatística de teste 𝐷𝑛 max 𝐷 𝐷 Se Dn é maior que o valor crítico para a estatística do teste Figura 46 rejeitamos a hipótese de normalidade dos dados com 1α 100 de confiança Caso contrário não rejeitamos a hipótese de normalidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 66 Figura 46 KolmogorovSmirnov Valores Críticos para a estatística do teste Exemplo 11 Para a amostra abaixo Tabela 18 retirada de testes de resistência a compressão verifique se a distribuição dos dados corresponde à distribuição normal com 95 de confiabilidade a amostra não possui outliers N 1 2 3 4 5 6 7 8 9 10 Xi 385 375 376 378 39 401 408 415 423 425 Tabela 18 Valores de resistência à compressão de uma amostra A Tabela 19 apresenta os passos necessários para o teste de KolmogorovSmirnov já com os valores máximos D e D identificados N Xi Zi PZi FnXi 1n D PZi Fnxi D PZi FnX i1 1 375 1163 01223 01000 00223 01223 2 376 1112 01331 02000 00669 00331 3 378 1009 01565 03000 01435 00435 4 385 0649 02583 04000 01417 00417 5 39 0391 03478 05000 01522 00522 6 401 0175 05695 06000 00305 00695 7 408 0535 07038 07000 00038 01038 8 415 0896 08148 08000 00148 01148 9 423 1308 09045 09000 00045 01045 10 425 1410 09208 10000 00792 00208 Média 3976 DPadrão 194 Tabela 19 Exemplo do teste de Kolmogorov ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 67 A tabela da Figura 46 nos dá o valor crítico para D considerando a amostra com 10 elementos n 10 e 95 de confiabilidade α 005 O valor crítico para a estatística do teste é 0409 Como a estatística do teste Dn max D D 01522 é menor que o valor crítico não podemos rejeitar a hipótese de normalidade dos dados com 1α 100 95 de confiança Exercício Dada as amostras abaixo Tabela 20 verificar se os dados seguem distribuição normal Os dados não foram verificados quanto a presença de outliers Tabela 20 Dados para teste de normalidade Os testes de normalidade são testes de hipóteses onde a hipótese base chamada de hipótese zero ou H0 é de que os dados da amostra seguem a distribuição normal A hipótese contrária H1 os dados não seguem a distribuição normal é aceita quando conseguimos rejeitar H0 e H1 é considerada como a hipótese forte a H0 é a hipótese fraca Quando o teste consegue a rejeição de H0 temos certeza que os dados não seguem a distribuição normal Quando não se consegue rejeitar H0 e consequentemente H0 é aceita não podemos afirmar com certeza que a distribuição é normal simplesmente não conseguimos provar o contrário Costumase chamar o teste de hipóteses de teste de presunção de inocência Todo réu é inocente H0 até que se prove o contrário H1 Se não conseguimos provar a culpa temos que aceitar que o réu é inocente aceitar H0 No caso contrário quando conseguimos provar que o réu é culpado H1 dizemos que conseguimos rejeitar H0 Assim podemos entender que os testes de hipóteses ou conseguem rejeitar H0 provar a culpa com certeza por isso H1 é chamada de hipótese forte ou são obrigados a aceitar H0 aceitar a inocência uma vez que não conseguiram provar a culpa e por isso chamada de hipótese fraca Espero que a lógica por trás dos testes de normalidade tenha sido entendida pois todos os demais testes seguem o mesmo princípio a comparação com a distribuição normal O tipo de comparação varia de um teste para outro alterando a precisão e a confiabilidade com a qual a hipótese da normalidade dos dados H0 é rejeitada ou aceita Os testes de normalidade papel da probabilidade e Kolmogorov possuem cálculo mais simplificado e foram apresentados acima para que a lógica envolvida em sua análise possa ser entendida Os demais testes de normalidade mais complexos e precisos serão apresentados a partir do RStudio 75 Testes De Normalidade No Rstudio Neste tópico vamos nos centrar na execução dos testes de normalidade no RStudio e não na matemática ou estatística que compõe estes testes Vamos comparálos quanto aos resultados e verificar quais são os mais rigorosos e os menos rigorosos Faremos isto a partir de exemplos para facilitar e permitir que os testes sejam replicados como exercícios práticos Consideremos uma amostra de 20 elementos representando a resistência a compressão de corpos de prova Tabela 21 cujos outliers não foram identificados A amostra possui distribuição normal ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 68 N 1 2 3 4 5 6 7 8 9 10 Xi 1058 1108 72 1013 1024 1258 997 1035 1046 139 N 11 12 13 14 15 16 17 18 19 20 Xi 1052 1093 1073 1059 1032 1012 1021 998 1032 1057 Tabela 21 Resistência a compressão de 20 corpos de prova Identificação dos outliers usando boxplot Inicialmente vamos digitar os dados em uma planilha com formato csv separado por vírgulas tendo como cabeçalho as letras res resistência Todos os dados devem ser digitados na coluna A A seguir usando o comando readcsv2 filechoose header TRUE vamos carregar a planilha no RStudio o primeiro parâmetro indica a abertura de janela para a seleção do arquivo e o segundo a existência de header cabeçalho Para verificar se os dados foram corretamente carregados podemos executar o comando summary como mostrado a seguir Os dados foram carregados na variável vetor dados dados readcsv2filechoose header TRUE summarydados x Min 720 1st Qu1019 Median 1040 Mean 1054 3rd Qu1062 Max 1390 O próximo passo é a verificação da existência de outliers Podemos fazer isto executando o teste de Grubbs ou montando um boxplot com o vetor Uma vez que o objetivo é usar o RStudio vamos optar pelo boxplot Figura 47 Figura 47 Identificação de valores outliers Na Figura 47 podemos visualizar a identificação de três valores considerados como outliers O menor valor e dos dois maiores valores Vamos retirálos da amostra recarregar a planilha csv e reexecutar o boxplot Figura 48 dados readcsv2filechoose header TRUE summarydados x Min 997 1st Qu1021 Median 1035 Mean 1042 3rd Qu1058 Max 1108 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 69 Figura 48 Dados do vetor com a remoção dos valores outliers Testes de Normalidade no RStudio Uma vez removido os outliers presentes na amostra podemos executar os testes de normalidade e comparar seus resultados O primeiro será o teste gráfico papel da probabilidade Figura 49 qqnormdados qqlinedados lty 2 col red Figura 49 Gráfico qqnorm papel da probabilidade No gráfico da Figura 49 o eixo y representa os valores de resistência a compressão e o eixo x os quantis15 teóricos da distribuição normal N0 1 A interpretação é subjetiva mas como os pontos estão bem próximos da reta tracejada vermelha podemos ter um bom indicativo da normalidade dos dados Os testes seguintes são testes de hipóteses Vamos aplicar os testes de KolmogorovSmirnov Lilliefors variação do teste de KolmogorovSmirnov Cramervon Mises ShapiroWilk ShapiroFrancia e Anderson Darling Todos estes testes estão disponíveis no pacote Nortest16 Vamos também usar um pouco de código para agrupar os resultados 15 Em estatística é comum o uso do termo quantil para referirse a percentis A diferença é que o quantil é expresso sob a forma decimal quantil 05 percentil 50 16 Se você ainda não tem conhecimento do significado de pacote para o RStudio está na hora de começar a estudar e pesquisar um pouco mais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 70 x meandados s sddados cat Média amostral x Desvio padrão amostral s Média amostral 1041765 Desvio padrão amostral 3114388 O primeiro teste de KolmogorovSmirnov precisa como parâmetros da média e desvio amostrais t1 kstestdados pnorm 1041765 3114388 t2 lillietestdados t3 cvmtestdados t4 shapirotestdados t5 sftestdados t6 adtestdados Os resultados dos testes de normalidade foram armazenados nas variáveis tn Podemos exibilos digitando o nome da variável t5 por exemplo mas vamos continuar com o agrupamento dos resultados criando uma tabela para exibilos testes ct1method t2method t3method t4method t5method t6method descrição do método estt asnumericct1statistic t2statistic t3statistic t4statistic t5statistic t6statistic estat valorp ct1pvalue t2pvalue t3pvalue t4pvalue t5pvalue t6pvalue valor p resulttestes cbindestt valorp inserindo na tabela resultados rownamesresulttestes testes nome das linhas colnamesresulttestes cEstatística p nome das colunas Agora basta digitar o nome da tabela com os resultados resulttestes e analisar cada linha da mesma printresulttestes digits 5 Estatística p Onesample KolmogorovSmirnov test 0115392 097737 Lilliefors KolmogorovSmirnov normality test 0115389 079205 Cramervon Mises normality test 0032028 080417 ShapiroWilk normality test 0961168 065354 ShapiroFrancia normality test 0966677 066747 AndersonDarling normality test 0233047 076041 Interpretação dos resultados Os testes de hipóteses nos softwares estatísticos incluindo o RStudio são dados em termos de pvalor Então antes de analisarmos os resultados vamos entender o significado do pvalor O pvalor representa a probabilidade de obter um efeito pelo menos tão extremo quanto aquele em seus dados amostrais assumindo que a hipótese nula é verdadeira Os pvalores abordam apenas uma questão quão provável são seus dados assumindose que a hipótese nula é verdadeira O pvalor também denominado nível descritivo do teste representa a probabilidade de que a estatística do teste como variável aleatória tenha valor igual ou mais extremo que aquela observada em uma amostra sob a hipótese nula ou seja quando a hipótese H0 é verdadeira Tradicionalmente o valor de corte para rejeitar a hipótese nula é de 005 nível de significância α 005 mas pode ser alterado em qualquer dos testes de acordo com a necessidade do pesquisador o que significa que ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 71 quando não há nenhuma diferença um valor tão extremo para a estatística de teste é esperado em menos de 5 das vezes Um pvalor inferior ao valor prédeterminado para o nível de significância vamos considerar 005 indicando um nível de confiabilidade de 95 por exemplo um pvalor de 003 conduz a rejeição da hipótese nula H0 e consequente aceitação da hipótese alternativa H1 Com o pvalor 003 temos que há apenas uma probabilidade de 3 de se observar a condição imposta sob a hipótese nula Como essa probabilidade inferior a probabilidade arbitrada para o teste 005 ou 5 rejeitamos a hipótese nula Lembrese que é uma análise estatística Sob as condições descritas no parágrafo anterior o pvalor de 003 pode ser interpretado como a possibilidade de em cada 100 amostras iguais extraídas da população 3 amostras confirmarão a hipótese nula e 97 não a confirmarão Como 3 em cada 100 representa um percentual inferior ao estabelecido como nível de significância para o teste 5 em cada 100 a conclusão estatística é pela rejeição da hipótese nula Ainda temos que considerar que estamos trabalhando com amostras teoricamente retiradas aleatoriamente de uma população Assim um pvalor inferior ao nível de significância estabelecido para o teste indica o quanto os dados são improváveis assumindose que a hipótese nula é verdadeira Isto conduz a duas prováveis constatações concorrentes 1 a hipótese nula é verdadeira mas a amostra é incomum e não representa a população ou 2 a hipótese nula é falsa e a amostra é representativa da população Voltando aos resultados dos testes de normalidade o maior pvalor encontrado foi para o teste de KolmogorovSmirnov pvalor 09774 e o menor pvalor foi para o teste de ShapiroWilk pvalor 06535 Todos os pvalor encontrados são superiores a 005 indicando que a hipótese nula H0 normalidade dos dados da amostra não pode ser rejeitada Podemos também entender e a literatura corrobora que os testes mais rigorosos são os de ShapiroWilk e ShapiroFrancia e o menos rigoroso o de KolmogorovSmirnov Para um detalhamento maior vamos executar alguns desses testes de forma isolada O teste de Kolmogorov Smirnov e o teste de ShapiroWilk kstestdados pnorm 1042 31144 Onesample KolmogorovSmirnov test data dados D 011833 pvalue 09712 shapirotestdadosres ShapiroWilk normality test data dadosres W 096117 pvalue 06535 Executando o teste de KolmogorovSmirnov para o exemplo da Tabela 18 temos dados readcsv2filechoose header T summarydados res Min 3750 1st Qu3798 Median 3955 Mean 3976 3rd Qu4133 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 72 Max 4250 x meandadosres sx sddadosres kstestdadosres pnorm x sx Onesample KolmogorovSmirnov test data dadosres D 015218 pvalue 09485 alternative hypothesis twosided O valor da estatística D 015218 resultante do teste executado no RStudio é o mesmo encontrado quando executamos os cálculos no MS Excel 01522 O RStudio não nos mostra o valor crítico Figura 46 mas o p valor nos dá a confiabilidade ou amplitude com a qual podemos aceitar a hipótese nula normalidade dos dados 76 Intervalo De Confiança Um intervalo de confiança IC é um intervalo estimado de um parâmetro de interesse de uma população a média por exemplo Em vez de estimar o parâmetro por um único valor é dado um intervalo de estimativas prováveis centralizado no valor do parâmetro de interesse 𝑋 𝑥 por exemplo Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa em relação ao valor de um parâmetro de interesse Por exemplo em dois experimentos ao compararmos os intervalos de confiança calculados com o mesmo nível de significância α para a média da resistência a compressão obtidos sendo o primeiro 100 15 MPa e o segundo 100 7 MPa podemos concluir que o segundo experimento ofereceu resultados mais confiáveis com menor variação Isto significa que sendo todas as estimativas iguais pesquisas que resultem num IC menor é mais confiável do que uma que resulte num IC maior Um dos principais parâmetros associados ao intervalo de confiança é o coeficiente de confiança ou nível de confiança ou simplesmente confiança 1 𝛼 É o valor complementar do erro esperado se temos 5 de chances de errar uma estimativa 𝛼 005 temos consequentemente 95 de confiança em acertar a mesma estimativa 1 𝛼 Outra forma de entendermos o coeficiente de confiança é a repetição do experimento Com o nível de confiança 1 𝛼 podemos afirmar que se repetirmos muitas vezes o experimento aproximadamente em 100 1 𝛼 das vezes a média populacional estará no intervalo encontrado Uma das principais interpretações do intervalo de confiança consiste em avaliar a incerteza que temos a respeito de estimarmos um determinado parâmetro populacional a partir de uma amostra aleatória de tamanho n Intervalo De Confiança Para A Média Quando queremos estimar inferir a média de uma população por meio da análise dos valores de uma amostra ou seja queremos inferir valores para a população a partir dos dados da amostra temos dois casos distintos a considerar quando a variância da população é conhecida e quando ela é desconhecida Podemos considerar que no primeiro caso variância da população conhecida temos algumas informações sobre a população e podemos adotar métodos que considerem que a amostra é próxima da população No segundo caso variância desconhecida não sabemos nada sobre a população que originou a amostra Neste caso métodos cujo resultado seja mais abrangente são os indicados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 73 Variância Conhecida Consideremos uma amostra aleatória simples X1 Xn obtida de uma população com distribuição normal com média µ e variância σ conhecidas A variável Z nestas situações é dada pela equação 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 Eq 37 Consideremos que a probabilidade da variável Z Figura 50 tomar valores entre 𝑍𝛼2 e 𝑍𝛼2 é de 1 α Então de acordo com a curva da distribuição normal padrão temos que 𝑃𝑍𝛼2 𝑍 𝑍𝛼2 1 𝛼 Substituindo Z na equação de probabilidade acima temos 𝑃 𝑍𝛼2 𝑋 𝜇 𝜎 𝑛 𝑍𝛼2 1 𝛼 Eq 38 Figura 50 Intervalo de confiança para a média Variância Conhecida Isolando a média populacional µ a equação passa a ser 𝑃 𝑋 𝑍𝛼2 𝜎 𝑛 𝜇 𝑋 𝑍𝛼2 𝜎 𝑛 1 𝛼 Eq 39 A equação acima corresponde ao Intervalo de Confiança para a média com um nível de confiabilidade 1 α e pode ser reescrita como 𝐼𝐶𝜇 1 𝛼 𝑋 𝑍𝛼2 𝜎 𝑛 𝑋 𝑍𝛼2 𝜎 𝑛 Eq 40 Como citado anteriormente o intervalo de confiança significa que repetindo o experimento muitas vezes em aproximadamente 100 1 α das vezes a média populacional estará no intervalo encontrado Exemplo 12 Em um experimento para testes de diferentes compostos para produção de concreto de alta resistência com variância conhecida para o exemplo considerar o desvio padrão populacional σ igual ao desvio padrão amostral s foram testadas quatro composições A B C e D diferentes com 4 6 8 e 10 elementos por amostra respectivamente A partir dos resultados de resistência a flexão Tabela 22 observados para os elementos da amostra determine o intervalo de confiança com 95 de confiabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 74 Para a solução do problema apresentado vamos inicialmente carregar os dados no RStudio a partir de uma planilha csv Com a planilha carregada podemos verificar a existência de valores outliers se existirem devem ser excluídos da amostra e executar o teste de normalidade ShapiroWilk que nos parece ser o mais crítico dos testes estudado Tabela 22 Dados de resistência a flexão das amostras Carga dos dados no RStudio e execução do comando para geração do gráfico de boxplot com cores diferentes para cada tratamento mostrado na Figura 51 librarynortest dados readcsv2filechoose headerT dados a b c d 1 6373 7101 9645 9524 2 7215 6538 8252 9513 3 5822 8193 9262 8544 4 5803 7297 9082 8613 5 NA 5868 9436 7950 6 NA 5253 8168 8655 7 NA NA 8149 8444 8 NA NA 9367 10837 9 NA NA NA 9439 10 NA NA NA 9419 boxplotdados colcredblueyellowgray ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 75 Figura 51 Boxplot dos dados das amostras A B C e D O gráfico de boxplot gerado pelo RStudio não indica a presença de valores outliers Assim prosseguimos com o teste de normalidade para os elementos das amostras shapirotestdadosa ShapiroWilk normality test data dadosa W 085583 pvalue 02456 shapirotestdadosb ShapiroWilk normality test data dadosb W 098613 pvalue 09777 shapirotestdadosc ShapiroWilk normality test data dadosc W 083366 pvalue 006479 shapirotestdadosd ShapiroWilk normality test data dadosd W 090921 pvalue 02756 Todos os pvalores são superiores a 005 de onde não podemos rejeitar a hipótese de que os dados das amostras seguem a distribuição normal Assim passamos ao cálculo dos intervalos de confiança para a média para cada uma das amostras Vamos calcular pela fórmula dada anteriormente e pelo RStudio Como o valor do nível de confiança foi definido como 95 1 α isto implica que α é igual a 005 e α2 0025 Com o uso da tabela da distribuição normal padronizada obtemos que Z0025 196 e com a aplicação da fórmula a seguir podemos calcular o intervalo de confiança Eq 40 para todas as amostras conforme mostrado na Tabela 23 𝐼𝐶𝜇 1 𝛼 𝑋 𝑍𝛼2 𝜎 𝑛 𝑋 𝑍𝛼2 𝜎 𝑛 A B C D n 4 6 8 10 Média 6303 6708 8920 9094 DesvP 663 1054 626 822 CV 011 016 007 009 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 76 𝑍𝛼2 𝜎 𝑛 650 844 434 509 IC 5654 5865 8486 8584 IC 6953 7552 9354 9603 Tabela 23 Intervalo de confiança para as amostras Colocando no formato padrão de intervalo de confiança temos Amostra A 𝐼𝐶𝜇 095 56546953 Amostra B 𝐼𝐶𝜇 095 58657552 Amostra C 𝐼𝐶𝜇 095 84869354 Amostra D 𝐼𝐶𝜇 095 85849603 Neste exemplo trabalhamos com diferentes coeficientes de variação razão entre o desvio padrão e a média amostral Se todas as amostras tivessem o mesmo coeficiente de variação poderíamos notar mais explicitamente que à medida que o número de elementos na amostra aumenta a relação entre a amplitude do intervalo de confiança e a média diminui pois com o aumento do tamanho da amostra conseguimos representar melhor a população e assim obter estimativas mais precisas Da mesma forma se considerarmos amostras com a mesma quantidade de elementos quanto maior for o desvio padrão maior será a relação entre a amplitude do intervalo de confiança e a média pois maior variabilidade nos elementos da amostra implica em menor precisão nas estimativas para a população Variância Desconhecida Quando não temos informações sobre a população somente os dados da amostra para a análise a diferença é que usamos a distribuição tStudent ao invés da distribuição normal padrão Consideremos por exemplo uma amostra aleatória simples X1 Xn obtida de uma população com distribuição normal com média e variância desconhecidas Como neste caso a variância é desconhecida utilizaremos a variância amostral S2 no lugar de 2 Assim temos que a fórmula apresentada anteriormente para Z passa a ser 𝑇 𝑋 𝜇 𝑠 𝑛 𝑡𝑛 1 Eq 41 Ou seja a variável obedece a distribuição t de Student com n1 graus de liberdade Então ao fixarmos o nível de significância α obtemos da Tabela da distribuição t de Student com n1 graus de liberdade o valor t n1 α2 que satisfaz a probabilidade P tal que 𝑃 𝑇𝑛1 𝛼 2 𝑇 𝑇𝑛1 𝛼 2 1 𝛼 Eq 42 Repetindo o mesmo raciocínio empregado anteriormente na dedução do intervalo de confiança para a média temos 𝐼𝐶𝜇 1 𝛼 𝑋 𝑡𝛼2 𝑠 𝑛 𝑋 𝑡𝛼2 𝑠 𝑛 Eq 43 Reforçando novamente o intervalo de confiança significa que repetindo o experimento muitas vezes em aproximadamente 100 1 α das vezes a média populacional estará no intervalo encontrado Só que desta ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 77 vez como usamos a distribuição tStudent como base para a inferência da média populacional o intervalo de confiança terá maior amplitude Para visualizarmos isto vamos repetir o exemplo anterior com o pressuposto que não possuímos informações sobre a população variância desconhecida Os dados são apresentados na Tabela 24 Se compararmos com os dados apresentados na Tabela 23 cálculo do IC usando a distribuição normal considerando a variância populacional conhecida podemos facilmente identificar que a amplitude do intervalo da IC para a média aumentou Uma vez que não temos informações sobre a população e vamos inferir usando apenas os dados das amostras as inferências são mais conservadoras As observações feitas anteriormente permanecem Quanto maior o número de elementos da amostra menor a amplitude do IC e quanto maior o desvio padrão maior a amplitude do IC considerandose o outro fator constante A B C D n 4 6 8 10 Média 6303 6708 8920 9094 DesvP 663 1054 626 822 CV 011 016 007 009 tn1 α2 3182 2571 2365 2262 𝑡𝛼2 𝑠 𝑛 1055 1107 523 588 IC 5249 5602 8397 8507 IC 7359 7816 9444 9682 Tabela 24 Cálculo do IC usando a distribuição tStudent 77 Testes de Hipóteses Comparação de Médias Neste item vamos apresentar as ideias fundamentais sobre testes de hipóteses Podemos considerar que um dos principais objetivos de um experimento é confirmar uma determinada afirmação sobre uma população ou mais especificamente sobre um parâmetro dessa população Assim tornase também objetivo do experimento comprovar se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação Esta é a função do teste de hipóteses Vamos supor que um pesquisador deseja saber se a inclusão de um determinado elemento na produção do concreto permite melhorar suas propriedades como resistência mecânica porosidade dentre outras Podemos entender que esta pesquisa levanta hipóteses sobre as propriedades por exemplo a média µ da resistência à compressão tração por compressão diametral absorção por imersão e permeabilidade do material a ser produzido população O pesquisador poderia fazer suposições ou afirmativas sobre a variável aleatória que representa as propriedades de interesse do material produzido qual o percentual de incremento ou decremento em cada uma das propriedades por exemplo Estas afirmações ou suposições são chamadas hipóteses estatísticas Assim podemos dizer que hipótese estatística é uma conjectura sobre um parâmetro ou propriedade a ser comprovada ou rejeitada por meio da análise dos resultados de experimentos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 78 A hipótese base para o teste de hipóteses é chamada de hipótese nula H0 e ela é usualmente caracterizada pela igualdade17 No exemplo anterior a hipótese nula seria a de que as médias das propriedades de interesse são as mesmas com ou sem a adição do novo elemento ou seja a adição do novo elemento não produz melhorias significativas nas propriedades do concreto produzido A hipótese contrária que usamos como alternativa à hipótese nula isto é a hipótese que será aceita quando a hipótese nula é rejeitada é denominada hipótese alternativa H1 também chamada de hipótese do pesquisador Para o exemplo como o pesquisador está interessado em comprovar melhorias nas propriedades a hipótese alternativa seria que as médias das propriedades de interesse são maiores para o concreto com a adição do elemento do que sem a adição Assim poderíamos ter 𝐻0 𝜇0𝑃𝑋 𝜇𝑃𝑋 𝐻1 𝜇0𝑃𝑋 𝜇𝑃𝑋 Onde 𝜇0 é a média da propriedade para o concreto de referência produzido sem a adição do elemento e µ a média com a adição do elemento para a propriedade ou parâmetro 𝑃𝑥 Outros tipos de formulação de hipóteses também são comuns tais como 𝐻0 𝜇0 𝜇 𝐻0 𝜇0 𝜇 𝐻0 𝜇0 𝜇 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 x Os testes de hipóteses podem ser bilaterais quando desejamos saber se a média é diferente neste caso se a média for maior ou menor não importa pois ela é diferente ou unilaterais quando a hipótese H1 é construída com a suposição de aumento maior ou diminuição menor da média Para os testes bilaterais o nível de confiança estipulado para o teste normalmente α 005 deve ser dividido entre as caudas pois queremos ter 95 de certeza de que a média é diferente como mostrado na Figura 52 As hipóteses para o teste são 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 Independente de usarmos a distribuição normal padrão ou a distribuição tStudent o valor de α estipulado para o teste será dividido entre as duas caudas α2 A região central da curva indica a área de aceitação de H0 e as caudas a área de rejeição de H0 e consequente aceitação de H1 Figura 52 17 Ver comentário sobre testes de hipóteses na Página 65 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 79 Figura 52 Teste bilateral Regiões de rejeição Nos testes unilaterais Figura 53 onde as hipóteses são formuladas com a suposição de que a média é maior ou menor as hipóteses formuladas podem ser 1 𝐻0 𝜇0 𝜇 2 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 𝐻1 𝜇0 𝜇 Figura 53 Testes unilaterais regiões de rejeição No teste unilateral com as hipóteses estipuladas acima menor ou maior que também independente da distribuição que usarmos o valor α estipulado para o teste será alocado na região correspondente à região de rejeição de H0 Afinal agora nos interessa saber com 100 1 α de confiabilidade se rejeitamos ou não a hipótese nula Análise dos dados a serem comparados Antes de iniciarmos os testes de hipóteses temos que analisar os dados e verificar o conhecimento que possuímos sobre os mesmos Quantas amostras desejo comparar As amostras são independentes ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 80 Possuímos alguma informação sobre a população Quantos elementos possui cada amostra Todas estas são questões que irão direcionar o cálculo da estatística que será utilizada para a comparação com a probabilidade extraída da distribuição normal padronizada ou da distribuição de tStudent Podemos dizer que o procedimento estatístico a ser usado na análise dos dados é dependente das questões formuladas acima Amostras Independentes Quando os elementos da amostra são distintos e independentes ou quando não há informações suficientes para determinar similaridades entre os elementos Amostra com Dados Pareados Quando os elementos da amostra são analisados em situações diferentes antes e depois ou seja cada elemento está associado a um par de medidas uma antes de um determinado tratamento e outra depois deste tratamento Outra situação ocorre quando podemos formar pares de elementos tão similares quanto possível e garantindo que os elementos do par sejam direcionados a amostras diferentes Assim poderemos aplicar tratamentos diferentes em cada elemento do par Os procedimentos estatísticos para dados pareados somente devem ser utilizados quando se tem segurança de que no período entre as mensurações o único valor que afeta os dados é o fator em estudo tratamento Caso contrário é mais recomendado um delineamento como amostras independentes Estatística a ser usada Da mesma forma que foi utilizado na determinação do Intervalo de Confiança temos que identificar se temos ou não informações sobre a população para a qual queremos inferir Novamente temos duas situações variância conhecida temos informações sobre a população e variância desconhecida não temos informações sobre a população Se conhecemos a média e a variância populacional usamos a distribuição normal padrão Z Se os dados populacionais são desconhecidos situação que irá abranger a maioria dos experimentos inovadores de engenharia usamos a distribuição tStudent Outro fator que influi na escolha de qual distribuição utilizar para o teste de hipóteses é a quantidade de elementos que a amostra contém Se a amostra contiver mais de 30 elementos 30 mensurações descontandose os valores identificados como outliers podemos usar a distribuição normal padronizada Caso contrário para amostras com 30 ou menos elementos devemos usar a distribuição tStudent A Tabela 25 apresenta o resumo dos conceitos que definem a estatística do teste a ser usada Condição Estatística Variância conhecida OU n 30 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 Variância desconhecida E n 30 𝑇 𝑋 𝜇 𝑠 𝑛 𝑡𝑛 1 Tabela 25 Escolha da estatística a ser usada Testes de Comparação de Médias A seguir apresentamos os testes de comparação de médias construídos com base nos conceitos citados anteriormente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 81 Uma amostra quando citamos a comparação dos dados de uma amostra na realidade nos referimos a uma única variável aleatória associada a esta amostra A comparação é feita para a variável aleatória que representa a propriedade ou parâmetro de interesse O critério de avaliação é Teste bilateral se Tobs Tα2 ou se Tobs Tα2 rejeitamos H0 Caso contrário não rejeitamos H0 Teste unilateral à direita se Tobs Tα rejeitamos H0 Caso contrário não rejeitamos H0 Teste unilateral à esquerda se Tobs Tα rejeitamos H0 Caso contrário não rejeitamos H0 OBS Se a variância for conhecida ou a amostra possuir mais de 30 elementos usamos a distribuição normal padronizada e a estatística para o teste é dada por Z Exemplo 13 De um lote de 1000 dormentes de concreto foram selecionados aleatoriamente 35 dormentes para testes de resistência a flexão É exigido que a resistência a flexão seja igual 54 MPa A média e o desvio padrão amostrais foram de 5681 e 74 MPa respectivamente O lote atende as especificações com 95 de confiabilidade Como o objetivo é determinar se a média populacional é igual a 54 MPa com confiabilidade de 95 α 005 o teste de hipótese é 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 O valor base para a estatística é α2 0025 e como a amostra é formada por 35 elementos vamos usar a distribuição normal padrão e a estatística Z 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 𝑍 5681 54 74 35 225 Assim temos que 𝑍𝑜𝑏𝑠 225 O valor de 𝑍𝛼2 na tabela da distribuição normal padrão é 196 Então temos que Zobs 225 e Zα2 196 o que nos mostra que Zobs está na Zona de rejeição de H0 conforme pode ser observado na Figura 54 Figura 54 Teste bilateral Z observado Também podemos calcular a probabilidade de a média amostral ser igual ao valor proposto para o teste 54 MPa Como temos um teste bilateral e o valor de α foi dividido entre as duas caudas temos que o pvalor é dado por ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 82 𝑃𝑍 𝑍𝑜𝑏𝑠 𝑃𝑍 𝑍𝑜𝑏𝑠 𝑃𝑍 225 𝑃𝑍 225 00122 00122 00244 Assim temos a probabilidade de 244 para a hipótese H0 Como a confiabilidade foi estabelecida em 95 implicando em α 005 a probabilidade para H0 é inferior a estabelecida levando a rejeição de H0 A mesma comparação pode ser realizada em termos do pvalor O pvalor resultante do teste é 00244 e o pvalor estabelecido para o teste é 005 Como o pvalor resultante é inferior ao estabelecido rejeita se H0 Exemplo 14 Os dados abaixo representam a resistência a ruptura por tração de 10 amostras de um cabo de aço Com base nos resultados desejase saber se esse cabo obedece a especificação carga média de ruptura superior a 1500 kgf com 95 de confiabilidade não foram identificados valores outliers na amostra Valores ensaios 1508 1518 1492 1505 1515 1507 1510 1505 1496 1498 Desta vez o objetivo é determinar se a média populacional é superior a 1500 Kgf com confiabilidade de 95 α 005 o teste de hipótese é 𝐻0 𝜇0 𝜇 𝐻1 𝜇0 𝜇 E usaremos o teste unilateral à direita onde se Tobs Tα rejeitamos H0 Caso contrário não rejeitamos H0 O valor base para a estatística é α 005 e como a amostra é formada por 10 elementos vamos usar a distribuição tStudent A partir dos dados da amostra os seguintes valores foram calculados X 15054 kgf S 81948 kgf N 10 α 005 O valor da estatística do teste é 𝑇 𝑋 𝜇 𝑠 𝑛 𝑡𝑛 1 𝑇 15054 1500 82 10 20825 𝑇𝑜𝑏𝑠 20838 A tabela da distribuição tStudend Figura 38 nos fornece o valor da estatística para α 005 e GL n 1 10 1 9 Assim temos que 𝑇𝛼9 1833 A Figura 55 nos permite visualizar as estatísticas do teste Como 𝑇𝑜𝑏𝑠 𝑇α9 ou seja 20838 1833 a hipótese H0 pode ser rejeitada Isto indica que a resistência média de ruptura é superior a 1500 kgf com 95 de confiabilidade ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 83 Figura 55 Teste unilateral a direita Testes de Comparação de Médias com Duas Amostras Quando comparamos duas amostras Figura 56 passamos a ter quatro tipos de situações que devem ser consideradas i a variância populacional de ambas as amostras é conhecida ii a variância populacional das amostras é igual mas desconhecida iii as variâncias populacionais são desconhecidas e iv os dados são pareados Para cada tipo há uma fórmula diferente para a estatística Figura 56 Teste de comparação de médias com duas amostras Variâncias conhecidas Suponha que queremos comparar a diferença nas médias 1 e 2 1 2 Δ0 de duas populações normais e independentes sendo suas variâncias conhecidas A Estatística do teste é dada por 𝑍𝑜𝑏𝑠 𝑋1 𝑋2 0 𝜎1 2 𝑛1 𝜎2 2 𝑛2 𝑜𝑢 𝑋1 𝑋2 0 𝜎 1 𝑛1 1 𝑛2 Eq 44 A hipótese nula é dada por H0 1 2 Δ0 O teste pode ser resumido pela Tabela 26 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 84 H0 1 2 Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 1 2 Δ0 Probabilidade acima de Z0 e abaixo de Z0 P 21 φZ0 Z0 Z α2 ou Z0 Z α2 H1 1 2 Δ0 Probabilidade acima de Z0 P 1 φZ0 Z0 Z α H1 1 2 Δ0 Probabilidade abaixo de Z0 P φZ0 Z0 Z α Tabela 26 Comparação de duas médias com variância conhecida Exemplo 15 Uma empresa está interessada em desenvolver produtos para aceleração da cura do concreto Uma nova formulação é proposta e um experimento de comparação com a formulação antiga é preparado com duas amostras a primeira usa a composição padrão e a segunda tem novo ingrediente para aceleração da cura Esperase que a adição do novo ingrediente não altere a variância da resistência a compressão 27MPa Dez amostras com a formulação 1 foram testadas com 168 horas e tiveram uma resistência média a compressão de 155 MPa Outras 15 amostras com a formulação 2 foram testadas também com 168 horas e tiveram uma resistência a compressão de 172 MPa Sabendose que as condições de preparação e teste foram homogêneas podemos afirmar com 95 de confiabilidade que a adição do novo ingrediente foi benéfica para a cura do concreto aumento da resistência a compressão Neste experimento o objetivo é determinar se a nova formulação adição do novo ingrediente melhora o tempo de cura do concreto Temos duas amostras variância populacional conhecida e igual a 27 e suposta distribuição normal e a confiabilidade exigida é de 95 α 005 Então temos σ1 σ2 σ 27 Mpa n1 10 n2 15 𝑋1 155 𝑋2 172 α 005 O teste de hipótese proposto para o problema é o teste unilateral à direita com as seguintes hipóteses 𝐻0 𝜇2 𝜇1 0 0 A resistência a compressão permanece igual 𝐻1 𝜇2 𝜇1 0 0 Rejeitar H0 se o novo ingrediente aumentar a resistência O teste a ser aplicado é o teste unilateral a direita e o critério de rejeição da hipótese nula estipulado na Tabela 26 é Z0bs Z α Usando a estatística do teste temos 𝑍𝑜𝑏𝑠 𝑋2 𝑋1 0 𝜎2 2 𝑛2 𝜎1 2 𝑛1 172 155 0 272 15 272 10 15423 𝑍𝑜𝑏𝑠 15423 O valor de Z na tabela normal padronizada Figura 37 para α 005 1 α 095 é Zα 16449 Assim temos que Zobs Zα o que nos coloca na região de aceitação de H0 como pode ser visualizado na Figura 57 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 85 Figura 57 Comparação de duas médias com variância conhecida Outra forma de análise é o pvalor probabilidade da estatística 𝑃𝑍𝑜𝑏𝑠 1 𝑃15423 1 09385 00615 O pvalor é igual a 00615 e é maior que a estatista proposta para o teste 005 conduzindo a aceitação de H0 a subtração é realizada porque nos interessa a área de rejeição de H0 e o valor 09385 corresponde à área da curva até o Zα 165 Em termos de probabilidade há uma probabilidade de 615 de encontrarmos médias de resistências a compressão iguais para a população o que é superior ao limite de 5 estabelecido Com base no exposto aceitase H0 1 2 Δ0 0 e fica estabelecido que não há diferenças estatísticas significativas entre as médias das formulações propostas no experimento Variâncias iguais e desconhecidas Suponha que queremos comparar a diferença nas médias 1 e 2 1 2 Δ0 de duas populações normais e independentes sendo suas variâncias iguais mas desconhecidas σ12 σ22 σ2 Como sabemos que as variâncias são iguais mas desconhecidas precisamos combinar as duas variâncias das amostras a partir dos desvios padrões calculados S1 e S2 para formar um estimador da variância σ Este estimador é denominado SP2 e é definido por 𝑠𝑝 𝑛1 1𝑠1 2 𝑛2 1𝑠2 2 𝑛1 𝑛2 2 Eq 45 O número de graus de liberdade para a comparação da média neste caso será dado por 𝑛1 𝑛2 2 A estatística do teste é 𝑇 𝑋1 𝑋2 0 𝑠𝑝 1 𝑛1 1 𝑛2 Eq 46 A hipótese nula é dada por H0 1 2 Δ0 O teste pode ser resumido pela Tabela 27 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 86 H0 1 2 Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 1 2 Δ0 Probabilidade acima de T0 e abaixo de T0 P 21 φT0 T0 T α2 N1N22 ou T0 T α2 N1N22 H1 1 2 Δ0 Probabilidade acima de T0 P 1 φT0 T0 Tα N1N22 H1 1 2 Δ0 Probabilidade abaixo de T0 P φT0 T0 Tα N1N22 Tabela 27 Comparação de duas médias com variância iguais e desconhecidas Exemplo 16 A adição de agregados de resíduos de concreto deve ser testada Para tanto foram testadas duas amostras a primeira com agregados naturais AN e a segunda com substituição de 25 dos agregados naturais por agregados de resíduos de concreto ARC Não houve alteração dos demais fatores Os resultados dos testes de compressão são apresentados a seguir A1 3876 4018 e 4189 e A2 4166 4116 e 4270 Supondose que a variância populacional para os tipos de concreto é igual mas desconhecida analise as amostras no nível de significância de 005 Este experimento pede para que os resultados das amostras sejam analisados São duas formulações diferentes a segunda com adição de resíduos Vamos então analisar se as médias de resistência a compressão são iguais Inicialmente vamos exibir os valores das amostras com o uso do boxplot apresentado na Figura 58 A visualização dos boxplots permite supor que a amostra B possui valores superiores então vamos construir a hipótese para o teste baseado nesta suposição Figura 58 Boxplot com os dados do exemplo 16 Cada amostra possui 3 elementos portanto temos GL 3 3 2 4 e devemos usar a distribuição de tStudent As hipóteses para o teste unilateral à direita são 𝐻0 𝜇𝐵 𝜇𝐴 0 0 A resistência a compressão é igual para as duas amostras 𝐻1 𝜇𝐵 𝜇𝐴 0 0 Rejeitar H0 se o novo ingrediente aumentar a resistência Em primeiro lugar vamos calcular a média e o desvio padrão amostral Tabela 28 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 87 Média DesvPad CR A 3876 4018 4189 4028 157 25 ARC B 4166 4116 4270 4184 079 Tabela 28 Cálculo da média e desvio padrão amostral Antes de calcularmos a estatística do teste temos que calcular o estimador da variância sp 𝑠𝑝 𝑛𝐴 1𝑠𝐴 2 𝑛𝐵 1𝑠𝐵 2 𝑛𝐴 𝑛𝐵 2 3 11572 3 10792 3 3 2 12428 Com a estatística do teste temos 𝑇𝑜𝑏𝑠 𝑋𝐵 𝑋𝐴 0 𝑠𝑝 1 𝑛𝐴 1 𝑛𝐵 4184 4028 0 124281 3 1 3 15373 𝑒 𝑇𝑜𝑏𝑠 15373 O valor de 𝑇𝛼4 na tabela tStudent Figura 38 para α 005 1 α 095 é Tα4 2132 Assim temos que Tobs 𝑇𝛼4 o que nos coloca na região de aceitação de H0 A resistência a compressão é igual para as duas amostras como pode ser visualizado na Figura 59 Figura 59 Comparação de duas médias com variâncias iguais e desconhecidas Usando o pvalor probabilidade da estatística temos 𝑃𝑇𝑜𝑏𝑠 𝑃15373 00995 O pvalor é igual a 00995 e é maior que a estatista proposta para o teste 005 conduzindo a aceitação de H0 Em termos de probabilidade há uma probabilidade de 995 de encontrarmos médias de resistências a compressão iguais para a população o que é superior ao limite de 5 estabelecido Com base no exposto aceitase H0 1 2 Δ0 0 e fica estabelecido que não há diferenças estatísticas significativas entre as médias das amostras apesar da suposição inicial feita pela interpretação dos boxplots exibidos na Figura 58 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 88 Variâncias desconhecidas Suponha que queremos comparar a diferença nas médias 1 e 2 1 2 Δ0 de duas populações normais e independentes sendo suas variâncias desconhecidas σ12 σ22 Neste caso como as variâncias são desconhecidas e possivelmente desiguais precisamos estimar os graus de liberdade 𝜐 com o uso da equação 𝜐 𝑠1 2 𝑛1 𝑠2 2 𝑛2 2 𝑠1 2 𝑛1 2 𝑛1 1 𝑠2 2 𝑛2 2 𝑛2 1 Eq 47 Com o número de graus de liberdade para a comparação da média dado pela expressão acima a estatística do teste é 𝑇𝑜𝑏𝑠 𝑋1 𝑋2 Δ0 𝑠1 2 𝑛1 𝑠2 2 𝑛2 Eq 48 A hipótese nula também é dada por H0 1 2 Δ0 O teste pode ser resumido pela tabela apresentada na Tabela 29 H0 1 2 Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 1 2 Δ0 Probabilidade acima de T0 e abaixo de T0 P 21 φT0 T0 T α2 v ou T0 T α2 v H1 1 2 Δ0 Probabilidade acima de T0 P 1 φT0 T0 Tα v H1 1 2 Δ0 Probabilidade abaixo de T0 P φT0 T0 Tα v Tabela 29 Hipóteses para variâncias desconhecidas Exemplo 17 Segundo o fabricante a adição de determinado aditivo aumenta a resistência a compressão do concreto em no mínimo 10 Para testar este aditivo uma empresa produziu usando o mesmo método duas amostras com 10 elementos mostrados na Tabela 30 A primeira amostra A com a formulação padrão usada pela empresa e a segunda amostra B com a inclusão do aditivo nas proporções indicadas pelo fabricante Os testes da primeira amostra resultaram em uma média amostral 𝑋𝐴 de 4480 MPa e desvio padrão de 393 MPa A segunda amostra obteve média amostral 𝑋𝐵 de 5036 MPa e desvio padrão amostral de 496 MPa Verifique se o aditivo atinge os objetivos propostos com nível de significância de 005 Amostra 1 A 4646 4579 3914 3938 4953 4220 4731 4494 5062 4264 Amostra 2 B 5390 5304 5594 4797 5200 5101 4253 5704 4538 4483 Tabela 30 Valores das amostras A e B Esta é uma situação diferente Temos que verificar se o concreto produzido com o aditivo apresentará um aumento na resistência a compressão de no mínimo 10 São duas formulações diferentes a segunda com o aditivo Novamente iremos usar o gráfico de boxplot para auxiliar a definição das hipóteses A Figura 60 exibe as informações sobre as amostras Como as informações do gráfico de boxplot não permitem suposições vamos nos ater ao enunciado do exemplo ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 89 Figura 60 Boxplot com os dados do exemplo 17 Como a quantidade de elementos das amostras é inferior a 30 e não temos informações sobre a variância populacional devemos usar a distribuição de tStudent com a suposição de variâncias desconhecidas Como o fabricante afirma que o aumento na resistência é superior a 10 as hipóteses para o teste podem ser definidas como unilateral à direita 𝐻0 𝜇𝐵 𝜇𝐴 0 10 𝜇𝐴 A resistência a compressão atingiu o aumento 𝐻1 𝜇𝐵 𝜇𝐴 0 10 𝜇𝐴 Rejeitar H0 se o aumento for superior a 10 fabricante Usando os valores fornecidos para a média e desvio padrão amostrais o teste de hipóteses pode ser transcrito para α 005 como 𝐻0 𝜇𝐵 𝜇𝐴 448 A resistência a compressão atingiu o aumento 𝐻1 𝜇𝐵 𝜇𝐴 448 Rejeitar H0 se o aumento for superior a 10 Inicialmente vamos calcular a estimativa dos graus de liberdade 𝜐 𝜐 𝑠𝐴 2 𝑛1 𝑠𝐵 2 𝑛𝐵 2 𝑠𝐴 2 𝑛𝐴 2 𝑛𝐴 1 𝑠𝐵 2 𝑛𝐵 2 𝑛𝐵 1 3932 10 4962102 3932 10 2 9 4962 10 2 9 171159 17 A estatística do teste é 𝑇𝑜𝑏𝑠 𝑋𝐵 𝑋𝐴 Δ0 𝑠𝐴 2 𝑛𝐴 𝑠𝐵 2 𝑛𝐵 5036 448 448 3932 10 4962 10 05399 O critério para rejeição da hipótese nula Tabela 29 é 𝑇𝑜𝑏𝑠 𝑇𝛼17 O valor de 𝑇𝛼17 na tabela t Student Figura 38 para α 005 1 α 095 é Tα17 174 Assim temos que Tobs 𝑇𝛼17 o que nos coloca na região de aceitação de H0 Calculando a probabilidade com base no valor da estatística do teste 𝑇𝑜𝑏𝑠 temos 𝑃𝑇𝑜𝑏𝑠 𝑃05397 0298134 valor calculado no MS Excel pela função DISTT05399 17 1 respectivamente valor T observado graus de liberdade e unicaudal O pvalor é igual a 0298134 corresponde a uma probabilidade de 2981 e é maior que a estatista proposta para o teste 005 5 conduzindo a aceitação de H0 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 90 Em termos de probabilidade há uma probabilidade de 2981 de encontrarmos médias de resistências a compressão inferiores ao aumento de 10 prometido para o concreto com o aditivo considerando se a população o que é bem superior ao limite de 5 estabelecido Com base no exposto aceitase H0 1 2 Δ0 448 e consequentemente rejeitase H1 aumento superior a 10 Comentários Comparando as médias da amostra sem o aditivo XB 448 MPa e após o uso do aditivo XA 5036 MPa temos a impressão que o objetivo do experimento foi atingido pois as médias demonstram o aumento de 10 448 448 4928 pois o valor de X2 é maior que 4928 MPa No entanto não podemos nos esquecer que a representa apenas o valor central da distribuição Vamos considerar apenas a amostra com o aditivo X1 5036 MPa e levantar a probabilidade de encontramos valores superiores a 4928 MPa usando o RStudio Para o teste o vetor dadosa1 criado com base nos dados da Tabela 30 foi carregado com os dez valores de resistência à compressão da amostra ttestdadosa1mu4928 alternative greater One Sample ttest data dadosa1 t 069178 df 9 pvalue 02533 alternative hypothesis true mean is greater than 4928 95 percent confidence interval 4749156 Inf sample estimates mean of x 50364 Conforme o teste comprova a hipótese 𝐻0 𝜇1 4928 não pode ser rejeitada e consequentemente a hipótese que nos interessa 𝐻1 𝜇1 4928 não pode ser comprovada O pvalor nos indica o percentual de ocorrências de médias superiores a 4928 MPa 2533 e isto considerando apenas a amostra com adição Outra maneira de entendermos o teste é plotarmos a distribuição de probabilidades populacional das duas amostras Figura 61 No gráfico estão destacadas as médias das duas amostras e o valor 4928 que 95 das resistências a compressão dos elementos deveriam superar uma vez que o enunciado pede um nível de significância de 005 Podemos visualizar que um pouco menos que 50 da área sob o gráfico da distribuição de frequência está à esquerda da linha verde que delimita o valor de 4928 MPa indicando que um percentual correspondente à esta área possui resistência a compressão inferior a este limite ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 91 Figura 61 Distribuição de probabilidades populacional das duas amostras Também podemos executar o teste t do RStudio para compararmos a média juntamente com a diferença esperada os vetores a1 e a2 contém os valores de resistência a compressão das amostras ttestdadosa1dadosa2mu 448 varequalFalternativegreater Welch Two Sample ttest data dadosa1 and dadosa2 t 054141 df 17116 pvalue 02976 alternative hypothesis true difference in means is greater than 448 95 percent confidence interval 2084536 Inf sample estimates mean of x mean of y 50364 44801 As hipóteses para o teste as mesmas usadas na solução do exemplo 𝐻0 𝜇1 𝜇2 448 𝐻1 𝜇1 𝜇2 448 Como o pvalor do teste é 02979 não podemos rejeitar a hipótese H0 ela é aceita e consequentemente não conseguimos comprovar que o aumento na resistência a compressão é superior a 10 O pvalor encontrado é bem próximo ao que foi calculado no MS Excel 02981 Dados Pareados Um caso especial de teste t para duas amostras ocorre quando as observações nas duas populações são coletadas em pares Cada par de observações é tomado em condições homogêneas mas que podem mudar de uma observação para outra É o caso de termos o mesmo corpo de prova submetido a duas observações sendo que o único fator que as diferencia é o tratamento ao qual o corpo foi submetido Assim podemos considerar que temos uma amostra de pares X1Y1 X2Y2 XNYN Neste caso o valor de interesse não são as mensurações das amostras mas a diferença entre elas ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 92 Para entendermos melhor o significado de dados pareados imagine um grupo de pessoas submetidas ao mesmo regime e controladas durante o regime Teríamos o peso de cada elemento antes e depois de um certo período de tempo Considerandose que o único fator que pode influenciar a alteração do peso é o regime teríamos dados pareados peso antes e peso depois Denominando de D a diferença entre as mensurações da característica de interesse o teste usa a distribuição tStudent com n 1 graus de liberdade A estatística do teste é dada por 𝑇 𝐷 0 𝑠𝐷 𝑛 Eq 49 Onde D média da diferença das mensurações dos pares Δ0 valor esperado na comparação SD desvio padrão da diferença das mensurações dos pares n número de elementos nas amostras O teste de hipóteses para amostras pareadas é baseado na análise da diferença entre as mensurações dos pares 𝐷𝑖 𝑋𝑖 𝑌𝑖 𝑝𝑎𝑟𝑎 𝑖 1 2 𝑛 sendo 𝜇𝐷 a média destas diferenças As hipóteses para o teste são 𝐻0 𝜇𝐷 0 𝐻0 𝜇𝐷 0 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 𝐻1 𝜇𝐷 0 𝐻1 𝜇𝐷 0 A hipótese nula é dada por H0 D Δ0 O teste resumido é apresentado na Tabela 31 H0 D Δ0 Hipóteses Alternativas Valor P Critérios de rejeição de H0 H1 D Δ0 Probabilidade acima de T0 e abaixo de T0 P 21 φT0 Tobs T α2 n1 ou Tobs T α2 n1 H1 D Δ0 Probabilidade acima de T0 P 1 φT0 Tobs Tα n1 H1 D Δ0 Probabilidade abaixo de T0 P φT0 Tobs Tα n1 Tabela 31 Hipóteses para dados pareados Exemplo 18 Dois métodos A e B diferentes de previsão da resistência à compressão de corpos de prova de concreto estão sendo avaliados em uma pesquisa Os dois métodos foram aplicados em 9 corpos de prova e a resistência à compressão prevista foi calculada Em seguida os corpos de prova foram rompidos e sua resistência a compressão foi mensurada A resistência a compressão mensurada RCM e a prevista pelos métodos RPA e RPB é apresentada na Tabela 32 Com um nível de significância α de 005 e partindo do pressuposto que RCM resistência mensurada representa o valor real da resistência a compressão determine a os métodos A e B podem ser considerados estatisticamente diferentes b comprove qual o método mais adequado As médias e desvios padrão amostrais são exibidos na Tabela 33 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 93 RCM RPA RPB 1 4530 4500 5310 2 4524 4608 6645 3 4688 4977 5891 4 4658 4794 627 5 5407 4426 5943 6 4938 4388 5900 7 4654 5041 4846 8 4905 4439 5169 9 4164 4601 5644 Tabela 32 Resistência a compressão real e prevista pelos métodos A e B RCM RPA RPB Média 4719 4642 5735 DesvP 343 242 556 Tabela 33 Média e desvio padrão amostrais a O método de comparação de dados pareados compara dados de duas amostras pareadas e neste caso temos três amostras Assim os dados devem ser tratados em função do objetivo a saber determinar se os métodos oferecem respostas diferentes em prever RCM A solução é comparar os métodos A e B em função da razão entre a previsão e o valor mensurado A Tabela 34 exibe a relação 𝑅𝑃𝐴 𝑅𝐶𝑀 𝑒 𝑅𝑃𝐵 𝑅𝐶𝑀 calculada a partir dos dados da Tabela 32 rpa 09934 10186 10616 10292 08186 08886 10832 09050 11049 rpb 11722 14688 12566 13461 10991 11948 10413 10538 13554 Di 01788 04503 01950 03169 02806 03062 00419 01488 02505 Tabela 34 Relação entre resistência prevista e resistência mensurada para os métodos A e B Onde Dj é a diferença entre a razão das mensurações da característica de interesse no caso a relação entre as resistências à compressão prevista e mensurada Então temos 𝐷 02317 𝑆𝐷 01366 𝑛 9 𝑒 𝐺𝐿 𝑛 1 8 A hipótese inicial para o teste pode ser verificar se os métodos oferecem respostas diferentes para a previsão de resistência à compressão teste bilateral Assim temos considerando 0 0 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 Onde 𝜇𝐷 representa a média das diferenças 𝐷𝑖 A Tabela 31 nos dá os critérios de rejeição de H0 a saber 𝑇𝑜𝑏𝑠 𝑇00258 𝑜𝑢 𝑇𝑜𝑏𝑠 𝑇00258 O valor de 𝑇00258 pode ser obtido na tabela da Figura 38 e é igual a 2306 A estatística do teste é dada por ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 94 𝑇 𝐷 0 𝑆𝑑 𝑛 02317 0 01366 9 50896 Como 𝑇𝑜𝑏𝑠é menor que 𝑇00258 isto é 50896 2306 a hipótese nula é rejeitada e temos que os resultados gerados pelos métodos são estatisticamente diferentes sendo que a probabilidade associada a estatística T é de 999 muito superior aos 5 permitido pelo teste b Para identificarmos o método mais adequado podemos realizar o teste t pareado comparando o valor real com o previsto em cada um dos métodos Para o método A temos mensurado 4530 4524 4688 4658 5407 4938 4654 4905 4164 método A 4500 4608 4977 4794 4426 4388 5041 4439 4601 Dj 030 084 289 136 981 550 387 466 437 Tabela 35 Resistência mensurada resistência calculada A e diferença entre elas Assim temos 𝐷 077 𝑆𝐷 48467 A hipótese do teste é 𝐻0 𝜇𝐷 0 ou seja o método A representa o valor real da resistência a compressão Assim considerando 0 0 as hipóteses são 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 Novamente a Tabela 31 nos dá os critérios de rejeição de H0 a saber 𝑇𝑜𝑏𝑠 𝑇00258 𝑜𝑢 𝑇𝑜𝑏𝑠 𝑇00258 O valor de 𝑇00258 pode ser obtido na tabela da Figura 38 e é igual a 2306 A estatística do teste é 𝑇𝑜𝑏𝑠 𝐷 0 𝑆𝑑 𝑛 077 0 48467 9 04766 Como 𝑇𝑜𝑏𝑠 04766 𝑇002582306 a hipótese nula não pode ser rejeitada e temos que os resultados gerados pelo método A podem ser considerados similares as mensurações efetuadas Para o método B Tabela 36 mensurado 4530 4524 4688 4658 5407 4938 4654 4905 4164 método B 5310 6645 5891 6270 5943 5900 4846 5169 5644 Dj 780 2121 1203 1612 536 962 192 264 1480 Tabela 36 Resistência mensurada resistência calculada B e diferença entre elas Assim temos 𝐷 1017 𝑆𝐷 6481 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 95 A hipótese do teste continua a mesma ou seja 𝐻0 𝜇𝐷 0 ou seja o método B representa o valor real da resistência a compressão Assim considerando 0 0 as hipóteses são 𝐻0 𝜇𝐷 0 𝐻1 𝜇𝐷 0 Considerando a mesma situação da comparação anterior temos os mesmos critérios de rejeição de H0 e o valor de 𝑇00258 igual a 2306 A estatística do teste é 𝑇𝑜𝑏𝑠 𝐷 0 𝑆𝑑 𝑛 1017 0 6481 9 47076 Como 𝑇𝑜𝑏𝑠 47076 𝑇002582306 o critério de rejeição de H0 é satisfeito e a hipótese nula é rejeitada Assim podemos concluir que os resultados gerados pelo método B são estatisticamente diferentes das mensurações efetuadas Analisando os resultados das comparações temos que o método A apresenta resultados similares aos dos testes reais e o método B não de onde podemos concluir que o método A é adequado 78 Erros Cometidos nos Testes de Hipóteses Como estamos tratando de hipóteses e probabilidades de acerto nenhum teste é 100 confiável pois há sempre a probabilidade de chegarmos à conclusão errada A realização de um teste de hipóteses conduz a dois tipos de erros possíveis erro tipo I e erro tipo II Os riscos de ocorrência desses dois tipos de erro são inversamente proporcionais ou seja quanto mais nos esforçamos para diminuir um aumentamos o outro Os tipos de erro são determinados pelo nível de significância α do teste e pelo poder do teste β Erro Tipo I Quando a hipótese nula H0 é verdadeira e o teste realizado indica sua rejeição é cometido um erro do tipo I A probabilidade de cometer um erro do tipo I é dada pelo nível de significância α definido para o teste de hipóteses Um α de 005 indica que é aceito uma chance de 5 de que o teste pode errar ao rejeitar a hipótese nula Para reduzir este risco pode ser usado um valor inferior para α Entretanto isto acarreta que o teste terá uma menor probabilidade de detectar uma diferença verdadeira rejeição de H0 quando ela realmente existe Erro Tipo II Quando a hipótese nula H0 é falsa e o teste realizado não a rejeita é cometido um erro de tipo II A probabilidade de cometer um erro de tipo II é dada por β A probabilidade de ocorrência do erro tipo II pode ser diminuída com o aumento do poder do teste Isto pode ser feito por exemplo garantindose que o tamanho da amostra seja grande o suficiente para detectar uma diferença quando ela realmente existir Como a probabilidade de não rejeitar uma hipótese nula falsa é dada por β o valor 1 β referese à probabilidade de realmente rejeitar a hipótese nula falsa H0 Esse valor 1 β é denominado poder ou potência do teste Para entendermos a relação entre os erros tipo I e tipo II e para determinar qual dos tipos de erro terá consequências mais danosas em um determinado teste vamos considerar a seguinte situação Um pesquisador deseja comparar a eficácia de dois aditivos na cura do concreto e estabeleceu as seguintes hipóteses 𝐻𝑂 𝜇1 𝜇2 Os dois aditivos são igualmente eficazes ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 96 𝐻1 𝜇1 𝜇2 Os aditivos não são igualmente eficazes Um erro do tipo I ocorre se o teste realizado pelo pesquisador rejeita a hipótese nula H0 e conclui que os dois aditivos possuem eficácia diferente quando na realidade a eficácia é a mesma Se os aditivos tiverem a mesma eficácia a pesquisa poderá não considerar este erro muito severo porque a cura do concreto será similar independentemente de qual aditivo for usado Contudo se ocorrer um erro do tipo II o teste realizado pelo pesquisador não irá rejeitar a hipótese nula H0 quando essa hipótese deveria ter sido rejeitada Assim a pesquisa irá concluir que os aditivos possuem a mesma eficácia quando na realidade não possuem Este erro possui potencial para invalidar uma pesquisa pois termina por recomendar um aditivo que não é eficaz para o que se propõe Agora imagine a mesma situação para um medicamento prestes a ser comercializado para o público Poder ou Potência do teste O poder ou potência do teste tem como objetivo conhecer o quanto o teste de hipóteses controla um erro do tipo II ou seja qual a probabilidade de não rejeitar a hipótese nula se esta for falsa O poder de um teste de hipóteses é afetado por três fatores tamanho da amostra nível de significância e a diferença entre o valor real e o valor suposto para o teste Tamanho da amostra Como já citado anteriormente quanto maior o tamanho da amostra maior a confiabilidade da análise ou seja com os outros parâmetros constantes quanto maior o tamanho da amostra maior o poder do teste Nível de Significância Se o nível de significância α é aumentado a área de rejeição do teste também aumenta Da mesma forma a região de aceitação 1 α é proporcionalmente reduzida Como resultado aumentam as chances de rejeitar a hipótese nula Isto significa que o teste tem menos chance de aceitar não rejeitar a hipótese nula quando ela é falsa e consequentemente menor chance de cometer um erro do tipo II Então o poder do teste aumenta O valor real do parâmetro a ser testado Quanto maior a diferença entre o valor real do parâmetro e o valor especificado pela hipótese nula maior o poder do teste pois é mais fácil para o teste detectar essa diferença Para entendermos melhor o poder do teste consideremos a estatística Eq 37 𝑍 𝑋 𝜇 𝜎 𝑛 𝑁0 1 E o teste de hipóteses 𝐻𝑂 𝜇 𝜇0 𝐻1 𝜇 𝜇0 O erro do tipo II β é cometido ao não rejeitar aceitar a hipótese nula H0 quando ela é falsa H1 é verdadeira Então suponha que a média real é 𝜇 𝜇0 o que leva a hipótese nula ser falsa Considerando isto a estatística do teste passa a ser 𝑍0 𝑋 𝜇0 𝜎 𝑛 𝑋 𝜇0 𝜎 𝑛 𝜎 𝑛 A distribuição de Z0 quando 𝜇 𝜇0 é ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 97 𝑍0𝑁 𝜎 𝑛 1 Para um teste bilateral a probabilidade do erro tipo II não rejeitar H0 é a probabilidade de que Z0 esteja entre 𝑍𝛼 2 e 𝑍𝛼 2 uma vez que H1 é verdadeira Esta probabilidade é dada por 𝛽 Φ 𝑍𝛼 2 𝑛 𝜎 Φ 𝑍𝛼 2 𝑛 𝜎 Eq 50 Onde Φ é a função distribuição acumulada da distribuição normal padrão Para os testes unilaterais à esquerda e à direita as probabilidades do erro tipo II β são respectivamente 1 Φ 𝑍𝛼 2 𝑛 𝜎 𝑒 Φ 𝑍𝛼 2 𝑛 𝜎 Eq 51 E o poder do teste é dado por Poder 1 β Exemplo 19 Uma empresa quer testar com base em uma amostra aleatória de 30 elementos com um nível de significância de 005 se o diâmetro das barras de aço produzidas é de 80 mm A amostra obteve um diâmetro médio de 809 mm e se sabe de experimentos anteriores que o desvio populacional é de 022 mm Verifique a hipótese e determine o poder do teste As hipóteses são 𝐻𝑂 𝜇 80 𝐻1 𝜇 80 Como α 005 e usaremos o teste bilateral temos que 𝑍𝛼 2 𝑍0025 196 o critério a ser aplicado é rejeitar H0 se 𝑍𝑜𝑏𝑠 196 𝑜𝑢 𝑍𝑜𝑏𝑠 196 Assim temos 𝑍𝑜𝑏𝑠 𝑋 𝜇0 𝜎 𝑛 809 80 022 30 224 Como 𝑍𝑜𝑏𝑠 224 196 a hipótese nula H0 é rejeitada ou seja o teste não indica que a média populacional µ seja igual a 80 mm A diferença entre 80 e 809 é significativa O poder do teste bilateral é dado por 1 𝛽 1 Φ 𝑍𝛼 2 𝑛 𝜎 Φ 𝑍𝛼 2 𝑛 𝜎 1 Φ 196 00930 022 Φ 196 00930 022 1 𝛽 1 Φ02807 Φ42007 1 03895 000001 06105 Assim temos que o poder do teste em detectar diferença de 009 mm no diâmetro da barra é de 6105 79 Testes de Hipóteses RStudio No capítulo anterior foi visto os testes de hipóteses com suas respectivas fórmulas e exemplos Neste capítulo vamos dedicar atenção para a execução destes mesmos testes estatísticos no RStudio ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 98 O teste mais usado em comparações de amostras é o ttest baseado na distribuição de tStudent cuja teoria já foi apresentada Os principais parâmetros para a execução deste teste são apresentados no Quadro 2 Para maiores informações acesse a função HELP tecla F1 do RStudio SINTAXE ttestx y NULL alternative twosided less greater mu 0 paired FALSE varequal FALSE conflevel 095 x um vetor numérico não vazio de valores de dados y um vetor numérico não vazio de valores de dados OPCIONAL alternative uma sequência de caracteres twosided greater ou less associada à hipótese alternativa 𝜇0 𝜇 𝜇0 𝜇 ou 𝜇0 𝜇 Apenas a letra inicial pode ser usada OPCIONAL DEFAULT twosided mu valor real da média ou diferença de médias se você estiver executando um teste de duas amostras OPCIONAL DEFAULT 0 zero paired Variável lógica TRUE FALSE indicando se é um teste com dados pareados ou não OPCIONAL DEFAULT FALSE varequal Variável lógica TRUE FALSE indicando se as variâncias são iguais TRUE ou não FALSE Se TRUE então a variância combinada é usada para estimar a variância caso contrário a aproximação de Welch ou Satterthwaite é usada OPCIONAL DEFAULT FALSE conflevel Nível de confiança do intervalo OPCIONAL DEFAULT 095 α 005 Quadro 2 Parâmetros para o ttest no RStudio Vamos iniciar a execução dos testes de comparação de médias no RStudio com o último exemplo visto amostras pareadas usando o mesmo exemplo Exemplo 18 do capítulo anterior Teste t com Dados Pareados Vamos continuar com o exemplo 6 só que agora no RStudio Para facilitar os dados apresentados na Tabela 32 Tabela 34 e Tabela 35 foram carregados em planilha MS Excel no formato csv e importados para o RStudio com os comandos abaixo dados readcsv2filechooseheaderT dados m a b rpa rpb d 1 4530 4500 5310 09933775 1172185 014027014 2 4524 4608 6645 10185676 1468833 033775500 3 4688 4977 5891 10616468 1256613 026585657 4 4658 4794 6270 10291971 1346071 028629437 5 5407 4426 5943 08185685 1099131 009124134 6 4938 4388 5900 08886189 1194816 005166972 7 4654 5041 4846 10831543 1041255 012277458 8 4905 4439 5169 09049949 1053823 004393139 9 4164 4601 5644 11049472 1355427 036717254 Para o comando ttest teste de tStudent para comparação de médias não precisamos calcular o valor D diferença entre as mensurações pois isto é feito internamente Para o teste entraremos com os valores diretamente Entretanto para compararmos os métodos A e B diretamente precisamos da razão entre as mensurações dadas pelas variáveis aleatórias dadosrpa e dadosrpb Assim para o item a a comparação dos métodos A e B o comando no RStudio é ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 99 ttestdadosrpa dadosrpb paired TRUE alternative twosided Paired ttest data dadosrpa and dadosrpb t 50896 df 8 pvalue 00009419 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 03366442 01267071 sample estimates mean of the differences 02316757 O resultado do teste apresenta a estatística T t 50896 é igual a estatística calculada pela fórmula anterior e o pvalor 00009419 é inferior a 005 fazendo com que a hipótese H0 possa ser rejeitada Os dois métodos apresentam resultados diferentes Para o item b podemos comparar diretamente os valores das amostras ma e mb e analisarmos os resultados do teste Comparando a amostra m mensuração da resistência a compressão com a amostra a método A temos ttestdadosm dadosa paired TRUE alternative twosided Paired ttest data dadosm and dadosa t 04773 df 8 pvalue 06459 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 2954365 4496588 sample estimates mean of the differences 07711111 O resultado do teste apresenta a estatística T t 04773 que é praticamente a estatística calculada pela fórmula anterior 04766 e o pvalor 06459 é superior a 005 fazendo com que a hipótese H0 não possa ser rejeitada Assim os resultados obtidos pelo método A podem ser considerados iguais aos resultados reais Já na comparação da amostra m mensuração da resistência a compressão com a amostra b método B temos ttestdadosm dadosb paired TRUE alternative twosided Paired ttest data dadosm and dadosb t 47063 df 8 pvalue 0001529 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 15148201 5185133 sample estimates mean of the differences 1016667 O resultado do teste apresenta a estatística T t 47063 que é a mesma a estatística calculada pela fórmula anterior 47076 e o pvalor 0001529 é inferior a 005 fazendo com que a hipótese H0 possa ser rejeitada Assim os resultados obtidos pelo método B não são iguais aos resultados reais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 100 Testes de Comparação de Médias com Duas Amostras no RStudio Uma das vantagens do uso de softwares estatísticos tipo o RStudio é não precisar consultar tabelas para encontrar os valores críticos para os testes Mas não se esqueça de que existem testes baseados na distribuição tStudent ttest e testes baseados na distribuição normal padronizada ztest Exemplo 20 Pretendese comparar amostras de duas concreteiras diferentes Para tanto cada concreteira produziu amostras com 20 elementos que foram testados quanto a resistência a compressão Os dados obtidos dos testes são mostrados na Tabela 37 Sabendose que a Concreteira A informa que o valor médio da resistência a compressão é 40 MPa e a Concreteira B 50 MPa verifique se as informações são corretas compare as amostras e determine a probabilidade das Concreteiras fornecerem material inferior ou superior ao da concorrente Concreteira A Concreteira B 3663 5517 5200 4937 4823 3076 5289 4776 3204 3859 5301 5197 4426 2999 5311 5129 3922 5777 5857 4942 3718 3531 4909 5026 2786 2673 5249 5416 4150 3436 4431 4839 2013 4999 4755 4300 3720 6001 5482 4776 Tabela 37 Exemplo 20 Resultados de resistência a compressão Em primeiro lugar vamos inserir os dados no RStudio a partir de planilha MS Excel no formato csv dados readcsv2filechooseheaderT dados a b 1 3663 5200 2 4823 5289 3 3204 5301 4 4426 5311 5 3922 5857 6 3718 4909 7 2786 5249 8 4150 4431 9 2013 4755 10 3720 5482 11 5517 4937 12 3076 4776 13 3859 5197 14 2999 5129 15 5777 4942 16 3531 5026 17 2673 5416 18 3436 4839 19 4999 4300 20 6001 4776 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 101 Com os dados carregados podemos executar o teste t para comparação das duas amostras ttestdadosa dadosb alternative twosided conflevel 005 Welch Two Sample ttest data dadosa and dadosb t 6501 df 23356 pvalue 115e06 alternative hypothesis true difference in means is not equal to 5 0 percent confidence interval 114145 114145 sample estimates mean of x mean of y 391465 505610 O resultado do teste mostra que a hipótese H0 as amostras possuem médias iguais é rejeitada pvalor 000000115 Além disto as médias amostrais calculadas são de 3915 MPa para a Concreteira A e 5056 MPa para a Concreteira B Para exemplificar podemos executar o teste t para verificar a igualdade destas médias com os valores declarados no enunciado ttestdadosa mu 40 alternative twosided varequalT conflevel 005 Two Sample ttest data dadosa and 5 t 053447 df 19 pvalue 05992 alternative hypothesis true difference in means is not equal to 40 0 percent confidence interval 341465 341465 sample estimates mean of x mean of y 391465 50000 ttestdadosb mu 50 alternative twosided varequalT conflevel 005 Two Sample ttest data dadosb and 5 t 11891 df 19 pvalue 0249 alternative hypothesis true difference in means is not equal to 50 0 percent confidence interval 45561 45561 sample estimates mean of x mean of y 50561 5000 Em ambos os testes o pvalor é superior a 005 Com isto podemos aceitar a hipótese H0 estabelecida para os testes Podemos aceitar que a média da resistência a compressão do material fornecido pela Concreteira A é igual a 40 MPa e que o mesmo ocorre para a Concreteira B média 50 MPa Agora vamos ver a probabilidade da Concreteira A fornecer um material com resistência a compressão superior ao da Concreteira B média 50 MPa ttestdadosa mu 50 alternative greater One Sample ttest data dadosa t 45414 df 19 pvalue 09999 alternative hypothesis true mean is greater than 50 95 percent confidence interval 3501402 Inf sample estimates mean of x ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 102 391465 Com o pvalor 09999 a probabilidade da Concreteira A fornecer um material com resistência a compressão superior a 50 MPa é igual 1 Px 50 1 09999 00001 Verificando no RStudio com base na estatística do teste e dos graus de liberdade temos pt4541419 1 0000111605 Quanto a probabilidade da Concreteira B fornecer um material com resistência a compressão inferior a 40 MPa basta executarmos o mesmo teste alterando os parâmetros ttestdadosb mu40 alternative less One Sample ttest data dadosb t 12965 df 19 pvalue 1 alternative hypothesis true mean is less than 40 95 percent confidence interval Inf 5196954 sample estimates mean of x 50561 Com o pvalor 1 a probabilidade de fornecimento de concreto com resistência a compressão inferior a 40 MPa é praticamente nula Mas para exemplo vamos verificar a probabilidade associada a estatística do teste 1 pt1296519 1 3470702e11 O resultado é 347 𝑥 109 Acredito que isto pode ser considerado como uma probabilidade praticamente nula18 Outros usos para o teste t No Exemplo 12 foram dados os valores de resistência a compressão de quatro amostras com quantidades diferentes de elementos e foi pedido o intervalo de confiança para a média Vamos calcular este intervalo usando a função ttest e ztest do RStudio para fins de comparação Inicialmente vamos carregar o vetor que contém os dados das amostras e o pacote TeachingDemos dados readcsv2filechoose headerT dados a b c d 1 6373392 7101935 9645293 9524954 2 7215981 6538353 8252394 9513334 3 5822972 8193491 9262981 8544964 4 5803466 7297790 9082530 8613743 5 NA 5868078 9436778 7950997 6 NA 5253909 8168666 8655196 7 NA NA 8149332 8444111 8 NA NA 9367926 10837138 9 NA NA NA 9439628 10 NA NA NA 9419306 18 Um leitor curioso teria notado que no caso anterior era só a probabilidade Neste foi 1 probabilidade Porque ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 103 Como foi informado no enunciado vamos considerar a variância populacional como conhecida o que nos leva ao ztest baseado na distribuição normal Agora observe que como as amostras possuem tamanho diferente teremos que delimitar o vetor em seu uso Além disto o ztest exige que o desvio padrão seja informado Assim teremos que calculálo no RStudio também sda sddadosa14 sda 1 6629346 ztestdadosa14 sdsda One Sample ztest data dadosa14 z 19018 n 40000 Std Dev 66293 Std Dev of the sample mean 33147 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5654289 6953617 sample estimates mean of dadosa14 6303953 Os dados de interesse foram ressaltados no resultado apresentado pelo RStudio Temos o valor da estatística Z o número n de elementos da amostra o pvalor e o intervalo de confiança O valor calculado anteriormente foi 𝐼𝐶𝐴𝜇 095 5654 6953 o que confere com o resultado do teste Fazendo o mesmo para as outras amostras temos sdb sddadosb16 sdb 1 1054357 ztestdadosb16 sdsdb One Sample ztest data dadosb16 z 15586 n 60000 Std Dev 105436 Std Dev of the sample mean 43044 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5865280 7552572 sample estimates mean of dadosb16 6708926 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐵𝜇 095 58657552 sdc sddadosc18 sdc 1 6258621 ztestdadosc18 sdsdc One Sample ztest data dadosc18 z 40315 n 80000 Std Dev 62586 Std Dev of the sample mean 22128 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8487045 9354430 sample estimates mean of dadosc18 8920737 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 104 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐶𝜇 095 8486 9354 sdd sddadosd sdd 1 8218424 ztestdadosd sdsdd One Sample ztest data dadosd z 34993 n 100000 Std Dev 82184 Std Dev of the sample mean 25989 pvalue 22e16 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8584963 9603711 sample estimates mean of dadosd 9094337 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐷𝜇 095 8584 9603 Da mesma forma que no Exemplo 12 podemos repetir os cálculos supondo que a variância populacional é desconhecida Assim sem informações sobre a população usaremos o ttest ttestdadosa14 One Sample ttest data dadosa14 t 19018 df 3 pvalue 00003174 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5249076 7358830 sample estimates mean of x 6303953 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐴𝛼 2 3 52497359 ttestdadosb16 One Sample ttest data dadosb16 t 15586 df 5 pvalue 1975e05 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 5602446 7815406 sample estimates mean of x 6708926 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐵𝛼 2 3 56027816 ttestdadosc18 One Sample ttest data dadosc18 t 40315 df 7 pvalue 1506e09 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8397504 9443971 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 105 sample estimates mean of x 8920737 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐶𝛼 2 3 8397 9444 ttestdadosd110 One Sample ttest data dadosd110 t 34993 df 9 pvalue 6281e11 alternative hypothesis true mean is not equal to 0 95 percent confidence interval 8506426 9682248 sample estimates mean of x 9094337 O valor calculado para o intervalo de confiança foi 𝐼𝐶𝐷𝛼 2 3 8507 9682 Os valores dos intervalos de confiança obtidos a partir da distribuição normal e da distribuição de t Student são exibidos na Tabela 38 Amostra Elementos DistNormal pvalor Dist tStudent pvalor 𝐼𝐶𝐴𝜇 095 4 5654 6953 22e16 52497359 3174e04 𝐼𝐶𝐵𝜇 095 6 5865 7552 22e16 56027816 1975e05 𝐼𝐶𝐶𝜇 095 8 8486 9354 22e16 83979444 1506e09 𝐼𝐶𝐷𝜇 095 10 8584 9603 22e16 85079682 6281e11 Tabela 38 Comparação dos ICs obtidos com base na distribuição normal e de tStudent Como pode ser visualizado na Tabela 38 os intervalos de confiança calculados com base na distribuição normal são menores que quando calculados com a distribuição de tStudent como seria esperado A medida que o número de elementos na amostra aumenta o tamanho do intervalo de confiança diminui para ambas as distribuições sendo que quanto maior a quantidade de elementos da amostra mais o intervalo de confiança calculado pela distribuição tStudent se aproxima do calculado pela distribuição normal Em relação ao pvalor temos o mesmo pvalor para os cálculos do intervalo de confiança calculados com a distribuição normal uma vez a curva da distribuição normal é única em teoria igual a curva da distribuição de tStudent com graus de liberdade tendendo ao infinito e o aumento da quantidade de elementos reflete na diminuição do intervalo em torno da média Já para a distribuição de tStudent o aumento da quantidade de elementos da amostra altera os graus de liberdade número de elementos da amostra 1 e consequentemente a curva da distribuição Assim o aumento da quantidade de elementos da amostra diminui tanto o intervalo de confiança em torno da média quanto o pvalor O Poder do teste no RStudio A função que permite o cálculo do poder do teste pertence ao pacote TeachingDemos Ela depende da quantidade de elementos da amostra do nível de significância e a diferença entre o valor real e o valor suposto para o teste Aplicando os dados do Exemplo 19 onde temos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 106 N 30 Nível de significância α de 005 Desvio populacional de 022 Diferença entre o valor real e o valor suposto 809 80 009 powerttestn 30 delta 009 sd 022 siglevel 005power NULL type onesamplealternative twosidedstrict TRUE Onesample t test power calculation n 30 delta 009 sd 022 siglevel 005 power 05816798 alternative twosided O teste retorna o poder do teste como sendo de 5817 erros de arredondamento justificam a diferença entre este valor e o calculado de 6105 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 107 8 ANÁLISE DE VARIÂNCIA ANOVA No capítulo anterior a Inferência estatística foram analisados casos de estimação e testes de hipóteses Foi o caso dos testes de comparação de médias baseadas na distribuição normal teste z e distribuição de tStudent teste t Assim nos exemplos vistos analisamos a variação da resistência a compressão característica de interesse de amostras criadas com e sem a adição de resíduos de construção e demolição RCDs exemplo 16 de amostras criadas com e sem o uso de aditivos exemplo 17 e oriundas de concreteiras diferentes exemplo 20 Em cada um destes exemplos temos um fator respectivamente RCD aditivo e concreteiras e o fator possui dois níveis com e sem RCD com e sem aditivo concreteiras A e B Análises envolvendo inferência entre uma ou duas amostras e um fator podem ser chamados de problemas de um único fator com dois níveis k 2 Agora se diferentes situações tivessem que ser analisados no mesmo experimento como a comparação da resistência a compressão do concreto produzido por mais de duas concreteiras ou experimentos envolvendo a análise de amostras com diversos percentuais de substituição de agregados por RCD o experimento envolveria um fator concreteiras ou RCD respectivamente com mais de dois níveis quantidade de concreteiras ou os diferentes percentuais de adição de RCD Em experimentos de um fator com mais de dois níveis k 2 é assumido que é necessário K tratamentos amostras cada um com populações de N elementos Por exemplo se a substituição de agregado grosso por RCD fosse testada em cinco percentuais diferentes 0 25 50 75 e 100 teríamos cinco níveis k 5 e seriam necessárias cinco amostras tratamentos de N elementos uma para cada um dos cinco níveis Comparar os resultados das cinco amostras pelos métodos já vistos que permitem comparar duas amostras seria trabalhoso e pouco prático É neste ponto que entra a Análise de Variância ou ANOVA A análise de variância é um modelo estatístico usado para comparar a distribuição de três ou mais grupos de amostras independentes Também podemos entendela como um conjunto de modelos estatísticos nos quais a variância amostral é fracionada em componentes associados aos diferentes fatores variáveis de um experimento sendo que estes fatores que podem estar relacionados à característica de interesse resultado do processo produto ou serviço objeto de estudo do experimento Por meio desse fracionamento a análise de variância estuda a influência dos fatores na característica de interesse A definição acima nos mostra que a ANOVA não somente se aplica a experimentos de um fator com vários níveis mas também é capaz de analisar vários fatores cada um em diferentes níveis Além disto a ANOVA é capaz de identificar a influência que um fator exerce em outro fator interação mas primeiro vamos conhecer a análise de variância com um único fator 81 ANOVA Um Fator Um procedimento de análise de variância possui como pressupostos as seguintes suposições As observações são independentes ou seja cada mensuração da característica de interesse de um elemento da amostra deve ser independente As amostras possuem a mesma variância populacional Os erros variações entre uma mensuração e a média da amostra são independentes e provenientes de uma distribuição normal padrão com média igual a zero e variância constante ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 108 Isto porque é claro existem variações entre as mensurações e entre as médias das amostras Estas variações podem ser divididas em dois grupos i variações entre as mensurações de uma amostra e ii variações entre as médias das amostras As variações entre as mensurações de uma amostra podem ser produzidas por diversos fatos tais como diferenças de temperatura ou umidade no momento do preparo da amostra preparo da amostra por pesquisadores diferentes heterogeneidade nas matérias primas empregadas mensuração da característica de interesse por diferentes equipamentos ou em momentos diferentes dentre muitas outras Em qualquer proporção a variação observada entre as mensurações deve ser considerada ou como uma variável aleatória ou como fruto do acaso É parte da função da análise de variância determinar se essa variação observada são as que esperaríamos ter em função do acaso ou se alguma variável foi provavelmente negligenciada As variações entre as médias das amostras ou tratamentos são o objeto do estudo A função da análise de variância é esta verificar se os níveis do fator ou dos fatores envolvidos no experimento são os responsáveis pelas variações da média encontradas nas amostras Isto remete a própria definição da ANOVA estudar a influência dos fatores na característica de interesse Contextualizando a Aplicação da ANOVA Exemplo 21 Uma empresa fabricante de cimento está testando aditivos para melhoria da resistência mecânica do concreto com o objetivo de incorporálo ao cimento Decidiuse testar com nível de significância de 005 cinco aditivos diferentes na proporção recomendada tratamento e seis amostras aleatórias de cada tratamento foram selecionadas para preparo e teste gerando um total de 30 elementos a serem testados Os dados obtidos estão registrados na Tabela 39 n tratamento 1 2 3 4 5 1 4280 4125 4749 4933 4393 2 5668 4476 4472 5558 4576 3 4870 4524 4402 4633 4307 4 4184 4509 5336 4892 5036 5 3762 3683 4863 5040 4670 6 4642 3627 5428 5107 4188 média 4568 4157 4875 5027 4528 desvio 661 416 429 307 304 Tabela 39 Resistência mecânica dos tratamentos com aditivos Agora como comparar os resultados observações produzidos por cada um dos aditivos A preparação dos elementos pode ter influenciado algum resultado maior temperatura ou pequenas diferenças na dosagem dos insumos Para verificar se a resistência mecânica realmente variou em função do tipo de aditivo devemos utilizar um teste estatístico que além de considerar as médias dos tratamentos também leve em conta a variação da resistência dentro de cada tratamento Em primeiro lugar vamos representar estes dados sob a forma de gráfico de boxplot usando o RStudio Figura 62 Por meio do gráfico podemos comparar a distribuição dos valores de cada amostra mas isto não nos confirma se são iguais ou diferentes Para descobrirmos se os aditivos influenciam na resistência mecânica do concreto precisamos de análises estatísticas mais complexas tais como a análise de variância que veremos a seguir ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 109 Figura 62 BoxPlot dos dados A Análise de Variância Simples Para a análise de variância assumese que as K populações são independentes e normalmente distribuídas com médias 𝜇1 𝜇2 𝜇𝐾 e variância comum σ2 Isto pode ser assumido desde que a aleatorização seja critério para o experimento garantindo uma distribuição uniforme do erro experimental por todo o tratamento As hipóteses padrões para o teste são 𝐻0 𝜇1 𝜇2 𝜇𝐾 𝐻1 𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑑𝑢𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑖𝑔𝑢𝑎𝑖𝑠 Vamos denotar como 𝑦𝑖𝑗 como a jésima observação do iésimo tratamento e vamos organizar os dados como mostrado na Tabela 40 Nela 𝑌𝑖 é a soma das observações na amostra do iésimo tratamento 𝑦𝑖 é a média das observações do iésimo tratamento 𝑌 é a soma de todas as nk observações e 𝑦 é a média de todas as nk observações Tratamento 1 2 i k 𝑦11 𝑦21 𝑦𝑖1 𝑦𝑘1 𝑦12 𝑦22 𝑦𝑖2 𝑦𝑘2 𝑦1𝑛 𝑦2𝑛 𝑦𝑖𝑛 𝑦𝑘𝑛 Total 𝑌1 𝑌2 𝑌𝑖 𝑌𝑘 𝑌 Média 𝑦1 𝑦2 𝑦𝑖 𝑦𝑘 𝑦 Tabela 40 Amostras aleatórias do experimento Onde cada observação pode ser escrita da forma 𝑦𝑖𝑗 𝑦𝑖 𝜖𝑖𝑗 Eq 52 Onde 𝜖𝑖𝑗 mede o desvio da jésima observação da iésima média amostral do tratamento correspondente O termo 𝜖𝑖𝑗 representa o erro aleatório Da mesma forma considerandose que as médias de cada tratamento desviamse da média geral 𝑦 devido à influência deste tratamento i e denotando 𝛼𝑖 como o efeito do iésimo tratamento podemos reescrever a fórmula acima como 𝑦𝑖𝑗 𝑦 𝛼𝑖 𝜖𝑖𝑗 Eq 53 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 110 Desta forma a hipótese nula de que todas as k médias são iguais e a hipótese alternativa de que pelo menos duas das médias são diferentes pode ser escrita como 𝐻0 𝛼1 𝛼2 𝛼𝐾 0 𝐻1 𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑑𝑜𝑠 𝛼𝑖 𝑛ã𝑜 é 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑧𝑒𝑟𝑜 O teste da análise de variância é baseado na comparação de duas estimativas independentes da variância populacional 𝜎2 dada pela equação 𝜎2 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 Eq 54 Estas duas estimativas independentes são obtidas dividindose a variabilidade total dos dados em dois componentes 𝜎2 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 𝑦𝑖 𝑦2 𝑛 𝑗1 𝑘 𝑖1 𝑦𝑖𝑗 𝑦𝑖 2 𝑛 𝑗1 𝑘 𝑖1 Eq 55 Ou simplesmente 𝑆𝑄𝑇 𝑆𝑄𝐴 𝑆𝑄𝐸 de onde passaremos a denotar 𝑆𝑄𝑇 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 soma dos quadrados total responsável por medir a variabilidade total dos dados 𝑆𝑄𝐴 𝑦𝑖 𝑦2 𝑛 𝑗1 𝑘 𝑖1 soma dos quadrados dos desvios dos tratamentos é o desvio das médias estimadas em cada tratamento em torno da média geral dos dados e representa a variabilidade devido ao tratamento 𝑆𝑄𝐸 𝑦𝑖𝑗 𝑦𝑖 2 𝑛 𝑗1 𝑘 𝑖1 Soma dos quadrados dos erros é o desvio das observações em torno da média estimada do seu tratamento e representa a variabilidade de das observações dentro do tratamento Uma equação alternativa para SQA é mostrada a seguir A segunda somatória é substituída por uma multiplicação uma vez que o termo da somatória não varia em função de n 𝑆𝑄𝐴 𝑛 𝑦𝑖 𝑦2 𝑘 𝑖1 Eq 56 Como citado anteriormente estamos tratando de estimativas independentes da variância populacional 𝜎2 Suposto que a variância amostral pode ser obtida dividindose SQT pelos seus graus de liberdade n 1 o mesmo pode ser realizado com seus componentes para se obter as duas estimativas independentes 𝑠1 2 𝑆𝑄𝐴 𝑘 1 𝑒 𝑠2 𝑆𝑄𝐸 𝑘𝑛 1 Eq 57 Assim temos que 𝑠1 2 é uma estimativa não viciada de 𝜎2 pois se H0 for verdadeira a somatória dos 𝛼𝑖 será zero o que faz 𝑠1 2 𝜎2 Entretanto se H1 for verdadeira 𝑠1 2 estima 𝜎2 e mais um termo adicional que mensura a variação devido a efeitos sistemáticos Desta forma quando H0 é falsa 𝑠1 2 superestima 𝜎2 𝑠1 2 𝜎2 Já a estimativa 𝑠2 é uma estimativa não viciada independente da verdade ou da falsidade da hipótese nula Disto decorre que a razão entre 𝑠1 2 e 𝑠2 denotada razão f pode ser usada para avaliar a igualdade das médias ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 111 Desta forma a razão 𝑓 𝑠1 2 𝑠2 é um valor da variável aleatória F com k 1 e kn 1 graus de liberdade Assim temos que a hipótese nula é rejeitada no nível de significância α quando 𝑓𝑐 𝑓𝛼𝑘 1 𝑘𝑛 1 Eq 58 A Tabela 41 resume a análise de variância ANOVA simples e a Figura 63 apresenta a tabela F com os valores críticos com k 1 e kn 1 graus de liberdade Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado Tratamento SQA k 1 𝑠1 2 𝑆𝑄𝐴 𝑘 1 𝑓𝑐 𝑠1 2 𝑠2 Erro SQE k n 1 𝑠2 𝑆𝑄𝐸 𝑘𝑛 1 Total SQT kn 1 Tabela 41 Análise de variância ANOVA simples Figura 63 Distribuição F com v1 graus de liberdade do numerador e v2 graus de liberdade do numerador para alpha 005 Retornando ao Exemplo 21 vamos realizar os cálculos do ANOVA em uma planilha MS Excel para acompanhamento do processo A1 A2 A3 A4 A5 1 4280 4125 4749 4933 4393 2 5668 4476 4472 5558 4576 3 4870 4524 4402 4633 4307 4 4184 4509 5336 4892 5036 5 3762 3683 4863 5040 4670 6 4642 3627 5428 5107 4188 média 4568 4157 4875 5027 4528 4631 Tabela 42 Dados para o cálculo do ANOVA ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 112 Parte 1 Cálculo do SQT onde cada célula contém o valor 𝑦𝑖𝑗 𝑦 2 𝑆𝑄𝑇 𝑦𝑖𝑗 𝑦 2 𝑛 𝑗1 𝑘 𝑖1 1233 2561 139 911 567 10752 241 253 8591 030 571 115 525 000 1050 1999 149 4969 681 1639 7553 8989 538 1672 015 001 10082 6350 2265 1963 SQT 76406 Parte 2 Cálculo do SQA onde cada célula contém o valor 𝑦𝑖 𝑦2 𝑆𝑄𝐴 𝑛 𝑦𝑖 𝑦2 𝑘 𝑖1 040 2245 595 1569 106 SQA 27324 Parte 3 Cálculo do SQE onde cada célula contém o valor 𝑦𝑖𝑗 𝑦𝑖 2 𝑆𝑄𝐸 𝑦𝑖𝑗 𝑦𝑖 2 𝑛 𝑗1 𝑘 𝑖1 828 010 159 089 183 12107 1015 1624 2818 023 914 1344 2237 1554 490 1472 1237 2125 183 2577 6491 2250 001 002 201 055 2813 3058 064 1158 SQE 49082 Parte 4 Tabela resumo da ANOVA Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado F005 4 25 Tratamento 27324 4 6831 348 276 Erro 49082 25 1963 Total 76406 29 pvalor0021619 Conclusão Como 𝑓𝑐 𝑓𝛼𝑘 1 𝑘𝑛 1 isto é 348 276 temos que com nível de significância igual a 005 podemos rejeitar a hipótese nula igualdade das médias Assim temos constatação estatística que pelo menos duas das médias são diferentes Bom agora a pergunta e é só Pelo menos duas das médias são diferentes e o que isto significa O principal uso da análise de variância não é apenas a comparação de médias mas a análise da significância do tratamento nos resultados do experimento Se pelo menos duas das médias são diferentes significa que os aditivos influenciam de forma diferente na resistência mecânica do concreto ou seja eles influenciam os resultados Ainda não sabemos quais são as médias diferentes nem se a maior delas difere das outras afinal procuramos o melhor tratamento Para isto são necessários outros testes de comparação de médias como o teste de 19 Calculado com a função DISTFF calculado Graus de liberdade do tratamento Graus de liberdade do erro do MS Excel DISTF348 4 25 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 113 Tukey ou o teste de Ducan que serão apresentados após o ANOVA O teste t também pode ser usado para complementar a análise Com o uso do teste t cada uma das médias dos tratamentos pode ser comparada com a média geral ou entre elas mesmas A ANOVA é a principal forma de avaliar estatisticamente a influência de um tratamento nos resultados de um experimento No texto anterior foi apresentada a ANOVA de um fator com k níveis O mesmo raciocínio pode ser aplicado para experimentos com diversos fatores cada um deles com número de níveis diferentes 82 ANOVA Dois Fatores Na grande maioria dos experimentos estamos interessados em avaliar a influência que dois ou mais fatores podem exercer sobre a característica de interesse resposta Quando o experimento envolve dois fatores em diferentes níveis dizse que temos uma ANOVA de dois fatores ou ANOVA two way Se envolve mais de dois fatores é chamada de ANOVA Fatorial Um fato interessante a ser notado é que quando temos mais de um fator existe sempre a possibilidade da influência mútua entre os fatores ou seja a possibilidade de interação entre os fatores do experimento Assim além da influência que cada fator exerce sobre a característica de interesse fato que pode ser identificado por meio da ANOVA de um fator a análise de variância deve considerar a possibilidade que um dos fatores atue como catalizador ou bloqueador da influência do outro fator Exemplo 22 Consideremos o seguinte experimento Um pesquisador deseja avaliar o impacto da substituição parcial de dois insumos na produção de cimento Para tanto realizou um experimento de dois fatores A e B cada um com dois níveis de substituição representados por e e para cada tratamento foram elaborados 4 elementos para teste O resultado é apresentado na Tabela 43 A B 5897 5765 6712 6516 6510 6633 6492 6680 7192 6689 7534 7320 6827 6894 7520 7215 Tabela 43 Estudo de interação entre fatores Interação entre Fatores A interação entre os fatores corresponde à diferença de comportamento de um fator fator A por exemplo nos diferentes níveis do outro fator fator B com respeito a característica de interesse resposta Uma das primeiras e mais simples formas de avaliação da interação entre os fatores são o gráfico de interação e o gráfico dos efeitos principais Gráfico de interação O gráfico de interação é montado a partir das médias amostrais dos fatores agrupados em seus níveis Para entendermos o processo vamos resumir o quadro apresentado na Tabela 43 substituindo os valores dos elementos das amostras pela média amostral Tabela 44 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 114 A B 6201 6600 6900 7397 Tabela 44 Efeito dos Fatores média amostral O gráfico é montado com os níveis do fator A no eixo x e o fator B como resposta ou ao contrário Nele analisamos se a diferença na resposta entre os níveis de um fator não é a mesma em todos os níveis dos outros fatores Quando isto ocorre há uma interação entre os fatores Figura 64 Análise das interações entre os fatores Ao analisarmos o gráfico da Figura 64 vemos que a diferença entre os níveis do fator B é a mesma para A e A indicando não haver interação entre os fatores No caso de não haver interações podemos interpretar o gráfico dos efeitos principais O gráfico dos efeitos principais é montado com as médias de cada fator em cada nível a exemplo Tabela 45 O gráfico correspondente é exibido na Figura 65 A 6551 6999 B 6401 7149 Tabela 45 Dados para gráfico dos efeitos principais médias amostrais ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 115 Figura 65 Gráfico dos efeitos principais A análise do gráfico Figura 65 nos mostra que ambos os fatores impactam na característica de interesse embora o fator B possa possuir maior contribuição para o resultado Neste exemplo foi analisado um experimento de dois fatores cada um com dois níveis ambos com influência positiva na característica de interesse e sem interação entre os fatores Exemplo 23 Agora vamos analisar uma nova situação Novamente um experimento com dois fatores de dois níveis um com influência positiva e outro com influência negativa na característica de interesse e sem interação entre os fatores A Tabela 46 apresenta os valores das médias amostrais de cada tratamento para facilitar a montagem dos gráficos A B 4628 5400 4179 4954 Tabela 46 Efeito dos Fatores influências positiva e negativa dos fatores O gráfico de interação Figura 66 foi novamente montado com o fator A no eixo x Nele podemos visualizar que a diferença entre os níveis do fator B é a mesma para A e A indicando não haver interação entre os fatores Note que o gráfico é montado a partir das médias amostrais que podem possuir desvios em relação as médias populacionais Assim pequenas diferenças entre os níveis dos fatores são admissíveis Figura 66 Gráfico de Interação com fatores com influências diferentes na característica de interesse ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 116 Já o gráfico dos efeitos principais Figura 67 baseado nos dados da Tabela 47 mostra a contribuição de cada fator para a característica de interesse Nele é possível ver claramente que o fator A possui influência positiva na característica de interesse enquanto o fator B possui influência negativa A 4404 5014 B 5177 4567 Tabela 47 Dados para gráfico dos efeitos principais Figura 67 Gráfico dos Efeitos Principais Influências positiva e negativa na característica de interesse Exemplo 24 E por último antes de iniciarmos o ANOVA propriamente dito vamos analisar um terceiro exemplo Um experimento com dois fatores de dois níveis ambos com influência na característica de interesse e com interação entre os fatores que para ambos pode ser positiva ou negativa A Tabela 48 apresenta os valores das médias amostrais de cada tratamento Neste caso haverá interação entre os fatores A B 3148 4915 3187 4296 Tabela 48 Efeito dos Fatores influências positiva e interação entre os fatores O gráfico de interação Figura 68 foi montado com o fator A no eixo x Nele podemos visualizar que a diferença entre os níveis do fator B não é a mesma para A e A indicando haver interação entre os fatores ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 117 Figura 68 Gráfico de interação influência da interação entre os fatores Os dados para a montagem do gráfico dos efeitos principais é mostrado na Tabela 49 e o gráfico é mostrado na Figura 69 A 3168 3722 B 4606 4051 Tabela 49 Dados para gráfico dos efeitos principais Figura 69 Gráfico dos efeitos principais com interação entre os fatores Pela análise do gráfico Figura 69 poderíamos supor que ambos os fatores possuem efeito positivo na característica de interesse mas como foi dito anteriormente existe interação entre os fatores ou seja uma nova influência foi estabelecida e o gráfico indica apenas os efeitos principais Assim pode ser que a interação entre eles esteja ocultando a real influência de um dos fatores Para analisarmos a influência de cada um dos fatores e da interação entre eles precisamos da ANOVA Modelo da ANOVA Dois Fatores Consideremos um experimento com dois fatores A e B no qual o fator A tem a níveis e o fator B tem b níveis Para cada combinação de níveis temos n elementos Na Tabela 50 apresentamos os dados do experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 118 Fator A Fator B Média 1 2 b 1 𝑦111 𝑦11𝑛 𝑦121 𝑦12𝑛 𝑦1𝑏1 𝑦1𝑏𝑛 𝑦1 2 𝑦211 𝑦21𝑛 𝑦221 𝑦22𝑛 𝑦2𝑏1 𝑦1𝑏𝑛 𝑦2 a 𝑦𝑎11 𝑦𝑎1𝑛 𝑦𝑎21 𝑦𝑎2𝑛 𝑦𝑎𝑏1 𝑦𝑎𝑏𝑛 𝑦𝑎 Média 𝑦1 𝑦2 𝑦𝑏 𝑦 Tabela 50 Dados para ANOVA de dois fatores Da mesma forma que na ANOVA de um fator cada observação pode ser descrita da forma 𝑦𝑖𝑗𝑘 𝑦 𝜖𝑖𝑗𝑘 Eq 59 Onde 𝜖𝑖𝑗𝑘 mede os desvios dos valores dos elementos 𝑦𝑖𝑗𝑘 da média da população 𝑦 Ainda repetindo o raciocínio empregado no ANOVA de um fator podemos considerar que o valor de cada elemento desviase da média geral 𝑦 devido à i influência do efeito do nível i do fator A denotando como 𝛼𝑖 ii influência do efeito do nível j fator B denotado 𝛽𝑗 e ii influência da possível interação ij dos fatores A e B denotada 𝛼𝛽𝑖𝑗 e assim reescrever a fórmula acima como 𝑦𝑖𝑗𝑘 𝑦 𝛼𝑖 𝛽𝑗 𝛼𝛽𝑖𝑗 𝜖𝑖𝑗𝑘 Eq 60 Na qual temos que impor as seguintes restrições 𝛼𝑖 𝑎 𝑖1 0 𝛽𝑗 𝑏 𝑗1 0 𝛼𝛽𝑖 𝑎 𝑖1 0 𝛼𝛽𝑗 𝑏 𝑗1 0 Eq 61 Como citado anteriormente em um experimento com dois fatores precisamos avaliar se existe interação entre os fatores O gráfico de interação nos mostra evidências da existência de interação O ANOVA avalia o efeito da interação por meio de um teste de hipóteses Caso o efeito da interação não seja significativo O ANOVA avalia os efeitos principais individuais também por meio de testes de hipóteses apropriados Os testes de hipóteses são apresentados a seguir Objetivo Hipótese Efeito do Fator A 𝐻0 𝛼1 𝛼2 𝛼3 𝛼𝑎 0 𝐻1 𝑃𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑑𝑜𝑠 𝛼𝑖 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜 Efeito do Fator B 𝐻0 𝛽1 𝛽2 𝛽3 𝛽𝑏 0 𝐻1 𝑃𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑑𝑜𝑠 𝛽𝑗 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜 Efeito da Interação A B 𝐻0 𝛼𝛽11 𝛼𝛽12 𝛼𝛽13 𝛼𝛽𝑎𝑏 0 𝐻1 𝑃𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑑𝑜𝑠 𝛼𝛽𝑖𝑗 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜 Alertamos para o fato de que caso a interação tenha grande influência sobre a característica de interesse ela pode mascarar os efeitos dos fatores principais Por isto é recomendável que a análise da interação seja realizada primeiro Caso seja constatado que a interação entre os fatores é desprezível as hipóteses 1 e 2 podem ser testadas e a interpretação é simples Caso a interação seja significativa a análise pode se tornar mais complexa Da mesma forma que no ANOVA de um fator vamos decompor a variabilidade total dos dados 𝜎2 denotada soma dos quadrados em quatro componentes tais que ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 119 𝜎2 𝑆𝑄𝑇 𝑆𝑄𝐴 𝑆𝑄𝐵 𝑆𝑄𝐴𝐵 𝑆𝑄𝐸 Eq 62 De onde passaremos a denotar 𝑆𝑄𝑇 𝑦𝑖𝑗𝑘 𝑦 2 𝑛 𝑘1 𝑏 𝑗1 𝑎 𝑖1 soma dos quadrados total responsável por medir a variabilidade total dos dados 𝑆𝑄𝐴 𝑏𝑛 𝑦𝑖 𝑦 2 𝑎 𝑖1 soma dos quadrados do tratamento A é o desvio das médias estimadas em no tratamento A em torno de sua média geral e representa a variabilidade devido ao tratamento A 𝑆𝑄𝐵 𝑎𝑛 𝑦𝑗 𝑦 2 𝑏 𝑗1 soma dos quadrados do tratamento B é o desvio das médias estimadas em no tratamento B em torno de sua média geral e representa a variabilidade devido ao tratamento B 𝑆𝑄𝐴𝐵 𝑛 𝑦𝑖𝑗 𝑦𝑖 𝑦𝑗 𝑦 2 𝑏 𝑗1 𝑎 𝑖1 Soma dos quadrados da interação AB 𝑆𝑄𝐸 𝑦𝑖𝑗𝑘 𝑦 2 𝑛 𝑘1 𝑏 𝑗1 𝑎 𝑖1 Soma dos quadrados dos erros é o desvio das observações em torno da média estimada e representa a variabilidade de das observações Como estamos tratando de estimativas independentes da variância populacional 𝜎2 podemos supor que a variância amostral pode ser obtida dividindose SQT pelos seus graus de liberdade n 1 o mesmo pode ser realizado com seus componentes para se obter as duas estimativas independentes 𝑠1 2 𝑆𝑄𝐴 𝑎 1 𝑠2 2 𝑆𝑄𝐵 𝑏 1 𝑠12 2 𝑆𝑄𝐴𝐵 𝑎 1𝑏 1 𝑒 𝑠2 𝑆𝑄𝐸 𝑎𝑏𝑛 1 𝜎2 Eq 63 Assim temos que estas estimativas de variância são estimativas independentes e não viciadas de 𝜎2 com a condição de que o somatório dos efeitos 𝛼𝑖 𝛽𝑗𝑒 𝛼𝛽𝑖𝑗 são nulos Assim para testar as hipóteses podemos comparar cada desvio com o desvio 𝜎2 como detalhado a seguir na Tabela 51 Objetivo Estimador Critério Efeito do Fator A 𝐻0 𝑓1 𝑠1 2 𝑠2 𝑓1 𝑓𝛼𝑎 1 𝑎𝑏𝑛 1 Efeito do Fator B 𝐻0 𝑓2 𝑠2 2 𝑠2 𝑓2 𝑓𝛼𝑏 1 𝑎𝑏𝑛 1 Efeito da Interação A B 𝐻0 𝑓3 𝑠12 2 𝑠2 𝑓3 𝑓𝛼𝑎 1𝑏 1 𝑎𝑏𝑛 1 Tabela 51 Teste e critérios para ANOVA dois fatores A Tabela 52 apresentada na a seguir resume a análise de variância ANOVA dois fatores Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado Tratamento A SQA a 1 𝑠1 2 𝑆𝑄𝐴 𝑎 1 𝑓𝑐 𝑠1 2 𝑠2 Tratamento B SQB b 1 𝑠2 2 𝑆𝑄𝐵 𝑏 1 𝑓𝑐 𝑠2 2 𝑠2 Interação AB SQAB a 1b 1 𝑠12 2 𝑆𝑄𝐴𝐵 𝑎 1𝑏 1 𝑓𝑐 𝑠12 2 𝑠2 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 120 Erro SQE ab n 1 𝑠2 𝑆𝑄𝐸 𝑎𝑏𝑛 1 Total SQT abn 1 Tabela 52 Análise de variância ANOVA dois fatores Para exemplificar o processo vamos retomar o Exemplo 24 cujos dados foram apresentados na Tabela 48 A análise gráfica nos mostrou que havia interação entre os fatores Os dados originais são apresentados na Tabela 53 B A 3111 3483 3179 3092 2972 3029 3344 3135 4261 4268 5117 4821 4132 4524 4952 4772 Tabela 53 Dados para cálculo do ANOVA Com base nos dados da tabela apresentada acima foram calculados os valores de SQA SQB SQAB SQE e SQT apresentados na Tabela 54 Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado Fα Pvalor Tratamento A 82695 1 82695 28573 475 985x1010 Tratamento B 4332 1 4332 1497 475 000223 Interação AB 3368 1 3368 1164 251 000516 Erro 3473 12 289 Total 93868 15 Tabela 54 Resultado Anova dois fatores Análise dos resultados Em primeiro lugar podemos verificar que todos os F calculados são superiores ao Fα para encontrar o Fα foi utilizado 005 como nível de confiança e os graus de liberdade dados pela coluna critérios da Tabela 51 Com isto para todas as hipóteses a H0 igualdade pode ser rejeitada e temos que ambos os fatores A e B e também sua interação são significativos para a característica de interesse Outra forma de vermos isto é fornecida pelo pvalor Em todas as três hipóteses o pvalor é inferior a 005 levando a rejeição da hipótese nula nas três situações Bom sabemos que ambos os fatores e sua interação são significativos mas como eles influenciam a característica de interesse O ANOVA não nos dá essa informação Apenas podemos concluir o que foi expresso acima Se não houvesse interação o próprio gráfico dos efeitos principais nos daria a resposta Mas a interação existe e a análise fica mais complexa Para que possam ter uma ideia do significado desta complexidade vamos apresentar a base que foi utilizada para geração dos dados usados no exemplo ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 121 A característica de interesse X foi determinada a partir da equação 𝑥 25 60𝐴 5𝐵 55𝐴𝐵 onde os níveis de A foram 01 02 e os níveis de B foram 10 20 Com isto conseguimos os valores esperados para a média de cada tratamento A partir do valor esperado para a média foi gerada uma distribuição aleatória de frequência com 4 elementos para compor a amostra mantendose o desvio padrão inferior a 10 do valor esperado para a média Estes foram as medidas utilizadas para os elementos da amostra Este conjunto de passos gerou os dados usados no exemplo A análise da equação empregada mostra que o efeito do fator B é negativo ou seja ele influencia negativamente a característica de interesse No entanto o valor da interação AB é positivo e é superior à contribuição do fator B O gráfico de interações Figura 68 mostra que há interação entre os fatores o que foi confirmado pela ANOVA O gráfico dos efeitos principais Figura 69 que analisa apenas os efeitos destes fatores na característica de interesse foi mascarado pela interação entre os fatores que é positiva e maior que a influência negativa do fator B A ANOVA apesar de extremamente útil nos informa sobre a significância dos fatores sobre a característica de interesse e não sobre como os fatores atuam sobre esta característica Assim se não temos informação prévia sobre o tipo de contribuição do fator sobre o resultado informação esta que poderia ser obtida de estudos anteriores análise da literatura temos que tomar outras providências que nos auxiliarão a definir o tipo de contribuição como Pesquisar mais afinal é difícil encontrar algo que é tão inédito e inovador a ponto de nunca ter sido tentado anteriormente Aumentar o número de níveis nos fatores incluindo o nível zero sem a inclusão do fator para podermos analisar separadamente a influência do fator sobre a característica de interesse Fracionar o experimento realizando experimentos prévios menores com o objetivo de descobrir como cada fator contribui para os resultados quanto temos mais de dois fatores E também sempre podemos avançar no estudo da estatística pois existem outras funções estatísticas que podem nos auxiliar a identificar como cada fator contribui para a característica de interesse como a Análise de Regressão Por enquanto vamos continuar com a ANOVA e apresentar mais exemplos de sua utilização e importância desta vez com o auxílio do software RStudio 83 ANOVA e o RStudio A teoria base da Análise de Variância ANOVA já foi apresentada A partir desse ponto acreditamos ser mais simples e fácil compreender e avaliar a importância da ANOVA a partir da análise de seu uso em experimentos e da forma como ela contribui para o entendimento dos resultados Antes é necessário um esclarecimento sobre a função ANOVA no RStudio A base para os cálculos da análise de variância é uma só mas as fórmulas variam como pode ser visto para o ANOVA de um fator e de dois fatores Quanto maior o número de fatores mais complexas se tornam as fórmulas A função ANOVA função aov ou lm no RStudio é uma só e atende a todas as variações Apenas seus parâmetros irão variar se usada para um fator dois fatores ou mais de dois fatores Antes de apresentarmos problemas mais complexos vamos repetir os exemplos anteriores da ANOVA ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 122 Exemplo 21 neste experimento tivemos o teste de cinco aditivos com amostras de seis elementos Vamos carregar os dados no RStudio e depois com os dados carregados podemos executar a análise de variância Vamos designar uma variável para armazenar seus resultados dadosan e logo após a execução exibir o resultados pode ser pelo comando anova ou summary Carga dos dados dados readcsv2filechoose header T summarydados a res a16 Min 3627 a26 1st Qu4328 a36 Median 4605 a46 Mean 4631 a56 3rd Qu4923 Max 5668 Execução da ANOVA dadosan aovresa data dados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 4 27324 68309 34794 002165 Residuals 25 49082 19633 Signif codes 0 0001 001 005 01 1 Resgatando aqui o resumo da ANOVA apresentado anteriormente para fins de comparação podemos ver que os resultados são os mesmos Tabela resumo da ANOVA Fonte da variação Soma dos Quadrados Graus de liberdade Quadrado médio F calculado F005 4 25 Tratamento 27324 4 6831 348 276 Erro 49082 25 1963 Total 76406 29 pvalor00216 A função aov que executa a ANOVA nos traz como resultado o pvalor a ser comparado com o nível de significância estabelecido para o teste sendo que o valor padrão é 005 Também apresenta um resumo similar ao quadro estudado anteriormente com a soma dos quadrados Sum sq graus de liberdade Df quadrado médio Mean sq e o valor da estatística F calculada F value A função lm também executa a ANOVA da mesma forma A diferença entre elas é que com o uso da função lm podemos extrair informações mais detalhadas com o uso da função summary Já a função aov permite o uso do teste de tukey comparação múltipla de médias Abaixo a execução da ANOVA é repetida com a função lm para conferência dos resultados dadoslm lmresa datadados anovadadoslm Analysis of Variance Table ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 123 Response res Df Sum Sq Mean Sq F value PrF a 4 27324 68309 34794 002165 Residuals 25 49082 19633 Signif codes 0 0001 001 005 01 1 Exemplo 22 Neste experimento ANOVA de dois fatores foi avaliado o impacto da substituição parcial de dois insumos na produção de cimento Vamos carregar e exibir os dados no RStudio antes de executar a análise de variância dados readcsv2filechoose header T dados a b res 1 a b 5897 2 a b 6510 3 a b 5765 4 a b 6633 5 a b 7192 6 a b 6827 7 a b 6689 8 a b 6894 9 a b 6712 10 a b 6492 11 a b 6516 12 a b 6680 13 a b 7534 14 a b 7520 15 a b 7320 16 a b 7215 Repare que os dados a serem carregados foram organizados de forma diferente com os fatores e a característica de interesse organizadas em colunas Esse é o padrão para a entrada de dados no RStudio os dados do exemplo anterior também foram carregados neste formato Uma outra informação a função aov permite executar a análise de variância com ou sem a análise das interações entre os fatores A diferença é a forma de entrada dos parâmetros relativos aos fatores e a característica de interesse res a b indica execução da análise de variância sem a análise da interação e res a b indica execução da análise de variância com a análise da interação Vamos executar primeiramente com a análise da interação dadosan aovres a b data dados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 80192 80192 118747 0004841 b 1 223951 223951 331624 9039e05 ab 1 0960 0960 01422 0712674 Residuals 12 81038 6753 Signif codes 0 0001 001 005 01 1 A análise do resultado da análise de variância nos mostra que tanto o fator A quanto o Fator B são significativos para a determinação do valor da característica de interesse isto é ambos os fatores influenciam na característica de interesse pvalor 005 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 124 Já a interação entre os fatores ab não possui influência na característica de interesse pvalor 071 005 como já havia mostrado o gráfico de interações exibido na Figura 64 Análise das interações entre os fatores A execução do ANOVA sem interações mostra dadosan aovres a b datadados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 80192 80192 12714 0003452 b 1 223951 223951 35505 4757e05 Residuals 13 81998 6308 Signif codes 0 0001 001 005 01 1 Obviamente há uma pequena diferença entre os resultados pois como as medidas dos elementos da amostra foram geradas por meio da distribuição de frequências normalizada valores aleatórios existe ruído oriundo do desvio da média amostral em relação ao valor esperado dados da geração dos valores Assim saber de antemão se há interação entre os fatores ou não direciona a execução correta da função aov tornando a análise mais precisa Exemplo 23 Neste exemplo foi analisado um experimento de dois fatores de dois níveis um com influência positiva e outro com influência negativa na característica de interesse e sem interação entre os fatores O processo de carregamento dos dados e execução do ANOVA é o mesmo dados readcsv2filechoose header T dadosan aovresabdatadados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 238780 238780 41707 2139e05 b 1 79968 79968 13968 0002487 Residuals 13 74428 5725 Signif codes 0 0001 001 005 01 1 A análise do resultado acima nos mostra que ambos os fatores são significativos para a determinação do valor da característica de interesse isto é ambos os fatores influenciam na característica de interesse pvalor muito menor que 005 No entanto a análise não mostra o tipo de contribuição positiva ou negativa que foi exibida na Figura 67 Gráfico dos Efeitos Principais Influências positiva e negativa na característica de interesse Exemplo 24 Este exemplo abordou um experimento com dois fatores de dois níveis ambos com influência na característica de interesse e com interação entre os fatores Como já sabemos de antemão que há interação entre os fatores optase por usar a formulação da função aov que considera a interação res a b O resultado confirma o resumo apresentado na Tabela 54 Tanto os fatores quanto a interação são significativos para a característica de interesse pvalor 005 e novamente é ressaltado que a análise não nos mostra o tipo de contribuição de cada fator ou da interação se é positiva ou negativa conforme foi discutido anteriormente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 125 dados readcsv2filechoose header T dadosan aovresab datadados anovadadosan Analysis of Variance Table Response res Df Sum Sq Mean Sq F value PrF a 1 82685 82685 285518 9885e10 b 1 4330 4330 14951 0002242 ab 1 3370 3370 11636 0005162 Residuals 12 3475 290 Signif codes 0 0001 001 005 01 1 84 ANOVA Análises de Validação No Capítulo 81 foram apresentados os requisitos relativos aos dados para a execução da análise de variância a saber observações independentes variâncias iguais e distribuições normais A independência das observações é um pressuposto que o planejamento do experimento deve garantir e as normalidade das distribuições dos tratamentos deve ser testada como mostrado anteriormente testes de ShapiroWilk e ShapiroFrancia Quanto a igualdade da variância ela pode ser verificada como mostrado mais adiante Estes requisitos existem para garantir que os resultados da ANOVA expressem de forma correta a realidade da correlação e influência dos fatores em relação à característica de interesse Uma das formas de verificarmos isto é o coeficiente de determinação R2 Coeficiente de Determinação O coeficiente de determinação R2 mede o quanto a característica de interesse é explicada pelo modelo Quanto maior o valor de R2 melhor o modelo explica a variação da característica de interesse Um valor acima de 070 indica que o modelo proposto está explicando bem a relação entre os fatores e a característica de interesse A equação usada para calcular o R2 é dada por 𝑅2 1 𝑆𝑄𝐸 𝑆𝑄𝑇 Eq 64 Para verificarmos o quanto cada modelo estatístico apresentado nos exemplos de 21 a 24 explica a relação entre os fatores e a característica de interesse vamos calcular o valor de R2 para cada um deles O resultado é apresentado na Tabela 55 Exemplo SQE SQT 𝑅2 1 𝑆𝑄𝐸 𝑆𝑄𝑇 21 49082 76406 03576 22 81038 386141 07901 23 74428 393176 08107 24 34730 938680 09630 Tabela 55 Cálculo de R2 para os exemplos anteriores Como pode ser visto acima o modelo do exemplo 21 é o único que considerando o coeficiente de determinação R2 não explica adequadamente a relação entre os fatores e a característica de interesse Mas isto tem um motivo e esse motivo será entendido quando complementarmos nossa análise com o uso de outras ferramentas estatísticas ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 126 Gráficos de Diagnóstico do Modelo Estatístico A ANOVA possui quatro gráficos para diagnóstico do modelo estatístico Esses gráficos são fornecidos pela função plot associada ao nome da variável que armazena os resultados da ANOVA ex plotdadosan onde dadosan é a variável indicada para armazenar o resultado do ANOVA A seguir os quatro gráficos gerados para o modelo estatístico do Exemplo 21 são exibidos e explicados O gráfico 1 resíduos vs Valores ajustados ou Residual vs Fitted20 mostra indícios sobre o comportamento da variância dos resíduos com relação aos valores ajustados preditos pelo modelo sendo ideal para analisar a presença de nãolinearidades no modelo A linha vermelha no gráfico Figura 70 denota a média dos resíduos e deve se ajustar ao valor zero Para o Exemplo 21 os valores dos resíduos estão uniformemente distribuídos em torno do valor zero Assim o modelo é considerado como linear e válido Figura 70 Gráfico Residuos x Valores ajustados O gráfico 2 QQ21 dos resíduos padronizados é usado para verificação da normalidade dos resíduos verificandose o afastamento da curva ideal Um certo afastamento principalmente no início e final caudas da distribuição normal é esperado Para o Exemplo 21 tendo como hipótese nula a normalidade dos resíduos o gráfico Figura 71 indica a aceitação da hipótese uma vez que não há afastamentos extremos da curva 20 O gráfico resíduos vs valores ajustados deve exibir uma nuvem de pontos aleatórios e homogêneos distribuídos em torno do eixo horizontal y 0 21 O gráfico QQ quantilquantil ou qqplot é um recurso gráfico exploratório usado para verificar a validade de um pressuposto de distribuição para um dado conjunto de dados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 127 Figura 71 Grafico Normal QQ O gráfico 3 ScaleLocation é semelhante ao gráfico 1 Residual x Fitted mas simplifica a análise da variação constante dos resíduos Usa a raiz quadrada do valor absoluto dos resíduos padronizados ao invés do valor do próprio resíduo A linha vermelha quando horizontal indica que a magnitude média dos resíduos padronizados não muda muito em função dos valores ajustados No caso do Exemplo 21 Figura 72 existe uma variação mínima nos intervalos entre 06 e 10 Figura 72 Gráfico Scale Location O gráfico 4 constante de Leverage pode ser útil para detectar a presença de pontos com alta influência no modelo estatístico No gráfico quando uma linha tracejada vermelha delimita a distância de Cook indicada pelo nome de Cooks distance e os pontos situados além desta linha são pontos com maior influência no modelo estatístico e sua exclusão pode melhorar o coeficiente de determinação No caso do Exemplo 21 Figura 73 não há a representação da linha tracejada vermelha Cooks distance indicando que os resíduos padronizados estão distantes da linha de Cook e que não existem pontos com maior influência sobre o modelo estatístico ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 128 Figura 73 Gráfico Constante de Leverage Ainda como exemplo os quatro gráficos para a análise do modelo apresentado no Exemplo 24 são exibidos na Figura 74 Como pode ser notado os gráficos não indicam discrepâncias que possam invalidar o modelo ANOVA desenvolvido no exemplo Figura 74 Gráficos para diagnóstico do modelo ANOVA do exemplo 11 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 129 85 ANOVA Complementando a análise com o Teste de Tukey Com o uso da análise de variância ANOVA muitas informações são esclarecidas como quais fatores são significantes para a característica de interesse mas ainda existem dúvidas a serem solucionadas O Exemplo 21 onde foram analisados cinco diferentes tipos de aditivos a ANOVA nos mostrou que podíamos rejeitar a hipótese nula e com isto rejeitamos a igualdade das médias dos cinco tratamentos No exemplo temos pelo menos duas médias que não são iguais Também temos que o coeficiente de determinação R2 03576 nos mostrou que o modelo ANOVA não explica bem a relação entre o fator aditivo e a característica de interesse resistência mecânica Além disto a pergunta principal qual aditivo produziu os melhores resultados ainda não foi respondida Se olharmos novamente o gráfico boxplot da Figura 62 que descreve as variações dos tratamentos poderíamos escolher entre o aditivo A3 ou o A4 que apresentam os melhores resultados Mas eles serão estatisticamente diferentes e diferentes dos outros resultados Para responder isto poderíamos fazer uma série de comparações de médias usando o teste t tStudent ou uma única comparação múltipla de médias Os testes de Tukey e Duncan fazem exatamente isto e possuem o mesmo suporte teórico do teste t Portanto vamos abordálos diretamente no RStudio Teste de Tukey Dentre os testes de comparações múltiplas existentes o Teste de Tukey se destaca por fazer comparações entre todos os pares possíveis médias dos tratamentos e também por apresentar resultados rigorosos Também conhecido como Teste de Tukey HSD Teste de Tukey da Diferença Honestamente Significativa é calculado pela seguinte equação 𝐷𝑀𝑆 𝑞𝛼𝑔 𝑁 𝑔𝑄𝑀𝐸 𝑛 Eq 65 Onde DMS diferença mínima significativa 𝑞𝛼 valor tabelado Tabela Teste de Tukey g número de grupos a serem comparados N número total de elementos dos tratamentos n número de elementos no tratamento QME quadrado médio do erro SQEGraus de liberdade ou s2 Com o teste rejeitase a igualdade de dois grupamentos de médias i e j se 𝑦𝑖 𝑦𝑗 𝐷𝑀𝑆 Resgatando os dados do Exemplo 21 temos tratamento 1 2 3 4 5 médias 4568 4157 4875 5027 4528 α 005 g 5 grupamentos correspondente as amostras dos cinco níveis aditivos n 6 seis elementos por amostra grupamento N 30 elementos seis elementos por cinco amostras QME 1963 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 130 𝑞0055 25 416 Assim temos 𝐷𝑀𝑆 416 1963 6 752 Calculando a diferença entre as médias 𝑦𝑖 𝑦𝑗 temos os valores exibidos na Tabela 56 onde podemos verificar que apenas a diferença entre as médias dos grupos 2 e 4 aditivos 2 e 4 são superiores ao DMS Então temos apenas duas médias estatisticamente diferentes Grupo Diferença Grupo Diferença Grupo Diferença Grupo Diferença Y12 411 Y23 718 Y34 152 Y45 499 Y13 307 Y24 87 Y35 347 Y14 459 Y25 371 Y15 04 Tabela 56 Diferença entre as médias dos tratamentos A interpretação dos resultados é simples o aditivo 4 somente apresenta resultados significativos melhoria quando comparado ao aditivo 2 Nas demais comparações não há diferenças estatísticas significativas Esta conclusão justifica o baixo valor do coeficiente de determinação R2 03576 obtido para o exemplo afinal apenas uma comparação de grupos apresentou diferença estatística No modelo ANOVA a significância obtida pvalor 00216 advém unicamente desta diferença Os outros aditivos 1 3 e 5 não resultam em melhoria significativa e mesmo os aditivos 2 e 4 não apresentam diferença quando comparados com os aditivos 1 3 e 5 Teste de Tukey no RStudio O teste de Tukey é executado no RStudio por meio da função TukeyHSDvar onde var é o nome da variável que armazena o resultado da ANOVA ou seja a execução do teste de tukey exige execução prévia da análise de variância Existem outras funções que também executam o teste de Tukey mas são fornecidas por outros pacotes que devem ser previamente instalados como a função HSDtest fornecida pelo pacote agricolae e a função TukeyC fornecida pelo pacote TukeyC As funções de pacotes específicos costumam oferecer respostas mais completas Para o procedimento vamos carregar os dados do Exemplo 21 executar a ANOVA e em seguida o teste de Tukey padrão dados readcsv2filechooseheaderT dadosan aovres a datadados TukeyHSDdadosan Tukey multiple comparisons of means 95 familywise confidence level Fit aovformula res a data dados a diff lwr upr p adj a2a1 41033333 116163534 3409687 05086528 a3a1 30733333 44396867 10586353 07505567 a4a1 45950000 29180200 12108020 03978124 a5a1 03933333 79063534 7119687 09998650 a3a2 71766667 03363534 14689687 00662092 a4a2 86983333 11853133 16211353 00175529 a5a2 37100000 38030200 11223020 06025015 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 131 a4a3 15216667 59913534 9034687 09745999 a5a3 34666667 109796867 4046353 06605841 a5a4 49883333 125013534 2524687 03185660 Como pode ser visualizado a primeira coluna contém a diferença entre as médias dos grupos a segunda e a terceira os valores inferior e superior do intervalo de confiança da diferença entre as médias e a quarta o p valor A única comparação onde o pvalor é inferior a 005 nível de confiança é a4 a2 confirmando o resultado anterior Em seguida vamos executar o teste de Tukey fornecido pelo pacote TukeyC TukeyCdadosan Results Means G1 G2 a4 5027 a a3 4875 a b a1 4568 a b a5 4528 a b a2 4157 b Siglevel 005 DiffProb a4 a3 a1 a5 a2 a4 0000 1522 4595 4988 8698 a3 0975 0000 3073 3467 7177 a1 0398 0751 0000 0393 4103 a5 0319 0661 1000 0000 3710 a2 0018 0066 0509 0603 0000 MSD a4 a3 a1 a5 a2 a4 0000 7513 7513 7513 7513 a3 7513 0000 7513 7513 7513 a1 7513 7513 0000 7513 7513 a5 7513 7513 7513 0000 7513 a2 7513 7513 7513 7513 0000 Este pacote acrescenta o agrupamento das médias Os tratamentos a1 a3 e a5 foram colocados nos dois grupos A e B O tratamento a2 somente no grupo A e o tratamento a4 somente no grupo B A interpretação é que os aditivos 1 2 3 e 4 possuem médias iguais e os aditivos 2 3 4 e 5 também possuem médias iguais Somente as médias dos aditivos 2 e 4 são diferentes O RStudio também permite plotar a análise gráfica do resultado como mostrado na Figura 75 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 132 Figura 75 Análise gráfica do teste de Tukey E por último o teste de Tukey do pacote agricolae libraryagricolae dados readcsv2filechoose headerT dadosan aovres a datadados tukeyan HSDtestdadosan ca mainres a consoleTRUE Study res a HSD Test for res Mean Square Error 1963272 a means res std r Min Max a1 4567667 6613192 6 3762 5668 a2 4157333 4164020 6 3627 4524 a3 4875000 4290660 6 4402 5428 a4 5027167 3068638 6 4633 5558 a5 4528333 3043673 6 4188 5036 Alpha 005 DF Error 25 Critical Value of Studentized Range 4153363 Minimun Significant Difference 751302 Treatments with the same letter are not significantly different res groups a4 5027167 a a3 4875000 ab a1 4567667 ab a5 4528333 ab a2 4157333 b Este pacote também fornece o agrupamento das médias e apresenta o valor crítico da tabela do teste de Tukey 4153363 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 133 Para complementarmos as análises dos outros exemplos precisamos avançar um pouco mais pois estes exemplos abordavam situações mais complexas que comparação de médias Para estes precisamos ver as Análises de Regressão linear e múltipla Para encerrar este item vamos apresentar um estudo de caso que ilustra muito bem o uso da ANOVA para identificar os fatores significantes em um experimento 86 ANOVA Estudo de Caso Análise da influência de fatores físicos localização no consumo energético mensal médio das unidades habitacionais22 O objetivo do estudo é analisar a influência dos fatores físicos relativos à localização e posicionamento das unidades habitacionais no consumo energético mensal médio destas unidades para posterior desenvolvimento de um modelo termoenergético de uma edificação no software EnergyPlus Para tanto foi selecionado um conjunto habitacional localizada na cidade do Rio de Janeiro identificada como uma das três capitais estaduais com os piores cenários climáticos frente ao conforto dos usuários O conjunto habitacional selecionado é composto por quatro condomínios e possui 900 apartamentos Para objeto de estudo foi selecionado o Condomínio 2 com 200 apartamentos de 2 quartos Figura 76 Figura 76 Localização dos Condomínios Fonte PRJ 2013 O Condomínio 2 indicado pela seta vermelha é composto por 10 blocos de 5 andares com 4 apartamentos por andar Figura 77 Dos 200 apartamentos do condomínio foram levantados os consumos mensais de 67 apartamentos representando 335 do total de unidades quantidade considerada significativa para um estudo preliminar cujo objetivo é identificar os fatores que podem ter influência no consumo de energia das unidades habitacionais 22 Dados fornecidos pela Doutoranda Fernanda Dutra Mourão de Oliveira PPGECCEFETMG obtidos de sua dissertação de Mestrado os dados foram modificados ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 134 Os dados de consumo mensal foram levantados juntamente com a quantidade de moradores de cada unidade Assim temos como informações preliminares i bloco ii unidade iii quantidade de habitantes iv mês e v consumo O levantamento dos dados foi realizado presencialmente mediante de solicitação e permissão para registrar os dados de consumo Também foram solicitadas informações sobre equipamentos instalados quantidade de moradores rotina de uso As unidades que não forneceram estes dados foram excluídas do levantamento A característica de interesse o consumo de energia mensal por unidade segundo pesquisa bibliográfica realizada está relacionado principalmente à quantidade de habitantes por unidade ao perfil de uso dos equipamentos eletroeletrônicos destacandose chuveiros arcondicionadoaquecedores fornos elétricos dentre outros e ao gradiente de temperatura internoexterno Destes fatores o perfil de uso não pode ser adequadamente classificado por faltaincorreção das informações obtidas No entanto acreditase que o mesmo pode ser representado pela quantidade de habitantes Já o gradiente de temperatura internoexterno está relacionado às médias mensais de temperatura da cidade e por consequência ao mês do consumo registrado Todas as unidades possuem preparação para instalação de arcondicionado nos quartos e salas mas não foi possível levantar as situações de uso deste equipamento Figura 77 Planta baixa andar dos blocos Assim a análise inicial da significância dos dados foi realizada com os fatores bloco blc número do bloco mês mês e quantidade de habitantes qha sendo a quantidade de habitantes representada por a 1 habitante b 2 habitantes c 3 habitantes d 4 habitantes e e mais de 4 habitantes Os dados foram carregados no RStudio por meio de planilha MS Excel no formato csv e inicialmente analisados sem considerar interações dados readcsv2filechoose headerT dadosan aovformulares blc mes cls data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3673 00557 mes 11 531815 48347 12035 2e16 qha 4 1626052 406513 101198 2e16 Residuals 671 2695424 4017 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 135 Signif codes 0 0001 001 005 01 1 A análise inicial confirma a significância já prevista para o mês e para a quantidade de habitantes pvalor próximo de zero O bloco localização do prédio no terreno possui pouca significância pvalor 00557 O coeficiente de determinação R2 foi calculado e foi igual a 04463 inferior a 070 demonstrando que o modelo pode não representar corretamente o problema Para analisar a interação entre os fatores a ANOVA foi executada novamente desta vez com interação A execução da ANOVA com interação mostrou que a interação entre os fatores mês e quantidade de habitantes possui significância pvalor 0000495 e a interação entre os outros fatores não dadosan aovformulares blc mes qha data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3673 00557 mes 11 531815 48347 12035 2e16 qha 4 1626052 406513 101198 2e16 Residuals 671 2695424 4017 Signif codes 0 0001 001 005 01 1 1 observation deleted due to missingness dadosan aovformulares blc mes qha data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3772 0052585 mes 11 531815 48347 12362 2e16 qha 4 1626052 406513 103940 2e16 blcmes 11 8263 751 0192 0998006 blcqha 4 18090 4522 1156 0329127 mesqha 38 296234 7796 1993 0000495 blcmesqha 32 80974 2530 0647 0934612 Residuals 586 2291864 3911 Signif codes 0 0001 001 005 01 1 Como o objetivo principal do estudo é analisar a influência dos fatores físicos relativos à localização e posicionamento de apartamentos no consumo energético e existem estudos comprovando esta influência a primeira suspeita é de que o fator bloco não esteja representando corretamente a localização e posicionamento da unidade Novas pesquisas bibliográficas conduzidas a fim de identificar quais os fatores relativos ao posicionamento podem ser influenciadores do consumo indicaram os seguintes aspectos a serem considerados Andar and unidades localizadas no andar térreo 1º andar possuem normalmente temperaturas internas mais baixas devido ao contato com o solo As unidades localizadas no último andar 5º andar possuem temperaturas internas mais elevadas devido ao aquecimento direto da cobertura do prédio pela irradiação solar Orientação dir para a zona bioclimática do Rio de Janeiro unidades habitacionais com fachada voltada para oeste possuem temperatura interna mais elevada uma vez que recebem maior irradiação solar na fachada Estes novos fatores foram acrescentados aos fatores já usados sendo que o fator bloco foi mantido para verificar se com a adição dos novos fatores este fator como representante da posição do prédio no terreno ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 136 seria significante O fator orientação dir foi associado à orientação da fachada principal da unidade Leste Norte Sul Oeste O fator andar foi associado ao andar de localização da unidade de 1 a 5 Os dados alterados foram novamente carregados no RStudio e a ANOVA executada Antes da realização da análise do resultado da ANOVA o coeficiente de determinação R2 foi calculado e o seu valor R2 08413 mostrou que o modelo pode ser considerado como um modelo que representa bem o problema R2 070 ou seja a introdução dos novos fatores aprimorou o modelo A análise do resultado da ANOVA confirma que os fatores anteriormente identificados como significativos a saber mês mes quantidade de habitantes qha e a interação entre estes fatores mêsqha são significativos neste novo modelo também O fator bloco blc teve seu pvalor ligeiramente aumentado de 0052585 para 005968 o que basicamente não altera sua significância Dos novos fatores introduzidos no modelo direção e andar a direção de orientação da fachada dir mostrou se significante pvalor 00000382 bem como sua interação com o bloco posicionamento do prédio no terreno blcand Isto confirma a pesquisa bibliográfica realizada e nos permite supor que uma melhor representação do posicionamento do bloco representado por seu número possa trazer melhores resultados dadosan aovformulares blc and dir mes qha data dados summarydadosan Df Sum Sq Mean Sq F value PrF blc 1 14754 14754 3590 005968 and 1 10122 10122 2463 011826 dir 3 100816 33605 8176 382e05 mes 11 533120 48465 11791 2e16 qha 4 1576094 394023 95863 2e16 blcand 1 23771 23771 5783 001715 blcdir 3 40649 13550 3297 002165 anddir 3 20487 6829 1661 017681 blcmes 11 7650 695 0169 099883 andmes 11 25413 2310 0562 085775 dirmes 33 72278 2190 0533 098300 blcqha 4 11959 2990 0727 057428 andqha 4 27207 6802 1655 016229 dirqha 11 64872 5897 1435 016017 mesqha 38 276920 7287 1773 000679 blcanddir 3 29772 9924 2414 006798 blcandmes 11 15703 1428 0347 097351 blcdirmes 33 118812 3600 0876 066439 anddirmes 33 40646 1232 0300 099994 blcandqha 4 11629 2907 0707 058785 blcdirqha 10 29483 2948 0717 070758 anddirqha 9 43778 4864 1183 030774 blcmesqha 31 94335 3043 0740 083856 andmesqha 29 160938 5550 1350 012125 dirmesqha 70 219145 3131 0762 090529 blcanddirmes 33 154231 4674 1137 029135 blcanddirqha 7 26990 3856 0938 047833 blcandmesqha 20 83957 4198 1021 043915 blcdirmesqha 41 155124 3784 0921 061164 anddirmesqha 22 93140 4234 1030 042975 blcanddirmesqha 4 11519 2880 0701 059242 Residuals 188 772730 4110 Signif codes 0 0001 001 005 01 1 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 137 Já o fator andar and não se mostrou significante para o consumo mensal de energia por unidade pvalor 011826 No entanto a interação entre bloco e andar blcand e entre bloco andar e direção blcanddir mostram certa significância reforçando a suposição anterior melhor representação do posicionamento do bloco talvez por orientação similar à direção Como resultado da análise os seguintes fatores e interações foram identificados como significativos para o consumo mensal de energia de cada unidade habitacional e devem ser considerados no modelo termoenergético a ser desenvolvido no software EnergyPlus23 Mês uma vez que as médias mensais de temperatura da cidade influenciam no gradiente de temperatura internoexterno e os usuários se valem de meios de aquecimentoresfriamento para compensar o gradiente de temperatura Quantidade de habitantes a quantidade de pessoas e seus padrões de uso vão influenciar diretamente o consumo mensal de energia portanto é fundamental que o modelo do EnergyPlus os represente corretamente Direção a orientação de fachada de cada unidade habitacional influi na quantidade de irradiação solar recebida e consequentemente na temperatura interna da unidade A interação entre os fatores bloco e andar pvalor 001715 é significativa mas necessita ser melhor explicitada no modelo uma vez que a representação numérica do bloco pode não ser a melhor a ser adotada no modelo a ser desenvolvido A interação entre os fatores bloco e direção pvalor 002165 é significativa e as considerações anteriores são válidas para ela também A interação entre os fatores bloco andar e direção pvalor 006798 possui significância superior a 005 e poderia ser desprezada No entanto esta interação merece ser investigada novamente após alteração da representação do fator bloco Os gráficos de validação do modelo ANOVA são exibidos na Figura 78 A interpretação dos gráficos pode ser conferida no item 84 ANOVA Análises de Validação onde os gráficos são explicados e não indicam problemas no modelo estatístico 23 EnergyPlus é um programa de simulação de energia de edifícios para modelagem doo consumo de energia aquecimento resfriamento ventilação iluminação ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 138 Figura 78 Gráficos de Validação do modelo ANOVA ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 139 9 ANÁLISE DE REGRESSÃO No capítulo anterior a Análise de Variância estudamos ferramentas estatísticas que nos permitiram identificar quais os fatores ou variáveis de entrada que influenciavam a característica de interesse ou variável de saída No entanto não nos foi possível identificar como os fatores influenciam a característica de interesse se positiva ou negativamente Em diversas situações é necessário identificar como as entradas de um processo estão influenciando os resultados obtidos Nestes casos é necessário estabelecer um modelo matemático que explique a relação entre as variáveis de entrada e a de saída Este tipo de modelagem é denominado REGRESSÃO e ajuda a entender como o comportamento das variáveis de entrada pode mudar o comportamento da variável de saída Como exemplo vamos supor que o valor de um imóvel possa ser determinado unicamente pela relação R entre a área construída 𝑎𝑐 e a área do terreno 𝑎𝑡 Assim um terreno totalmente construído teria uma relação de um 1 e um com nada construído teria uma relação de zero 0 Uma forma razoável de expressar a relação entre a entrada e a saída seria 𝑉𝑎𝑙𝑜𝑟 𝛼 𝛽𝑅 𝑜𝑛𝑑𝑒 𝑅 𝑎𝑐 𝑎𝑡 Eq 66 Ou chamando a variável de saída de Y e a variável de entrada de X temos 𝑌 𝛼 𝛽𝑥 e sua representação gráfica seria dada pela Figura 79 Figura 79 Gráfico de uma relação linear Onde α é o intercepto representando o valor do terreno sem construções e β a inclinação da reta Na regressão as variáveis de saída característica de interesse resposta ou saída do processo são denominadas varáveis dependentes porque seus valores são determinados pelas variáveis de entrada fatores que por sua vez são denominadas variáveis independentes ou regressores naturais Se a relação entre a variável dependente e seu regressor for exata tratase de uma relação determinística e não há componente aleatório ou probabilístico nela No entanto nos exemplos estudados e em praticamente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 140 todos os experimentos de engenharia e outras ciências esta relação não é determinística Ela é probabilística e desta forma para um dado valor de x nem sempre obtemos o mesmo valor de Y O conceito de Análise de Regressão tenta encontrar o melhor modelo matemático que explique a relação entre x e Y quantificando a força desta relação e permitindo a previsão dos valores de Y em função dos valores possíveis do regressor x A previsão dos valores de Y em função de x é um dos atributos mais importantes da regressão uma vez que podemos utilizar o modelo para obtermos os valores de Y correspondentes aos valores de x que não estavam entre os dados usados para gerar o modelo Este procedimento é chamado predição e em geral é válida para os valores de x que estão dentro do intervalo de x estudado A utilização de valores fora do intervalo estudado recebe o nome de extrapolação e deve ser usada com cuidado pois o modelo é válido no intervalo estudado Fora deste intervalo não podemos ter certeza de sua acuracidade A predição é a aplicação mais comum para os modelos de regressão Além da predição a regressão nos permite identificar os regressores mais significativos para a variável dependente O modelo matemático resultante nos permite visualizar os regressores que mais contribuem e eliminar aqueles cuja contribuição não seja importante em processo similar ao que a ANOVA realiza A análise de regressão depende da coleta de dados e da quantidade de níveis de cada tratamento Se tivermos apenas dois níveis independentemente da quantidade de elementos na amostra de cada nível a resposta obtida será sempre uma linha reta unido os pontos médios média amostral de cada nível Com mais de dois níveis podemos avaliar se a resposta é realmente linear ou não e existem artifícios que podem ser empregados caso a resposta obtida não seja linear O estudo dos modelos de regressão podem ser divididos em Regressão Linear Simples onde apenas uma variável de entrada regressor possui influência sobre a variável dependente resposta Regressão Linear Múltipla onde a variável dependente está relacionada com mais de um regressor vários fatores influenciam a resposta e Regressão Logística onde a variável dependente é uma variável qualitativa e apresenta valores como possíveis realizações uma qualidade ou atributo e não mais como resultado de uma mensuração 91 Regressão Linear Simples O modelo da regressão linear simples pressupõe que apenas um regressor afete a variável dependente assim a resposta Y está relacionada com o regressor x variável independente por meio da equação 𝑌 𝛼 𝛽𝑥 𝜖 Eq 67 Onde α e β são os parâmetros desconhecidos do intercepto e da inclinação respectivamente e Є é uma variável aleatória assumida como sendo distribuída com 𝜖 0 Da equação que representa o modelo podemos intuir que A variável dependente Y também é aleatória já que Є é aleatório O valor da variável regressora x não é aleatório e pode ser mensurado com erro desprezível O valor de Є chamado de erro aleatório ou distúrbio aleatório ruído evita que o modelo se torne um modelo determinístico Como Є está distribuído de forma que 𝜖 0 temos que para um valor de x específico os valores de Y estão distribuídos ao redor da reta de regressão real 𝑌 𝛼 𝛽𝑥 Se o modelo matemático for bem determinado ou seja se não houver regressores adicionais não considerados e a suposição de linearidade for adequada ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 141 dentro do intervalo de valores estudados a somatória dos erros positivos e negativos ao redor da regressão real será próxima de zero Na prática não conhecemos a reta da regressão real mas podemos supor que ela exista e podemos desenhar uma reta estimada que satisfaça da melhor forma possível a suposição 𝜖 0 A Figura 80 apresenta a reta de regressão real de um caso hipotético com os erros de cada observação enfatizados Figura 80 Diagrama de dispersão dos dados hipotéticos xy ao redor da reta de regressão real Voltamos a reafirmar que a reta representada na Figura 80 é uma idealização Em uma situação real desconhecemos a regressão real e precisamos determinala com as observações disponíveis o que pode resultar em uma ótima representação ou não Isto depende principalmente da qualidade dos dados disponíveis Para melhor entendermos isto vamos plotar o gráfico de dispersão de uma outra situação envolvendo um experimento de um fator com quatro níveis com amostra de três elementos para cada nível Esta situação é ilustrada na Figura 81 Figura 81 Gráfico de dispersão de um experimento de 4 níveis com amostras de 3 elementos ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 142 Os níveis do experimento estão representados no eixo x e a resposta no eixo Y Como temos três respostas para cada nível qualquer suposição de reta entre os pontos que representam as amostras poderia ser a regressão real como as duas retas exibidas no gráfico A questão passa a ser então como determinar a melhor aproximação linear que represente a regressão real Assim como usado na ANOVA o método dos mínimos quadrados é o modelo matemático utilizado para determinar os valores de α e β Da mesma forma que para a ANOVA temos que estabelecer os pressupostos que orientam o modelo de regressão A relação matemática entre x e Y é linear no intervalo de estudo A variável independente x não é uma variável aleatória ou seja seus valores são fixos controlados A média do erro é nula ou seja 𝜖 0 Para um dado valor de x a variância do erro є é sempre 𝜎2 ou seja a variância dos erros é sempre igual Os erros є são aleatórios e seguem a distribuição normal e o erro de uma observação não está correlacionado com o erro de outra observação Método dos Mínimos Quadrados Supondo que a relação entre x e Y é linear no intervalo estudado podemos estimar os parâmetros α e β para obter a melhor reta que represente a relação entre as variáveis O Método dos Mínimos Quadrados é uma estratégia de estimação dos parâmetros da regressão e sua aplicação não se limita apenas às relações lineares Para a análise de regressão o primeiro passo é obter as estimativas dos parâmetros α e β Os valores das estimativas são obtidos a partir dos desvios de cada elemento xi Yi i 1 n da amostra єi em relação a uma reta arbitrária 𝛼 𝛽𝑥 passando por estes pontos como mostrado no gráfico da Figura 82 Para o valor xi do regressor o valor predito por esta reta é 𝛼 𝛽𝑥𝑖 enquanto o valor observado é Yi Os desvios entre estes dois valores é 𝜖𝑖 𝑌𝑖 𝛼 𝛽𝑥𝑖 que corresponde a distância vertical do ponto à reta arbitrária Figura 82 Reta de regressão ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 143 O objetivo do modelo de regressão é estimar os parâmetros α e β de modo que o quadrado dos desvios 𝜖𝑖 entre os valores observados e estimados sejam os menores possíveis O método de mínimos quadrados usado no modelo de regressão é baseado na minimização da soma dos quadrados dos erros em torno da reta de regressão denominada SQE Assim devemos determinar α e β de forma que o valor de SQE seja o menor possível 𝑆𝑄𝐸 𝜖𝑖 2 𝑛 𝑖1 𝑌𝑖 𝑌𝑖2 𝑛 𝑖1 𝑌𝑖 𝛼 𝛽𝑥𝑖2 𝑛 𝑖𝑖 Eq 68 Deixando as deduções matemáticas para aqueles que queiram se aprofundar no estudo da Estatística a equação acima pode ser decomposta em três fatores principais a soma dos quadrados dos desvios das médias de x e de Y e a soma dos produtos cruzados de x e Y conforme expresso a seguir 𝑆𝑥𝑥 𝑥𝑖 𝑥2 𝑛 𝑖1 somatório dos quadrados dos desvios de xi em relação à média de 𝑥 𝑆𝑦𝑦 𝑌𝑖 𝑌2 𝑛 𝑖1 Somatório dos quadrados dos desvios de Yi em relação à média de 𝑌 𝑆𝑥𝑦 𝑥𝑖 𝑥𝑌𝑖 𝑌 𝑛 𝑖1 Somatório dos quadrados do produto cruzado de xi e Yi em relação ao produto da média de 𝑥 e 𝑌 Ou ainda prosseguindo com a dedução matemática 𝑆𝑥𝑥 𝑥𝑖 2 𝑛 𝑖1 𝑛𝑥2 𝑆𝑦𝑦 𝑌𝑖 2 𝑛 𝑖1 𝑛𝑌2 𝑆𝑥𝑦 𝑥𝑖𝑌𝑖 𝑛𝑥𝑌 𝑛 𝑖1 Eq 69 Desta forma as estimativas de mínimos quadrados de α e β em termos desta notação são 𝛽 𝑆𝑥𝑦 𝑆𝑥𝑥 Eq 70 𝛼 𝑌 𝛼𝑥 Eq 71 Coeficiente de Determinação Da mesma forma que para a ANOVA o coeficiente R2 mede o quanto a característica de interesse é explicada pela curva de regressão linear Quanto maior o valor de R2 melhor a equação da curva traduz a variação da característica de interesse Um valor acima de 070 indica que o modelo proposto está explicando bem a relação entre os fatores e a característica de interesse A expressão usada para calcular o R2 é dada por 𝑅2 𝑆𝑥𝑌 2 𝑆𝑥𝑥 𝑆𝑌𝑌 Eq 72 Exemplo 25 A influência da adição de cinza de bagaço de cana de açúcar na resistência de compressão diametral de peças queimadas de cerâmica vermelha foi testada por meio de um experimento de um fator com cinco níveis respectivamente 0 5 10 15 e 20 de adição de cinzas As outras matérias primas foram mantidas constantes Para cada tratamento foram feitas amostras de cinco elementos cujos resultados de resistência são mostrados na Tabela 57 Monte o gráfico de dispersão e determine a curva de regressão linear correspondente ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 144 Tratamentos 0 5 10 15 20 1 291 255 139 104 085 2 289 240 148 110 097 3 276 259 151 117 092 4 290 234 150 106 089 5 311 241 156 113 093 Tabela 57 Resultados dos ensaios de resistência MPa O gráfico de dispersão é bem simples de ser montado Basta plotar os tratamentos no eixo x e os valores da resistência de cada tratamento no eixo y resultando no gráfico mostrado na Figura 83 Observando o gráfico podemos verificar que a suposição de linearidade da curva é válida principalmente no intervalo de 0 a 15 de adição A dispersão do tratamento com 20 de adição de cinza de bagaço de cana foge um pouco da linearidade para este tratamento mas não impede que a análise seja realizada Figura 83 Gráfico de dispersão do Exemplo 12 Para facilitar os cálculos de Sxx SYY e SxY podemos organizar os resultados dos ensaios em duas colunas a primeira x com os valores dos percentuais de adição 0 5 10 15 e 20 e a segunda com o valor da resistência à compressão diametral Neste formato os valores do percentual de adição irão se repetir para cada elemento da amostra Com este formato fica mais fácil de calcularmos os valores base para a equação conforme mostrado na Tabela 58 Calculando os parâmetros α e β 𝛽 𝑆𝑥𝑌 𝑆𝑥𝑥 13405 1250 010724 𝛼 𝑌 𝛽𝑥 17744 010724 10 28468 O que se traduz na equação da curva da regressão linear 𝑌 28468 010724 𝑥 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 145 𝒙𝒊 𝒀𝒊 𝒙𝒊 𝒙𝟐 𝒀𝒊 𝒀𝟐 𝒙𝒊 𝒙𝟐 𝒀𝒊 𝒀𝟐 0 291 100 1289587 11356 0 289 100 1244563 160041 0 311 100 1783827 184302 5 255 25 0601555 383086 5 240 25 0391375 899222 5 241 25 0403987 104505 20 085 100 0854515 4347486 20 093 100 0713011 1478366 𝒙 𝒀 𝑺𝒙𝒙 𝑺𝒀𝒀 𝑺𝒙𝒀 10 17744 1250 153758 13405 Tabela 58 Valores para cálculo de regressão Para sabermos se a equação acima representa bem o comportamento da característica de interesse resposta Y em função da variável independente x vamos determinar o coeficiente de determinação R2 𝑅2 𝑆𝑥𝑌 2 𝑆𝑥𝑥 𝑆𝑌𝑌 134052 1250 153758 0934944 O valor de R2 é superior a 070 significando uma boa representatividade para a curva de regressão linear apresentada 92 Regressão Linear Múltipla Regressão múltipla é uma coleção de técnicas estatísticas usadas para construir modelos que descrevem as relações entre as várias variáveis independentes de entrada e a saída de um determinado processo A diferença entre a regressão linear simples e a múltipla é que a regressão múltipla possui duas ou mais variáveis independentes relacionadas à uma única resposta Na maioria dos problemas em que a análise de regressão é aplicada é necessário de mais de uma variável independente no modelo de regressão ou seja a resposta Y é influenciada por mais de um fator Um modelo de regressão linear múltipla com k variáveis independentes 𝑥1 𝑥2 𝑥𝑘 associadas a uma resposta Y é dado pela equação 𝑌 𝛼 𝛽1𝑥1 𝛽2𝑥2 𝛽𝑘𝑥𝑘 Eq 73 Onde cada coeficiente β é estimado com base nos dados da amostra usando o método dos mínimos quadrados Para um modelo de regressão linear múltipla com duas variáveis independentes 𝑥1 𝑒 𝑥2 e sem interação entre si a equação pode ser transcrita como ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 146 𝑌 𝛼 𝛽1𝑥1 𝛽2𝑥2 Eq 74 Se formos considerar a possibilidade de interação entre as variáveis independentes ou seja o efeito de 𝑥1 na resposta média depende do nível de 𝑥2 e analogamente o efeito de 𝑥2 na resposta média depende de 𝑥1 o modelo de regressão passa a ser 𝑌 𝛼 𝛽1𝑥1 𝛽2𝑥2 𝛽3𝑥1𝑥2 Eq 75 Os pressupostos necessários para o desenvolvimento do Modelo de Regressão Linear Múltipla são O erro tem média zero e variância 𝜎2 desconhecida Os erros são não correlacionados Os erros têm distribuição normal Os valores da variáveis independentes 𝑥1 𝑥2 𝑥𝑘 não são aleatórios e podem ser mensurados com erro desprezível Para o desenvolvimento do modelo suponha um experimento com n observações da variável resposta e das p variáveis independentes n p Sendo 𝑌𝑖 o valor da variável resposta na iésima observação e 𝑥𝑖𝑗 o valor da variável independente 𝑥𝑗 também na iésima observação para j 1 2 p O modelo pode ser representado como mostrado na Tabela 59 Y 𝒙𝟏 𝒙𝟐 𝒙𝒑 𝒀𝟏 𝒙𝟏𝟏 𝒙𝟐𝟐 𝒙𝟏𝒑 𝒀𝟐 𝒙𝟐𝟏 𝒙𝟐𝟑 𝒙𝟐𝒑 𝒀𝒏 𝒙𝒏𝟏 𝒙𝒏𝟐 𝒙𝒏𝒑 Tabela 59 Representação dos dados para modelo de regressão linear múltipla Cada observação 𝑌𝑖 deve satisfazer a equação 𝑌𝑖 𝛼 𝛽1𝑥𝑖1 𝛽2𝑥𝑖2 𝛽𝑝𝑥𝑖𝑝 𝜖𝑖 Eq 76 O objetivo do método dos mínimos quadrados é fazer com que a somatória de 𝜖𝑖 tenda a zero ou seja minimizar a equação 𝜖𝑖 2 𝑌𝑖 𝛼 𝛽1𝑥𝑖1 𝛽2𝑥𝑖2 𝛽𝑝𝑥𝑖𝑝 2 𝑛 𝑖1 𝑛 𝑖1 Eq 77 O que podemos obter derivando a equação em função de todos os βs o que vai conduzir a uma representação matricial cuja equação simplificada é 𝑌 𝑥𝛽 𝜖 Eq 78 Onde 𝑌 𝑌1 𝑌𝑛 𝑥 1 1 1 𝑥11 𝑥1𝑝 𝑥𝑛1 𝑥𝑛𝑝 𝛽 𝛽1 𝛽𝑝 𝜖 𝜖1 𝜖𝑝 Eq 79 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 147 O cálculo e determinação dos valores dos coeficientes α e βs envolve cálculos matriciais um pouco mais complexos que os desenvolvimentos anteriores apresentados para a ANOVA e para a Regressão Linear Simples Como nosso objetivo é o uso prático dos recursos estatístico sem detrimento da teoria que orienta o raciocínio do pesquisador acreditamos ser mais produtivo apresentar o uso da Regressão Linear Múltipla por meio do RStudio nosso próximo item 93 Regressão Linear No RStudio A execução da regressão linear no RStudio é realizada pela função lm Sim a mesma função que também executa a ANOVA afinal ambas as análises estatísticas são baseadas no método dos mínimos quadrados A função lm é utilizada tanto para Regressão Linear Simples quanto Múltipla assim como a função aov da ANOVA Regressão Linear Simples Em primeiro lugar vamos ver como funciona a Regressão Linear Simples com os dados do Exemplo 25 A influência da adição de cinza de bagaço de cana de açúcar na resistência de compressão diametral de peças queimadas de cerâmica vermelha Os dados devem ser fornecidos ao software em colunas uma para a variável independente x e outra para os resultados Y O quadro abaixo exibe a entrada dos dados e a execução da regressão linear dados readcsv2filechoose header T summarydados x y Min 0 Min 0850 1st Qu 5 1st Qu1060 Median 10 Median 1500 Mean 10 Mean 1774 3rd Qu15 3rd Qu2550 Max 20 Max 3110 dadoslm lmy x data dados summarydadoslm Call lmformula y x data dados Residuals Min 1Q Median 3Q Max 03844 01782 00432 01880 02794 Coefficients Estimate Std Error t value Prt Intercept 2846800 0072242 3941 2e16 x 0107240 0005899 1818 382e15 Signif codes 0 0001 001 005 01 1 Residual standard error 02085 on 23 degrees of freedom Multiple Rsquared 09349 Adjusted Rsquared 09321 Fstatistic 3305 on 1 and 23 DF pvalue 3825e15 Se resgatarmos a equação calculada anteriormente 𝑌 28468 010724 𝑥 veremos que os coeficientes α e β apresentam os mesmos valores assim como o coeficiente de determinação 𝑅2 0934944 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 148 Além do coeficiente de determinação os mesmos gráficos de diagnóstico do modelo apresentados para a ANOVA podem ser utilizados para verificar a acuracidade do modelo gerado Recordando seus conceitos temos O Gráfico Residual vs Fitted Figura 84 apresenta o comportamento da variância dos resíduos com relação aos valores ajustados preditos pelo modelo sendo ideal para analisar a presença de nãolinearidades no modelo A linha vermelha no gráfico denota a média dos resíduos e deve se aproximar de uma linha reta considerar a escala utilizada Figura 84 Gráfico Residuos x Valores ajustados O gráfico Normal QQ Figura 85 dos resíduos padronizados analisa a normalidade dos resíduos verificando o afastamento da curva ideal Figura 85 Grafico Normal QQ O gráfico ScaleLocation Figura 86 é semelhante ao gráfico Residual x Fitted mas usa a raiz quadrada do valor absoluto dos resíduos padronizados ao invés do valor do próprio resíduo A linha vermelha quando horizontal indica a perfeita ausência de variação ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 149 Figura 86 Gráfico Scale Location O gráfico da Constante de Leverage Figura 87 é útil para detectar a presença de pontos influenciadores Figura 87 Gráfico Constante de Leverage Como dissemos anteriormente na análise do gráfico de dispersão o tratamento com 20 de adição de cinza de bagaço de cana foge um pouco da linearidade ideal da curva Assim podemos determinar a curva de regressão somente com os tratamentos de 0 a 15 e assim identificar as diferenças nos parâmetros α e β e verificar se o coeficiente de determinação R2 apresenta melhoria Vamos montar uma nova entrada de dados excluindo os dados relativos ao tratamento com 20 de adição dos dados de entrada e reexecutar a análise estatística O coeficiente de determinação aumentou de 09349 para 09589 indicando uma melhora na representatividade da curva da regressão linear Também podemos comparar os valores médios das amostras de cada tratamento com os valores preditos pelas equações das curvas e analisar os resíduos Tabela 60 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 150 dados readcsv2filechoose header T dadoslm lmy x data dados summarydadoslm Call lmformula y x data dados Residuals Min 1Q Median 3Q Max 02794 01219 00206 01000 02794 Coefficients Estimate Std Error t value Prt Intercept 2951800 0058564 5040 2e16 x 0128240 0006261 2048 638e14 Signif codes 0 0001 001 005 01 1 Residual standard error 01565 on 18 degrees of freedom Multiple Rsquared 09589 Adjusted Rsquared 09566 Fstatistic 4196 on 1 and 18 DF pvalue 6376e14 𝒙𝒊 𝒀 Yeq1 Yeq2 𝒀 𝒀𝒆𝒒 𝟏 𝒀 𝒀𝒆𝒒 𝟐 0 2914 28468 29518 0067 0038 5 2458 23106 23106 0147 0147 10 1488 17744 16694 0286 0181 15 11 12382 10282 0138 0072 20 0912 0702 0387 0210 0525 Tabela 60 Valores preditos para Y Como pode ser visto a segunda equação apresenta valores um pouco mais próximos da média amostral do que a primeira para os valores preditos de 𝑥𝑖 de 0 a 15 mas a diferença é pequena Também podemos observar que para a segunda equação o valor de 𝑌𝑖 para 20 de adição está bem distante da média amostral extrapolação cálculo para valor de 𝑥𝑖 fora do intervalo de estudo Isto devese ao fato da curva de regressão ter sido construída para o intervalo de 0 a 15 que representa a parte mais linear das médias amostrais O gráfico com os valores das médias amostrais e os valores preditos Figura 88 também permite uma visualização da proximidade das curvas das regressões lineares ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 151 Figura 88 Exemplo 25 Gráfico com as médias amostrais e os valores preditos Regressão Linear Múltipla Agora finalmente podemos retomar o Exemplo 24 onde foi apresentado um experimento com dois fatores de dois níveis ambos com influência na característica de interesse e com interação entre os fatores que para ambos pode ser positiva ou negativa A ANOVA nos confirmou que ambos os fatores e sua interação são significantes para a variável resposta e cuja equação que originou os dados curva de regressão original 𝑥 25 60𝐴 5𝐵 55𝐴𝐵 foi apresentada logo após a Tabela 54 Vamos carregar os dados no RStudio e verificar o quão próximo à curva de regressão proposta é da curva original Lembrese que agora devemos representar os valores dos fatores com seus valores reais e não como a a b e b Os valores dos níveis de A foram 01 02 e os níveis de B foram 10 20 A fórmula da Regressão Linear Múltipla deve ser adequada para refletir a interação entre os fatores variáveis independentes Assim usaremos a notação res a b ao invés de res a b que é usada quando temos certeza de que não há interações entre os fatores dados readcsv2filechoose header T dadoslm lmres a b datadados summarydadoslm Call lmformula res a b data dados Residuals Min 1Q Median 3Q Max 1768 1016 0365 0665 3342 Coefficients Estimate Std Error t value Prt Intercept 25430 4254 5977 644e05 a 56700 26907 2107 005681 b 5417 2691 2013 006706 ab 58050 17018 3411 000516 Signif codes 0 0001 001 005 01 1 Residual standard error 1702 on 12 degrees of freedom Multiple Rsquared 0963 Adjusted Rsquared 09537 Fstatistic 104 on 3 and 12 DF pvalue 7434e09 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 152 A aplicação da Regressão Linear Múltipla resultou na equação abaixo e para efeito de comparação vamos repetir a equação original que foi usada para o cálculo da média predita para cada tratamento considere que a média amostral não refletiu perfeitamente a média predita devido a aleatorização dos valores dos elementos 𝑟𝑒𝑠 2543 567 𝑎 5417 𝑏 5805 𝑎𝑏 Equação da curva de regressão 𝑥 2500 6000 𝑎 500 𝑏 5500 𝑎𝑏 Equação original A equação da curva de regressão apresentada confirma a premissa apresentada anteriormente da influência positiva do fator a negativa para o fator b e positiva para a interação entre os fatores a e b positiva e superior a influência negativa do fator b Tendose em conta que os valores de cada tratamento foram gerados aleatoriamente quatro elementos por tratamento e a média amostral não reflete exatamente o valor predito determinado pela equação original podemos dizer que a Regressão Linear determinou com a maior exatidão possível a equação da curva de regressão Os coeficientes obtidos estão extremamente próximos dos usados na equação original e a Regressão Linear foi capaz de determinar com precisão o tipo de contribuição de cada fator e da interação para a resposta Se apresentarmos em uma tabela Tabela 61 os valores de a b da média amostral MA dos valores calculados pela equação original X ori e os valores preditos pela curva de regressão RESrlm veremos o quão próximo eles são a b MA Xori RESrlm 01 1 3149 3150 3149 01 2 3188 3200 3188 02 1 4296 4300 4296 02 2 4915 4900 4916 Tabela 61 Valores calculados e preditos pela Regressão Linear Múltipla O gráfico da Figura 89 praticamente sobrepõe as curvas que representam os valores originais tomados como base para as quatros amostra de 4 elementos representados por sua média amostral os valores calculados pela equação original e os valores preditos pela curva de regressão linear Figura 89 Gráfico com as curvas original de regressão e média amostral ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 153 Podemos ver que as curvas não são bem lineares e sim formadas por segmentos de reta unindo os pontos referenciados dos quatro tratamentos E já que temos a equação original e a equação dada pela Regressão podemos inserir mais pontos para ver o formato real da curva mostrado na Figura 90 Nas curvas da Figura 90 inserimos no eixo x a indicação de extrapolação E quando os valores calculados pela curva de regressão estão fora do intervalo de estudo e de predição P quando os valores calculados estão dentro do intervalo de estudo Figura 90 Curvas original e da regressão linear múltipla com predição e extrapolação de valores Agora devemos ressaltar que este é um exemplo teórico e portanto não foi influenciado por outros fatores Os valores dos elementos das amostras foram aleatorizados mas ajustados para refletir da melhor forma possível a média amostral desejada Em um experimento real dificilmente conseguiríamos uma situação assim Diversos fatores não previstos os ditos fatores aleatórios iriam influenciar o experimento tais como Diferenças de dosagem das matérias primas Fadiga de equipamento tanto na mensuração quanto no preparo Fatores não controláveis como temperatura pressão umidade e outros Falta de planejamento do experimento cansaço ou desatenção do pesquisador E muitos outros Além disto o exemplo teórico não considera fatos que normalmente aconteceriam em um experimento como a saturação que ocorre quando o aumento na adição de um componente não influencia mais o resultado ou assume comportamento contrário ao anterior passa a influenciar negativamente ao invés de positivamente Assim este exemplo deve ser visto apenas como explicativo para o poder da Regressão Linear Múltipla em representar e facilitar a análise da influência dos fatores e de sua interação na característica de interesse ou seja a resposta do experimento ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 1 REFERÊNCIAS ALVES M C Teste t de Student Seção Técnica de Informática Piracicaba 2017 BARBETTA P A Estatística Aplicada às Ciências Sociais 8 Florianópolis SC 2012 ISBN 9788532806048 FARIAS A M L D DEMARQUI F N Análise de Variância de um Fator 2017 FUKUCHI R K Análise de Variância ANOVA RStudio Pubs 2019 GREENWOOD M BANNER K ANOVA model diagnostics including QQplots Statistics with R Creative Commons 2015a Histograms boxplots and density curves Statistics with R Creative Commons 2015b Multiple pairwise comparisons using Tukeys HSD and the compact letter display Statistics with R Statistics with R Creative Commons 2015c Summary of importance Rcode Statistics with R Creative Commons 2015d GUIMARÃES A M Análise de Variância ANOVA oneway e Tukey usando R Medium California US A Medium Corporation 2019 MINITAB L Entendendo Análise de Variância ANOVA e o teste F Editor Minitab Minitab 2019a Interpretar os principais resultados para ANOVA para 1 fator Editor Minitab Minitab 2019b Quais são os erros do tipo I e II Editor Minitab Minitab 2019c MONTGOMERY D C RUNGER G C Estatística Aplicada e Probabilidade para Engenheiros 6 Rio de Janeiro RJ John Wiley Sons Inc 2016 629 ISBN 1309781118539712 PANOSSO A R MALHEIROS E B Estatística Experimental Aplicada Software R Jaboticabal SP FCAV UNESP Campus de Jaboticabal Portal Action 2020 Disponível em httpwwwportalactioncombr PORTALACTION Portal Action São Carlos SP 2020 Disponível em httpwwwportalactioncombr PROVETE D B Intervalo de confiança ztest e ttest RPubs RPubs 2017 ESTATÍSTICA APLICADA PARA ESTUDANTES DE ENGENHARIAS UM GUIA PRÁTICO PPGECCEFETMG 2 REIS M M Simulação e Cálculo do Poder do Teste e de Tamanho de Amostra para Testes no aplicativo R INE6006 Procedimentos Florianópolis RODRIGUES É C Modelos de Regressão Linear Simples 2016a Modelos de Regressão Linear Simples Análise de Resíduos 2016b Modelos de Regressão Múltipla 2016c SIMON L YOUNG D PARDOE I STAT 462 Applied Regression Analysis The Pennsylvania State University 2019 TRIOLA M F Introdução à estatística LTC Rio de Janeiro 2005 WALPOLE R E MYERS R H MYERS S L YE K Probabilidade Estatística para engenharias e ciências 8 São Paulo SP Pearson Prentice Hall 2009 491 ISBN 9788576051992