·

Cursos Gerais ·

Métodos Quantitativos Aplicados

Send your question to AI and receive an answer instantly

Ask Question

Preview text

11 ATIVIDADE INTEGRADORA ORIENTAÇÕESDOCENTE 2 Disciplina Docente Métodos Quantitativos Suzana Rezende Lemanski Descrição da Atividade Tema O uso de novas tecnologias no ambiente educacional benefícios e conflitos Contextualização O uso de novas tecnologias no ambiente educacional assim como sua utilização pedagógica representam grandes desafios para professores e alunos Mas a importância de incorporar essas novas tecnologias em aulas é inegável Porém o desafio maior é evitar a perda de foco do aluno quando não devidamente conscientizado o que pode até se tornar inoportuno para o aprendizado Sendo assim a proposta será investigar estratégias que promovam uma conscientização sobre o uso cuidadoso e produtivo da tecnologia no ambiente escolar de forma que ela complemente e potencialize as metodologias tradicionais de ensino Problematização Conscientização de alunos e professores sobre o uso cuidadoso da tecnologia para somar às metodologias tradicionais sem que haja perda de foco do aluno Descrição da Atividade e Forma de Entrega Faça uma pesquisa bibliográfica onde devem ser identificadas as seguintes situações Os desafios para evitar a perda de foco dos alunos ao utilizar tecnologia durante as aulas A adaptação dos alunos e professores ao uso da tecnologia e Os pontos considerados falhos para um melhor aproveitamento pedagógico dessa nova utilização Devem ser entregues os resultados da pesquisa de forma organizada seja em tabelas gráficos ou outro formato adequado com as principais conclusões e propostas de soluções 3 A forma de entrega deve contemplar os seguintes itens A atividade é individual A formatação deve ser de acordo com as normas da ABNT referências bibliográficas e formato digitado o texto deve estar em fonte Arial 12 e com espaço entrelinhas de 15 e inserir as referências utilizadas O trabalho deverá ser enviado via plataforma salvo em arquivo PDF Material de Apoio vídeos textos links etc Videoaulas das diferentes unidades do material de apoio da disciplina de Métodos Quantitativos Livro Costa Paulo Roberto da Estatística 2011 Disponível em httpswwwufsmbrappuploadssites41320181104estatisticapdf Critérios de Avaliação Respeito aos prazos de entrega Fidelidade ao tema Item avaliado Valor Capa da instituição 10 Introdução 10 Desenvolvimento 20 Adequação às normas da ABNT Fonte Arial tamanho 12 Nas citações com mais de 3 linhas notas de rodapé legendas e tabelas a fonte deve ter o tamanho 10 Realizar as citações dos textos utilizados de outros autores Parágrafos Espaçamento 15 entre linhas Inserir as referências utilizadas 10 Qualidade do Relatório 40 Conclusão o seu apontamento pessoal sobre os assuntos abordados 10 Fechamento 4 Informações Complementares Fazer a investigação bibliográfica organizar os dados em forma de tabelas ou gráficos De acordo com as conclusões propor soluções para os problemas encontrados Bibliografia LARSON Ron FARBER Elizabeth Estatística aplicada São Paulo Pearson 2015 LEVIN Jack FOX James Alan FORDE David R Estatística para ciências humanas São Paulo Pearson 2012 Unidade 1 Introdução à teoria da medida 3 Introdução Pesquisas são a base de atuação de todos que precisam tomar decisões Ela pode direcionar a sua atuação para um rumo ou outro Mesmo que todo processo de decisão admita um erro com base nas pesquisas essa decisão pode ser mais acertada e isso tem muito a ver com a ideia de usar dados pesquisas tabelas isto é as medidas existentes nesse processo Vejamos um exemplo uma empresa de âmbito nacional precisava lançar um produto tinha urgência em fazer isso para se lançar à frente de sua concorrência e apresentar algo novo para suas unidades em todo o Brasil O conhecimento de mercado que um de seus gestores possuía lhe indicava que o produto deveria ser do tipo A uma abordagem genérica para não ter que explicar detalhes do produto Foi solicitada uma pesquisa para que essa sugestão fosse validada Os pesquisadores da empresa fizeram uma entrevista com 400 pessoas da cidade onde ficava a sede da empresa e chegaram à conclusão de que seria melhor lançarem o produto B que começou a ser desenvolvido imediatamente No lançamento do produto B a concorrência estava lançando o produto A com muito mais sucesso O grande erro foi estatístico O ponto mais simples de toda a análise de medidas não foi respeitado a amostra Veremos mais à frente o porquê isso aconteceu Nosso trabalho com essa disciplina é lhe preparar com as bases de Medições e Análise de Dados necessárias para que um erro desse e muitos outros não aconteçam Queremos que você consiga entender os cuidados com a amostragem para ter dados confiáveis a forma de apresentação desses dados em tabelas e gráficos quais são os valores que podem representar toda a sua pesquisa que são as medidas de tendência central o quanto seus dados estão próximos dessas medidas com as medidas de dispersão qual é a taxa dessa dispersão com o coeficiente de variação Na sua tomada de decisões você precisa entender um pouco de probabilidade para entender que mesmo que algo não esteja certo tem grandes chances de acontecer E podemos enfim prever o futuro com algumas análises que nos mostram o comportamento dos dados em relação a uma variável e como aproximar esse comportamento de uma reta no conteúdo coeficiente de correlação e regressão à reta para perceber a tendência para essas informações por exemplo o preço de um produto tende a chegar em que patamares em relação ao preço da gasolina Por fim vamos trabalhar com a tomada de decisões com os testes de 4 hipóteses verificando se uma decisão foi certa ou errada mas principalmente que tipo de erro foi cometido naquela hipótese Vamos para uma aventura incrível nessa disciplina que nos permitirá tirar conclusões sobre o futuro Objetivos Entender o que são métodos quantitativos Diferenciar amostra e população Construir e usar variáveis estatísticas Realizar processos de amostragem Conteúdo programático Aula 01 Introdução à teoria da medida Aula 02 Amostragem e Representação de dados em tabelas Você poderá também assistir às videoaulas em seu celular Basta apontar a câmera para os QRCodes distribuídos neste conteúdo Pode ser necessário instalar um aplicativo de leitura QRcode no celular e efetuar login na sua conta Gmail 5 Videoaula Apresentação Videoaula Apresentação Utilize o QRcode para assistir Videoaula Mini Currículo Videoaula Mini Currículo Utilize o QRcode para assistir 6 Aula 01 Introdução à teoria da medida Uma das principais análises de medidas A Estatística Quando falamos em teoria da medida estamos pensando em coleta de dados e análise dos seus valores Quando essas informações são números podemos começar nosso estudo pelo entendimento dos conceitos ligados a um ramo da matemática muito específico a estatística Para isso vamos partir da sua definição e do entendimento dos elementos ligados ao seu estudo isso para que saibamos o que estamos estudando Videoaula 1 Nesse primeiro vídeo você verá o que é a estatística e qual é a sua ligação com os Métodos Quantitativos Pensando como ciência de estudo podemos dizer que estatística é um ramo da matemática aplicada Mas essa definição pode ser extrapolada para técnicas interpretações de resultados e conclusões com base em dados Essa definição científica pode ser contraposta com algumas outras ligadas ao conhecimento popular nesse sentido podemos ouvir frases como Estudo estatística na faculdade definição ligada à ciência Usando técnicas estatísticas coletou milhares de informações definição ligada às técnicas Os homens são menos cuidadosos com a própria saúde estatisticamente falando definição ligada à interpretação dos resultados de uma pesquisa Videoaula 1 Nesse primeiro vídeo você verá o que é a estatística e qual é a sua ligação com os Métodos Quantitativos Utilize o QRcode para assistir 7 Como pudemos perceber é possível sempre ligar a Estatística à ideia de informações chamadas de dados análises desses dados e tomadas de decisão É por isso que se torna tão importante entendermos bem a dinâmica da sua construção para não tomarmos decisões equivocadas Dessa forma podemos associar o uso de estatística a métodos para coleta resumo organização apresentação e análise dos dados E vamos além com base nelas podemos obter conclusões válidas para mais tarde decidir o melhor caminho a seguir Podemos usar a estatística como instrumento de apoio para vários outros campos do conhecimento Podemos até ousar dizer que ela auxilia a todos os ramos do conhecimento em que dados experimentais são manipulados 8 Um exemplo pode ser o que aconteceu durante a Pandemia de Coronavírus em que se falou muito sobre probabilidade de contágio sobre percentual de imunização da vacina sobre taxa de contágio etc Podemos também citar outros ramos como a Física Química Medicina Engenharia Ciências Sociais e o nosso principal objetivo na Administração de Empresas Dois conceitos básicos da Estatística são a população e a amostra Vamos conhecer um pouco mais sobre esses elementos População e Amostra Videoaula 2 Veja agora um vídeo que apresenta os conceitos e exemplos de população e amostra Já vimos que a estatística envolve coleta de dados caso sejam coletados dados sobre um grupo de objetos ou indivíduos como por exemplo a cor dos olhos ou o peso de estudantes de ensino médio ou até o número de peças defeituosas produzidas em um dia em uma fábrica é possível que não consigamos observar todo o grupo isso pode acontecer nos casos em que o grupo for muito grande ou se não conseguirmos acessar todos os envolvidos Em outras situações a nossa pesquisa precisa envolver todos os indivíduos do grupo Vou dar dois exemplos Vamos imaginar que tenhamos que verificar a satisfação de clientes de determinado produto comprado e temos uma loja com 100 produtos vendidos por mês É possível e Videoaula 2 Veja agora um vídeo que apresenta os conceitos e exemplos de população e amostra Utilize o QRcode para assistir 9 interessante ligar para todos eles perguntando como se sentem com a sua compra Isso levaria a um grau de certeza muito grande pois todos teriam respondido à pesquisa Em alguns casos isso não é possível por exemplo se formos responsáveis por testar a qualidade dos palitos de fósforo de uma fábrica O método é simples vamos tentar acender o palito e verificar se o seu fogo acende e se mantém por um tempo determinado Você consegue imaginar o que aconteceria se testássemos todos os palitos de fósforo produzidos Fica claro que testar todos os palitos faria com que não sobrasse nada dos itens produzidos É por isso que seria mais interessante definir uma quantidade de palitos a serem testados dentro da nossa produção e a forma de escolhêlos Qual é a diferença nesses dois métodos de pesquisa No primeiro método é possível analisarmos todo o conjunto a população No segundo caso em vez de examinarmos todo o grupo levantaremos os dados apenas de uma parte desta população chamada amostra Como seria então a definição de população ou universo É o conjunto total dos elementos estudados que tenham pelo menos uma característica comum No exemplo da loja a característica comum é o fato de terem comprado um produto Podemos ter outros exemplos de População os estudantes das escolas públicas por exemplo constituem uma população pois no mínimo apresentam uma característica em comum são aqueles que estudam em escolas públicas Essa característica em comum 10 delimita um grupo de elementos sem que haja possibilidade de dúvidas se o indivíduo faz ou não parte do conjunto Sendo assim sabemos claramente quais são os elementos que pertencem à população e os que não pertencem E a amostra Vimos no exemplo que muitas vezes não é possível ou até mesmo pode ser inconveniente levantar os dados referentes a todos os elementos da população Nesse caso podemos limitar nossas observações à uma amostra É importante lembrar que é necessário que ela tenha características que a façam representar adequadamente a população toda Vamos definir a amostra como um subconjunto finito uma parte de uma população Em relação à quantidade de elementos desses conceitos é que a amostra é sempre finita e a população também pode ser finita ou infinita O que não foi trabalhado ainda e talvez seja a questão mais delicada na definição da amostra é a forma de fazer com que ela represente toda a população mas isso será objeto de estudo ainda Por enquanto basta lembrarmos que ela é usada quando não podemos ou não convém envolvermos todos os elementos da população Os métodos que seriam necessários para analisar tanto a amostra quanto sua relação com a população são chamados de estatística descritiva e indutiva Vamos conhecêlos 11 Estatística Descritiva e Indutiva Talvez a forma como foi dita a frase pode passar a impressão de que estamos falando de um conceito só porém são dois a estatística descritiva e a estatística indutiva Mesmo que esses dois conceitos estejam muito ligados em vários momentos vamos mostrar as principais diferenças entre as duas classificações Estatística Descritiva Quando nosso objetivo se limita a descrever e analisar certo grupo de dados não nos importando se os dados foram extraídos de uma amostra ou de toda a população os métodos usados são chamados de estatística descritiva Estatística Indutiva 12 Quando a amostra é escolhida de forma a representar uma população e se usarmos seus elementos para tirarmos conclusões a respeito desta população a partir dos dados extraídos temos a aplicação do que chamamos de métodos da estatística indutiva Também existe algo análogo no estudo do raciocínio lógico o raciocínio indutivo Lembrando que ele parte do conhecimento de uma parte para tirar conclusões sobre a realidade do todo Assim podemos dizer que na estatística indutiva usamos métodos para tirar conclusões sobre a população partindo do que se descobriu com a amostra Da mesma forma que acontece no raciocínio indutivo o processo de indução pode levar a conclusões erradas por pensarmos que toda a população teria exatamente a característica que estamos vendo na amostra Assim a estatística indutiva está sujeita a erros Para que esses erros não inviabilizem o estudo é necessário que os métodos de indução ou inferência estatística sejam capazes de definir até que ponto e com que probabilidade estamos errando Assim podemos melhorar nossas amostras de modo a conseguir um erro máximo aceitável Tipos de Variáveis Videoaula 3 Assista agora um vídeo que apresenta o que são variáveis e como identificálas Uma questão importante no estudo estatístico pode envolver a definição de quais características dos elementos população ou amostra nos interessam para o estudo em questão É um processo de seleção isto é de escolha das características que farão parte do estudo e da análise dos dados encontrados Mesmo que uma característica seja muito Videoaula 3 Assista agora um vídeo que apresenta o que são variáveis e como identificálas Utilize o QRcode para assistir 13 marcante em um conjunto de dados talvez ele não faça parte da análise feita por não tratar do objetivo da pesquisa feita É como se déssemos um foco naquilo que nos interessa Tomando uma população de pessoas essa característica pode ser por exemplo o peso ou a cor dos olhos de um certo número de indivíduos Assim pode ser interessante associar ao nosso estudo uma variável peso e outra cor dos olhos cujos resultados dependerão dos elementos considerados É fácil notar que se tivermos N elementos no caso N pessoas em nosso estudo teremos no máximo N valores para a variável peso ou para a variável cor dos olhos A escolha dessa característica define o tipo de dados que fará parte dos resultados encontrados Explico melhor se estivermos observando o peso o tipo de dados encontrado será mais provavelmente numérico Porém se observarmos a cor dos olhos o tipo de dados encontrado será provavelmente uma palavra verde castanho azul Veja que os dados numéricos ou palavras farão parte de um elemento observado Nesse sentido chamaremos essa característica ou esse elemento observado de variável pois pode ter múltiplos e diferentes valores que variam de indivíduo para indivíduo na nossa pesquisa 14 Para uma definição mais acurada vamos considerar variável como o conjunto de resultados possíveis para um fenômeno Apenas para definição do modo de armazenamento dessas informações podemos classificar as variáveis em tipos Ressalto que isso serve apenas para escolhermos o modo de armazenamento dos resultados e não interfere nos dados observados Essa classificação depende dos resultados possíveis de cada variável assim ela pode ser a Qualitativa quando seus resultados forem textos ou atributos sexo masculino ou feminino cor dos olhos azuis castanhos etc qualidade de uma peça produzida perfeita ou defeituosa Ainda podemos classificar as variáveis qualitativas em nominais quando forem textos ou ordinais quando especificarem uma ordem primeiro segundo terceiro Ou b Quantitativa quando for expressa em valores mensuráveis ou contáveis Há uma subdivisão das variáveis quantitativas em discretas ou contínuas Normalmente as variáveis qualitativas são frutos de observação qualidade cor ordem código nome característica etc Já as variáveis quantitativas são mais ligadas à medição peso quantidade altura comprimento intensidade etc Variável contínua é aquela que pode assumir infinitos valores entre dois limites Por outro lado uma variável discreta só pode assumir valores pertencentes a um conjunto enumerável como os números inteiros Vamos entender um pouco melhor isso com exemplos Variáveis quantitativas discretas número de alunos em uma turma números naturais pontos obtidos em uma jogada de dados dependendo da regra números inteiros número de peças produzidas em um dia de trabalho também enumerável Variáveis quantitativas contínuas massa peso dos alunos em uma turma podemos subdividir em Kg g miligramas diâmetros de peças produzidas em um dia podemos subdividir infinitamente em m cm mm Ao observarmos os exemplos podemos perceber que de maneira geral os valores das variáveis discretas são obtidos por contagens enquanto que os valores das variáveis contínuas são obtidos por medições Para dar nomes às variáveis podemos usar letras Normalmente x y ou z 15 Aula 02 Amostragem e Representação de dados em tabelas Amostragem Videoaula 1 Nesse primeiro vídeo você aprenderá um pouco sobre as amostragens que serão ensinadas nessa unidade Já estudamos a importância de se escolher bem a amostra quando queremos que ela represente a população Além de conhecer as definições e características de uma amostra agora vamos verificar como estabelecer um processo correto de amostragem isto é de escolha da amostra Você já associou a estatística indutiva com a amostra pois ela deve tirar conclusões sobre a população baseado em resultados retirados delas A maior dúvida nesse caso será como fazer isso se nem todos os elementos do conjunto se comportam da mesma forma Videoaula 1 Nesse primeiro vídeo você aprenderá um pouco sobre as amostragens que serão ensinadas nessa unidade Utilize o QRcode para assistir 16 E se por azar ou por erro eu escolher justamente aqueles que são diferentes dos restantes em suas características Pensando nessas perguntas percebemos que essa escolha não é tão simples porque precisamos ter certeza de que as amostras sejam representativas da população ou seja a amostra deve ter as mesmas características básicas da população em relação ao que eu estou querendo pesquisar Vou dar um exemplo Em uma pesquisa eleitoral precisamos escolher uma amostra de eleitores que nos dê uma certa garantia de que todos os eleitores se comportarão como a amostra em relação ao seu voto que nesse caso específico é o foco da pesquisa Podemos classificar essa amostragem em dois grupos a probabilística e a não probabilística Chamase amostragem probabilística aquela em que todos os elementos da amostra têm probabilidade conhecida e diferente de zero de pertencer à amostra Caso contrário a amostragem será não probabilística Veja que estamos falando da probabilidade de pertencer à amostra e não da probabilidade relacionada com a pesquisa De uma maneira mais simples na amostragem probabilística nenhum elemento da população é excluído da possibilidade de participar do estudo Vou dar um exemplo Em um sorteio lotérico todos os elementos têm igual probabilidade de pertencer à amostra essa é a amostragem probabilística mais simples também chamada de amostragem casual simples 17 Tipos de Amostragem Amostragem Casual ou Aleatória Simples Sorteios Esse tipo de amostragem é bem conhecida nossa porém normalmente é chamada de sorteio Para fazermos uma amostragem casual simples basta enumerarmos a população de 1 a N e sortearmos por meio de qualquer dispositivo aleatório uma quantidade qualquer de números desta sequência Exemplo Imagine que queremos uma amostra de 20 alunos em uma escola que tenha 100 Podemos atribuir números aos alunos de 1 a 100 escrever esses números em papéis pequenos colocar os papéis dentro de uma caixa e retirar um a um 20 números A amostra aleatória simples terá neste caso 20 da população amostra de 20 em um total de 100 Dependendo da quantidade de elementos da amostra o sorteio pode não ser o mais fácil no momento Neste caso ou por querermos uma forma diferente de amostragem podemos utilizar uma tabela de números aleatórios para realizar a amostragem Existe uma tabela já padronizada para isso mas você pode encontrar outras na internet ou criar a sua de acordo com a sua vontade Outra possibilidade é a utilização das planilhas eletrônicas Podemos gerar nelas as tabelas de números aleatórios Segue o exemplo de uma situação para amostragem em que usaremos essa tabela e a explicação de como conseguir formar um sorteio com seus valores a Como sortear 10 dos funcionários de uma empresa que tem seus funcionários numerados de 1 a 90 18 Para obtermos os elementos da amostra usando esta tabela sorteamos um algarismo qualquer da mesma a partir do qual iremos considerar números de dois três ou mais algarismos conforme a necessidade Os números assim obtidos irão indicar os elementos da amostra No nosso exemplo como são números de 1 a 90 usaremos dois algarismos de cada vez Vou explicar melhor Primeiro vejamos como é a tabela de números aleatórios TABELA DE NÚMEROS ALEATÓRIOS 408932150972311229916322073342757935 9442988395656035421560876747584474574 916234935131746759123109337217450307 1889335407780600288820706372086834667 546346810691320345851104084166365822 89714197869594104386863784777977193 333448580141780949759877686879966037 4541427454537963070778437510500378583 093737590226286543836876800576730823 0031257227005383016899203326750689597 405860286819601124112049528138283980 485177082961615151983952346177534213 837738807768110421392168091675545344 9478139994580930147126132131253001937 7255017651374675389701121111052523380 7502309703368975177278385955892558022 0548660576787831674686983654202101 773365775259427436621224906489970798 871207315091901829831364896115181688 914188405174129325339876693647484235 133399415818812097261575252075158945 6400950950433236556760229578486090415 6123523345399369589116950656447167206 368438531733993858911731376923434579 609703966195872248124344787138158269 295941228645034328267090939214704686 9495595253882493647039676077068656392 6679356930003013317851707758587059065 6650623228952905151540750494422112741 626122060525263928362659135082196503 26663172843512812604980166722976814 631460447529517437377115208678605224 231550467329103837823078143436888191 928142315880840169125240265294200671 9486139131581170364638914167260451239 931841612848090475600458504180127180 458420246064982507518348959926006168 875265072022072006215092082299468593 766175137685689131364878097136298873 317890477294414511594471657695602100 905289166922404721992775774549276543 933774804732806365958682258638987294 98423199800445073118581858686770073 229964892954181431046936950086692053 79994792909430122473602410289535509 816296315631085885592091944821635693 457216501299892911583695166753271682 742007889140187891111853598538542929 902140925063099011249715224683999215 874147974870862745170451503944483690 3353836100689007152018074282728218735 61804857840349294412754983552805060282 6656608395167379174255429866055738304 91368004352682254103537099780708631 323905878440096122614123315293273314 6381271988371973274005955923132563294 20 O primeiro passo é verificar que serão sorteados 9 funcionários conseguimos esse valor calculando 10 de 90 conforme a pergunta feita O segundo passo é decidir em que linha começar Isso pode ser feito ao acaso também por sorteio ou por escolha do pesquisador desde que ele não conheça a tabela para definir algum elemento a ser sorteado Vamos definir que começaremos na linha 12 A leitura da Tabela pode ser feita horizontalmente da direita para a esquerda ou viceversa verticalmente de cima para baixo ou viceversa diagonalmente no sentido ascendente ou descendente ou formando o desenho de uma letra qualquer A opção porém deve ser feita antes de iniciado o processo Assim para o nosso exemplo considerando a 12ª linha tomamos os números de dois algarismos tantos algarismos quanto formam o maior número da população neste exemplo 90 obtendo 48 51 77 08 29 61 51 39 e 52 Evidentemente os numerais repetidos já escolhidos bem como aqueles superiores a 90 foram descartados Nesse caso sabemos os números dos elementos sorteados Veja que é importante definir um número código para cada elemento antes de começar a amostragem Amostragem Sistemática Por mais que não pareça aleatória pelo nome a amostragem sistemática também o é Ela não privilegia nenhum dos elementos do conjunto para a amostra Por isso podemos dizer que ela é uma amostragem probabilística também A amostragem sistemática começa com a ordenação dos elementos da população e a retirada de elementos para composição da amostra é feita seguindo uma regra previamente estabelecida Como exemplo em uma linha de produção se retirarmos um item a cada 10 produzidos para controle de qualidade estaremos utilizando a abordagem sistemática Nesse formato de amostragem é importante que tenhamos uma regra bem clara para a amostragem Essa regra pode ser conseguida com cálculos matemáticos Por exemplo se queremos utilizar o mesmo método para retirar uma amostra de uma população de determinada rua Ao contar o número de prédios da mesma descobrimos que contêm 500 prédios Definimos que a amostra deve conter 10 da população isto é 50 prédios Fica fácil perceber que podemos tomar os prédios de 10 em 10 Outra decisão será se vamos partir do 1º prédio e ir pulando de 10 em 10 prédios ou vamos começar em outro como 21 o 8º prédio e vamos pegando de 10 em 10 o 18º 28º 38º e assim por diante até termos 50 elementos Essa amostra sistemática pressupõe que a regra estabelecida foi aleatória Não vale analisar toda a população e verificar qual seria o conjunto mais favorável à nossa decisão Isto é se eu perceber que os dados dos prédios 5 15 25 são mais interessantes para mim já não posso usar essa amostra para minhas intenções e sendo assim prejudiquei esse formato de amostragem sendo melhor tomar outro método Amostragem proporcional estratificada Outra amostragem probabilística é a proporcional estratificada Como o próprio nome diz ela envolve uma proporcionalidade e é separada por estratos Se por acaso nossa população contiver subgrupos com as mesmas características estratos é importante utilizar uma amostragem estratificada em que os elementos da amostra são proporcionais aos elementos dos estratos da população O que eu quis dizer é que essa amostragem é utilizada quando temos subgrupos dentro da população como por exemplo a separação entre homens e mulheres Caso haja essa separação podemos utilizar uma amostra proporcional à quantidade de cada subgrupo Exemplo Uma empresa com 60 funcionários contendo 40 homens e 20 mulheres Temos dois subgrupos característicos um de homens e outro de mulheres Eles estão subdivididos segundo uma proporção 21 É importante que a amostra contenha esta mesma proporção Assim se tivermos uma amostra com 15 elementos 10 deverão ser homens e 5 mulheres Mantendo a proporção 21 22 Veja que ainda assim é importante que os homens e mulheres escolhidos sejam ao acaso com alguma forma de sorteio para que todos tenham a mesma chance de pertencer à amostra E as amostras não probabilísticas Videoaula 2 Nesse vídeo você aprenderá o que são e para que servem as amostragens não probabilísticas já que seus elementos não têm a mesma probabilidade de participar da amostra Algumas pesquisas científicas não precisam ter necessariamente uma amostragem probabilística Amostras não probabilísticas são também empregadas em trabalhos de estatística por simplicidade ou inviabilidade de fazermos amostras probabilísticas Os casos mais importantes são a A inacessibilidade de toda a população e neste caso seremos forçados a colher a amostra somente na parte da população que está acessível Videoaula 2 Nesse vídeo você aprenderá o que são e para que servem as amostragens não probabilísticas já que seus elementos não têm a mesma probabilidade de participar da amostra Utilize o QRcode para assistir 23 b Amostragem a esmo em que o selecionador procura ser aleatório na amostragem mas não utiliza nenhum método confiável de sorteio c Amostragens intencionais em que o amostrador deliberadamente escolhe alguns elementos para pertencer à amostra julgandoos representativos d Amostragens por voluntários no caso de por exemplo aplicações experimentais de novos medicamentos Representação dos dados O processo de tomada de decisões precisa ser embasado em informações precisas e pertinentes Além disso essas informações precisam ser recebidas pelo gestor de modo a entender de forma rápida o que representam Informação é poder Essa frase é muito usada nos meios empresariais e significa que quando temos as informações corretas da forma correta e no tempo adequado podemos dizer que temos poder para mudar uma situação ganhar vantagem competitiva ou até mesmo determinar quem pode ou não receber essa informação Isto é a pessoa com informação tem poder Vou contar uma história Um dos homens mais ricos da história dos Estados Unidos começou sua vida trabalhando duro como telegrafista da comunidade dos negociantes de Pittsburgh Como recebia as informações para publicar nos jornais ele sabia quais eram os negócios que mais interessavam e usou o que aprendeu para construir um grande império Posteriormente como gratidão para a cidade que lhe deu tudo doou uma casa de espetáculos muito luxuosa Não vamos discutir aqui a questão ética desse método mas apenas o fato de que ter as informações corretas significa poder 24 Quando pensamos em usar dados precisamos saber que essas informações sem nenhum tipo de tratamento são dados brutos isto é que não foram devidamente tratados para mostrar informações confiáveis Esses dados podem ser coletados por meio de vários tipos de pesquisa observações medições entrevistas etc como o tempo de uma ligação telefônica a velocidade de processamento de um computador a proporção e participação no mercado das empresas de um determinado setor suscetibilidade de empresas a uma determinada mudança no mercado opinião dos alunos quanto à didática de um professor Normalmente este tipo de dado traz pouca ou nenhuma informação ao leitor sendo necessário organizálos e analisálos com o intuito de aumentar sua capacidade de fornecer informação completa e precisa Essa organização precisa de apoio em tabelas gráficos análise de variáveis análise de tendências testes etc Vamos começar entendendo como podem ser as variáveis Como já estudamos quando falamos das variáveis sempre que são observados indivíduos diferentes podemos ter uma variação presente nas informações coletadas o que faz sentido já que queremos saber informações de diferentes pessoas ou elementos Sempre que temos dados que podem variar podemos chamálos de variáveis caso contrário podemos chamálos de constantes Já vimos a classificação das variáveis em qualitativas e quantitativas desta forma vamos relembrar como você faria a classificação das seguintes variáveis a Número de páginas desta unidade b Peso dos funcionários do setor de marketing de uma empresa c Tipos de empresas em relação a adoção de determinada técnica 25 d Tamanho de empresas pequena média e grande Dentro dessa classificação podemos subdividir as variáveis qualitativas em nominais ou ordinais e as variáveis quantitativas em discretas ou contínuas Pensando na forma de tratamento desses dados podemos perceber que cada campo espaço dedicado ao preenchimento de dados estatísticos presente em nossa pesquisa pode ser transformada em uma variável e fazer parte de uma apresentação Essa apresentação pode ter as formas de tabela ou gráfico Representação em tabelas Videoaula 3 Nesse vídeo você aprenderá a importância e os elementos de uma tabela Videoaula 3 Nesse vídeo você aprenderá a importância e os elementos de uma tabela Utilize o QRcode para assistir 26 As tabelas são organizações simples dos dados em colunas e linhas Ela pode conter alguns elementos para facilitar sua interpretação Título O título facilita a leitura da tabela informando previamente que tipo de informações está sendo mostrada ou resumindo o assunto do qual a tabela faz parte O título deve responder às seguintes questões O que Assunto a ser representado Fato Onde O lugar onde ocorreu o fenômeno local Quando A época em que se verificou o fenômeno tempo Cabeçalho o cabeçalho é a parte superior de cada coluna dando uma nomenclatura para aquele campo de dados É parte da tabela na qual é designada a natureza do conteúdo de cada coluna Corpo o corpo são os dados em si todas as informações que foram organizadas em linhas e colunas Linhas cada linha pode ser chamada de registro É a parte do corpo que contém uma sequência horizontal de informações Normalmente uma linha traz as informações completas de um elemento pesquisado Colunas As colunas normalmente são campos com um tipo de informação de cada elemento É a parte do corpo que contém uma sequência vertical de informações Obs em algumas organizações a informação das linhas e das colunas é trocada a linha traz o campo isto é um tipo de informação e a coluna traz o registro ou seja as informações completas de um elemento pesquisado Casa ou célula parte da tabela formada pelo cruzamento de uma linha com uma coluna Rodapé É o espaço aproveitado em seguida ao fecho da tabela em que são colocadas as notas de natureza informativa fonte notas e chamadas Fonte referese à entidade que organizou ou forneceu os dados expostos É muito importante citar a fonte dos dados para aumentar a confiabilidade da tabela eou para indicar qual é o viés dado à mesma Um exemplo de dados brutos corresponde ao tempo em minutos que funcionários de uma empresa utilizariam em um mês em suas chamadas via celular Os dados foram obtidos em uma pesquisa e apresentados da forma em que foram coletados por este motivo são denominados dados brutos 27 Tempo T em minutos de uso de telefone celular por colaboradores C de uma determinada empresa Encerramento da Unidade Nesta aula vimos como são definidos os Métodos Quantitativos e a importância do seu estudo para evitar erros de interpretação de informações Também conhecemos os termos fundamentais dessa disciplina que trata do estudo de amostras ou da população para definir características sobre o objeto estudado Vimos como se classificam as variáveis estatísticas e como se definem as amostragens Além disso vimos como são organizados os dados em tabelas Ao final desta aula você já consegue separar dados importantes para apresentar posteriormente definindo tomadas de decisões ou direcionamentos necessários Referências CASTANHEIRA N P Estatística aplicada a todos os níveis1ª ed Curitiba Intersaberes 2012 UniFil EDUCAÇÃO A DISTÂNCIA UNIFILBR Unidade 2 Medidas Quantitativas e suas representações 3 Introdução da Unidade Uma pesquisa nos fornece dados seja ela feita com a população toda ou com uma amostra como vimos nas aulas anteriores O fato é que depois de fazer uma boa pesquisa teremos uma porção de dados estatísticos para analisar Essa análise só será completa se conseguirmos interpretar os dados e tomar decisões acertadas com relação ao assunto da pesquisa feita Isso começa com uma organização desses dados para termos maior ou menor facilidade em interpretálos e passa por destacar informações ou valores que representem adequadamente as variáveis analisadas Esse é o foco dessa unidade de estudos a quantificação adequada a organização dos dados e a descoberta de valores representativos relacionados às informações conseguidas Esse processo é o que chamamos de encontrar Medidas Quantitativas e suas organizações Na disposição de dados que normalmente encontramos é comum que esses valores representativos estejam nos centros de concentração dos dados Explico melhor normalmente podemos escolher valores representando a pesquisa quando descobrimos quais são os intervalos que mais se repetem Para ficar ainda mais claro vou usar um exemplo se em uma pesquisa sobre cores de olhos percebemos que a maior parte dos entrevistados tinham olhos castanhos ou verdes podemos dizer que um valor representativo dessa variável é a cor de olhos castanhos e outro valor representativo é a cor de olhos verdes Essas informações podem ajudar muito a tomar decisões e criar argumentos sobre a pesquisa realizada por isso vamos estudar formas de conseguir tais valores Objetivos Conhecer as principais medidas quantitativas Representar corretamente dados coletados Calcular as medidas de tendência central Interpretar as medidas de tendência central 4 Conteúdo programático Aula 01 Introdução à teoria da medida Aula 02 Medidas de Tendência Central Você poderá também assistir às videoaulas em seu celular Basta apontar a câmera para os QRCodes distribuídos neste conteúdo Pode ser necessário instalar um aplicativo de leitura QRcode no celular e efetuar login na sua conta Gmail 5 Aula 01 Introdução à teoria da medida Como você pôde observar nas aulas anteriores quando os dados estão desorganizados dificultam a interpretação correta e decisiva dos mesmos Essa organização pode começar pela disposição destes dados em um rol Rol é a organização dos elementos numéricos em uma ordem préestabelecida crescente ou decrescente o que aumentaria muito a facilidade de interpretação das informações conseguidas Vamos para um exemplo para montar a tabela a seguir tomamos apenas os dados que desejamos analisar os tempos das ligações anteriormente listados Quadro 1 Tempo em minutos de uso de telefone celular por colaboradores de uma determinada empresa dados em rol crescente 82 11 1 13 2 14 2 16 7 87 11 5 13 6 14 2 16 9 90 12 0 13 7 14 4 17 2 98 12 2 13 8 14 6 17 9 10 1 12 2 13 8 15 1 18 3 10 4 12 7 13 8 15 4 18 9 10 6 12 9 14 0 16 1 20 1 10 8 13 2 14 1 16 3 20 8 Fonte elaborado pela autora 2021 Só o fato de estar em uma disposição em ordem crescente nos permite concluir algumas informações importantes como o menor tempo observado que foi de 82 minutos da mesma forma podemos perceber que o maior foi de 208 minutos Essas duas informações já nos dão uma medida que é chamada de amplitude total Amplitude Total 6 corresponde à diferença entre o maior e o menor valor observado em um conjunto de dados que foi da ordem de 126 minutos Essa é uma medida padrão que normalmente é analisada em uma pesquisa Veja que ela nos diz a maior diferença possível entre dois dados encontrados Você pode estar se perguntando o que isso ajuda na interpretação Vou responder a essa questão com uma interpretação possível mas poderíamos ter outras sabemos que os dados estão bem espalhados que não estão concentrados já que o menor dado possível foi 82 minutos mas existe uma diferença de até 126 minutos se compararmos com os outros dados uma diferença maior do que os 82 comentados podemos afirmar então que os dados não estão concentrados próximos a um valor estão bem dispersos Outra coisa interessante da organização em ordem crescente é que como os números próximos ficam agrupados podemos verificar que alguns tempos como 122 min 132 min 138 min e 142 min foram os mais frequentes ou seja os resultados que mais aconteceram na observação Você deve estar se perguntando a essa altura Como organizar os dados de uma forma mais eficiente ainda E como descobrir mais informações com base nesses dados Já vimos algumas vantagens da forma como apresentamos os dados mas podemos complementar essa forma e a análise desse rol montado anteriormente se utilizarmos mais um recurso na organização do conjunto de dados assim você pode representálos de uma forma ainda melhor Essa organização permite analisar a frequência dos dados isto é quantas vezes eles aparecem Além disso os dados próximos podem ser tão parecidos que podem ser considerados em conjunto na contagem da frequência Isso é feito por meio de uma tabela de distribuição de frequências essa nova tabela é construída agrupando dados próximos em classes e é feita a contagem dos dados pertencentes a cada uma dessas classes Vamos entender melhor A ideia dessa nova tabela é agrupar os dados parecidos valores como 120 e 122 na nossa tabela por exemplo que são muito próximos e poderíamos contálos em conjunto Esses valores parecidos podem ser distribuídos em classes intervalos de valores nos quais agrupamos os dados próximos na variável analisada e contar o número de valores contidos dentro do intervalo de cada classe Exemplo se construíssemos uma classe que agrupa os valores entre 108 e 129 minutos temos nos dados apresentados 8 valores que fariam parte dessa classe o próprio 7 108 o 111 o 115 o 120 122 duas vezes o 127 e o 129 Poderíamos dizer que temos então 8 elementos na classe de 108 a 129 É dessa forma que se obtém a frequência de classe A tabela formada pela disposição dos dados agrupados nessas classes em conjunto com as frequências contadas ou calculadas que se chama distribuição de frequências Vamos esmiuçar um pouco mais esse nosso exemplo Se tomarmos a tabela usada a de contagem de tempo em minutos do uso de celulares e o exemplo de se incluir em uma única classe todos os indivíduos que possuam tempo entre 108 e 129 minutos assim a classe irá variar de 108 a 129 minutos Temos que tomar outro cuidado quando construirmos a tabela de distribuição de frequências pois como teremos mais de uma classe na distribuição precisamos identificar cada uma delas para isso devese conhecer o menor valor limitante e o maior valor limitante da classe são esses valores que delimitam o intervalo de classe Por isso dizemos que essa classe é de 108 a 129 Só que temos valores que estão exatamente nesses limites são os tempos exatamente iguais a 108 ou a 129 minutos Ambos pertencem ou não a esta classe A resposta dessa pergunta vem de uma padronização acordada entre os estudiosos da Estatística Não são regras descobertas são criadas Há uma forma já determinada para definir essa resposta para o intervalo de classe vamos dizer se ele é aberto ou fechado Portanto podemos ter exemplo de notação dos diferentes tipos de intervalos Intervalos abertos 108 min 129 min Intervalos fechados 108 min 129 min Podese ter ainda intervalos mistos 108 min 129 min 8 Videoaula 1 Agora assista a um vídeo explicando essa notação Você notou o que tem de diferente em cada forma de representar os intervalos Essa diferença está ligada àquela barra vertical próxima ao número Existem outras formas de se representar esses tipos de intervalo mas vamos nos ater a explicar o que cada uma das formas quer dizer Intervalos abertos os limites da classe inferior e superior não pertencem a ela Seria o caso de nem o 108 e nem o 129 pertencerem a essa classe Intervalos fechados os limites de classe superior e inferior pertencem à classe em questão Seria o caso de tanto o 108 e quanto o 129 pertencerem a essa classe Intervalos mistos um dos limites pertence à classe e o outro não Seria o caso de o 108 pertencer à classe veja que a barra vertical está próxima do 108 já o 129 não pertenceria a essa classe Qual é a diferença então Se usássemos intervalos abertos essa classe teria 6 elementos com intervalos fechados ela teria 8 elementos com intervalos mistos teria 7 elementos Ainda utilizando os dados do nosso exemplo relativo ao tempo de utilização dos celulares vamos construir uma distribuição de frequência e ao longo dessa construção identificar os conceitos presentes nela Calculando uma distribuição de frequências podemos começar a construir a distribuição de frequências determinando o número de classes k que serão usadas para agrupar os dados Até agora tínhamos pensado em uma classe do 108 ao 129 mas ela Videoaula 1 Agora assista a um vídeo explicando essa notação Utilize o QRcode para assistir 9 existe de fato Seriam esses os extremos de uma classe Quantas classes teríamos naquela tabela que usamos de exemplo A resposta para essas perguntas começa pela definição de quantas classes teremos Para que não fique uma quantidade nem muito pequena e nem muito grande sugerese utilizar de 5 a 20 classes sempre dependendo é claro da quantidade de valores que a observação tem Podemos também usar uma fórmula para o cálculo de uma quantidade ideal para o número de classes k a ser utilizado Essa fórmula envolve diretamente o número de observações n O primeiro passo é encontrar o número de elementos n da nossa fórmula Como na pesquisa apresentada temos 40 elementos isso é o mesmo que dizer que o valor de n é 40 ou seja n 40 colaboradores Para calcularmos o número de classes mais apropriado usaremos a fórmula k 𝑛 isto é o número de classes será a parte inteira da raiz quadrada do número de elementos E como n vale 40 sabemos que k 40 632 mas o número de classes deve ser inteiro então usaremos 6 classes O número de classes pode também ser definido sem utilizar essa fórmula ele pode ser escolhido pela vontade do analisador dos dados Um exemplo disso seria usar as classes de 10 em 10 ou outra escolha qualquer Mas temos que tomar cuidado para não ter muitas classes com poucos elementos em cada classe e nem poucas classes de forma que cada uma tenha muitos elementos e não tenhamos uma identificação de como se comportam os dados isto é a maior parte deles está em qual classe 10 Agora que já temos o número de classes k e sabemos que os dados serão agrupados em 6 grupos podemos calcular o tamanho de cada intervalo de classe que é chamado de amplitude do intervalo de classe e é simbolizado com a letra c Para calcular a amplitude do intervalo de classe precisamos começar calculando um dado que já temos a amplitude total dos dados A isto é a diferença entre o maior valor observado e o menor valor observado Como já havíamos calculado teremos A 208 82 126 mm Agora a análise é simples com base neste valor da amplitude total A vamos obter a amplitude do intervalo de classe c Já que definimos que teremos 6 classes basta dividir a amplitude total pelo número de classes que teremos 𝑐 𝐴 𝑛 126 6 21 𝑚𝑖𝑛 Por mais que essa seja a forma mais usada para esse cálculo outros materiais podem trazer outras formas de calcular a amplitude da classe Agora que já conhecemos a amplitude das classes vamos determinar um a um os intervalos de classe O intervalo de classe é a definição de onde começa e onde termina cada uma delas O limite inferior da primeira classe que tomaremos será o menor valor que temos 82 O limite superior da primeira classe será calculado tomando o limite inferior mais a amplitude da classe isto é 8221 que é igual a 103 Isso significa que calculamos a nossa primeira classe que terá os limites então de 82 a 103 Lembrando que devemos definir se teremos intervalos abertos fechados ou mistos O mais comum é termos intervalos mistos a princípio com o primeiro valor pertencente ao intervalo e o segundo não Assim já podemos obter as outras classes da nossa distribuição basta que somemos a amplitude do intervalo de classe a cada limite inferior Assim teremos 82 103 primeira classe 103 124 segunda classe 124 145 terceira classe 11 145 166 quarta classe 166 187 quinta classe 187 208 sexta classe É interessante criar uma tabela com essas classes e uma coluna para se acrescentar a Frequência Absoluta Quadro 2 Distribuição de frequências do tempo em minutos de uso de telefone celular por colaboradores de uma determinada empresa Classes min Frequência Absoluta fa 82 103 103 124 124 145 145 166 166 187 187 208 Fonte elaborado pela autora 2021 Videoaula 2 Agora assista a um vídeo falando como construir essa tabela de frequências Videoaula 2 Agora assista a um vídeo falando como construir essa tabela de frequências Utilize o QRcode para assistir 12 Agora que já montamos a estrutura da tabela precisamos definir se nossa contagem dos elementos será registrada como frequência absoluta fa frequência relativa fr e frequência acumulada fac Vamos entender melhor o que é isso tudo A frequência absoluta fa é registrada quando contamos o número de observações que temos em uma determinada classe isto é vamos verificar quantos dados estão dentro do intervalo numérico ou seja quantos valores há nos nossos dados entre o menor e o maior valor da classe que estamos preenchendo Podemos ter dados que não são numéricos quando a variável for qualitativa por exemplo Nesse caso contamos os casos que pertencem àquela classe qualitativa explicando melhor se a variável for a cor dos olhos e queremos saber quantos são verdes contamos quantos olhos verdes temos nos dados apresentados Nesse exemplo como temos dados numéricos a frequência absoluta será a contagem simples dos elementos que estão dentro do intervalo numérico Quando sabemos a frequência absoluta e o total de dados podemos calcular a frequência relativa e acumulada A frequência relativa fr é calculada a partir da divisão do número de observações fa em uma determinada classe em relação ao total de observações que temos Esta frequência pode ser expressa em termos percentuais Para isto basta multiplicar o resultado da divisão indicada no cálculo da frequência relativa por 100 O cálculo da frequência relativa é feito como já dissemos dividindo a frequência absoluta daquela classe pela quantidade total de observações Essa forma de apresentação de dados a distribuição de frequência pode ser útil se você quiser sintetizar as informações Não sabemos os valores exatos dos dados mas temos uma aproximação interessante e conseguimos tirar conclusões difíceis de outras formas Veja que podemos perceber que a maioria dos nossos dados estão entre 124 e 145 minutos e nos limiares dessa classe Sendo assim um bom plano para atender a esses colaboradores seria um que tivesse a franquia de 150 minutos por exemplo 13 Essa forma de apresentação facilita a visualização desse tipo de característica dos dados Na Tabela apresentada a seguir foram calculadas as frequências fa e fr relacionadas ao tempo de utilização do aparelho celular Quadro 3 Distribuição de frequências do tempo em minutos de uso de telefone celular por colaboradores de uma determinada empresa Classes min Frequência Absoluta fa Frequência Absoluta fr 82 103 5 0125 103 124 8 020 124 145 14 035 145 166 5 0125 166 187 5 0125 187 208 3 0075 Total 40 1 Fonte elaborado pela autora 2021 14 Uma pergunta que podemos fazer é quantos dos nossos dados estão acima ou abaixo de um determinado valor Nesse caso vamos além das frequências absolutas e relativas calculando valores acumulados A frequência acumulada que equivale à soma da frequência daquela classe com as frequências de todas as classes menores do que ela é usada para verificar quantos dados temos até a classe que escolhemos No exemplo a seguir temos 32 dados até a classe de 166 minutos Se quisermos interpretar isso de forma percentual vemos na outra coluna que isso representa 80 dos nossos dados Quadro 4 Distribuição de frequência acumulada do tempo em minutos de uso de telefone celular por colaboradores de uma determinada empresa Classes min Frequência Acumulada Frequência Acumulada relativa 82 103 5 0125 125 103 124 13 0325 325 124 145 27 0675 675 145 166 32 08 80 166 187 37 0925 925 187 208 40 1000 100 Fonte elaborado pela autora 2021 Como você faria a interpretação da distribuição de frequências Uma das interpretações possíveis dessa tabela de tempos de utilização do celular das 40 pessoas avaliadas em questão é que esses dados estão concentrados na segunda e terceira classes com mais da metade da quantidade total de indivíduos pesquisados Essa utilização vai decrescendo em direção às classes do início e do fim da tabela Além das interpretações a apresentação desses dados na forma de tabela de frequências facilita ainda o cálculo de várias outras medidas estatísticas mas podemos destacar que ela facilita a construção de uma apresentação gráfica E se a variável for qualitativa podemos fazer distribuição de frequências 15 A resposta a essa pergunta é sim podemos construir as distribuições de frequência mesmo usando variáveis qualitativas desde que possamos contar os elementos que possuem os atributos variáveis Vou explicar melhor imagine uma pesquisa sobre o estado civil de uma pessoa A variável estado civil vai receber valores como casado solteiro viúvo que são palavras e não valores numéricos Porém é possível contar quantas pessoas responderam casado ou solteiro Gerando dados de frequência absoluta A tabela é construída listando os valores diferentes encontrados na variável essa é a primeira coluna Depois encontramos a frequência absoluta contando a quantidade de vezes que aparecem os valores listados Vamos tomar como exemplo uma pesquisa para saber o estado civil dos colaboradores de uma empresa Com base nos dados foi construída a seguinte tabela Quadro 5 Distribuição de frequências do número de colaboradores em relação ao seu estado civil em 2020 Estado Civil fa fr Casado 87 058 Solteiro 45 030 Outros 18 012 Total 150 100 Fonte elaborado pela autora 2021 Existem outras formas de apresentar e analisar um conjunto de dados Podemos responder que é claro que sim Há algumas formas de representar tabelas e dados graficamente Isso vai depender é claro também do tipo de variável dos resultados conseguidos e da intenção do apresentador Para cada situação podemos ter um tipo de gráfico mais adequado em alguns casos a tabela é a melhor apresentação e em outros um texto com a conclusão conseguida a partir dos dados é o melhor Se a opção for por gráficos é bom saber que há muitos tipos diferentes histogramas polígonos de frequência ogivas gráficos de setores pictogramas e outros Geralmente os gráficos por apresentarem um aspecto visual atraente permitem uma melhor interpretação dos resultados ou pelo menos uma interpretação mais rápida Há muitas formas manuais e eletrônicas de se construir gráficos mas nosso propósito por enquanto é entendêlos melhor 16 Os histogramas Um grande representante da categoria dos gráficos estatísticos é o Histograma Ele é constituído por um conjunto de colunas com as bases assentadas sobre um eixo horizontal tendo o centro de cada coluna no ponto médio da classe que representa e cuja altura é proporcional à frequência da classe O histograma do nosso exemplo ficaria assim Gráfico 1 Histograma dos minutos das ligações Fonte elaborado pela autora 2021 Veja que como tivemos 5 elementos na classe de 82 a 103 a altura da coluna correspondente é 5 Cada coluna começa onde a outra termina pois os pontos de separação das classes são comuns isto é a primeira classe vai até 103 e a segunda começa no 103 por isso as colunas são encostadas umas nas outras Polígono de frequências O polígono de frequências é um gráfico que se parece muito com o histograma e até podemos dizer que deriva dele por ter a sua construção de uma forma muito parecida com ele Ele é usado para alguns tipos de análises nas quais as frequências das classes são localizadas sobre perpendiculares levantadas nos pontos médios de cada classe Vou explicar de uma forma mais simples o polígono de frequência é obtido pela simples união dos pontos médios dos topos das colunas de um histograma A linha do polígono começa ligada ao limite inferior do lado esquerdo da primeira coluna e termina no eixo x também no que seria o final da última coluna do histograma 17 Gráfico 2 Polígono de Frequências do tempo em minutos de uso de telefone celular por consumidores de uma determinada operadora Fonte elaborado pela autora 2021 Videoaula 3 Agora assista a um vídeo falando como construir histogramas e polígonos de frequências Caso os nossos dados sejam de uma variável qualitativa podemos optar por escolher um outro tipo de gráfico para apresentar os resultados o gráfico de setores Ele é popularmente conhecido como gráfico de pizza Sua construção é simples sabese que uma fatia que correspondesse a 100 do valor apresentado deveria ter o tamanho da circunferência toda isto é corresponderia ao setor circular com ângulo de 360º Isso é o mesmo que dizer que 360º equivale a 100 assim para obterse o ângulo do setor cuja área representa um determinado valor basta resolver uma regra de três simples 360º 100 Videoaula 3 Agora assista a um vídeo falando como construir histogramas e polígonos de frequências Utilize o QRcode para assistir 18 xº Freq Relativa Percentual Gráfico 3 do estado civil de pessoas que trabalham em uma determinada empresa Fonte elaborado pela autora 2021 19 Aula 02 Medidas de Tendência Central Ao organizarmos os dados de uma pesquisa podemos representálos por meio de alguns valores que resumem os dados isto é podem servir de parâmetro para indicar como os dados se comportam Esses valores normalmente são encontrados de forma a se aproximarem de uma maneira uniforme de todos os valores encontrados Como essa representação fica muito próxima do centro dos elementos essas medidas são chamadas de medidas de tendência central Vamos ver que podemos calcular essas medidas em relação aos elementos às suas representações em tabelas e em relação às classes montadas Medidas de tendência central Até agora já estudamos formas de organizar dados em tabelas gráficos distribuição de frequências e polígonos de frequência de maneira que podemos sintetizar suas informações visualmente Assim podemos descrever por meio da observação o padrão de variação dos fenômenos estatísticos Existem também outras maneiras de resumir dados de uma variável quantitativa de uma forma diferente das tabelas e gráficos Podemos representar essas informações na forma de um valor numérico que descreve por aproximação todos os valores da variável estudada Videoaula 1 Agora assista a um vídeo falando sobre as medidas que vamos estudar principalmente sobre a média moda e mediana Videoaula 1 Agora assista a um vídeo falando sobre as medidas que vamos estudar principalmente sobre a média moda e mediana Utilize o QRcode para assistir 20 É claro que esse valor acumula um erro em relação aos valores da variável como um todo pois há diferentes valores que são resumidos em um único valor Quando calculamos uma medida como essa a partir de toda a população dos dados podemos chamar de parâmetro e quando calculamos a partir da amostra chamamos de estimadores ou estatísticas pois não temos certeza de que esse valor é preciso em toda a população por melhor que tenha sido escolhida a amostra Essas medidas descritivas ajudam na análise do comportamento dos dados isto é ajudam a descrever para que valores o conjunto todo de dados está rumando Como esses dados podem vir de toda a população ou de uma amostra temos que representar por notações diferentes para cada caso conforme mostra a tabela a seguir Nela resumimos algumas notações para facilitar o entendimento dos cálculos futuros Medidas Parâmetros população Estimadores amostras Número de Elementos N n Média μ 𝑋 Variância σ² S² Desvio Padrão σ S Esses são apenas símbolos mas é importante sabermos que dependendo do símbolo usado já estamos indicando se estamos falando de uma amostra ou da população toda dos dados De um modo geral é interessante sabermos o que essas medidas significam para depois entendermos melhor essa simbologia Além disso podemos classificar essas medidas descritivas como sendo as medidas de posição que podem ser as de tendência central ou as separatrizes as medidas de dispersão as medidas de assimetria e as de curtose Vamos ver cada caso para entender como funcionam Medidas de posição Tendência Central e Separatrizes MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central recebem esse nome por tratar de números que estão posicionados visualmente no centro dos dados apresentados Vou dar um exemplo 21 para ficar mais claro ao falar sobre média aritmética por exemplo estamos calculando um valor que se posicionaria a mesma distância de todos os dados utilizados Pensando em dois dados por exemplo 35 e 67 a média aritmética estaria bem no meio dos dois O número que ficaria bem no meio desses valores é 3567 2 que resulta em 51 51 é a média aritmética entre 35 e 67 Mesmo que tenhamos mais dados a média aritmética sempre vai ser um número central que mantém a mesma distância dos outros dados se pensarmos no conjunto todo e não individualmente Isso é tão verdade que se somarmos as diferenças entre a média aritmética e cada um dos outros dados nessa ordem a soma dará zero É essa característica que faz com que essas medidas sejam chamadas de Medidas de Tendência Central por indicarem um ponto em torno do qual se concentram os dados Este ponto tende a ser o centro da distribuição dos dados A seguir vamos definir as principais medidas de tendência central média mediana e moda Para começar vamos definir melhor a média Na verdade podemos ter várias médias diferentes que podem ser calculadas de diferentes maneiras dependendo do caso a se estudar Por exemplo a média aritmética é um valor que está na mesma distância do conjunto todo de dados se eu tenho um dado isolado muito fora do restante do conjunto esse valor puxa a média para próximo desse valor isolado Isso pode dar uma falsa impressão Vou dar um exemplo Caso calculemos a média entre 5 5 6 66 4 4 4 8 8 e 35 O valor da média será 827 Veja que o valor da média ficou acima de quase todos os dados O valor da média harmônica seria 570 um valor muito próximo dos dados excluindo o valor que está mais longe dos outros O valor da média Geométrica seria 643 um valor mais central para esses dados sem que o valor 35 afetasse tanto a representação Como vimos temos diferentes médias para cada caso Vamos ver quais são os cálculos envolvidos em cada caso 22 Média aritmética Como já vimos anteriormente a média aritmética que podemos representar por 𝑋 é calculado somando todos os valores observados e dividindo pela quantidade de valores Podemos associar esse valor a uma visão geométrica como sendo o centro de gravidade dos valores observados isto é ela representa o ponto de equilíbrio de um conjunto de dados É a medida de tendência central mais utilizada para representar o conjunto de dados observados Normalmente chamamos de x1 x2 x3 e assim por diante os dados e na fórmula eles são chamados de xi isto é o índice i representa a ordem do dado observado o primeiro dado é o índice 1 então xi será o x1 para o primeiro dado o segundo dado será o 2 assim xi será x2 para ele e assim por diante A média é dada por Explicando a média será isto é será o somatório de todos os elementos xi indo de 1 até n que é o último elemento No caso da média que falamos anteriormente seria a soma 444556668835 A primeira parte consiste em somar todos os elementos Depois dividimos por n que é o número de elementos da população e aparece na parte de baixo da fórmula Para os dados amostrais temos n como o número de elementos da amostra Assim nossa média anterior seria 444556668835 11 que resulta no valor 827 que tínhamos encontrado Caso os dados estejam apresentados segundo uma distribuição de frequência tem se Vale lembrar que a distribuição de frequência mostra o elemento xi e a quantidade de vezes que ele aparece que chamamos na fórmula de Fi Assim supondo que na distribuição de frequência tenhamos 23 x F 4 3 5 2 6 3 8 2 35 1 O elemento x1 é o 4 e aparece 3 vezes então F1 é 3 Na fórmula faríamos a multiplicação de xi por Fi x F xiFi 4 3 12 5 2 10 6 3 18 8 2 16 35 1 35 A soma de todos os xiFi que na fórmula é representado por é 1210181635 Essa soma será dividida pelo número de elementos total no nosso caso 11 O resultado será o mesmo 827 Intervalo de classes Videoaula 2 Agora assista a um vídeo explicando a diferença de tratarmos de média conhecendo os valores e quando temos apenas os intervalos das classes 24 Quando precisamos calcular a média pode ser que tenhamos o intervalo de classes definido e não o elemento Vamos imaginar por exemplo uma situação diferente da anterior em que tenhamos muitos valores e que eles sejam representados pela tabela de distribuição de frequências abaixo x F 0 4 6 4 8 12 8 12 11 12 16 8 16 20 2 Nessa distribuição a primeira classe tem valores que vão de 0 a 4 mas não sabemos os valores exatamente se eram 3 ou 15 por exemplo Nesse caso vamos usar o ponto médio de cada classe como xi E usaremos a mesma fórmula Assim teremos como x1 o valor 2 que é o ponto médio de 0 a 4 x2 será 6 que é o ponto médio de 4 a 8 E assim por diante Sendo assim nossa tabela será x F xiFi 0 4 6 26 12 4 8 12 612 72 8 12 11 1011110 12 16 8 148112 16 20 2 18236 Videoaula 2 Agora assista a um vídeo explicando a diferença de tratarmos de média conhecendo os valores e quando temos apenas os intervalos das classes Utilize o QRcode para assistir 25 Veja que nesse caso a média aritmética será obtida a partir de uma ponderação onde os pesos são as frequências absolutas de cada classe e xi é o ponto médio da classe i Somamos então os valores 127211011236342 e dividimos pela quantidade total de valores somando as frequências em que esses valores aparecem 612118239 A média aritmética nesse caso será 342 dividido por 39 que resulta em 877 Como vimos há processos diferentes para cálculo da média aritmética quando temos os elementos soltos as frequências absolutas dos valores e as frequências das classes Porém podemos ter outros cálculos de média que se baseiam nessa última forma dar peso aos dados é a média ponderada veremos posteriormente Propriedades da média aritmética Para identificar a necessidade e a vantagem de se usar a média aritmética vejamos algumas das suas propriedades 1 A média é um valor calculado que depende de todas as observações 2 É única para o mesmo conjunto de dados isto é não admite valores diferentes para os mesmos dados E nem sempre é igual a um dos valores observados 3 A média é afetada por valores extremos muito acima ou muito abaixo em relação aos outros valores observados 4 Por depender de todos os valores observados quando fazemos uma mudança nos dados ela afeta diretamente a média Isto quer dizer que se somarmos um valor a todos os elementos observados a média fica somada desse valor o mesmo acontece se subtrairmos multiplicarmos ou dividirmos todos os valores observados a média também fica subtraída multiplicada ou dividida 5 Se subtrairmos a média de cada valor observado e depois somarmos os resultados encontrados essa soma resultará em zero Σxi 𝑥 0 A propriedade 5 é muito importante para um tema que estudaremos no futuro a definição de variância uma medida de dispersão Também é importante destacar a propriedade 3 que mostra que no caso de dados discrepantes no conjunto dados observados a média aritmética não é uma medida apropriada para representar os dados Neste caso podemos usar uma das outras médias harmônica ou geométrica O ideal é a partir da experiência do pesquisador decidir por uma delas ou pela mediana ou moda 26 Exemplo Vamos calcular a idade média de um grupo de 22 pessoas As idades são 18 18 19 20 20 20 20 21 21 22 22 22 22 23 23 24 26 26 26 32 36 37 a idade média é Assim a idade média dessas pessoas é 235 anos aproximadamente Caso façamos o agrupamento de dados semelhantes teremos xi Fi 18 2 19 1 20 4 21 2 22 4 23 2 24 1 26 3 32 1 36 1 37 1 Podemos fazer xiFi para auxiliar no cálculo da média xi Fi xiFi 18 2 36 19 1 19 20 4 80 21 2 42 22 4 88 23 2 46 24 1 24 26 3 78 32 1 32 27 36 1 36 37 1 37 O cálculo da média será 𝑋 12 1 𝑥𝑖 𝐹𝑖 𝑛 182 191 204 361 371 22 518 22 235 No entanto ao considerar os dados agrupados em classes teremos a seguinte tabela Classes Fi xi xiFi 18 22 9 2 0 180 22 26 7 2 4 168 26 30 3 2 8 84 30 34 1 3 2 32 34 38 2 3 6 72 A média será 𝑋 5 1 𝑥𝑖 𝐹𝑖 𝑛 209 247 283 321 362 22 536 22 2436 Perceba que esta diferença acontece pelo fato de se utilizar os dados sem o conhecimento de seus valores individuais Neste caso tornouse necessário representálos pelos pontos médios de suas respectivas classes resultando numa certa perda de informação Média Harmónica Um valor central existente se baseia na relação entre os inversos dos valores usados para evitar que um deles consiga puxar a média para um valor impreciso Essa é a média harmônica Ela resulta da divisão da quantidade de dados pela soma dos inversos dos dados isto é 28 𝑀é𝑑𝑖𝑎 𝐻𝑎𝑟𝑚ô𝑛𝑖𝑐𝑎 𝑛 1 𝑥1 1 𝑥2 1 𝑥3 1 𝑥𝑛 Média Geométrica Outra forma de evitar o problema de termos valores influenciando mais pesadamente a média é a média geométrica Ela resulta da raiz enésima da multiplicação dos elementos isto é 𝑥1 𝑥2 𝑥3 𝑥𝑛 𝑛 O resultado é um valor entre a média aritmética e a média harmônica A escolha por uma dessas médias é feita pensando em qual é o valor que melhor representa os dados Agora vejamos outros valores que representam o conjunto de dados Moda Você já deve ter ouvido a palavra moda associada ao que a maioria das pessoas gostam ou usam Na matemática a Moda também tem a ver com a maioria porém ela representa os dados observados com o valor que mais aparece no conjunto analisado Isso significa que a moda Mo é o valor que apresenta a maior frequência da variável entre os valores observados Isso é facilmente determinado quando conseguimos observar os valores individualmente e ela também pode ser determinada imediatamente observando se o rol ou a frequência absoluta dos dados vendo aquele valor que tem a maior Fi frequência absoluta Vendo os dados 12 13 13 15 15 15 15 18 18 19 20 21 21 vemos que o dado que mais aparece é o 15 isso significa que esse é o valor da Moda Vendo a tabela de frequências xi Fi 120 12 132 15 135 8 138 9 140 11 29 Veja que o dado que tem maior frequência é o 132 que aparece 15 vezes Sendo assim a Moda é 132 O problema dos intervalos de classe é que não temos um valor que mais se repete Na melhor das hipóteses temos uma classe E quando estamos falando de uma relação de dados apresentada por meio de uma distribuição de frequência de valores agrupados em classes primeiramente é necessário identificar a classe modal isto é a classe que possui maior quantidade de elementos Classe Fi 120 130 20 130 140 25 140 150 18 150 160 30 160 170 11 Nesse caso a classe modal é a que tem 30 elementos Ou seja a classe modal é de 150 a 160 Depois disso a moda é calculada aplicandose a fórmula Onde i é a ordem da classe modal li é o limite inferior da classe modal h é a amplitude da classe modal Fi é a frequência absoluta da classe modal Fi1 é a frequência absoluta da classe anterior à classe modal Fi1 é a frequência absoluta da classe posterior à classe modal No caso apresentado a moda será calculada como sendo 𝑀𝑜 150 103018 30183011 150 1012 1219 150387 15387 É importante destacar que um conjunto de dados pode apresentar todos seus elementos com a mesma frequência absoluta Isso significa que todos os elementos 30 aparecem um mesmo número de vezes neste caso não existirá um valor para a moda essa distribuição de valores é chamada de amodal Também podemos ter dois valores que aparecem o mesmo número de vezes o que se chama de bimodal Se aparecerem três valores o mesmo número de vezes chamase trimodal caso haja muitos valores com o mesmo número de aparições teremos uma distribuição plurimodal O uso da moda é mais indicado quando se deseja obter rapidamente uma medida de tendência central Um outro aspecto que favorece a utilização da moda é que seu valor não é afetado pelos valores extremos do conjunto de dados analisado Exemplo Caso tenhamos uma amostra de idades com a tabela descrita Classes Fi 18 22 9 22 26 7 26 30 3 30 34 1 34 38 2 Ao considerar a distribuição apresentada na Tabela a moda é 𝑀𝑜 18 490 9097 18 49 92 18327 2127 A interpretação é análoga à determinada pontualmente Mediana A palavra mediana vem de ponto médio que é o ponto que está no meio de um segmento de reta A mediana Md é o valor que está na posição central dos valores observados desde que estejam colocados em ordem crescente Caso consigamos dividir o conjunto em duas partes iguais a mediana será ou o valor do meio ou a média entre os valores do meio caso não haja apenas um Vamos pensar nos seguintes valores 12 13 13 15 15 15 15 18 18 19 20 21 21 Como eles já estão em ordem crescente basta pegar o valor do meio Como temos 6 elementos antes e 6 depois do número 15 ele será a mediana 31 Vendo a tabela de frequências abaixo temos 55 elementos xi fi 120 12 132 15 135 8 138 9 140 11 Teremos 27 elementos antes e 27 depois do elemento central Nesse caso será o valor 135 a nossa mediana Caso tenhamos um número par de elementos 11 12 13 13 14 15 17 18 19 19 21 21 Calculamos a média entre os dois elementos centrais nesse caso o 15 e o 17 Sendo assim nossa mediana é o valor 1517 2 isto é 16 Na tabela também xi fi 25 10 27 12 30 8 33 6 35 8 Como temos 44 elementos teremos dois elementos centrais o 27 e o 30 assim a mediana será a média aritmética deles que será 2730 2 que será 285 Com os exemplos dados percebese que a mediana não é influenciada por valores extremos Podemos descrever passos para indicar uma forma para o cálculo da mediana seja qual for o tamanho da amostra O primeiro passo consiste em ordenar as observações em ordem crescente ou decrescente Com isso você vai descobrir o número de elementos da observação n 32 Calcular a posição p que a mediana ocupa no conjunto de dados p n 12 Obter a mediana pela equação Md xIp Fp xIp1 xIp onde Ip é a parte inteira de p e Fp a parte fracionária ou decimal xIp é o valor que está na posição inteira de p xIp1 é o valor que está depois de xIp Vamos exemplificar com os seguintes dados 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Como são 22 dados temos que p é igual a 22 12 que resulta em 115 xIp é o 11º elemento isto é 21 xIp1 é o 12º elemento isto é 22 Md 21 052221 21 051 Md 21 05 215 Quando falamos em distribuições de frequências em classes o cálculo da mediana é Onde p n2 indica a posição central da série li é o limite inferior da classe que contém a posição central da série h é a amplitude da classe central da série i é a ordem da classe que contém o menor valor de Fai tal que Fai p Fai1 é a frequência acumulada da classe anterior à da mediana Fi é a frequência absoluta da classe que contém a mediana Vamos exemplificar com os dados da tabela abaixo Classes Fi Fa 18 22 9 9 22 26 7 16 26 30 3 19 33 30 34 1 20 34 38 2 22 p 11 li 22 h4 Fai19 Fi 7 Md 22 4119 7 22 42 7 22 8 7 22 114 2314 MEDIDAS SEPARATRIZES A palavra separatriz vem de separação São medidas que separam os dados em porções iguais Podemos ter várias porções as mais usadas são os quartis os decis e os percentis Como o próprio nome sugere os quartis dividem os dados em quatro partes os decis em dez partes e os percentis em cem partes Estas medidas são portanto valores que ocupam posições específicas no conjunto de dados em rol dividindoo em partes iguais Podemos imaginar que os quartis seriam 4 porém não são não Vamos imaginar um segmento de reta Veja que para ele ser dividido em 4 partes iguais temos o ponto inicial o ponto final e precisamos encontrar apenas 3 pontos dentro do segmento Com relação aos dados já sabemos qual é o seu ponto inicial e final precisamos encontrar então 3 pontos quartis dentro dos dados observados O primeiro quartil está exatamente no primeiro quarto dos dados o segundo quartil no segundo quarto que corresponde à metade e por isso equivale à mediana o terceiro e último quartil está no terceiro quarto dos dados Quartil Os quartis dividem o conjunto de dados em quatro partes iguais Descrição dos quartis dados amostrais 34 Decil Os decis dividem o conjunto de dados em dez partes iguais Descrição dos decis dados amostrais Percentil Os percentis dividem o conjunto de dados em cem partes iguais A seguir são apresentados alguns dos percentis mais usados Para os dados apresentados individualmente o cálculo das medidas separatrizes é muito semelhante ao da mediana Pode ser conseguido com a seguinte fórmula 35 xIp é o valor correspondente à posição da parte inteira de p Fp é a parte fracionária de p xIp1 é o valor seguinte ao xIp Quando temos uma distribuição em classes temos um cálculo muito semelhante ao da mediana também E a fórmula para esse cálculo é Nesse caso o valor de p depende da separatriz usada p 𝑛 4 𝑘 com k1 2 3 para determinação dos quartis p 𝑛 10 𝑘 com k1 2 9 para determinação dos decis p 𝑛 100 𝑘 com k1 2 99 para determinação dos percentis h é a amplitude da classe da medida separatriz escolhida li é o limite inferior da classe da medida separatriz escolhida Fai1 é a frequência acumulada da classe anterior a da medida separatriz escolhida Fi é a frequência absoluta da classe da medida separatriz escolhida Videoaula 3 Agora assista a um vídeo falando sobre a utilização das medidas separatrizes Videoaula 3 Agora assista a um vídeo falando sobre a utilização das medidas separatrizes Utilize o QRcode para assistir 36 Encerramento da Unidade Na aula de hoje aprendemos como organizar as informações estatísticas de modo a apresentar dados e tomar decisões de forma adequada Uma das formas de se organizar essas informações é a distribuição de frequências que nos dá uma visão ampla dos dados pesquisados e serve de base para podermos montar gráficos polígonos de frequência e histogramas Após todo esse nosso estudo espero que você consiga apresentar uma coleta de dados com o formato de uma tabela de distribuição de frequências ou um gráfico adequado Também aprendemos como são calculadas e para que servem as medidas de tendência central Além disso vimos como são encontradas e para que servem as medidas chamadas de separatrizes O objetivo da aula de hoje foi mostrar formas de organizar os dados e representálos para facilitar a interpretação da observação feita Referências CASTANHEIRA Nelson Pereira Estatística aplicada a todos os níveis1ª ed Curitiba Intersaberes 2012 UniFil EDUCAÇÃO A DISTÂNCIA UNIFILBR Unidade 3 Dispersão e Probabilidade 3 Introdução da Unidade Quando falamos em métodos quantitativos estamos pensando em calcular e medir quantidades o que nos remete a pensarmos que teremos muitos números a analisar Em relação a esses números a palavra dispersão pode trazer algumas interpretações A mais ligada ao que queremos tratar é o significado relacionado ao posicionamento de elementos se pensarmos em pontos de uma reta numérica Aliás a reta numérica é uma linha reta com os pontos ligados a valores de números como essa Nela podemos dizer que os elementos estão dispersos espalhados pela reta em relação às posições marcadas de números Assim ao analisarmos um grande número de elementos e calcularmos as suas relativas medidas de tendência central estamos tratando de achar um valor posicionado aproximadamente no centro da dispersão que represente vários dados por meio de apenas um Dessa forma os dados números descobertos estão espalhados a uma certa distância desse ponto central isso desde os dados mais distantes até os dados mais próximos desse centro Pensando na média aritmética por exemplo ficou claro que ela estará em uma posição central e que os demais dados se espalham no entorno desse valor Quando falamos sobre a esse posicionamento podemos descobrir o quanto os outros dados estão espalhados Estão na maior parte distantes do centro Quão distantes desse centro Estão dentro de algum intervalo Essas respostas a essas perguntas e a análise desse distanciamento dos dados estará no tema que vamos estudar as medidas de dispersão Essas medidas são cálculos efetuados a pensando das medidas de tendência central ajudando a descrever o conjunto de dados adequadamente mostrando como essas medidas estão ligadas aos dados como um todo O fato é que podemos tirar algumas conclusões conhecendo as medidas de dispersão entre elas podemos verificar que seria mais lógico usar a média de um conjunto onde há pouca variação dos seus elementos pois todos os dados estariam a pouca distância dessa média Por outro lado se essa variação for grande existe uma grade dispersão e a medida encontrada será grande Assim a média não será uma boa 4 representação de todos os elementos Uma questão interessante acontece se não houver a dispersão o valor da média será o valor dos dados De qualquer forma é muito importante termos ao menos uma medida de tendência central e uma medida de dispersão para interpretar o conjunto de dados São esses dois valores pelo menos que nos permitem entender o comportamento e o significado das informações que coletamos Neste capítulo veremos 4 medidas de dispersão amplitude total amplitude interquartílica desvio padrão e variância Sendo que a amplitude total é a única que não tem como ponto de referência a média Deu para perceber com essa introdução que os dados não são todos iguais e podemos dizer que as informações que encontramos nem sempre são bem descritas com um valor único Isso faz com que as conclusões que tiramos de pesquisas não sejam totalmente precisas e faz com que apareça um conceito novo e muito ligada às pesquisas estatísticas a probabilidade Nessa unidade vamos conhecer os principais elementos da probabilidade como os fenômenos espaços amostrais eventos e a própria definição de probabilidade É de suma importância entender muito bem e conceituar esses elementos para que possamos analisar corretamente o que uma pesquisa indica ou o que os dados nos mostram ou mesmo qual é a chance desses dados resultarem em uma situação futura É nessa unidade que vamos aprender a calcular as probabilidades de situações chamadas de eventos acontecerem e entender o que estamos calculando em cada caso A princípio vamos entender princípios de contagem de possibilidades usando a análise combinatória são eles combinações arranjos e permutações Também vamos associar com a probabilidade na forma de comparação de possibilidades esse entendimento nos permitirá descobrir com clareza as chances de situações acontecerem Objetivos Calcular medidas de dispersão Interpretar as medidas estudadas Calcular possibilidades e probabilidades Resolver problemas ligados à probabilidade Conteúdo programático Aula 01 Medidas de Dispersão Aula 02 As possibilidades e a probabilidade 5 Aula 01 Medidas de dispersão Podemos perceber quando os dados estão espalhados em um certo intervalo Isso é simples quando observamos todos os dados atentamente mas é interessante percebermos que intervalo é esse e qual seria o menor intervalo que conteria todos os dados apresentados Sendo assim vamos compreender um pouco melhor o que são intervalos e quais são os intervalos que indicam as medidas que queremos entender Amplitude Total O conceito de amplitude é o mesmo que é usado na física Nessa disciplina ele permite descobrir de que ponto até que ponto está variando a onda Nas medidas quantitativas vamos calcular de que ponto até que ponto estão variando os dados Sendo assim a amplitude total de um conjunto de dados é a diferença entre o maior e o menor elemento Essa é uma medida de dispersão que não leva em consideração os valores intermediários isto é não se preocupa com nenhum valor entre o mínimo e máximo dessa forma perde a informação de como os dados estão distribuídos eou concentrados Podemos construir uma fórmula para a amplitude total At xmax xmin Em que xmax é o maior valor observado e xmin é o menor valor observado Vamos ver um exemplo considere os seguintes dados 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Essas são as idades de pessoas que visitaram uma exposição A amplitude total destas idades é At 3718 19 anos Você poderá também assistir às videoaulas em seu celular Basta apontar a câmera para os QRCodes distribuídos neste conteúdo Pode ser necessário instalar um aplicativo de leitura QRcode no celular e efetuar login na sua conta Gmail 6 A interpretação dessa informação pode ser que a variação entre as idades de todos os visitantes é de no máximo 19 anos ou ainda que os visitantes estão em um intervalo de 19 anos de idade entre o mais moço e o mais velho Caso tenhamos a distribuição em tabela também é simples a observação da amplitude total xi Fi 18 2 19 1 20 6 21 2 22 1 23 1 24 1 25 3 26 1 29 1 30 1 35 1 37 1 Ainda temos a informação de qual é o maior e qual é o menor dado do conjunto por isso temos que a amplitude continua sendo At 37 18 19 Caso tenhamos apenas a descrição das classes Classe Fi 18 22 11 22 26 6 26 30 2 30 34 1 34 38 2 Vamos considerar a amplitude total como sendo o limite superior da maior classe menos o limite inferior da menor classe isto é At 38 18 20 Veja que por perdermos informações na montagem das classes não temos a mesma informação que antes 7 Amplitude Interquartílica Esse conceito pode ser estudado a partir da palavra interquartílica que vem de Quartis E como o centro dos quartis é a mediana a medida de tendência central relacionada a essa amplitude não a média Como o nome sugere vai ser uma medida relacionada aos quartis Ela é a diferença entre o valor do terceiro e do primeiro quartil Veja que isso significa que os valores mais distantes da mediana estarão fora dessa amplitude e sendo assim ela vai desconsiderar valores mais extremos e com isso vai abranger apenas metade da amplitude total e é útil para desconsiderar valores discrepantes isto é muito diferentes dos demais dq Q3 Q1 Aí está relacionada também uma outra medida a amplitude semiinterquartílica que é calculada pela distância entre o terceiro e o primeiro quartil divididas por dois Na verdade ela vem da distância entre cada um desses quartis e a mediana mas como vemos na fórmula a mediana acaba desaparecendo Fica apenas a média aritmética entre as diferenças os quartis 𝑄3 𝑀 𝑀 𝑄1 2 𝑄3 𝑀 𝑀 𝑄1 2 𝑄3 𝑄1 2 A amplitude semiinterquartílica é a metade da amplitude interquartílica Exemplo A amplitude interquartílica das idades apresentadas anteriormente será calculada começando pelo cálculo dos quartis Como temos 22 dados os quartis serão o 6º dado a média entre o 11º e o 12º dados o 17º dado Colocando em ordem crescente os dados teremos 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 dq 25 20 5 anos A amplitude entre o terceiro e primeiro quartil que envolve 50 centrais dos alunos é de 5 anos Podemos obter também a amplitude semiinterquartílica dos dados que é a metade da amplitude interquartílica 8 dqm25 anos Uma interpretação possível é que a distância entre a mediana e o quartil 1 21520 é 15 Como 15 é menor do que 25 isto indica que há uma concentração de dados à esquerda da mediana e que os dados localizados a direita da mediana são mais dispersos Videoaula 1 Agora assista a um vídeo falando sobre o cálculo e a importância da amplitude total e interquartílica Desviomédio Quando falamos em desvio significa que temos um ponto central e que podemos calcular o quanto os outros pontos estão desviando desse ponto central No caso das medidas mais usadas como centro podemos dizer que os dados estão dispersos em relação à média ou mediana quando percebemos que existe uma distância entre os valores e percebemos essa distância ao observar o quanto os dados estão longe da medida de tendência central Esse desvio pode ser medido e é o que faremos agora dar um valor numérico para essa distância O desvio médio pode ser calculado como sendo a diferença entre cada valor observado e a média Usando símbolos estamos calculando xi μ se o conjunto de dados é populacional ou xi 𝑥 se os dados são amostrais Precisamos considerar os sinais envolvidos nessas diferenças e por isso ao somar todos os desvios ou seja ao somar todas as diferenças de cada valor observado em relação à média o resultado é igual a zero Essa é considerada uma propriedade da média Isto significa que se fizéssemos apenas dessa forma o valor do desvio médio seria sempre zero Agora se desconsiderarmos os Videoaula 1 Agora assista a um vídeo falando sobre o cálculo e a importância da amplitude total e interquartílica Utilize o QRcode para assistir 9 sinais dos resultados das diferenças isto é se considerarmos as diferenças em módulo a média destas diferenças em módulo é o que queremos como desvio médio Veja que temos duas fórmulas a primeira fórmula para dados populacionais e a segunda para os dados amostrais Em ambas dm é o valor do desvio médio Se tratarmos do N maiúsculo é o tamanho da população n minúsculo é o tamanho da amostra xi é o valor de cada elemento Usamos o símbolo quando se trata da média populacional e o símbolo 𝑥 é a média amostral Bom podemos resumir que calculamos a diferença entre cada valor e a média fazemos isso em módulo para desconsiderar cada sinal depois dividimos pela quantidade de valores No caso de termos os dados apresentados em uma distribuição de frequência temos A diferença está no Fi que é o número de vezes que cada elemento aparece Variância e desvio padrão A primeira medida que mostra a dispersão dos dados foi o desvio médio Ele é um acumulado de todos os desvios em relação à média e pode representar o quanto os dados estão espalhados mas temos outras formas mais interessantes e mais usadas para esse fim São a Variância e o Desvio Padrão Essas duas medidas estão relacionadas com o desvio médio e relacionadas entre si também vamos ver como Ao calcularmos as distâncias entre os dados e a média vimos que o sinal pode acabar atrapalhando e o jeito foi usar um módulo isto é ignorar o sinal Outra estratégia mais comum é considerarmos o quadrado dos desvios em relação à média pois essa conta sempre resultará em valores positivos depois disso calculamos a média desses valores encontrados Esse é exatamente o cálculo da medida chamada variância As fórmulas disso tudo que falamos são 10 Na primeira temos os dados populacionais o que dá para perceber pelos símbolos usados e na segunda temos os dados amostrais Note que na amostra há uma diferença na quantidade de elementos considerada seria a quantidade da amostra menos um elemento Se os dados estejam apresentados segundo uma distribuição de frequência teremos o valor de Fi que é a quantidade absoluta de vezes que cada dado aparece Ele entra na fórmula também Veja que esse cálculo é muito parecido e podemos dizer que deriva do desvio médio Porém elevamos cada diferença ao quadrado Mesmo dividindo o total por N ainda teremos dados quadráticos isto é elevados ao quadrado o que dificulta a interpretação do quanto os dados estão espalhados Vou explicar melhor Pensando em um elemento de valor 9 se a média é 6 podemos dizer que ele está a 3 unidades de distância da média Porém se elevarmos essa distância ao quadrado ela representa 9 unidades o que não deixa muito clara a distância real da média foi mais um artifício para conseguirmos sempre valores positivos Isso pode ser encarado como um problema da variância que pode ser resolvido com o Desvio Padrão que é conseguido extraindose a raiz quadrada da variância definindose assim o desvio padrão A primeira fórmula para dados populacionais e a segunda para dados amostrais Caso os dados estejam em distribuição de frequências volta a aparecer o Fi que é a quantidade de vezes que cada dado aparece 11 Uma interpretação possível do desvio padrão pode ser a conclusão de que se duas populações apresentam a mesma média mas os desvios padrão não são iguais isto significa que as populações não têm o mesmo comportamento Exemplo Vamos calcular a média e o desvio padrão dos dados de idades já apresentados anteriormente Vamos calcular a média 18181920202020202021212223242525252629303537 22 235454 A diferença entre cada ponto e a média será 18 2354545 554545 18 2354545 554545 19 2354545 454545 20 2354545 354545 20 2354545 354545 20 2354545 354545 20 2354545 354545 20 2354545 354545 20 2354545 354545 21 2354545 254545 21 2354545 254545 22 2354545 154545 23 2354545 054545 24 2354545 0454545 25 2354545 1454545 25 2354545 1454545 25 2354545 1454545 26 2354545 2454545 29 2354545 5454545 30 2354545 6454545 35 2354545 1145455 37 2354545 1345455 Veja que temos os elementos com sinais de positivo e negativo Se somássemos todos o resultado seria zero Com os módulos teríamos o desvio médio mas o que queremos é calcular a variância então vamos elevar cada resultado ao quadrado obtendo 554545 Elevado ao quadrado 3075207 554545 Elevado ao quadrado 3075207 12 454545 Elevado ao quadrado 2066116 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 254545 Elevado ao quadrado 6479339 254545 Elevado ao quadrado 6479339 154545 Elevado ao quadrado 238843 054545 Elevado ao quadrado 0297521 0454545 Elevado ao quadrado 0206612 1454545 Elevado ao quadrado 2115702 1454545 Elevado ao quadrado 2115702 1454545 Elevado ao quadrado 2115702 2454545 Elevado ao quadrado 6024793 5454545 Elevado ao quadrado 2975207 6454545 Elevado ao quadrado 4166116 1145455 Elevado ao quadrado 1312066 1345455 Elevado ao quadrado 1810248 Agora vamos somar todos os resultados encontrados assim teremos o valor 5694545 Que dividido pelo número de elementos já que é uma população toda e não uma amostra 5694545 22 258843 A variância desses dados é 258843 Podemos pensar que os dados estão espalhados a 25 unidades de distância uns dois outros mas olhando os dados vemos que não é isso não Lembrando que a variância é uma medida ao quadrado podemos usar o desvio padrão desses dados seria a raiz quadrada de 258843 que é 5087661 Agora sim podemos dizer que a maioria dos dados está à 5 unidades da média Dos 22 dados apenas 6 estão a mais do que essa distância da média E 3 deles estão bem próximos dessa distância 13 Outro exemplo Considere três vendedores de carros que venderam em um certo período o que está representado na tabela abaixo Vendedor Carros vendidos nos 5 meses Soma Média Diferença da média Módulo da diferença Quadrado da diferença Variância Desvio Padrão A 8 8 8 8 8 40 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 B 6 6 8 10 10 40 8 2 2 0 2 2 2 2 0 2 2 4 4 0 4 4 32 179 C 10 10 10 5 5 40 8 2 2 2 3 3 2 2 2 3 3 4 4 4 9 9 6 245 Note que as médias encontradas para as vendas dos três vendedores são iguais porém seus desvios em torno da média são diferentes Isto quer dizer que seus desempenhos são diferentes O vendedor A é constante em seu desempenho o segundo vai progredindo aos poucos e o terceiro diminui abruptamente seu desempenho Em outras palavras apesar dos três vendedores terem o mesmo desempenho médio a variabilidade difere Esse último exemplo nos mostrou que geralmente o desvio padrão é maior ou igual ao desvio médio e isto acontece devido ao fato de que para o cálculo do desviopadrão cada desvio em torno da média é elevado ao quadrado aumentando assim o peso dos valores que estão longe da média Videoaula 2 Agora assista a um vídeo falando sobre o que significa e como se calcula o desvio padrão e variância 14 Coeficiente de Variação Ainda falando sobre a variação dos dados podemos analisar um elemento que mostra o quanto a variação é alta ou baixa o coeficiente de variação Toda vez que falarmos em coeficiente é um valor que relaciona duas medidas Podemos dizer que um desvio padrão de 100 é alto Ou que um desvio padrão de 10 é baixo A essas perguntas a resposta é depende Depende do conjunto de números envolvidos Se os dados forem muito altos o desvio padrão tende a ser mais alto se forem muito pequenos o desvio tende a ser menor Então fica muito difícil dizermos que o desvio padrão foi alto isto é fica difícil dizer se os dados estão muito espalhados ou não Para não ficar sem essa resposta isto é para saber se os dados estão muito espalhados ou não podemos relacionar o valor do desvio ao dado que melhor representa o conjunto todo a média Assim o coeficiente de variação é uma medida de dispersão relativa definida como a razão entre o desvio padrão e a média Dessa forma quando os dados forem grandes vamos dividir o desvio padrão por uma média de valor maior quando os dados forem pequenos vamos dividir por uma média de valor menor e teremos um valor que não é afetado pelo tamanho dos dados Esse é o coeficiente de variação um valor que permite avaliar a homogeneidade do conjunto de dados e de posse dessa informação avaliar se a média é uma boa medida para representar estes dados É utilizado também para comparar a distribuição dos dados de conjuntos com unidades de medidas distintas com valores que não estão próximos Por exemplo dados de um conjunto na ordem das dezenas e do outro conjunto na ordem dos milhares Videoaula 2 Agora assista a um vídeo falando sobre o que significa e como se calcula o desvio padrão e variância Utilize o QRcode para assistir 15 Esse coeficiente de variação tem uma desvantagem ele deixa de ser útil quando a média está próxima de zero Pois esse valor de média pode fazer com que o coeficiente de variação aumente muito seu valor mesmo que os dados não estejam muito dispersos Isso acontece por que dividir um dado por um número perto de zero faz com que ele aumente muito Uma análise possível desse coeficiente pode ser definida ao considerarmos que uma variação superior a 50 sugere alta dispersão o que indica dados muito diferentes uns dos outros Quanto maior for este valor menos representativa será a média Sendo assim o melhor é escolher a mediana ou a moda mesmo que não exista uma regra prática para a escolha de uma destas medidas isso será feito com a experiência do pesquisador que deverá decidir por uma ou outra Analisando da mesma forma podemos dizer que quanto mais próximo de zero estiver o coeficiente mais homogêneo é o conjunto de dados e mais representativa será sua média Exemplo Para as idades dadas anteriormente o desvio padrão ficou em 509 aproximadamente e a média em 2355 Assim o coeficiente de variação é 5092355 que resulta em 02161 isto é 2161 Como o coeficiente ficou muito menor que 50 podemos dizer que a média é uma medida representativa para essas idades e que os dados estão homogêneos em torno dessa média Isso fica claro quando vemos a distribuição das idades a maioria está perto do valor 2355 Medidas de Assimetria A palavra assimetria está relacionada com a simetria que é a propriedade de uma forma de ter um eixo que faça com que um lado da forma esteja refletido no outro Algo como a figura abaixo 16 Nos métodos quantitativos podemos ter dados mais ou menos simétricos A indicação do quanto os dados estão simétricos é chamada de assimetria que é um indicador da forma da distribuição dos dados Quando estudamos o polígono de frequências vimos que ele forma uma figura geométrica quando fazemos as marcações dos dados em uma reta ou quando construímos um histograma estamos buscando identificar visualmente a forma da distribuição dos dados Se tivermos um polígono simétrico ou distribuições simétricas podemos tirar conclusões mais precisas sobre a importância da média e sua representatividade Essa simetria é ou não confirmada pelo coeficiente de assimetria de Pearson As definido como A primeira fórmula é usada para dados populacionais e a segunda para dados amostrais Uma distribuição é classificada como simétrica se a média é igual à mediana que é igual à moda Nesses casos o coeficiente de assimetria é zero ou As 0 assimétrica negativa se a média é menor que a mediana que é menor que a moda ou As 0 O lado mais longo do polígono de frequência cauda da distribuição está à esquerda do centro assimétrica positiva se a moda é menor do que a mediana que é menor que a média ou As 0 O lado mais longo do polígono de frequência está à direita do centro Exemplo A distribuição das idades apresentadas anteriormente é classificada como assimétrica positiva pois a Moda é 20 a Mediana é 215 e a Média é 2355 17 Isto é A média é maior que a mediana que é maior do que a moda O coeficiente de assimetria é As 𝜇𝑀𝑜 𝜎 235520 509 0697 Medidas de Curtose Curtose pode ser observada em curvas de distribuição de frequência Ela é um valor que indica o grau de achatamento da distribuição é uma relação entre os quartis e os percentis É definido como Nessa fórmula Q3 e Q1 são os quartis 3 e 1 P90 e P10 são os percentis 90 e 10 Como foi dito a curtose também é chamada de achatamento e tem a finalidade de mostrar como estão dispersos os dados em uma distribuição Esta medida mostra um valor para a concentração ou dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em uma distribuição de frequências em forma de polígono De acordo com a curtose a distribuição é classificada quanto ao grau de achatamento como Leptocúrtica quando a distribuição apresenta uma curva de frequência bastante fechada com os dados fortemente concentrados em torno de seu centro K 0263 Mesocúrtica quando os dados estão razoavelmente concentrados em torno de seu centro K 0263 Platicúrtica quando a distribuição apresenta uma curva de frequência mais aberta com os dados fracamente concentrados em torno de seu centro K 0263 18 Exemplo Em relação ao grau de achatamento a distribuição das idades apresentadas anteriormente é classificada como leptocúrtica pois 2520 2299191 5 2108 5 21602314 BOX PLOT OU DESENHO ESQUEMÁTICO Foram tantas informações apresentadas até agora que eu imagino que algo mais visual será bem interessante Uma dessas formas visuais de se representar os dados é por meio de um tipo especial de gráfico o gráfico Box Plot ou desenho esquemático Ele é uma representação gráfica que utiliza cinco medidas estatísticas valor mínimo valor máximo mediana primeiro e terceiro quartil da variável Se tivermos um conjunto de dados representados em uma reta esses valores mostrariam a posição dispersão assimetria caudas e dados muito distantes da média A posição central é dada pela mediana e a dispersão pelo desvio interquartílico dq Q3 Q1 As posições dos quartis nos dão uma ideia da assimetria da distribuição Os comprimentos das caudas são dados pelas linhas que vão do retângulo formado pelos quartis aos valores de máximo e mínimo Exemplo Vamos construir o gráfico Box Plot com os dados das idades que temos usado Sua elaboração segue os seguintes passos 19 Ordenar os dados em ordem crescente 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Determinar as cinco medidas Mediana Md 215 Primeiro quartil Q1 20 Terceiro quartil Q3 25 Desvio interquartílico dq Q3 Q1 25 20 5 Limite inferior é sempre dado pelo primeiro quartil menos 15 dq Li Q115dq Li 20 15 5 125 Como o limite inferior ficou abaixo dos valores que temos vamos construir o box plot com limite inferior igual a 18 que é o menor valor observado Limite superior Ls Q315dq Ls 25 155 325 Veja que temos ainda dois valores maiores que o limite superior indicando que temos dois valores discrepantes Depois constróise uma escala com valores que incluam os valores máximo e mínimo dos dados A sugestão é que se faça uma reta que vá do menor até o maior valor apresentado na observação Construir uma caixa retangular estendendose de Q1 a Q3 e trace uma linha na caixa no valor da mediana 20 Traçar uma linha paralela à reta com uma das extremidades alinhada ao limite inferior Li e a outra no centro do lado do retângulo correspondente ao primeiro quartil Trace uma outra linha paralela à reta com uma extremidade no centro do lado do retângulo correspondente ao terceiro quartil e a outra alinhada com o limite máximo Ls Identificar os pontos discrepantes Videoaula 3 Agora assista a um vídeo falando sobre a assimetria curtose e o que vemos em um box plot 21 No conjunto de dados não existe aluno com idade inferior a 125 ou seja não há aluno com idade considerada discrepante inferiormente Entretanto existem dois indivíduos cujas idades são superiores a 325 pontos estes considerados discrepantes neste conjunto de dados as idades 35 e 37 Estes pontos são identificados no diagrama de caixas por meio de um asterisco na direção das linhas traçadas Notese que no intervalo interquartílico dentro do retângulo existem 50 dos dados dos quais 25 estão entre a linha da mediana e a linha do primeiro quartil e os outros 25 estão entre a linha da mediana e a linha do terceiro quartil Cada linha da cauda mais os valores discrepantes contêm os 25 restantes da distribuição Videoaula 3 Agora assista a um vídeo falando sobre a assimetria curtose e o que vemos em um box plot Utilize o QRcode para assistir 22 Aula 02 As possibilidades e a probabilidade Experimento aleatório espaço amostral e eventos Introdução Até esse momento da unidade tratamos muitas vezes de dados observados Observar dados significa coletar informações a partir de um evento que pode ser um estudo de uma situação ou de um acontecimento que resulte em valores matemáticos Esse acontecimento pode ser chamado de fenômeno que pode ser complementado com um modelo matemático determinístico ou probabilístico que melhor o explique Porém é importante distinguir um do outro No estudo dos métodos quantitativos estudamos os fenômenos que podem ser repetidos para que se encontre um conjunto de resultados que são os dados estatísticos A principal características desse tipo de fenômeno está ligada ao seu resultado mesmo que se repita o experimento da mesma forma esse resultado pode variar de uma observação para outra dificultando dessa maneira a previsão de um resultado exato Isto é se tivéssemos sempre o mesmo resultado para o fenômeno não haveria o que se estudar era necessário apenas assumir aquele valor como resultado esperado Não sei se ficou muito claro mas vou explicar Imagine uma máquina que consegue fazer 3000 peças por hora Esse é um dado interessante Todas as vezes que repetirmos o fenômeno da produção teremos o mesmo resultado 3000 em uma hora Agora se pensarmos no número de peças defeituosas sabemos que pode acontecer uma quantidade desses defeitos na produção mas não temos como ter certeza de quantas peças defeituosas teremos em uma hora mas ainda não tem como sabermos se acontecerá esse fenômeno naquela hora observada 23 No nosso exemplo podemos perceber que quando você consegue observar um fenômeno por várias vezes é muito mais fácil entender como ele varia Ainda assim se fizermos as suposições adequadas mesmo sem observálo diretamente conseguimos criar um modelo teórico que chegue aproximadamente aos mesmos resultados da distribuição das frequências de quando o fenômeno é observado diretamente E são esses os chamados modelos de probabilidades Fenômenos determinísticos x Fenômenos Aleatórios Esses fenômenos que sempre tem o mesmo resultado quando as condições iniciais são as mesmas são chamados de fenômenos determinísticos Ex O número de peças que a máquina consegue produzir em uma hora Caso consigamos repetir as mesmas condições as variações obtidas para o valor da quantidade de peças produzidas são extremamente pequenas em alguns casos inexistentes Por outro lado quando temos resultados diferentes mesmo quando as condições iniciais são as mesmas esses são chamados de fenômenos aleatórios e existe a imprevisibilidade do resultado Ex quantidades de peças defeituosas produzidas pela mesma máquina Por mais que pareça estranho podemos repetir um fenômeno aleatório propositalmente para observar e estudar o que acontece quando temos um alto número de repetições Esse processo de ficar repetindo o fenômeno é chamamos de experimento aleatório Por exemplo Lançamento de uma moeda honesta Lançamento de um dado 24 Lançamento de duas moedas Retirada de uma carta de um baralho completo de 52 cartas Contagem das peças defeituosas produzidas pela máquina em uma hora Um experimento como esse pode ser analisado e algumas conclusões são percebidas Podemos repetir indefinidamente cada experimento mantendo as mesmas condições Poderíamos por exemplo ficar para sempre contando as peças defeituosas produzidas em uma hora Por mais que o resultado seja aleatório não consigamos prever com certeza o que vai acontecer temos um conjunto de resultados possíveis conhecidos de antemão sabemos que a quantidade máxima de peças defeituosas não passará de 3000 que são as peças produzidas Os resultados possíveis levam a uma regularidade quando fazemos o experimento por muitas vezes e estudamos os seus resultados Poderíamos por exemplo perceber que há um número perto de 10 peças defeituosas por hora Por conta dessa regularidade podemos explicar esses fenômenos aleatórios por meio de um modelo chamado modelo matemático probabilístico Esse modelo utiliza alguns conceitos fundamentais que ajudarão no entendimento dos conceitos ligados à essa teoria 25 Espaço Amostral O primeiro conceito a ser entendido é o Espaço amostral do fenômeno estudado que tem como símbolo o S e significa o conjunto de todos os resultados possíveis desse experimento Lembrando o que são conjuntos podemos definilos como sendo uma coleção de elementos que possuem características comumns no exemplo dado esse conjunto seria dos elementos fabricados com algum defeito A escolha dessa característica é que define o conjunto e deve ser feita com muito cuidado para que fique claro que conjunto estamos interessados pra que possamos decidir se determinado elemento é ou não parte do conjunto Videoaula 1 Agora assista a um vídeo falando sobre os fenômenos e os espaços amostrais Perceba que não tem sentido usarmos o estudo da probabilidade sem que tenhamos definido um espaço amostral que é o conjunto de todos os resultados possíveis do experimento que se está analisando É importante relembrar que ao falarmos de experimentos estamos falando daqueles eventos em que há incerteza do resultado antes de fazermos as observações Cada resultado de um experimento é chamado de evento Por exemplo a medição de uma corrente elétrica a medição do tempo de uma viagem etc Exemplos de Espaços Amostrais S cara coroa é composto de 2 eventos lançandose uma moeda S 1 2 3 4 5 6 é composto de 6 eventos lançandose um dado S cara cara coroa coroa cara coroa coroa cara é composto de 4 eventos lançandose duas moedas Videoaula 1 Agora assista a um vídeo falando sobre os fenômenos e os espaços amostrais Utilize o QRcode para assistir 26 Evento Aleatório E Partimos do princípio de que um espaço amostral é o conjunto de todos os resultados possíveis para entender que podemos encontrar alguns desses resultados nos experimentos feitos e outros podem não ser encontrados Por exemplo ao medir a quantidade de peças defeituosas produzidas por uma máquina em uma hora veremos existem muitos resultados possíveis espaço amostral Porém ao fazermos isso algumas vezes teremos encontrado alguns desses resultados possíveis Essa parte do conjunto do espaço amostral isto é o subconjunto contendo os resultados que encontramos é chamado de Evento aleatório Também se chama de evento aleatório cada resultado obtido de cada experimento aleatório que não é previsível São muitos os conceitos ligados ao conjunto de eventos de um espaço amostral mas vamos destacar duas definições importantes e que são muito usadas nos estudos de probabilidades as de complemento e de eventos mutuamente excludentes O complemento de um evento é observado se tomarmos todos os resultados no espaço amostral que não façam parte do evento Ex Se podemos tirar em um dado os números de 1 a 6 e no evento que selecionamos temos os valores 1 2 e 3 o complemento desse evento são os valores 4 5 e 6 Agora se falarmos de eventos mutuamente excludentes estamos tratando daqueles que não têm elementos em comum Por exemplo no mesmo espaço amostral do lançamento de dados os eventos números pares e números ímpares são mutuamente excludentes já que nenhum elemento dos eventos de números pares estará presente no evento de números ímpares Mais exemplos No espaço amostral de um baralho ao escolhermos uma só carta os eventos a carta é de espadas e a carta é de paus são mutuamente excludentes porque uma carta não pode ser ao mesmo tempo de espadas e de paus 27 Já os eventos a carta é de copas e a carta é menor do que 5 não são mutuamente excludentes porque algumas cartas de copas são menores do que 5 Representação Gráfica Vamos usar também elementos gráficos para representar um espaço amostral Isso ajuda a perceber visualmente seus elementos e também as características dos seus eventos Veja alguns exemplos de representação gráfica de um espaço amostral e seus eventos Os eventos A e A são complementares Os eventos A e B são mutuamente excludentes porque não se interceptam S A A S B A 28 Os eventos A e B não são mutuamente excludentes pois têm alguns elementos em comum Pudemos perceber que os eventos são conjuntos e graças a isso temos as propriedades e operações de conjuntos valendo para as operações de eventos aleatórios Operações com Eventos Aleatórios Perceber como os eventos aleatórios podem ser comparados com conjuntos nos levará a construir possíveis operações entre eles Começaremos considerando um espaço amostral finito 𝑆 𝑃1 𝑃2 𝑃3 𝑃𝑛 Cada P que foi listado corresponde a um ponto amostral possível dentro do espaço amostral Sejam E1 e E2 dois eventos de S as seguintes operações são definidas A Reunião E1 E2 O evento reunião é formado pelos pontos amostrais que pertencem a pelo menos um dos eventos Graficamente temos É o evento que ocorre se E1 ocorre ou E2 ocorre ou ambos ocorrem S B A 29 B Interseção E1 E2 O evento interseção é formado pelos pontos amostrais que pertencem simultaneamente aos eventos E1 e E2 Graficamente temos Obs Se E1 E2 E1 e E2 são eventos mutuamente exclusivos É o evento que ocorre se E1 ocorre e E2 ocorre também C Complementação S E1 E1c É o evento que ocorre se E1 não ocorre Probabilidade Videoaula 2 Agora assista a um vídeo falando o que é probabilidade e a sua definição 30 Definição Os elementos que já estudamos vão nos ajudar a construir uma definição de probabilidade Experimento aleatório E e Espaços Amostral S Quando temos um experimento aleatório que chamaremos de E e ele gera um espaço amostral que chamaremos de S a probabilidade desse evento E acontecer será chamada de PE e é uma função definida em S que associa cada evento E1 a um número real de modo que PE esteja compreendido entre 0 e 100 e que PS é 100 Explicando cada evento pertencente a E terá uma probabilidade de acontecer entre 0 e 100 e a probabilidade de acontecer algum dos resultados do espaço amostral todo é 100 Outra propriedade interessante é que tomando dois eventos mutuamente exclusivos E1 e E2 E1 E2 Ø então a probabilidade de acontecer pelo menos um dos dois eventos será dada por P E1 E2 PE1 PE2 O cálculo da probabilidade de acontecer um evento E chamada de PE desde que E S é feito com a divisão do número de casos favoráveis a E pelo número total de casos de S 𝑃𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑁𝐶𝐹𝐸 𝑁𝑇𝐶 Essa é a mais importante observação e definição de probabilidade a que liga os casos favoráveis divididos pelos casos totais é essa divisão que nos dá a chance de um evento acontecer Videoaula 2 Agora assista a um vídeo falando o que é probabilidade e a sua definição Utilize o QRcode para assistir 31 Tipos de eventos Como todos os conceitos de probabilidade vão falar sobre eventos fica então a necessidade de se entender o que é um evento Podemos dizer que ele é qualquer subconjunto do espaço amostral S de um experimento aleatório Explicando esse conceito evento é uma das possibilidades do conjunto de todos os elementos possíveis Ex Evento pode ser tirar 3 em um dado que tem as faces 1 2 3 4 5 e 6 Veja que o evento é um resultado possível dentro do conjunto de todos os resultados possíveis Outro evento poderia ser tirar um número par nesse dado Veja que é possível tirar números pares dentre todos os resultados possíveis Podemos também ter eventos que usem cálculos entre as possibilidades existentes isto é vamos pensar no experimento de se jogar dois dados e somar as faces que caírem voltadas para cima As somas possíveis são 2 3 4 12 Podemos chamar de evento as possibilidades em que essa soma for par ou as possiblidades em que essa soma for o número 7 por exemplo Assim qualquer que seja E se E S E está contido em S então E é um evento de S Vamos ver quais são os tipos de eventos que podemos ter então Evento Certo é aquele que ocorre em qualquer realização do experimento aleatório Se E S E é chamado evento certo Por exemplo o evento certo é que a soma esteja entre 2 e 12 incluindo os números 2 e 12 Evento Elementar é aquele formado por um único elemento do espaço amostral Se E S e E é um conjunto unitário E é chamado evento elementar Por exemplo o evento de se tirar 2 no primeiro dado e 2 no segundo dado somando 4 é um evento elementar Evento Impossível é aquele que não ocorre em nenhuma realização de um experimento aleatório Se E E é chamado evento impossível Por exemplo a soma 1 é um evento impossível Evento Complementar seja um evento A qualquer o evento Ac chamado de complementar de A existe e é representado por AcSA é um outro conjunto formado pelos elementos que pertencem a S e não pertencem a A Eventos Equiprováveis Quando se associa a cada ponto amostral a mesma probabilidade o espaço amostral chamase equiprovável ou uniforme Os eventos Eii123n são equiprováveis quando PEiPE2PEnP isto é quando todos têm a mesma probabilidade de ocorrer 32 P1n Pensando no lançamento de um dado a probabilidade de cair um número de 1 a 6 virado para cima são eventos equiprováveis PE 16 1666 aproximadamente Cálculo de probabilidades de eventos simultâneos Quando temos dois eventos descritos podemos calcular a probabilidade desses dois eventos acontecerem simultaneamente Para esse cálculo somamos a probabilidade de acontecer o primeiro evento com a probabilidade de acontecer o segundo evento Mas nesse caso acabamos somando duas vezes a probabilidade de acontecerem os dois eventos ao mesmo tempo isso é corrigido excluindose a probabilidade da interseção dos eventos Vamos exemplificar Retirase uma carta de um baralho completo de 52 cartas Qual a probabilidade de sair um rei ou uma carta de espadas Solução PAB PAPBPAB A probabilidade de acontecer as duas coisas ser um rei ou ser uma carta de espadas tem interseções pois temos cartas de rei que também é de espadas Sendo assim vamos calcular a probabilidade de ser rei 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑡𝑜𝑡𝑎𝑖𝑠 4 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑖𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 52 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 4 52 0077 77 33 Agora vamos calcular a probabilidade de ser uma carta de espadas 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑡𝑜𝑡𝑎𝑖𝑠 13 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑒 𝑒𝑠𝑝𝑎𝑑𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 52 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 13 52 025 25 Para finalizar vamos calcular a probabilidade de acontecerem as duas coisas ao mesmo tempo de termos rei de espadas 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑡𝑜𝑡𝑎𝑖𝑠 1 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑖𝑠 𝑑𝑒 𝑒𝑠𝑝𝑎𝑑𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 52 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 1 52 0019 19 A probabilidade de termos cartas de espadas ou cartas de reis será PAB PAPBPAB 77 25 19 308 Eventos mutuamente exclusivos Dois eventos A e B são denominados mutuamente exclusivos quando eles não puderem ocorrer simultaneamente isto é A B Ø Exemplo E Num jogo de bingo são sorteados números de 1 a 75 Sejam os eventos A ocorrer nº par e B ocorrer nº ímpar S 123737475 Então A e B são mutuamente exclusivos pois conseguir sortear um número par e ímpar não pode acontecer no mesmo sorteio Axiomas de Probabilidade Algumas observações sobre as probabilidades nos permitem tirar conclusões que são definitivamente verdadeiras são os chamados axiomas 1 Se um evento é um conjunto vazio Ø evento impossível então PØ0 2 Se tomarmos um evento A e o seu complementar Ac então PAc 100 PA 3 Como já usamos no nosso exemplo anterior se A e B são dois eventos quaisquer então P A B P A P B P A B 34 Teoria da Contagem Alguns exercícios de probabilidade podem ser resolvidos utilizando um princípio chamado de princípio da contagem Um exemplo de evento dessa forma é o caso em que temos 3 cores de camisas e 4 cores de calças se quisermos sair com uma dessas camisas qualquer e uma dessas calças qualquer de quantas formas diferentes podemos nos vestir A resposta está em multiplicarmos o número de camisas 3 pelo número de calças 4 Chegando no valor 12 para as formas diferentes de se vestir De uma forma mais formal podemos dizer que quando temos dois eventos o primeiro dos quais pode ocorrer de p jeitos diferentes e o segundo pode ocorrer de q jeitos diferentes então os dois eventos podem ocorrer juntos de pq jeitos diferentes O cálculo do número de casos favoráveis do evento reduzse a um problema de contagem Assim é que a Análise Combinatória tem fundamental importância para se contar o nº de casos favoráveis e o total de casos Se forem poucos os casos ou o evento for de simples interpretação podese contar o número de resultados de forma direta sem que seja necessário usar as fórmulas que são trabalhadas na análise combinatória Mas caso você precise vamos conhecer um pouco mais sobre as permutações arranjos e combinações Permutação Permutar significa trocar de lugar Quando temos que analisar a troca de posição entre os elementos estamos falando de permutação Por exemplo De quantas formas diferentes 4 pessoas podem sentar em torno de uma mesa de 4 lugares Como se trata apenas de troca de lugares entre os componentes da mesa estamos falando de uma permutação simples O cálculo dessa permutação é dado pela fórmula Pn n O símbolo de significa fatorial Ele indica uma multiplicação de números que começam em n e vão diminuindo uma unidade até chegar em 1 4 4321 4 24 Isso significa que há 24 formas diferentes de se sentarem à mesa 35 Combinação Uma combinação existe quando ao contrário da permutação a troca de posições entre os elementos não significa uma nova possibilidade Por exemplo quantas duplas diferentes podemos formar com Ana Beto e Cláudia Veja que a dupla Ana e Beto é a mesma que a dupla Beto e Ana A troca de posições não inclui uma nova possibilidade Teríamos as duplas possíveis Ana e Beto Ana e Cláudia e Beto e Cláudia Três possibilidades diferentes Neste exemplo temos 3 elementos pessoas envolvidas que serão combinadas duas a duas já que queremos duplas Perceba que não poderíamos ter as 3 pessoas combinadas 4 a 4 não faz sentido não temos elementos suficientes para a combinação O Número de combinações de r elementos combinados p a p sendo p r é calculado por Exemplo Quantos times de 4 jogadores podem ser formados com um grupo de dez pessoas 𝐶104 10 4 10 4 10 4 10 4 6 10987654321 4321654321 10987 4321 5040 24 210 Podemos ter 210 times diferentes compostos com 4 jogadores Arranjos Em arranjos estamos falando de conjuntos novamente de elementos porém nesse caso teremos novas possibilidades quando se trocam de posições os elementos Vou dar um exemplo De quantas maneiras diferentes podemos compor o pódio 1º 2º e 3º lugares de uma corrida em que estão competindo 4 corredores Ana Beto Cláudia e Daniel A resposta a essa pergunta pode ser Ana em 1º lugar Beto em segundo e Cláudia em terceiro Os mesmos elementos podem ser usados para uma possibilidade diferente Cláudia em 1º lugar Beto em segundo e Ana em terceiro Temos elementos iguais posições diferentes que resultam em uma possiblidade diferente Esse é um arranjo 36 O número de arranjos de r elementos é calculado por Por essa fórmula podemos perceber que a permutação é um caso especial de arranjo Já que nesse caso teríamos o arranjo de r organizados de r em r elementos No exemplo que fizemos tínhamos 4 pessoas para 4 lugares veja como ficaria o arranjo 𝐴44 4 444 0424 Exemplo Considerando um grupo de dez corredores quantos pódios 1º 2º e 3º lugares diferentes poderíamos ter para a corrida 𝐴103 10 10310 7 10987654321 7654321 1098720 Podemos ter 720 pódios diferentes Videoaula 3 Agora assista a um vídeo falando sobre o que são arranjos permutações e combinações e como calcular essas possibilidades Videoaula 3 Agora assista a um vídeo falando sobre o que são arranjos permutações e combinações e como calcular essas possibilidades Utilize o QRcode para assistir 37 Encerramento da Unidade Nesta unidade começamos tratando sobre a dispersão de elementos Vimos como são medidas essas dispersões e como perceber sua influência no conjunto total de elementos Estudamos a fundo algumas amplitudes algumas medidas separatrizes e os cálculos que nos dão um parâmetro de como os dados estão distribuídos são eles o desvio médio a variância e o desvio padrão Esses valores nos ajudam e muito a interpretar o conjunto de dados que temos Também estudamos sobre eventos que podemos associar a probabilidades e quais são as formas de contar as possibilidades de um desses eventos Vimos que podemos usar conceitos chamados de arranjos permutações combinações e como eles são calculados Referências CASTANHEIRA Nelson Pereira Estatística aplicada a todos os níveis1ª ed Curitiba Intersaberes 2012 Unidade 4 Distribuições de probabilidades e testes de hipóteses 3 Introdução da Unidade Agora que já definimos e aprendemos a calcular a probabilidade de um evento acontecer vamos entender um pouco mais a respeito dela incluindo situações de análises que facilitarão a resolução de problemas probabilísticos e a definir melhor a probabilidade de eventos acontecerem Isso se dará com a probabilidade condicional com a independência de eventos Também vamos estudar as variáveis aleatórias que como o próprio nome diz são valores variáveis que descreverão as probabilidades de eventos acontecerem Uma vez que definirmos as variáveis aleatórias veremos como calcular os valores das probabilidades correspondentes e esse conjunto das variáveis e das probabilidades correspondentes é denominado distribuição de probabilidades Essas distribuições podem assumir formas discretas e contínuas que serão detalhadas Associaremos então os já conhecidos desvio padrão e variância a essas distribuições para que fique ainda mais clara a sua importância Veremos também o que são populações e amostras novamente agora associando à ideia de parâmetros Veremos como são as distribuições amostrais e que a distribuição normal é a mais usada Ela servirá de base para conhecermos uma teoria de probabilidade e depois para entender como são feitos os testes estatísticos Vamos também entender que tipos de erros podemos ter em um teste estatístico Objetivos Entender os conceitos relacionados às múltiplas probabilidades Conhecer formas de distribuição de probabilidades discretas e contínuas Conhecer distribuições amostrais Conhecer testes de Hipóteses e Verificar as possibilidades de erros 4 Conteúdo programático Aula 01 Distribuição de probabilidades Aula 02 Testes de Hipóteses Você poderá também assistir às videoaulas em seu celular Basta apontar a câmera para os QRCodes distribuídos neste conteúdo Pode ser necessário instalar um aplicativo de leitura QRcode no celular e efetuar login na sua conta Gmail 5 Aula 01 Distribuição de probabilidades Probabilidade Condicional Algumas vezes queremos associar eventos e calcular a probabilidade de eles acontecerem em sequência Por exemplo qual é a probabilidade de se retirar um rei do baralho e de ele ser de copas Chamamos isso de probabilidade condicional e organizamos essa questão no seguinte enunciado Qual é a probabilidade de sortear uma carta de copas no baralho dado que foi sorteado um rei O evento em que ambos A e B ocorrem é chamado A interseção B portanto a probabilidade do evento A ocorrer ser sorteada uma carta de copas dado que B ocorreu foi sorteado um rei é de 𝑃𝐴𝐵 𝑃𝐴 𝐵 𝑃𝐵 𝑃𝑠𝑒𝑟 𝑟𝑒𝑖 𝑒 𝑑𝑒 𝑐𝑜𝑝𝑎𝑠 𝑎𝑜 𝑚𝑒𝑠𝑚𝑜 𝑡𝑒𝑚𝑝𝑜 𝑃𝑠𝑒𝑟 𝑟𝑒𝑖 1 52 4 52 1 4 25 Isso significa que a probabilidade de A ocorrer dado que B ocorreu é igual à probabilidade de ocorrência simultânea de A e B dividida pela probabilidade de ocorrência de B note que essa definição não se aplica quando PB0 afinal se assim fosse estaríamos dividindo por zero e como estamos partindo do princípio de que B aconteceu sua probabilidade de acontecimento não pode ser zero Exemplo Dois dados são lançados Consideremos os eventos A e B A é o evento em que a soma das faces superiores dos dados é 10 e B é o evento em que a face superior do primeiro dado é maior do que a do segundo 6 Em termos matemáticos temos A x1 x2 x1x210 e B x1 x2 x1 x2 onde x1 é o resultado do dado 1 e x2 é o resultado do dado 2 Qual é a probabilidade de que eu tenha a soma 10 dado que o resultado do primeiro dado é maior do que o do segundo PA Probabilidade da somar dar 10 A soma dá 10 nos casos 46 55 64 Então essa probabilidade é 336 PB Probabilidade do resultado do primeiro dado ser maior do que o do segundo O resultado do primeiro dado é maior do que o do segundo nos casos 21 31 32 41 42 43 51 52 53 54 61 62 63 64 65 Então essa probabilidade é 1536 PAB Probabilidade de a soma dar 10 e do resultado do primeiro dado ser maior do que o do segundo Isso só acontece no caso 64 A probabilidade de isso acontecer é 136 𝑃𝐴𝐵 1 36 15 36 1 15 Qual é a probabilidade de que o resultado do primeiro dado seja maior que o do segundo dado que a soma dos dados deu 10 𝑃𝐵𝐴 1 36 3 36 1 3 Como vimos que 𝑃𝐴𝐵 𝑃𝐴 𝐵 𝑃𝐵 7 Podemos brincar matematicamente com a fórmula de modo a termos 𝑃𝐴 𝐵 𝑃𝐴𝐵 𝑃𝐵 Essa brincadeira pode nos ajudar a conseguir outros resultados usando a mesma fórmula Independência Estatística Quando um evento não tem relação nenhuma com o outro sua interseção é nula são mutuamente excludentes Nesse caso a probabilidade de acontecer os dois eventos simultaneamente é zero Então esse evento é considerado independente do outro Nesse caso tendo dois eventos independentes A e B a probabilidade de A é igual à probabilidade condicional de A dado B PA PAB Usando a fórmula 𝑃𝐴 𝐵 𝑃𝐴𝐵 𝑃𝐵 Vamos conseguir um resultado interessante para eventos independentes 𝑃𝐴 𝐵 𝑃𝐴 𝑃𝐵 Exemplo Em uma caixa de leite com 12 caixinhas 4 estão estragadas 2 caixinhas são abertas uma após a outra Qual a probabilidade de que ambas sejam boas A a 1ª caixinha é boa B a 2ª caixinha é boa P A B PA PBA 812711561311433 Isto é se PAPAB É evidente que se A é independente de B B é independente de A PBPBA Se A e B são independentes então temos que 8 P A B PA P B Regra de Bayes Essa é uma regra que ajuda a descobrir probabilidades de um evento acontecer dado outro evento É uma generalização da probabilidade condicional para mais de dois eventos Sejam A1 A2 A3An n eventos mutuamente exclusivos tais que A1 A2 An S Sejam PAi as probabilidades conhecidas dos vários eventos e B um evento qualquer de S Podemos calcular a probabilidade de Ai acontecer dado B desde que sejam conhecidas todas as probabilidades condicionais PBAi Esse teorema também é chamado de Teorema da Probabilidade a Posteriori Ele relaciona uma das parcelas da probabilidade total com a própria probabilidade total Vamos ver alguns exemplos em que essa propriedade é importante para se resolver o problema Sendo PA 34 PB 13 e P A B 1112 calcular PAB Solução Como P A B P A B devemos calcular P A B PB Como P A B PA PB P A B temos 1112 34 13 P A B 1112 912 412 P A B 1112 1312 P A B P A B 21216 logo PAB 16 13 ½ 50 9 Em certo colégio 10 dos meninos e 12 das meninas gabaritaram as provas de estatística Por outro lado 40 dos estudantes são meninos Se um estudante é selecionado aleatoriamente e gabaritou a prova de estatística qual a probabilidade de que o estudante seja menina Solução Temos que PGaH 010 Probabilidade de ter gabaritado a prova dado que é menino PGaM 012 Probabilidade de ter gabaritado a prova dado que é menina PH 04 Probabilidade de ser menino PM 06 Probabilidade de ser menina O que queremos saber é a probabilidade de ser uma menina a aluna escolhida dado que ela gabaritou a prova Isto é queremos calcular PMGa 𝑃𝑀𝐺𝑎 𝑃𝑀𝑃𝐺𝑎𝑀 𝑃𝑀𝑃𝐺𝑎𝑀𝑃𝐻𝑃𝐺𝑎𝐻 06012 0601204010 0072 00720040643 Isso significa que a probabilidade de ser uma menina dado que gabaritou a prova é 643 Videoaula 1 Agora assista a um vídeo explicando as probabilidades condicionais e a relação entre probabilidades apresentadas nessa aula 10 Variáveis aleatórias Mesmo que tenhamos experimentos aleatórios que produzam resultados não numéricos podemos transformar seus resultados em números o que é feito por meio da variável aleatória que é uma regra de associação de um valor numérico a probabilidade de acontecer aquele evento a cada ponto do espaço amostral Portanto variáveis aleatórias são variáveis numéricas que podemos associar a modelos probabilísticos Começaremos nosso estudo sobre as variáveis aleatórias entendendo que ela tem um valor numérico para cada resultado de um experimento Depois vamos associar a probabilidade devida a cada resultado numérico de um experimento com a distribuição de probabilidades Definição Vamos imaginar um experimento que chamaremos de E que pode ser o lançamento de dois dados por exemplo S é o nome dado ao espaço amostral associado a esse experimento isto é todos os valores possíveis para esse experimento S11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 A variável aleatória é a função X que associa a cada elemento s S um número real Xs Isto é a variável aleatória vai levar cada elemento de S a um novo conjunto numérico S X Videoaula 1 Agora assista a um vídeo explicando as probabilidades condicionais e a relação entre probabilidades apresentadas nessa aula Utilize o QRcode para assistir 11 Exemplo E lançamento de dois dados X soma das faces dos dados que caírem voltadas para cima S11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 X 2 corresponde ao evento 11 com probabilidade 136 de acontecer 278 de chance de acontecer Veja que a variável aleatória X levou o elemento 11 no elemento 2 X 3 corresponde ao evento 12 21 com probabilidade 236 de acontecer 556 de chance de acontecer Veja que a variável aleatória X levou dois elementos 12 e 21 no mesmo elemento 3 Por isso ela tem uma probabilidade maior de acontecer E assim por diante Podemos ter um valor de x com maior probabilidade Neste caso seria o X7 Empregamos o nome de variável aleatória para descrever o valor da probabilidade correspondente ao resultado de determinado experimento As variáveis aleatórias também podem ser discretas ou contínuas e temos as seguintes definições Variáveis Aleatórias Discretas Admite um número finito de valores ou tem uma quantidade enumerável de valores isto é 1 2 3 4 Variáveis Aleatórias Contínuas pode tomar um número infinito de valores e esses valores podem ser associados a mensurações em uma escala contínua admite valores decimais como 123 Xs s Variável Aleatória 12 Videoaula 2 Agora assista a um vídeo mostrando o que são variáveis aleatórias e como elas são conseguidas Distribuição de probabilidade Já no exemplo dado para definir as variáveis aleatórias começamos a associar um cálculo muito interessante para cada valor da variável a sua probabilidade de acontecer Vimos por exemplo que o valor da variável X3 tem uma probabilidade de 556 de chance de acontecer É muito interessante quando conseguimos calcular as probabilidades de cada valor da variável aleatória acontecer Quando temos esse dado o conjunto das variáveis e das suas probabilidades correspondentes é denominado distribuição de probabilidades isto é o conjunto de todos os xipxi com o i12n é denominada distribuição de probabilidades de x Função de densidade de probabilidade É a função que associa a cada valor assumido pela variável aleatória a probabilidade do evento correspondente isto é PXxi PAi com i12 n Esperança matemática variância e desvio padrão propriedades Para as distribuições de probabilidades de uma variável aleatória discreta a média recebe um outro nome devido a chance daquele valor acontecer é chamada de esperança Videoaula 2 Agora assista a um vídeo mostrando o que são variáveis aleatórias e como elas são conseguidas Utilize o QRcode para assistir 13 matemática Assim como temos a média também temos a variância e o desvio padrão dos valores da distribuição de probabilidades São os parâmetros das distribuições a saber Esperança matemática ou simplesmente média E x é a média aritmética das probabilidades Variância VAR x Assim como a variância é a medida de dispersão dos dados em torno da média a variância na distribuição de probabilidades também é a medida do grau de dispersão ou de concentração das probabilidades em torno da média A média é um número representativo dos dados de probabilidade porém precisamos de uma medida que nos dê o grau de dispersão de probabilidade em torno dessa média Desvio Padrão DPX é o desvio padrão das probabilidades e é calculado tirando se a raiz quadrada da variância Distribuições discretas Bernoulli Binomial e Poisson Já sabemos que ao determinarmos todos os pontos possíveis em um evento estamos encontrando o seu espaço amostral Podemos operar com esses pontos e encontrar as probabilidades desses resultados acontecerem aí temos uma função de probabilidade Quando usamos uma função X que está definida dentro do espaço amostral de um evento e se os valores encontrados nessa função são enumeráveis podem ser associados à ideia de contagem essa função é chamada de variável aleatória discreta Exemplo Vamos imaginar que nosso espaço amostral são os resultados dos lançamentos de duas moedas Nossa variável aleatória discreta poderia ser o número de caras nesses lançamentos Veja que o evento foi jogar duas moedas e observar a face superior resultado do lançamento E veja também que a variável aleatória é enumerável já que vamos ter um número contável de caras que vai ser 0 1 ou 2 caras por isso é chamada de variável aleatória discreta Uma variável aleatória discreta X é caracterizada quando conseguimos saber quais são os possíveis valores x1 x2 xk no caso das moedas é o número de caras que pode ser 0 1 ou 2 que ela pode assumir e as calculamos as probabilidades desse valor acontecer px1 px2 pxk seriam 25 para x0 50 para x1 e 25 para x2 ou seja se conhecermos a sua função de probabilidade x px isto é onde px PX x 14 A esperança matemática é a multiplicação de cada valor da variável aleatória pela sua probabilidade de acontecer Chamamos variância de X ao valor 𝑉𝑎𝑟𝑥 𝐸𝑋² 𝐸𝑋² onde E de desvio padrão de X a 𝐷𝑃𝑋 𝑉𝑎𝑟𝑋 Distribuições Discretas de Probabilidade Distribuição de Bernoulli Um experimento que tem como resultado o sucesso ou o fracasso apenas essas duas possibilidades associado à probabilidade de cada caso é chamado de experimento de Bernoulli Vamos imaginar então que um experimento aleatório E foi realizado muitas vezes sempre nas mesmas condições E para cada vez que ele foi realizado tivemos um resultado que pode ser classificado como Sucesso s se acontecer o evento que nos interessa ou um Fracasso f se o evento não se realizar Vamos dar um exemplo suponha que estamos testando um grande conjunto de celulares para perceber se ele funciona adequadamente Vamos considerar esse experimento como um de Bernoulli desde que a nossa variável aleatória seja o sucesso ou o fracasso Chamaremos o sucesso de 1 e o fracasso de 0 Px é a probabilidade daquele celular funcionar Seja X a variável aleatória Sucesso ou Fracasso X x1 1 sucesso ou x 2 0 fracasso 15 PX p x1 p p x 2 1 p q P x 0 q e P x 1 p Nessas condições percebemos que temos um conjunto de Provas de Bernoulli ou um experimento de Bernoulli e sua função probabilidade é dada por P X x p x q1 x Principais características Como já sabemos quanto valem o x1 e o x2 vamos aplicar nas fórmulas de Média Variância e Desvio Padrão Média EX xi P xi 0q 1 p p Variância VarX E X 2 EX2 Distribuição Binomial Uma distribuição bem parecida com a de Bernoulli é a Binomial Enquanto na Bernoulli a variável aleatória era o sucesso ou o fracasso na distribuição binomial teremos as seguintes hipóteses n provas independentes e do mesmo tipo são realizadas cada prova admite dois resultados Sucesso ou Fracasso a probabilidade de sucesso em cada prova é p e de fracasso 1 p q E a nossa Variável aleatória X será a contagem do número de sucessos nas n realizações do experimento Usando um exemplo parecido com o anterior teríamos como 16 X a contagem do número de sucessos em um conjunto de testagens de celulares X pode assumir os valores 0 1 2 3 n Se considerarmos que o sucesso corresponde ao número 1 e o fracasso ao número 0 temos X 0 significa que não tivemos nenhum sucesso então teremos n fracassos e a probabilidade de isso acontecer é dada por q para cada fracasso Então como teremos uma sequência de n zeros 000000000 A probabilidade total P X 0 qqqqq q qn Para X 1 temos muitas possibilidades O sucesso pode ter acontecido apenas no primeiro teste apenas no segundo apenas no terceiro e assim por diante Representando com os números teremos uma sequência do tipo 10000 010000 0010000 Como o sucesso pode estar em qualquer posição teremos a possibilidade de n sequências cada uma com um único sucesso e n1 fracassos Por isso a probabilidade total para isso acontecer é 𝑃𝑋 1 𝑝 𝑞𝑛1 𝑛 Isso acontece porque teremos n possibilidades pqn1 Caso tenhamos qualquer outra quantidade de sucessos vamos considerar que X x isto é temos x sucessos e nx fracassos As possibilidades de isso acontecer geram sequências com x algarismos 1 e nx zeros Cada sequência dessas terá probabilidade pxqnx e como há uma combinação de sequências distintas que podem ser representadas pela combinação 𝑛 𝑥 temse Essa expressão geral também vale para os casos de X0 e X 1 Principais características Média EX np Variância VarX npq Exemplo Testamos 8 produtos que tinham 50 de chance de funcionar Encontre a probabilidade de 17 5 deles funcionarem Pelo menos 1 funcionar No máximo 2 funcionarem Resolução x funcionar p50 probabilidade do sucesso de X q 50 probabilidade do fracasso de X n 8 número de repetições do evento 𝑃𝑋 5 8 5 𝑝5 𝑞5 8 5 8 5 055 055 40320 720 058 021875 2188 Calcular a chance de pelo menos um funcionar é o mesmo que calcular a chance de todos falharem e retirar do 100 Sendo assim a probabilidade de pelo menos um funcionar é 1 P 0 isto é 100 menos a chance de todos falharem Px1 1 PX0 1 qn 1 058 09960 996 PX2 PX0 Px1 PX2 PX0 qn05800039062504 PX1 8 1 051 057 8 058 003125 31 PX2 8 2 052 056 28 058 0109375 109 PX2 0431109144 Distribuição contínua Vimos que uma variável aleatória discreta é relacionada a uma variável com valores enumeráveis Mas pode acontecer que essa variável tenha sentido em um intervalo contínuo isto é com valores reais contínuos Essa variável aleatória é chamada de variável aleatória contínua Quando escolhemos adequadamente a função de densidade de probabilidade podemos construir modelos teóricos para as variáveis aleatórias contínuas Essa função indica a probabilidade dos possíveis valores de X 18 O cálculo da probabilidade de a variável assumir valores entre a e b está ligado ao cálculo da área sob a função quando escolhemos o intervalo entre a e b Veja um gráfico disso na figura a seguir Distribuição Normal Temos um tipo de distribuição de probabilidades mais importante que é chamada de distribuição normal Por seu formato em forma de um sino de ponta cabeça é chamada de curva em forma de sino Ela tem a sua origem associada aos erros de medição pois quando fazemos várias medições utilizando um aparelho equilibrado não chegaremos ao mesmo resultado todas as vezes Ao invés disso teremos um conjunto de valores variando de modo que o gráfico contendo todos esses valores se aproxima muito de uma simetria em torno do verdadeiro valor O matemático Gauss deduziu matematicamente que todas as medições têm uma probabilidade de erros com a distribuição normal e chamou essa observação de lei normal dos erros Em um primeiro momento acreditavase que todos os fenômenos da vida real se descritos graficamente ficariam muito parecidos com uma curva em forma de sino caso isso não acontecesse suspeitavase de alguma anormalidade no processo de coleta de dados Daí a designação de curva normal Dá para imaginar que essa teoria se mostrou inadequada pela quantidade diferente de situações que podemos ter para associar a um único formato de curva De fato não são poucos os exemplos de fenômenos da vida real representados por distribuições não normais curvas assimétricas por exemplo Ainda assim essa curva continua desempenhando um papel relevante na estatística e os processos de inferência nela baseados têm larga aplicação a b PaXb 19 Quando vamos descrever matematicamente uma variável aleatória X que tem distribuição normal chamamos sua média de μ e sua variância de σ² e escrevemos X N µ σ 2 A figura a seguir mostra uma curva normal típica com seus parâmetros descritos graficamente Propriedades da distribuição normal Podemos perceber algumas características da média e do desvio padrão observando o formato da curva normal Quando temos a mesma média μ e diferentes desvios padrão σ a distribuição que tem maior desvio padrão se apresenta mais achatada o que acontece por que há uma maior dispersão em torno da média A que tem menor desvio padrão apresenta pico mais acentuado e maior concentração em torno da média A figura a seguir mostra três curvas normais com a mesma média porém com desvios padrão diferentes A curva A se apresenta mais dispersa que a curva B que por sua vez se apresenta mais dispersa que a curva C Nesse caso σA σB σC 20 Também podemos ter distribuições normais com o mesmo desvio padrão porém com as médias diferentes Pelo fato de terem a mesma dispersão mas centros diferentes elas apresentam formato parecido mas localização diferente na reta Por convenção matemática quanto maior a média mais à direita está a curva A figura a seguir ilustra o fato onde a curva A possui média maior que a curva B µA µB O mais interessante na distribuição normal é que algumas dessas áreas já são definidas em função da média e do desvio padrão Veja na figura a seguir 21 Perceba que 6826 dos valores populacionais estão dentro dos limites definidos como média mais um desvio padrão ou menos um desvio padrão μ 1 σ 9546 dos valores estão entre a média mais ou menos dois desvios padrão μ 2 σ e 9973 dos valores estão entre a média mais ou menos três desvios padrão μ 3 σ Videoaula 3 Agora assista a um vídeo mostrando o que são distribuições de probabilidades Videoaula 3 Agora assista a um vídeo mostrando o que são distribuições de probabilidades Utilize o QRcode para assistir 22 Aula 02 Testes de Hipóteses Inferência estatística é um processo usado para se obter informações sobre uma população a partir dos dados que foram observados na amostra Normalmente quando usamos amostras isso significa que a população tem um grande número de elementos e desejase a partir dessa amostra da população conhecer o mais próximo possível algumas características de toda a população As conclusões que são tiradas por uma amostragem quando generalizadas para a população acabam gerando um grau de incerteza ou risco de erros Quando queremos conseguir um certo grau de confiabilidade de confiança nas informações que conseguimos baseadas nos resultados das amostras usamos um conjunto de técnicas e procedimentos que damos o nome de Inferência Estatística A questão principal estudada pela Inferência Estatística é calcular o grau de incerteza ou risco dessas generalizações Para resolver essa questão precisamos de instrumentos que venham a permitir a viabilidade das conclusões por meio de afirmações estatísticas População e amostra Estatísticas e parâmetros Distribuições amostrais Já aprendemos que se tivermos um conjunto de dados com todas as observações possíveis chamamos de população por outro lado se tivermos um conjunto de dados com apenas uma parte das observações chamamos de amostra Podemos dizer que um dos principais objetivos ao estudarmos estatística por meio de análises ou pesquisas é tirar conclusões seguras em relação às populações baseando se em amostras Vamos então caracterizar algumas ferramentas importantes para a estatística que nos ajudarão a entender e tirar conclusões Parâmetro Chamamos de parâmetro as medidas usadas para descrever uma característica numérica populacional A média populacional µ a variância populacional σ² e o coeficiente de correlação ρ são alguns exemplos de parâmetros populacionais Estimador Quando estamos usando medidas que descrevem a amostra e nos ajudam a tirar conclusões sobre a população chamamos de estatística de um parâmetro 23 populacional ou de estimador É sempre relacionada à amostra uma função de seus elementos A média amostral x e a variância amostral s² são alguns dos exemplos de estimadores Distribuição Amostral Quando escolhemos uma amostra tomamos alguns elementos escolhidos dentro da população Podemos ter várias amostras possíveis e caso consideremos todas que forem possíveis de serem extraídas de determinada população podemos calcular o valor do estimador para cada uma delas Nesse caso teremos uma distribuição amostral desse estimador Podemos usar o estimador como uma variável aleatória e então determinar suas características isto é encontrar sua média variância desviopadrão Estimação Podemos usar dois métodos para a estimação por ponto e por intervalo Estimação pontual Como o próprio nome diz é a estimação de um ponto Esse ponto representa alguma característica numérica de uma distribuição desconhecida ex média variância Isso significa que calculamos a partir de observações um número que acreditamos ser uma aproximação da característica numérica exata da população Dá para imaginar que tenhamos problemas por encontrar apenas um ponto Isso fica mais claro quando tomamos um valor baseandose em uma amostra Vamos imaginar que temos um quebracabeça a ser montado e chamamos algumas pessoas para tentar montá lo Vamos imaginar que as 10 pessoas que chamamos montaram o quebracabeça em 10 19 12 25 13 18 12 15 11 16 minutos A média desta amostra é x 151 minutos Se recebêssemos a informação dessa média de forma isolada sem nenhuma outra informação acreditaríamos que ela é a melhor estimativa da média populacional isto é que ela representa o verdadeiro tempo médio de montagem do quebracabeça Chamamos esse tipo de estimativa de pontual por ser apenas um ponto na escala dos números reais Apesar de ser a forma mais usada de estimativa a pontual não nos dá a informação completa Veja que não sabemos quantas amostras foram feitas e nem o 24 tamanho da amostra ou da população Não sabemos sobre a possibilidade do erro e nem da amplitude dos dados para tirar mais conclusões Estimação por intervalo Como a estimação por pontos não nos informa tudo que precisamos saber a estimação por intervalo deve ter alguma certeza maior Quando temos a distribuição amostral do estimador pontual podemos construir um intervalo de confiança de modo a ter certeza de que o valor verdadeiro está dentro desse intervalo Por mais que não tenhamos certeza de que o valor verdadeiro esteja em um desses intervalos de confiança podemos ao menos calcular a probabilidade que tenhamos o verdadeiro valor do parâmetro da população dentro de um certo intervalo Esses limites são chamados limites de confiança Como descrito eles determinam um intervalo de confiança no qual há uma grande probabilidade de estar o verdadeiro valor do parâmetro Sendo assim estamos estimando por intervalo quando fixamos dois valores reais que determinam um intervalo de 3 a 6 por exemplo dentro do qual há 1 α de probabilidade de que o verdadeiro valor do parâmetro esteja α nível de incerteza ou grau de desconfiança 1 α coeficiente de confiança ou nível de confiabilidade Vou dar um exemplo Vamos imaginar que α seja 5 Ele pode ser representado por 005 então há 1005 de probabilidade de que o valor real do parâmetro esteja dentro do intervalo dado 1005 é 095 isto é 95 Assim há 95 de chance de o valor real estar dentro do intervalo dado Deu para perceber que α nos dá a medida da incerteza desta inferência nível de significância isto é quanto porcento de chance temos de errar ao considerar aquele intervalo A ideia de encontrar um estimador por intervalo é a partir das informações de amostra calcular os limites de um intervalo que tem apenas α de chance de não conter o valor do parâmetro verdadeiro da população Nesses casos há 1 α de chance de que o intervalo contenha o valor do parâmetro a estimar Esse intervalo é chamado de 25 intervalo de confiança e está relacionado com a curva normal de distribuição que já estudamos Para esse cálculo usamos a média amostral como estimador da média populacional Também fazemos uma padronização dos valores da média desvio padrão e número de valores chegando a um valor padronizado Z Videoaula 1 Agora assista a um vídeo apresentando o que significa esse parâmetro Z e o que ele pode nos ajudar a calcular Em que o valor x é a média amostral μ é a média populacional que queremos estimar σ é o desvio padrão e n o tamanho da amostra Como queremos um nível de confiança de 1 α vamos distribuir da seguinte forma Videoaula 1 Agora assista a um vídeo apresentando o que significa esse parâmetro Z e o que ele pode nos ajudar a calcular Utilize o QRcode para assistir 26 Veja que temos α2 de possibilidade de erro de cada lado da curva ao todo dará um erro possível de α O valor Z 𝛼 2 é muito importante Veja que como temos metade de Z de cada lado 50 e o erro de 25 de cada lado isso significa que Z 𝛼 2 é o Z para o intervalo de 4750 o que significa em números decimais que Z 𝛼 2 é o Z para o valor 04750 Se quiséssemos um erro de 3 por exemplo seriam 15 de cada lado Z 𝛼 2 seria o Z para o valor 04850 Esse valor de Z é encontrado na tabela de distribuição normal 27 Sendo assim sabemos que a probabilidade que z esteja entre z 𝛼 2 e z 𝛼 2 é 1 α 28 Isso significa que Substituindo o valor de z que tínhamos definido anteriormente teremos Como nos interessa que o intervalo esteja em torno da média populacional μ vamos isolála no centro da desigualdade O valor de Z 𝛼 2 é encontrado na tabela de distribuição normal Veremos melhor como fazer isso no exemplo A utilização dessa fórmula é muito simples Escolhemos o valor de erro aceitável para o parâmetro Esse será o valor de α Calculamos então o valor de 1 α e olhamos na tabela de distribuição normal padrão o valor de Z para deixar exatamente α2 em cada uma das caudas da distribuição Com os valores da amostra já teremos a média amostral x o desvio padrão σ que neste caso é conhecido e o tamanho da amostra n Sendo assim usamos a fórmula para construir o intervalo Para o caso de populações finitas usase a seguinte fórmula 29 Vamos calcular um exemplo A duração da vida útil de uma lâmpada é tal que σ5 horas Foram amostradas 100 dessas lâmpadas obtendose a média de 500 horas Desejase construir um intervalo de confiança para a verdadeira duração média da lâmpada com um nível de 95 Solução σ 5 n 100 x500 1 α10095 O gráfico da distribuição normal padrão será Lembrese que para descobrir a abscissa 196 entrouse na tabela de distribuição normal padronizada com o valor 04750 4750 já que a tabela é de faixa central Veja que na tabela o valor Z 𝛼 2 196 já que queremos 04750 de intervalo de confiança 30 Substituindo na fórmula temos 𝑃𝑥 𝑍 𝛼 2 𝜎 𝑛 𝜇 𝑥 𝑍 𝛼 2 𝜎 𝑛 1 α 𝑃500 196 5 100 𝜇 500 196 5 100 95 𝑃500 196 5 10 𝜇 500 196 5 10 95 𝑃500 196 05 𝜇 500 196 05 95 Efetuando os cálculos temos P 499025 µ 500975 95 Isso significa que a média está entre 499025 e 500975 Videoaula 2 Agora assista a um vídeo que mostra como esse cálculo de probabilidade pode ser usado para tirar conclusões 31 Testes de Hipóteses Uma outra forma de avaliar parâmetros a partir de amostras é construindo testes de hipóteses De forma parecida a que transformamos a média em uma medida padronizada podemos transformar outras hipóteses em medidas padronizadas e verificar um intervalo de confiança para analisar a hipótese Esta é uma técnica para se fazer inferência estatística Partindo de um teste de hipóteses realizado com base nos dados amostrais fazemos inferências sobre a população Principais conceitos Como o próprio nome indica vamos testar hipóteses estatísticas isto é vamos partir de uma suposição quanto ao valor de um parâmetro populacional ou quanto à forma da distribuição de probabilidade de uma variável populacional e verificar se essa suposição se concretiza Podemos exemplificar as hipóteses estatísticas com as seguintes suposições a As lâmpadas de uma certa marca têm vida média Hµ µ0 b A média de pessoas que frequenta um parque é Hµ µ0 c O produto produzido pelo processo A é de melhor qualidade que o aço produzido pelo processo BµA µB d O índice de massa corporal médio das pessoas de uma academia é 25 isto é H µ25 e A variância populacional das notas de uma turma vale 24 isto é H σ²24 Videoaula 2 Agora assista a um vídeo que mostra como esse cálculo de probabilidade pode ser usado para tirar conclusões Utilize o QRcode para assistir 32 O método de avaliação das hipóteses parte da formulação de duas Ho hipótese nula ou da existência H1 hipótese alternativa Depois de definidas testamos as hipóteses para com base no resultado tomarmos uma decisão entre duas alternativas Por essa razão o Teste de Hipótese é um Processo de Decisão Estatística Para formular essas hipóteses adequadamente partimos da definição dos seus tipos que podem ser H0 que já dissemos se chamar hipótese nula ou H1 que chamaremos de hipótese alternativa A nula é aquela que queremos testar a alternativa é a outra conclusão que podemos ter A hipótese nula é representada por uma igualdade já a hipótese alternativa é dada por uma desigualdade Por exemplo H0 μ 165 H1 μ 165 Esse é um exemplo de teste bilateral já que temos uma hipótese nula com um valor central e a hipótese alternativa pode ser tanto para a direita desse valor quanto para a esquerda chamamos de teste bicaudal H0 μ 165 H1 μ 165 Esse é um exemplo de teste unilateral à direita já que temos uma hipótese nula com um valor central e a hipótese alternativa só nos interessa à direita do valor testado chamamos de teste unicaudal à direita H0 μ 165 H1 μ 165 Esse é um exemplo de teste unilateral à esquerda já que temos uma hipótese nula com um valor central e a hipótese alternativa só no interessa à esquerda do valor testado chamamos de teste unicaudal à esquerda 33 Para realizar um Teste de Hipóteses fazemos as seguintes etapas Definemse as hipóteses do teste nula e alternativa Fixase um nível de significância α Levantase uma amostra de tamanho n e calculase uma estimativa do parâmetro escolhido na definição das hipóteses Usamos uma variável que tenha a distribuição amostral do estimador dos parâmetros mais concentrada em torno do verdadeiro valor do parâmetro Isso é feito para cada tipo de teste Calculamos com o valor do parâmetro a ser testado dado por H0 que é a hipótese de que o parâmetro é igual ao valor que está sendo testado o valor crítico valor observado na amostra ou valor calculado Determinamos duas regiões uma que se o valor encontrado estiver nela decidimos não rejeitar H0 chamase Região de não Rejeição RNR e a região que se o valor encontrado estiver nela decidimos rejeitar H0 chamase Região de Rejeição ou Região Crítica RC para o valor calculado ao nível de risco dado Ex Na figura abaixo consideramos como Região Crítica aquela hachurada pensando no valor médio central e no nível de risco de α2 Se o valor calculado está dentro da região de não rejeição a decisão é a de não rejeitar H0 Se o valor calculado está dentro da Região Crítica a decisão é a de rejeitar H0 Vamos calcular uma vez juntos para entender como funciona Imagine o seguinte problema 34 Suponha que são produzidas peças e que se esperava que elas possuíssem 45cm de comprimento Vamos considerar que a distribuição dos tamanhos das peças é normal e com variância 36 tomase uma amostra casual de 16 peças obtendose média 43 cm O que queremos é testar com nível de 10 de risco se podemos dizer que a média é realmente 45 cm Nesse caso nossas hipóteses serão H0 µ 45 H1 µ 45 Quando estamos calculando o teste para média de populações normais com variância conhecida podemos usar uma variável já conhecida como critério nesse caso a variável Z N01 que tem uma tabela já montada de valores Como o risco é 10 e o teste é bilateral teremos 5 de região para cada lado Sendo assim olhamos na tabela o valor de Z para 04500 que corresponde a 164 Como o teste é bilateral e α 10 a Região de Não Rejeição RNR é 35 P Z Zα 1 α PZ164 090 E a Região de Rejeição RC é dada por P Z Zα αP Z 164 010 A zona de não rejeição acontece quando Z está entre 164 e 164 A fórmula de Z já dada é 𝑍 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 43 45 6 16 43 45 6 4 2 15 133 Como z calculado é 133 dá para perceber que está dentro da Região de não Rejeição Logo a decisão é não rejeitarmos H0 isto é a média é de 45 com 10 de risco de não rejeitarmos uma hipótese falsa Outro teste Unilateral Monocaudal à Esquerda Uma fábrica de geleia de frutas quer se adequar à regra da Anvisa sobre fragmentos de insetos nos seus potes Um pote de 100 gramas de geleia pode conter menos do que 36 25 fragmentos de insetos desde que não sejam um risco para a saúde humana Um laboratório realiza uma análise em 10 potes encontrando os seguintes resultados 25232221272426252723 Sabese que a quantidade de fragmentos de insetos em potes dessa fábrica se distribui normalmente com variância 536 Podese dizer que essa fábrica está adequada ao regulamento da Anvisa assumindo um risco de 5 H0 µ 25 H1 µ 25 Veja que como estamos falando de uma análise de apenas um dos lados da distribuição vamos verificar que α 5 e a região vai ser até 45 de Z Sendo assim vamos usar o valor de PZ 04500 novamente E já vimos que Z 164 Sendo assim qualquer Z calculado maior que 164 fará parte da região de não rejeição A Média x 243 σ²536 σ2315 n10 𝑍 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 243 25 2315 10 07 2315 3162 07 0732 0957 37 Não se rejeita H0 isto é ao nível de 5 podemos concluir que a fábrica não respeita o regulamento da Anvisa Erros de Decisão Videoaula 3 Agora assista a um vídeo falando o que são erros de decisão e quais são os erros possíveis em um teste Podemos ter dois tipos de erro ao testar uma hipótese estatística O primeiro acontece quando escolhemos rejeitar uma hipótese quando ela é de fato verdadeira O segundo consiste em aceitar uma hipótese quando ela é de fato falsa A primeira é chamada erro tipo I A segunda é chamada de erro tipo II As probabilidades desses dois tipos de erros são designadas respectivamente por α e β A probabilidade α do erro tipo I é denominada nível de significância do teste Videoaula 3 Agora assista a um vídeo falando o que são erros de decisão e quais são os erros possíveis em um teste Utilize o QRcode para assistir 38 Observe que o erro tipo I só poderá ser cometido se se rejeitar H0 e o erro do tipo II quando se aceitar H0 Encerramento da Unidade Na aula de hoje aprendemos o que são probabilidades condicionais e como calculamos esse tipo de probabilidade Aprendemos o que são e como são encontradas ou definidas as variáveis aleatórias Aprendemos ainda que elas podem ser contínuas ou discretas de acordo com o conjunto do intervalo em que podem ser definidas Conhecemos alguns tipos de distribuições de probabilidades e a mais importante delas é a distribuição normal Vimos que podemos encontrar uma grande probabilidade de os dados estarem dentro do intervalo de 1 2 ou 3 desvios padrão em torno da média quando estamos falando desse tipo de distribuição de probabilidades Também vimos como se encontram as probabilidades de uma distribuição Vimos também que a distribuição normal tem valores padronizados em tabelas e como usamos esse estudo para testar hipóteses estatísticas 39 Referências CASTANHEIRA N P Estatística aplicada a todos os níveis1ª ed Curitiba Intersaberes 2012 Videoaula Encerramento Videoaula Encerramento Utilize o QRcode para assistir