·

Cursos Gerais ·

Métodos Quantitativos Aplicados

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Unidade 3 Dispersão e Probabilidade 3 Introdução da Unidade Quando falamos em métodos quantitativos estamos pensando em calcular e medir quantidades o que nos remete a pensarmos que teremos muitos números a analisar Em relação a esses números a palavra dispersão pode trazer algumas interpretações A mais ligada ao que queremos tratar é o significado relacionado ao posicionamento de elementos se pensarmos em pontos de uma reta numérica Aliás a reta numérica é uma linha reta com os pontos ligados a valores de números como essa Nela podemos dizer que os elementos estão dispersos espalhados pela reta em relação às posições marcadas de números Assim ao analisarmos um grande número de elementos e calcularmos as suas relativas medidas de tendência central estamos tratando de achar um valor posicionado aproximadamente no centro da dispersão que represente vários dados por meio de apenas um Dessa forma os dados números descobertos estão espalhados a uma certa distância desse ponto central isso desde os dados mais distantes até os dados mais próximos desse centro Pensando na média aritmética por exemplo ficou claro que ela estará em uma posição central e que os demais dados se espalham no entorno desse valor Quando falamos sobre a esse posicionamento podemos descobrir o quanto os outros dados estão espalhados Estão na maior parte distantes do centro Quão distantes desse centro Estão dentro de algum intervalo Essas respostas a essas perguntas e a análise desse distanciamento dos dados estará no tema que vamos estudar as medidas de dispersão Essas medidas são cálculos efetuados a pensando das medidas de tendência central ajudando a descrever o conjunto de dados adequadamente mostrando como essas medidas estão ligadas aos dados como um todo O fato é que podemos tirar algumas conclusões conhecendo as medidas de dispersão entre elas podemos verificar que seria mais lógico usar a média de um conjunto onde há pouca variação dos seus elementos pois todos os dados estariam a pouca distância dessa média Por outro lado se essa variação for grande existe uma grade dispersão e a medida encontrada será grande Assim a média não será uma boa 4 representação de todos os elementos Uma questão interessante acontece se não houver a dispersão o valor da média será o valor dos dados De qualquer forma é muito importante termos ao menos uma medida de tendência central e uma medida de dispersão para interpretar o conjunto de dados São esses dois valores pelo menos que nos permitem entender o comportamento e o significado das informações que coletamos Neste capítulo veremos 4 medidas de dispersão amplitude total amplitude interquartílica desvio padrão e variância Sendo que a amplitude total é a única que não tem como ponto de referência a média Deu para perceber com essa introdução que os dados não são todos iguais e podemos dizer que as informações que encontramos nem sempre são bem descritas com um valor único Isso faz com que as conclusões que tiramos de pesquisas não sejam totalmente precisas e faz com que apareça um conceito novo e muito ligada às pesquisas estatísticas a probabilidade Nessa unidade vamos conhecer os principais elementos da probabilidade como os fenômenos espaços amostrais eventos e a própria definição de probabilidade É de suma importância entender muito bem e conceituar esses elementos para que possamos analisar corretamente o que uma pesquisa indica ou o que os dados nos mostram ou mesmo qual é a chance desses dados resultarem em uma situação futura É nessa unidade que vamos aprender a calcular as probabilidades de situações chamadas de eventos acontecerem e entender o que estamos calculando em cada caso A princípio vamos entender princípios de contagem de possibilidades usando a análise combinatória são eles combinações arranjos e permutações Também vamos associar com a probabilidade na forma de comparação de possibilidades esse entendimento nos permitirá descobrir com clareza as chances de situações acontecerem Objetivos Calcular medidas de dispersão Interpretar as medidas estudadas Calcular possibilidades e probabilidades Resolver problemas ligados à probabilidade Conteúdo programático Aula 01 Medidas de Dispersão Aula 02 As possibilidades e a probabilidade 5 Aula 01 Medidas de dispersão Podemos perceber quando os dados estão espalhados em um certo intervalo Isso é simples quando observamos todos os dados atentamente mas é interessante percebermos que intervalo é esse e qual seria o menor intervalo que conteria todos os dados apresentados Sendo assim vamos compreender um pouco melhor o que são intervalos e quais são os intervalos que indicam as medidas que queremos entender Amplitude Total O conceito de amplitude é o mesmo que é usado na física Nessa disciplina ele permite descobrir de que ponto até que ponto está variando a onda Nas medidas quantitativas vamos calcular de que ponto até que ponto estão variando os dados Sendo assim a amplitude total de um conjunto de dados é a diferença entre o maior e o menor elemento Essa é uma medida de dispersão que não leva em consideração os valores intermediários isto é não se preocupa com nenhum valor entre o mínimo e máximo dessa forma perde a informação de como os dados estão distribuídos eou concentrados Podemos construir uma fórmula para a amplitude total At xmax xmin Em que xmax é o maior valor observado e xmin é o menor valor observado Vamos ver um exemplo considere os seguintes dados 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Essas são as idades de pessoas que visitaram uma exposição A amplitude total destas idades é At 3718 19 anos Você poderá também assistir às videoaulas em seu celular Basta apontar a câmera para os QRCodes distribuídos neste conteúdo Pode ser necessário instalar um aplicativo de leitura QRcode no celular e efetuar login na sua conta Gmail 6 A interpretação dessa informação pode ser que a variação entre as idades de todos os visitantes é de no máximo 19 anos ou ainda que os visitantes estão em um intervalo de 19 anos de idade entre o mais moço e o mais velho Caso tenhamos a distribuição em tabela também é simples a observação da amplitude total xi Fi 18 2 19 1 20 6 21 2 22 1 23 1 24 1 25 3 26 1 29 1 30 1 35 1 37 1 Ainda temos a informação de qual é o maior e qual é o menor dado do conjunto por isso temos que a amplitude continua sendo At 37 18 19 Caso tenhamos apenas a descrição das classes Classe Fi 18 22 11 22 26 6 26 30 2 30 34 1 34 38 2 Vamos considerar a amplitude total como sendo o limite superior da maior classe menos o limite inferior da menor classe isto é At 38 18 20 Veja que por perdermos informações na montagem das classes não temos a mesma informação que antes 7 Amplitude Interquartílica Esse conceito pode ser estudado a partir da palavra interquartílica que vem de Quartis E como o centro dos quartis é a mediana a medida de tendência central relacionada a essa amplitude não a média Como o nome sugere vai ser uma medida relacionada aos quartis Ela é a diferença entre o valor do terceiro e do primeiro quartil Veja que isso significa que os valores mais distantes da mediana estarão fora dessa amplitude e sendo assim ela vai desconsiderar valores mais extremos e com isso vai abranger apenas metade da amplitude total e é útil para desconsiderar valores discrepantes isto é muito diferentes dos demais dq Q3 Q1 Aí está relacionada também uma outra medida a amplitude semiinterquartílica que é calculada pela distância entre o terceiro e o primeiro quartil divididas por dois Na verdade ela vem da distância entre cada um desses quartis e a mediana mas como vemos na fórmula a mediana acaba desaparecendo Fica apenas a média aritmética entre as diferenças os quartis 𝑄3 𝑀 𝑀 𝑄1 2 𝑄3 𝑀 𝑀 𝑄1 2 𝑄3 𝑄1 2 A amplitude semiinterquartílica é a metade da amplitude interquartílica Exemplo A amplitude interquartílica das idades apresentadas anteriormente será calculada começando pelo cálculo dos quartis Como temos 22 dados os quartis serão o 6º dado a média entre o 11º e o 12º dados o 17º dado Colocando em ordem crescente os dados teremos 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 dq 25 20 5 anos A amplitude entre o terceiro e primeiro quartil que envolve 50 centrais dos alunos é de 5 anos Podemos obter também a amplitude semiinterquartílica dos dados que é a metade da amplitude interquartílica 8 dqm25 anos Uma interpretação possível é que a distância entre a mediana e o quartil 1 21520 é 15 Como 15 é menor do que 25 isto indica que há uma concentração de dados à esquerda da mediana e que os dados localizados a direita da mediana são mais dispersos Videoaula 1 Agora assista a um vídeo falando sobre o cálculo e a importância da amplitude total e interquartílica Desviomédio Quando falamos em desvio significa que temos um ponto central e que podemos calcular o quanto os outros pontos estão desviando desse ponto central No caso das medidas mais usadas como centro podemos dizer que os dados estão dispersos em relação à média ou mediana quando percebemos que existe uma distância entre os valores e percebemos essa distância ao observar o quanto os dados estão longe da medida de tendência central Esse desvio pode ser medido e é o que faremos agora dar um valor numérico para essa distância O desvio médio pode ser calculado como sendo a diferença entre cada valor observado e a média Usando símbolos estamos calculando xi μ se o conjunto de dados é populacional ou xi 𝑥 se os dados são amostrais Precisamos considerar os sinais envolvidos nessas diferenças e por isso ao somar todos os desvios ou seja ao somar todas as diferenças de cada valor observado em relação à média o resultado é igual a zero Essa é considerada uma propriedade da média Isto significa que se fizéssemos apenas dessa forma o valor do desvio médio seria sempre zero Agora se desconsiderarmos os Videoaula 1 Agora assista a um vídeo falando sobre o cálculo e a importância da amplitude total e interquartílica Utilize o QRcode para assistir 9 sinais dos resultados das diferenças isto é se considerarmos as diferenças em módulo a média destas diferenças em módulo é o que queremos como desvio médio Veja que temos duas fórmulas a primeira fórmula para dados populacionais e a segunda para os dados amostrais Em ambas dm é o valor do desvio médio Se tratarmos do N maiúsculo é o tamanho da população n minúsculo é o tamanho da amostra xi é o valor de cada elemento Usamos o símbolo quando se trata da média populacional e o símbolo 𝑥 é a média amostral Bom podemos resumir que calculamos a diferença entre cada valor e a média fazemos isso em módulo para desconsiderar cada sinal depois dividimos pela quantidade de valores No caso de termos os dados apresentados em uma distribuição de frequência temos A diferença está no Fi que é o número de vezes que cada elemento aparece Variância e desvio padrão A primeira medida que mostra a dispersão dos dados foi o desvio médio Ele é um acumulado de todos os desvios em relação à média e pode representar o quanto os dados estão espalhados mas temos outras formas mais interessantes e mais usadas para esse fim São a Variância e o Desvio Padrão Essas duas medidas estão relacionadas com o desvio médio e relacionadas entre si também vamos ver como Ao calcularmos as distâncias entre os dados e a média vimos que o sinal pode acabar atrapalhando e o jeito foi usar um módulo isto é ignorar o sinal Outra estratégia mais comum é considerarmos o quadrado dos desvios em relação à média pois essa conta sempre resultará em valores positivos depois disso calculamos a média desses valores encontrados Esse é exatamente o cálculo da medida chamada variância As fórmulas disso tudo que falamos são 10 Na primeira temos os dados populacionais o que dá para perceber pelos símbolos usados e na segunda temos os dados amostrais Note que na amostra há uma diferença na quantidade de elementos considerada seria a quantidade da amostra menos um elemento Se os dados estejam apresentados segundo uma distribuição de frequência teremos o valor de Fi que é a quantidade absoluta de vezes que cada dado aparece Ele entra na fórmula também Veja que esse cálculo é muito parecido e podemos dizer que deriva do desvio médio Porém elevamos cada diferença ao quadrado Mesmo dividindo o total por N ainda teremos dados quadráticos isto é elevados ao quadrado o que dificulta a interpretação do quanto os dados estão espalhados Vou explicar melhor Pensando em um elemento de valor 9 se a média é 6 podemos dizer que ele está a 3 unidades de distância da média Porém se elevarmos essa distância ao quadrado ela representa 9 unidades o que não deixa muito clara a distância real da média foi mais um artifício para conseguirmos sempre valores positivos Isso pode ser encarado como um problema da variância que pode ser resolvido com o Desvio Padrão que é conseguido extraindose a raiz quadrada da variância definindose assim o desvio padrão A primeira fórmula para dados populacionais e a segunda para dados amostrais Caso os dados estejam em distribuição de frequências volta a aparecer o Fi que é a quantidade de vezes que cada dado aparece 11 Uma interpretação possível do desvio padrão pode ser a conclusão de que se duas populações apresentam a mesma média mas os desvios padrão não são iguais isto significa que as populações não têm o mesmo comportamento Exemplo Vamos calcular a média e o desvio padrão dos dados de idades já apresentados anteriormente Vamos calcular a média 18181920202020202021212223242525252629303537 22 235454 A diferença entre cada ponto e a média será 18 2354545 554545 18 2354545 554545 19 2354545 454545 20 2354545 354545 20 2354545 354545 20 2354545 354545 20 2354545 354545 20 2354545 354545 20 2354545 354545 21 2354545 254545 21 2354545 254545 22 2354545 154545 23 2354545 054545 24 2354545 0454545 25 2354545 1454545 25 2354545 1454545 25 2354545 1454545 26 2354545 2454545 29 2354545 5454545 30 2354545 6454545 35 2354545 1145455 37 2354545 1345455 Veja que temos os elementos com sinais de positivo e negativo Se somássemos todos o resultado seria zero Com os módulos teríamos o desvio médio mas o que queremos é calcular a variância então vamos elevar cada resultado ao quadrado obtendo 554545 Elevado ao quadrado 3075207 554545 Elevado ao quadrado 3075207 12 454545 Elevado ao quadrado 2066116 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 354545 Elevado ao quadrado 1257025 254545 Elevado ao quadrado 6479339 254545 Elevado ao quadrado 6479339 154545 Elevado ao quadrado 238843 054545 Elevado ao quadrado 0297521 0454545 Elevado ao quadrado 0206612 1454545 Elevado ao quadrado 2115702 1454545 Elevado ao quadrado 2115702 1454545 Elevado ao quadrado 2115702 2454545 Elevado ao quadrado 6024793 5454545 Elevado ao quadrado 2975207 6454545 Elevado ao quadrado 4166116 1145455 Elevado ao quadrado 1312066 1345455 Elevado ao quadrado 1810248 Agora vamos somar todos os resultados encontrados assim teremos o valor 5694545 Que dividido pelo número de elementos já que é uma população toda e não uma amostra 5694545 22 258843 A variância desses dados é 258843 Podemos pensar que os dados estão espalhados a 25 unidades de distância uns dois outros mas olhando os dados vemos que não é isso não Lembrando que a variância é uma medida ao quadrado podemos usar o desvio padrão desses dados seria a raiz quadrada de 258843 que é 5087661 Agora sim podemos dizer que a maioria dos dados está à 5 unidades da média Dos 22 dados apenas 6 estão a mais do que essa distância da média E 3 deles estão bem próximos dessa distância 13 Outro exemplo Considere três vendedores de carros que venderam em um certo período o que está representado na tabela abaixo Vendedor Carros vendidos nos 5 meses Soma Média Diferença da média Módulo da diferença Quadrado da diferença Variância Desvio Padrão A 8 8 8 8 8 40 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 B 6 6 8 10 10 40 8 2 2 0 2 2 2 2 0 2 2 4 4 0 4 4 32 179 C 10 10 10 5 5 40 8 2 2 2 3 3 2 2 2 3 3 4 4 4 9 9 6 245 Note que as médias encontradas para as vendas dos três vendedores são iguais porém seus desvios em torno da média são diferentes Isto quer dizer que seus desempenhos são diferentes O vendedor A é constante em seu desempenho o segundo vai progredindo aos poucos e o terceiro diminui abruptamente seu desempenho Em outras palavras apesar dos três vendedores terem o mesmo desempenho médio a variabilidade difere Esse último exemplo nos mostrou que geralmente o desvio padrão é maior ou igual ao desvio médio e isto acontece devido ao fato de que para o cálculo do desviopadrão cada desvio em torno da média é elevado ao quadrado aumentando assim o peso dos valores que estão longe da média Videoaula 2 Agora assista a um vídeo falando sobre o que significa e como se calcula o desvio padrão e variância 14 Coeficiente de Variação Ainda falando sobre a variação dos dados podemos analisar um elemento que mostra o quanto a variação é alta ou baixa o coeficiente de variação Toda vez que falarmos em coeficiente é um valor que relaciona duas medidas Podemos dizer que um desvio padrão de 100 é alto Ou que um desvio padrão de 10 é baixo A essas perguntas a resposta é depende Depende do conjunto de números envolvidos Se os dados forem muito altos o desvio padrão tende a ser mais alto se forem muito pequenos o desvio tende a ser menor Então fica muito difícil dizermos que o desvio padrão foi alto isto é fica difícil dizer se os dados estão muito espalhados ou não Para não ficar sem essa resposta isto é para saber se os dados estão muito espalhados ou não podemos relacionar o valor do desvio ao dado que melhor representa o conjunto todo a média Assim o coeficiente de variação é uma medida de dispersão relativa definida como a razão entre o desvio padrão e a média Dessa forma quando os dados forem grandes vamos dividir o desvio padrão por uma média de valor maior quando os dados forem pequenos vamos dividir por uma média de valor menor e teremos um valor que não é afetado pelo tamanho dos dados Esse é o coeficiente de variação um valor que permite avaliar a homogeneidade do conjunto de dados e de posse dessa informação avaliar se a média é uma boa medida para representar estes dados É utilizado também para comparar a distribuição dos dados de conjuntos com unidades de medidas distintas com valores que não estão próximos Por exemplo dados de um conjunto na ordem das dezenas e do outro conjunto na ordem dos milhares Videoaula 2 Agora assista a um vídeo falando sobre o que significa e como se calcula o desvio padrão e variância Utilize o QRcode para assistir 15 Esse coeficiente de variação tem uma desvantagem ele deixa de ser útil quando a média está próxima de zero Pois esse valor de média pode fazer com que o coeficiente de variação aumente muito seu valor mesmo que os dados não estejam muito dispersos Isso acontece por que dividir um dado por um número perto de zero faz com que ele aumente muito Uma análise possível desse coeficiente pode ser definida ao considerarmos que uma variação superior a 50 sugere alta dispersão o que indica dados muito diferentes uns dos outros Quanto maior for este valor menos representativa será a média Sendo assim o melhor é escolher a mediana ou a moda mesmo que não exista uma regra prática para a escolha de uma destas medidas isso será feito com a experiência do pesquisador que deverá decidir por uma ou outra Analisando da mesma forma podemos dizer que quanto mais próximo de zero estiver o coeficiente mais homogêneo é o conjunto de dados e mais representativa será sua média Exemplo Para as idades dadas anteriormente o desvio padrão ficou em 509 aproximadamente e a média em 2355 Assim o coeficiente de variação é 5092355 que resulta em 02161 isto é 2161 Como o coeficiente ficou muito menor que 50 podemos dizer que a média é uma medida representativa para essas idades e que os dados estão homogêneos em torno dessa média Isso fica claro quando vemos a distribuição das idades a maioria está perto do valor 2355 Medidas de Assimetria A palavra assimetria está relacionada com a simetria que é a propriedade de uma forma de ter um eixo que faça com que um lado da forma esteja refletido no outro Algo como a figura abaixo 16 Nos métodos quantitativos podemos ter dados mais ou menos simétricos A indicação do quanto os dados estão simétricos é chamada de assimetria que é um indicador da forma da distribuição dos dados Quando estudamos o polígono de frequências vimos que ele forma uma figura geométrica quando fazemos as marcações dos dados em uma reta ou quando construímos um histograma estamos buscando identificar visualmente a forma da distribuição dos dados Se tivermos um polígono simétrico ou distribuições simétricas podemos tirar conclusões mais precisas sobre a importância da média e sua representatividade Essa simetria é ou não confirmada pelo coeficiente de assimetria de Pearson As definido como A primeira fórmula é usada para dados populacionais e a segunda para dados amostrais Uma distribuição é classificada como simétrica se a média é igual à mediana que é igual à moda Nesses casos o coeficiente de assimetria é zero ou As 0 assimétrica negativa se a média é menor que a mediana que é menor que a moda ou As 0 O lado mais longo do polígono de frequência cauda da distribuição está à esquerda do centro assimétrica positiva se a moda é menor do que a mediana que é menor que a média ou As 0 O lado mais longo do polígono de frequência está à direita do centro Exemplo A distribuição das idades apresentadas anteriormente é classificada como assimétrica positiva pois a Moda é 20 a Mediana é 215 e a Média é 2355 17 Isto é A média é maior que a mediana que é maior do que a moda O coeficiente de assimetria é As 𝜇𝑀𝑜 𝜎 235520 509 0697 Medidas de Curtose Curtose pode ser observada em curvas de distribuição de frequência Ela é um valor que indica o grau de achatamento da distribuição é uma relação entre os quartis e os percentis É definido como Nessa fórmula Q3 e Q1 são os quartis 3 e 1 P90 e P10 são os percentis 90 e 10 Como foi dito a curtose também é chamada de achatamento e tem a finalidade de mostrar como estão dispersos os dados em uma distribuição Esta medida mostra um valor para a concentração ou dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em uma distribuição de frequências em forma de polígono De acordo com a curtose a distribuição é classificada quanto ao grau de achatamento como Leptocúrtica quando a distribuição apresenta uma curva de frequência bastante fechada com os dados fortemente concentrados em torno de seu centro K 0263 Mesocúrtica quando os dados estão razoavelmente concentrados em torno de seu centro K 0263 Platicúrtica quando a distribuição apresenta uma curva de frequência mais aberta com os dados fracamente concentrados em torno de seu centro K 0263 18 Exemplo Em relação ao grau de achatamento a distribuição das idades apresentadas anteriormente é classificada como leptocúrtica pois 2520 2299191 5 2108 5 21602314 BOX PLOT OU DESENHO ESQUEMÁTICO Foram tantas informações apresentadas até agora que eu imagino que algo mais visual será bem interessante Uma dessas formas visuais de se representar os dados é por meio de um tipo especial de gráfico o gráfico Box Plot ou desenho esquemático Ele é uma representação gráfica que utiliza cinco medidas estatísticas valor mínimo valor máximo mediana primeiro e terceiro quartil da variável Se tivermos um conjunto de dados representados em uma reta esses valores mostrariam a posição dispersão assimetria caudas e dados muito distantes da média A posição central é dada pela mediana e a dispersão pelo desvio interquartílico dq Q3 Q1 As posições dos quartis nos dão uma ideia da assimetria da distribuição Os comprimentos das caudas são dados pelas linhas que vão do retângulo formado pelos quartis aos valores de máximo e mínimo Exemplo Vamos construir o gráfico Box Plot com os dados das idades que temos usado Sua elaboração segue os seguintes passos 19 Ordenar os dados em ordem crescente 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Determinar as cinco medidas Mediana Md 215 Primeiro quartil Q1 20 Terceiro quartil Q3 25 Desvio interquartílico dq Q3 Q1 25 20 5 Limite inferior é sempre dado pelo primeiro quartil menos 15 dq Li Q115dq Li 20 15 5 125 Como o limite inferior ficou abaixo dos valores que temos vamos construir o box plot com limite inferior igual a 18 que é o menor valor observado Limite superior Ls Q315dq Ls 25 155 325 Veja que temos ainda dois valores maiores que o limite superior indicando que temos dois valores discrepantes Depois constróise uma escala com valores que incluam os valores máximo e mínimo dos dados A sugestão é que se faça uma reta que vá do menor até o maior valor apresentado na observação Construir uma caixa retangular estendendose de Q1 a Q3 e trace uma linha na caixa no valor da mediana 20 Traçar uma linha paralela à reta com uma das extremidades alinhada ao limite inferior Li e a outra no centro do lado do retângulo correspondente ao primeiro quartil Trace uma outra linha paralela à reta com uma extremidade no centro do lado do retângulo correspondente ao terceiro quartil e a outra alinhada com o limite máximo Ls Identificar os pontos discrepantes Videoaula 3 Agora assista a um vídeo falando sobre a assimetria curtose e o que vemos em um box plot 21 No conjunto de dados não existe aluno com idade inferior a 125 ou seja não há aluno com idade considerada discrepante inferiormente Entretanto existem dois indivíduos cujas idades são superiores a 325 pontos estes considerados discrepantes neste conjunto de dados as idades 35 e 37 Estes pontos são identificados no diagrama de caixas por meio de um asterisco na direção das linhas traçadas Notese que no intervalo interquartílico dentro do retângulo existem 50 dos dados dos quais 25 estão entre a linha da mediana e a linha do primeiro quartil e os outros 25 estão entre a linha da mediana e a linha do terceiro quartil Cada linha da cauda mais os valores discrepantes contêm os 25 restantes da distribuição Videoaula 3 Agora assista a um vídeo falando sobre a assimetria curtose e o que vemos em um box plot Utilize o QRcode para assistir 22 Aula 02 As possibilidades e a probabilidade Experimento aleatório espaço amostral e eventos Introdução Até esse momento da unidade tratamos muitas vezes de dados observados Observar dados significa coletar informações a partir de um evento que pode ser um estudo de uma situação ou de um acontecimento que resulte em valores matemáticos Esse acontecimento pode ser chamado de fenômeno que pode ser complementado com um modelo matemático determinístico ou probabilístico que melhor o explique Porém é importante distinguir um do outro No estudo dos métodos quantitativos estudamos os fenômenos que podem ser repetidos para que se encontre um conjunto de resultados que são os dados estatísticos A principal características desse tipo de fenômeno está ligada ao seu resultado mesmo que se repita o experimento da mesma forma esse resultado pode variar de uma observação para outra dificultando dessa maneira a previsão de um resultado exato Isto é se tivéssemos sempre o mesmo resultado para o fenômeno não haveria o que se estudar era necessário apenas assumir aquele valor como resultado esperado Não sei se ficou muito claro mas vou explicar Imagine uma máquina que consegue fazer 3000 peças por hora Esse é um dado interessante Todas as vezes que repetirmos o fenômeno da produção teremos o mesmo resultado 3000 em uma hora Agora se pensarmos no número de peças defeituosas sabemos que pode acontecer uma quantidade desses defeitos na produção mas não temos como ter certeza de quantas peças defeituosas teremos em uma hora mas ainda não tem como sabermos se acontecerá esse fenômeno naquela hora observada 23 No nosso exemplo podemos perceber que quando você consegue observar um fenômeno por várias vezes é muito mais fácil entender como ele varia Ainda assim se fizermos as suposições adequadas mesmo sem observálo diretamente conseguimos criar um modelo teórico que chegue aproximadamente aos mesmos resultados da distribuição das frequências de quando o fenômeno é observado diretamente E são esses os chamados modelos de probabilidades Fenômenos determinísticos x Fenômenos Aleatórios Esses fenômenos que sempre tem o mesmo resultado quando as condições iniciais são as mesmas são chamados de fenômenos determinísticos Ex O número de peças que a máquina consegue produzir em uma hora Caso consigamos repetir as mesmas condições as variações obtidas para o valor da quantidade de peças produzidas são extremamente pequenas em alguns casos inexistentes Por outro lado quando temos resultados diferentes mesmo quando as condições iniciais são as mesmas esses são chamados de fenômenos aleatórios e existe a imprevisibilidade do resultado Ex quantidades de peças defeituosas produzidas pela mesma máquina Por mais que pareça estranho podemos repetir um fenômeno aleatório propositalmente para observar e estudar o que acontece quando temos um alto número de repetições Esse processo de ficar repetindo o fenômeno é chamamos de experimento aleatório Por exemplo Lançamento de uma moeda honesta Lançamento de um dado 24 Lançamento de duas moedas Retirada de uma carta de um baralho completo de 52 cartas Contagem das peças defeituosas produzidas pela máquina em uma hora Um experimento como esse pode ser analisado e algumas conclusões são percebidas Podemos repetir indefinidamente cada experimento mantendo as mesmas condições Poderíamos por exemplo ficar para sempre contando as peças defeituosas produzidas em uma hora Por mais que o resultado seja aleatório não consigamos prever com certeza o que vai acontecer temos um conjunto de resultados possíveis conhecidos de antemão sabemos que a quantidade máxima de peças defeituosas não passará de 3000 que são as peças produzidas Os resultados possíveis levam a uma regularidade quando fazemos o experimento por muitas vezes e estudamos os seus resultados Poderíamos por exemplo perceber que há um número perto de 10 peças defeituosas por hora Por conta dessa regularidade podemos explicar esses fenômenos aleatórios por meio de um modelo chamado modelo matemático probabilístico Esse modelo utiliza alguns conceitos fundamentais que ajudarão no entendimento dos conceitos ligados à essa teoria 25 Espaço Amostral O primeiro conceito a ser entendido é o Espaço amostral do fenômeno estudado que tem como símbolo o S e significa o conjunto de todos os resultados possíveis desse experimento Lembrando o que são conjuntos podemos definilos como sendo uma coleção de elementos que possuem características comumns no exemplo dado esse conjunto seria dos elementos fabricados com algum defeito A escolha dessa característica é que define o conjunto e deve ser feita com muito cuidado para que fique claro que conjunto estamos interessados pra que possamos decidir se determinado elemento é ou não parte do conjunto Videoaula 1 Agora assista a um vídeo falando sobre os fenômenos e os espaços amostrais Perceba que não tem sentido usarmos o estudo da probabilidade sem que tenhamos definido um espaço amostral que é o conjunto de todos os resultados possíveis do experimento que se está analisando É importante relembrar que ao falarmos de experimentos estamos falando daqueles eventos em que há incerteza do resultado antes de fazermos as observações Cada resultado de um experimento é chamado de evento Por exemplo a medição de uma corrente elétrica a medição do tempo de uma viagem etc Exemplos de Espaços Amostrais S cara coroa é composto de 2 eventos lançandose uma moeda S 1 2 3 4 5 6 é composto de 6 eventos lançandose um dado S cara cara coroa coroa cara coroa coroa cara é composto de 4 eventos lançandose duas moedas Videoaula 1 Agora assista a um vídeo falando sobre os fenômenos e os espaços amostrais Utilize o QRcode para assistir 26 Evento Aleatório E Partimos do princípio de que um espaço amostral é o conjunto de todos os resultados possíveis para entender que podemos encontrar alguns desses resultados nos experimentos feitos e outros podem não ser encontrados Por exemplo ao medir a quantidade de peças defeituosas produzidas por uma máquina em uma hora veremos existem muitos resultados possíveis espaço amostral Porém ao fazermos isso algumas vezes teremos encontrado alguns desses resultados possíveis Essa parte do conjunto do espaço amostral isto é o subconjunto contendo os resultados que encontramos é chamado de Evento aleatório Também se chama de evento aleatório cada resultado obtido de cada experimento aleatório que não é previsível São muitos os conceitos ligados ao conjunto de eventos de um espaço amostral mas vamos destacar duas definições importantes e que são muito usadas nos estudos de probabilidades as de complemento e de eventos mutuamente excludentes O complemento de um evento é observado se tomarmos todos os resultados no espaço amostral que não façam parte do evento Ex Se podemos tirar em um dado os números de 1 a 6 e no evento que selecionamos temos os valores 1 2 e 3 o complemento desse evento são os valores 4 5 e 6 Agora se falarmos de eventos mutuamente excludentes estamos tratando daqueles que não têm elementos em comum Por exemplo no mesmo espaço amostral do lançamento de dados os eventos números pares e números ímpares são mutuamente excludentes já que nenhum elemento dos eventos de números pares estará presente no evento de números ímpares Mais exemplos No espaço amostral de um baralho ao escolhermos uma só carta os eventos a carta é de espadas e a carta é de paus são mutuamente excludentes porque uma carta não pode ser ao mesmo tempo de espadas e de paus 27 Já os eventos a carta é de copas e a carta é menor do que 5 não são mutuamente excludentes porque algumas cartas de copas são menores do que 5 Representação Gráfica Vamos usar também elementos gráficos para representar um espaço amostral Isso ajuda a perceber visualmente seus elementos e também as características dos seus eventos Veja alguns exemplos de representação gráfica de um espaço amostral e seus eventos Os eventos A e A são complementares Os eventos A e B são mutuamente excludentes porque não se interceptam S A A S B A 28 Os eventos A e B não são mutuamente excludentes pois têm alguns elementos em comum Pudemos perceber que os eventos são conjuntos e graças a isso temos as propriedades e operações de conjuntos valendo para as operações de eventos aleatórios Operações com Eventos Aleatórios Perceber como os eventos aleatórios podem ser comparados com conjuntos nos levará a construir possíveis operações entre eles Começaremos considerando um espaço amostral finito 𝑆 𝑃1 𝑃2 𝑃3 𝑃𝑛 Cada P que foi listado corresponde a um ponto amostral possível dentro do espaço amostral Sejam E1 e E2 dois eventos de S as seguintes operações são definidas A Reunião E1 E2 O evento reunião é formado pelos pontos amostrais que pertencem a pelo menos um dos eventos Graficamente temos É o evento que ocorre se E1 ocorre ou E2 ocorre ou ambos ocorrem S B A 29 B Interseção E1 E2 O evento interseção é formado pelos pontos amostrais que pertencem simultaneamente aos eventos E1 e E2 Graficamente temos Obs Se E1 E2 E1 e E2 são eventos mutuamente exclusivos É o evento que ocorre se E1 ocorre e E2 ocorre também C Complementação S E1 E1c É o evento que ocorre se E1 não ocorre Probabilidade Videoaula 2 Agora assista a um vídeo falando o que é probabilidade e a sua definição 30 Definição Os elementos que já estudamos vão nos ajudar a construir uma definição de probabilidade Experimento aleatório E e Espaços Amostral S Quando temos um experimento aleatório que chamaremos de E e ele gera um espaço amostral que chamaremos de S a probabilidade desse evento E acontecer será chamada de PE e é uma função definida em S que associa cada evento E1 a um número real de modo que PE esteja compreendido entre 0 e 100 e que PS é 100 Explicando cada evento pertencente a E terá uma probabilidade de acontecer entre 0 e 100 e a probabilidade de acontecer algum dos resultados do espaço amostral todo é 100 Outra propriedade interessante é que tomando dois eventos mutuamente exclusivos E1 e E2 E1 E2 Ø então a probabilidade de acontecer pelo menos um dos dois eventos será dada por P E1 E2 PE1 PE2 O cálculo da probabilidade de acontecer um evento E chamada de PE desde que E S é feito com a divisão do número de casos favoráveis a E pelo número total de casos de S 𝑃𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑁𝐶𝐹𝐸 𝑁𝑇𝐶 Essa é a mais importante observação e definição de probabilidade a que liga os casos favoráveis divididos pelos casos totais é essa divisão que nos dá a chance de um evento acontecer Videoaula 2 Agora assista a um vídeo falando o que é probabilidade e a sua definição Utilize o QRcode para assistir 31 Tipos de eventos Como todos os conceitos de probabilidade vão falar sobre eventos fica então a necessidade de se entender o que é um evento Podemos dizer que ele é qualquer subconjunto do espaço amostral S de um experimento aleatório Explicando esse conceito evento é uma das possibilidades do conjunto de todos os elementos possíveis Ex Evento pode ser tirar 3 em um dado que tem as faces 1 2 3 4 5 e 6 Veja que o evento é um resultado possível dentro do conjunto de todos os resultados possíveis Outro evento poderia ser tirar um número par nesse dado Veja que é possível tirar números pares dentre todos os resultados possíveis Podemos também ter eventos que usem cálculos entre as possibilidades existentes isto é vamos pensar no experimento de se jogar dois dados e somar as faces que caírem voltadas para cima As somas possíveis são 2 3 4 12 Podemos chamar de evento as possibilidades em que essa soma for par ou as possiblidades em que essa soma for o número 7 por exemplo Assim qualquer que seja E se E S E está contido em S então E é um evento de S Vamos ver quais são os tipos de eventos que podemos ter então Evento Certo é aquele que ocorre em qualquer realização do experimento aleatório Se E S E é chamado evento certo Por exemplo o evento certo é que a soma esteja entre 2 e 12 incluindo os números 2 e 12 Evento Elementar é aquele formado por um único elemento do espaço amostral Se E S e E é um conjunto unitário E é chamado evento elementar Por exemplo o evento de se tirar 2 no primeiro dado e 2 no segundo dado somando 4 é um evento elementar Evento Impossível é aquele que não ocorre em nenhuma realização de um experimento aleatório Se E E é chamado evento impossível Por exemplo a soma 1 é um evento impossível Evento Complementar seja um evento A qualquer o evento Ac chamado de complementar de A existe e é representado por AcSA é um outro conjunto formado pelos elementos que pertencem a S e não pertencem a A Eventos Equiprováveis Quando se associa a cada ponto amostral a mesma probabilidade o espaço amostral chamase equiprovável ou uniforme Os eventos Eii123n são equiprováveis quando PEiPE2PEnP isto é quando todos têm a mesma probabilidade de ocorrer 32 P1n Pensando no lançamento de um dado a probabilidade de cair um número de 1 a 6 virado para cima são eventos equiprováveis PE 16 1666 aproximadamente Cálculo de probabilidades de eventos simultâneos Quando temos dois eventos descritos podemos calcular a probabilidade desses dois eventos acontecerem simultaneamente Para esse cálculo somamos a probabilidade de acontecer o primeiro evento com a probabilidade de acontecer o segundo evento Mas nesse caso acabamos somando duas vezes a probabilidade de acontecerem os dois eventos ao mesmo tempo isso é corrigido excluindose a probabilidade da interseção dos eventos Vamos exemplificar Retirase uma carta de um baralho completo de 52 cartas Qual a probabilidade de sair um rei ou uma carta de espadas Solução PAB PAPBPAB A probabilidade de acontecer as duas coisas ser um rei ou ser uma carta de espadas tem interseções pois temos cartas de rei que também é de espadas Sendo assim vamos calcular a probabilidade de ser rei 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑡𝑜𝑡𝑎𝑖𝑠 4 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑖𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 52 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 4 52 0077 77 33 Agora vamos calcular a probabilidade de ser uma carta de espadas 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑡𝑜𝑡𝑎𝑖𝑠 13 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑒 𝑒𝑠𝑝𝑎𝑑𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 52 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 13 52 025 25 Para finalizar vamos calcular a probabilidade de acontecerem as duas coisas ao mesmo tempo de termos rei de espadas 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠 𝐸 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑡𝑜𝑡𝑎𝑖𝑠 1 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑖𝑠 𝑑𝑒 𝑒𝑠𝑝𝑎𝑑𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 52 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 𝑑𝑜 𝑏𝑎𝑟𝑎𝑙ℎ𝑜 1 52 0019 19 A probabilidade de termos cartas de espadas ou cartas de reis será PAB PAPBPAB 77 25 19 308 Eventos mutuamente exclusivos Dois eventos A e B são denominados mutuamente exclusivos quando eles não puderem ocorrer simultaneamente isto é A B Ø Exemplo E Num jogo de bingo são sorteados números de 1 a 75 Sejam os eventos A ocorrer nº par e B ocorrer nº ímpar S 123737475 Então A e B são mutuamente exclusivos pois conseguir sortear um número par e ímpar não pode acontecer no mesmo sorteio Axiomas de Probabilidade Algumas observações sobre as probabilidades nos permitem tirar conclusões que são definitivamente verdadeiras são os chamados axiomas 1 Se um evento é um conjunto vazio Ø evento impossível então PØ0 2 Se tomarmos um evento A e o seu complementar Ac então PAc 100 PA 3 Como já usamos no nosso exemplo anterior se A e B são dois eventos quaisquer então P A B P A P B P A B 34 Teoria da Contagem Alguns exercícios de probabilidade podem ser resolvidos utilizando um princípio chamado de princípio da contagem Um exemplo de evento dessa forma é o caso em que temos 3 cores de camisas e 4 cores de calças se quisermos sair com uma dessas camisas qualquer e uma dessas calças qualquer de quantas formas diferentes podemos nos vestir A resposta está em multiplicarmos o número de camisas 3 pelo número de calças 4 Chegando no valor 12 para as formas diferentes de se vestir De uma forma mais formal podemos dizer que quando temos dois eventos o primeiro dos quais pode ocorrer de p jeitos diferentes e o segundo pode ocorrer de q jeitos diferentes então os dois eventos podem ocorrer juntos de pq jeitos diferentes O cálculo do número de casos favoráveis do evento reduzse a um problema de contagem Assim é que a Análise Combinatória tem fundamental importância para se contar o nº de casos favoráveis e o total de casos Se forem poucos os casos ou o evento for de simples interpretação podese contar o número de resultados de forma direta sem que seja necessário usar as fórmulas que são trabalhadas na análise combinatória Mas caso você precise vamos conhecer um pouco mais sobre as permutações arranjos e combinações Permutação Permutar significa trocar de lugar Quando temos que analisar a troca de posição entre os elementos estamos falando de permutação Por exemplo De quantas formas diferentes 4 pessoas podem sentar em torno de uma mesa de 4 lugares Como se trata apenas de troca de lugares entre os componentes da mesa estamos falando de uma permutação simples O cálculo dessa permutação é dado pela fórmula Pn n O símbolo de significa fatorial Ele indica uma multiplicação de números que começam em n e vão diminuindo uma unidade até chegar em 1 4 4321 4 24 Isso significa que há 24 formas diferentes de se sentarem à mesa 35 Combinação Uma combinação existe quando ao contrário da permutação a troca de posições entre os elementos não significa uma nova possibilidade Por exemplo quantas duplas diferentes podemos formar com Ana Beto e Cláudia Veja que a dupla Ana e Beto é a mesma que a dupla Beto e Ana A troca de posições não inclui uma nova possibilidade Teríamos as duplas possíveis Ana e Beto Ana e Cláudia e Beto e Cláudia Três possibilidades diferentes Neste exemplo temos 3 elementos pessoas envolvidas que serão combinadas duas a duas já que queremos duplas Perceba que não poderíamos ter as 3 pessoas combinadas 4 a 4 não faz sentido não temos elementos suficientes para a combinação O Número de combinações de r elementos combinados p a p sendo p r é calculado por Exemplo Quantos times de 4 jogadores podem ser formados com um grupo de dez pessoas 𝐶104 10 4 10 4 10 4 10 4 6 10987654321 4321654321 10987 4321 5040 24 210 Podemos ter 210 times diferentes compostos com 4 jogadores Arranjos Em arranjos estamos falando de conjuntos novamente de elementos porém nesse caso teremos novas possibilidades quando se trocam de posições os elementos Vou dar um exemplo De quantas maneiras diferentes podemos compor o pódio 1º 2º e 3º lugares de uma corrida em que estão competindo 4 corredores Ana Beto Cláudia e Daniel A resposta a essa pergunta pode ser Ana em 1º lugar Beto em segundo e Cláudia em terceiro Os mesmos elementos podem ser usados para uma possibilidade diferente Cláudia em 1º lugar Beto em segundo e Ana em terceiro Temos elementos iguais posições diferentes que resultam em uma possiblidade diferente Esse é um arranjo 36 O número de arranjos de r elementos é calculado por Por essa fórmula podemos perceber que a permutação é um caso especial de arranjo Já que nesse caso teríamos o arranjo de r organizados de r em r elementos No exemplo que fizemos tínhamos 4 pessoas para 4 lugares veja como ficaria o arranjo 𝐴44 4 444 0424 Exemplo Considerando um grupo de dez corredores quantos pódios 1º 2º e 3º lugares diferentes poderíamos ter para a corrida 𝐴103 10 10310 7 10987654321 7654321 1098720 Podemos ter 720 pódios diferentes Videoaula 3 Agora assista a um vídeo falando sobre o que são arranjos permutações e combinações e como calcular essas possibilidades Videoaula 3 Agora assista a um vídeo falando sobre o que são arranjos permutações e combinações e como calcular essas possibilidades Utilize o QRcode para assistir 37 Encerramento da Unidade Nesta unidade começamos tratando sobre a dispersão de elementos Vimos como são medidas essas dispersões e como perceber sua influência no conjunto total de elementos Estudamos a fundo algumas amplitudes algumas medidas separatrizes e os cálculos que nos dão um parâmetro de como os dados estão distribuídos são eles o desvio médio a variância e o desvio padrão Esses valores nos ajudam e muito a interpretar o conjunto de dados que temos Também estudamos sobre eventos que podemos associar a probabilidades e quais são as formas de contar as possibilidades de um desses eventos Vimos que podemos usar conceitos chamados de arranjos permutações combinações e como eles são calculados Referências CASTANHEIRA Nelson Pereira Estatística aplicada a todos os níveis1ª ed Curitiba Intersaberes 2012