·

Estatística ·

Outros

Send your question to AI and receive an answer instantly

Ask Question

Preview text

ESAMC Estadística I Módulo A Módulo A Estatística Descritiva Estatística I Antônio A Crespo define Estatística como Estatística é uma parte da matemática aplicada que fornece métodos para a coleta a organização a descrição a análise e a interpretação de dados quantitativos e qualitativos e a utilização desses dados para a tomada de decisão Definição Análise Exploratória de Dados Amostra Conclusões sobre as características da população Informações contidas nos dados População características Técnicas de Amostragem Análise Exploratória Inferência Estatística Introdução Análise Exploratória de Dados Utilidade da Estatística na Gestão A Estatística permite Resolver problemas mediante a coleta de dados de boa qualidade Argumentar utilizando dados Analisar e interpretar dados Detectar situações fora de controle e outras fontes de dificuldades que requerem atenção e medidas corretivas Coletar evidências para fins legais Determinar ociosidade de recursos e eficiência na utilização dos mesmos Determinar custos de atividades de produtos de unidades organizacionais etc Melhorar a qualidade de dados desempenhos decisões ações produtos processos e serviços Análise Exploratória de Dados Algumas Dificuldades com a Estatística Culturais Rejeição às matemáticas Contato prematuro inadequado Invisibilidade da Estatística Armadilha da atividade Método Estatístico O método estatístico diante da impossibilidade de manter as causas constantes admite todas as causas presentes variandoas registrando essas variações e procurando determinar no resultado final que influências cabem a cada uma delas MÉTODO ESTATÍSTICO As fases são Coletas de dados é a obtenção reunião e registro sistemático de dados com um objetivo determinado Direta quando é obtida diretamente da fonte e pode ser Contínua Obtida ininterruptamente Registro de nascimentos etc Periódica em períodos curtos Censos Ocasional esporadicamente Surto epidêmico Indireta Quando é inferida deduzida a partir dos elementos conseguidos pela coleta direta Mortalidade infantil MÉTODO ESTATÍSTICO Crítica dos dados devem ser criticados à procura de erros grosseiros ou de certos vultos que possam influir sensivelmente nos resultados como Externa Informante Interna Dados da coleta Apuração dos dados é a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação MÉTODO ESTATÍSTICO Exposição dos dados devem ser apresentados sob forma de tabelas ou gráficos tornando mais fácil e compreensão do objeto de tratamento estatístico Análise dos resultados É o estudo dos resultados com o objetivo de tirar conclusões sobre o todo população a partir de informações fornecidas por parte representativa do todo amostra POPULAÇÃO E AMOSTRA População é o conjunto de entes portadores de pelo menos uma característica comum Amostra é um subconjunto finito de uma população POPULAÇÃO E AMOSTRA Devido a quantidade excessivamente grande de elementos que constantemente fazem parte da população trabalhamos com uma amostra O aspecto comum dentre todas as técnicas existentes é a aleatoriedade isto é a igual chance que cada elemento da população deve ter de ser escolhido as principais a Casual Simples sorteio b Sistemática Os elementos já se encontram ordenados e então sorteamos um número e sistematicamente os outros ficam determinados c Estratificada Quando a população esta dividida em estratos de acordo com o fato em estudo Variável Variáveis Qualitativas Quantitativas Nominais Ordinais Discretas Contínuas Variável é convencionalmente o conjunto de resultados possíveis de um fenômeno Tipos de variáveis Variável Exemplo Variáveis em uma ficha cadastral PF Variável Tipo 1 Número de dependentes Quantitativa discreta 2 Idade Quantitativa contínua 3 Local de nascimento Qualitativa nominal 4 Nível educacional Qualitativa ordinal 5 6 7 8 Variável DISCRETA É uma representação tabular de um conjunto de valores em que colocamos na primeira coluna em ordem crescente apenas os valores distintos de série e na segunda coluna colocamos os valores das frequências simples correspondentes Devemos optar por uma variável discreta na representação de uma série de valores quando o número de elementos distintos da série for pequeno xi número de filhos fi frequência absoluta 0 1 1 5 2 6 3 10 total 22 Variável CONTÍNUA É uma representação tabular de um conjunto de valores em que colocamos na primeira coluna faixa de valores agrupados em ordem crescente da série e na segunda coluna coloca os valores das freqüências simples correspondentes Devemos optar por uma variável contínua na representação de uma série de valores quando o número de elementos distintos da série for grande xi número de filhos fi frequência absoluta 2 4 4 4 6 12 6 8 10 8 10 4 total 30 Conceitos a serem aplicados Amplitude total de uma sequência é a diferença entre o Limite superior e o Limite inferior de uma sequência At Ls Li Intervalo de Classe é qualquer subdivisão da amplitude total de uma série estatística 2 4 Limite de Classe cada intervalo de classe fica caracterizado por dois números reais O menor valor chamado de Limite inferior Li da classe e o maior valor chamado de Limite superior Ls da classe 2 Li e 4 Ls Amplitude do intervalo de classe é a diferença entre o Ls e o Li do intervalo de classe A Ls Li 42 2 A 2 Frequência simples ou absoluta de uma classe fi é o número de elementos da sequência que são maiores ou iguais ao Li desta classe e menores que o Ls desta classe Distribuição de Frequências Frequência Relativa fir é a divisão da frequência simples deste elemento pelo número total de elementos da série fir fi n onde n ou somatória de fi é o número total de elementos da série Ex fir 4 30 01333 ou 1333 Distribuição de Frequências Frequência Acumulada fiac é a soma de fi simples deste elemento com as fi dos elementos que o antecedem fiac fi1 fi2 fi3 fin Frequência acumulada relativa firac é a divisão da frequência acumulada deste elemento pelo número total de elementos da série Distribuição de Frequências xi fi fir fiac firac 0 1 333 1 333 1 5 1667 6 2000 2 6 2000 12 4000 3 10 3334 22 7334 4 4 1333 26 8667 5 4 1333 30 100 Total 30 100 Distribuição de Frequências xi fi fir fiac firac 2 4 4 1333 4 1333 4 6 12 4000 16 5333 6 8 10 3334 26 8667 8 10 4 1333 30 100 Total 30 100 Representação Gráfica Histograma 034 026 012 016 004 004 002 002 0 005 01 015 02 025 03 035 55 135 215 295 375 455 5535 615 Tributo faturamento Proporção Representação Gráfica Histograma Histograma Área 100 ou 100 Área frequência f ou p Classes de mesma amplitude altura frequência f ou p Notas Histograma é a representação gráfica adequada para o caso de variáveis contínuas Pode ser utilizada para variáveis discretas agrupadas em classes Representação Gráfica Polígono de acumulada 0 10 20 30 40 50 60 70 80 90 100 15 95 175 255 335 415 495 575 655 Tributo faturamento acumulada Representação Gráfica Polígono de acumulada Mostra a porcentagem de empresas cujo recolhimento de tributos é menor ou igual a um dado valor Podemos ter também Polígono de frequências acumuladas Polígono de proporções acumuladas Alguns Padrões de Histogramas Alguns Padrões de Histogramas Alguns Padrões de Histogramas Alguns Padrões de Histogramas Alguns Padrões de Histogramas Alguns Padrões de Histogramas Módulo B Módulo B Medidas de Posição Separatrizes e Dispersão Momento Tbl Item 21 Tendência Central de um conjunto de dados é a tendência das medidas destes dados em se acumular em torno de certos valores numéricos Medidas de Tendência Central Medidas de Tendência Central Média É a soma das medidas dividida pelo número de elementos do conjunto de dados Vantagens reflete cada valor e possui propriedades matemáticas atraentes Limitações é influenciada por valores extremos Medidas de Tendência Central Média Exemplo Calcule a média dos seguintes grupos de dados 1 2 3 4 5 e 2 3 3 3 4 n x x n i i 1 Medidas de Tendência Central Mediana Para números aleatórios É o valor intermediário de um conjunto de medidas colocadas em ordem crescente ou decrescente Vantagens muito interessante para grande massa de dados divide a área do histograma em partes iguais menos suscetível a valores extremos Limitações difícil de determinar para grande quantidade de dados Medidas de Tendência Central Média e Mediana Sua comparação indica a assimetria da distribuição Mediana Média Medidas de Tendência Central Moda Para números aleatórios É a medida que ocorre com maior freqüência no conjunto de dados Exemplo notas de degustadores de vinho 8 7 9 6 8 10 9 9 5 7 Moda 9 Medidas de Tendência Central Moda Vantagens indica onde os dados tendem a se concentrar útil para dados qualitativos Ex notas de jurados pode haver mais de uma ou não ter sentido Expesquisa de lazer Limitações não se presta a análise matemática pode não ser moda para certos conjuntos de dados Medidas de Tendência Central Exemplo Preferência do produto A em colhida em diversas regiões do Brasil por meio de uma pesquisa de mercado 56 63 64 65 66 69 71 57 64 66 64 65 66 66 68 e 72 N 16 x 1042 Média 65125 Mediana 655 Moda 66 Medidas de Tendência Central Média Para variáveis discretas Se os dados estão apresentados na forma de uma variável discreta utilizamos a média ponderada considerando as frequências fi como sendo as ponderações dos elementos xi correspondentes xi número de filhos fi frequência absoluta fi xi 0 1 0 1 5 5 2 6 12 3 10 30 total 22 47 Média 47 22 214 filhos Medidas de Tendência Central Mediana para variáveis discretas Para encontrarmos a mediana dividimos por dois o total das frequências absolutas 22 2 11 e calculamos a Frequência acumulada fiac Procuramos qual xi que conta o número 11 na Fi xi 2 xi número de filhos fi frequência absoluta fiac 0 1 1 1 5 6 Mediana 2 6 12 11 3 10 22 total 22 Mediana 2 filhos Medidas de Tendência Central Moda para variáveis discretas Para encontrarmos a moda basta verificar o elemento xi de maior frequência fi xi número de filhos fi frequência absoluta 0 1 1 5 2 6 Moda 3 10 total 22 Moda 3 filhos Média para variáveis contínuas Se os dados estão apresentados na forma de uma variável contínua utilizaremos a média aritmética ponderada considerando as frequências fi de cada classe ponderando com o ponto médio destas classe PM Li LS 2 Média Somatória de PMfi somatória de fi 178 30 593 filhos xi número de filhos Ponto Médio PM fi freqüência absoluta PM fi 2 4 3 4 12 4 6 5 12 60 6 8 7 10 70 8 10 9 4 36 total 30 178 Medidas de Tendência Central xi número de filhos fi frequência absoluta fiac 2 4 4 4 4 6 12 16 15 6 8 10 26 8 10 4 30 total 30 Mediana para variáveis contínuas Para encontrarmos a mediana dividimos por dois o total das frequências absolutas 30 2 15 e calculamos a Frequência acumulada fiac Procuramos qual xi que conta o número 15 na fiac xi 4 6 Este será o intervalo que usaremos como base para resolvermos a fórmula da mediana Medidas de Tendência Central Mediana para variáveis contínuas Fórmula da Mediana para variáveis contínuas h fi fiac n li md ant 2 Onde Li Limite inferior do intervalo de classe 4 n Total de fi 30 fiacant frequência acumulada anterior ao intervalo de classe 4 fi frequência do intervalo de classe 12 h amplitude da classe Ls Li 6 4 2 Medidas de Tendência Central Mediana para variáveis contínuas Então 2 12 4 2 30 4 md 5 83 md Obs o valor obtido pela fórmula é um valor aproximado Medidas de Tendência Central Moda para variáveis contínuas Fórmula da Moda para variáveis contínuas Onde Li Limite inferior do intervalo de classe 4 fipost frequência absoluta posterior ao intervalo de classe 10 fiant frequência absoluta anterior ao intervalo de classe 4 h amplitude da classe Ls Li 6 4 2 h fi fi fi li mo ant post post Medidas de Tendência Central Moda para variáveis contínuas Então 2 4 10 10 4 mo 5 43 mo Medidas de Tendência Central Exercícios de Aplicação Medidas de Dispersão São medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão dos valores em torno da média Servem para medir a representatividade da média Desvio Médio Variância DesvioPadrão Coeficiente de variação Medidas de Dispersão Desvio Médio é a média dos desvios dos valores a contar de média Ignorandose o sinal de diferença Onde n fi n f x x DM i i Medidas de Dispersão Variância é a média dos quadrados dos desvios dos valores a contar da média calculada usandose n1 em lugar de n como fator de ajuste 1 2 2 n f x xi S i Medidas de Dispersão Desviopadrão é simplesmente a raiz quadrada positiva da variância 2s s Medidas de Dispersão Coeficiente de variação tratase de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas 100 X S CV xi número de filhos fi xi fi xi x xix fi xix2 fi 0 1 0 214 214 458 1 5 5 114 57 650 2 6 12 014 084 012 3 10 30 086 86 740 total 22 47 1728 186 Média21 4 DM 079 S2 089 S 094 CV 4393 Para variáveis contínuas xi PM Medidas de Dispersão Momento Peer to peer Item 24 Módulo C Módulo C Cálculo de Probabilidades Momento Tbl Frequência e probabilidade Eventos Definição subjetiva de probabilidade Probabilidade Resultados do lançamento de um dado n10 lançamentos Resultado do dado Número de ocorrências do resultado f Frequência fn 1 2 3 4 5 6 1 0 1 2 3 3 01 ou 10 0 01 ou 10 02 ou 20 03 ou 30 03 ou 30 Frequência é o percentual de ocorrência de uma determinada observação dentro de uma amostra Resultados do lançamento de um dado Resultado do dado 1 2 3 4 5 6 Número de ocorrências do resultado f Frequência fn 16 n 16 n 16 n 16 n 16 n 16 n 167 167 167 167 167 167 Núm de ocorrências do resultado f Freq Relafn 11 6 7 7 7 12 022 ou 22 012 ou 12 014 ou 14 014 ou 14 014 ou 14 024 ou 24 n 50 lançamentos n Portanto a probabilidade pode ser encarada como o limite da frequência de um determinado evento dentro da população em estudo A medida que a amostra cresce a frequência se estabiliza temos então a probabilidade 00 01 02 03 04 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 n 10 n 50 n infinito Representação gráfica dos resultados obtidos no lançamento repetido de um dado n número de lançamentos A frequência pode ser representada graficamente Probabilidade Frequência e probabilidade Eventos Representações gráficas Compostos Condicionais Dependentes e independentes Definição subjetiva de probabilidade Diagrama de árvore Diagrama de árvore Diagrama de Venn Diagrama de Venn Formas de representação gráfica de eventos Representação dos eventos possíveis para o sexo de cada criança de um casal que tenha três filhos Criança 1 Criança 2 Criança 3 M F Resultado final M F M F M F M F M F M F M M M M M F M F M M F F F M M F M F F F M F F F A árvore permite a representação exaustiva dos eventos Agrupamento de casais segundo o sexo dos filhos Casais com meninos somente Casais com meninas somente Casais com meninos e meninas O diagrama de Venn é adequado ao agrupamentos dos eventos de interesse M F M F M M M M M F F F F F M F M F M M M M M F F F F F M F Agrupamento de casais com quatro filhos e pelo menos duas meninas M M M M M M M F M M F M M M F F M F M M M F M F M F F M M F F F F M M M F M M F F M F M F M F F F F M M F F M F F F F M F F F F Agrupamento dos resultados que apresentem ao menos duas meninas A combinação dos diagramas de árvore e de Venn permite representações mais complexas Probabilidade de ocorrência do número 6 em um lançamento de dado condicionado ao resultado anterior ter sido 3 Probabilidade de ocorrência do número 6 em um lançamento de dado condicionado ao resultado anterior ter sido 3 Exemplo de evento independente Exemplo de evento independente Resultado 1 3 1 2 3 4 5 6 Resultado 2 Probabilidade 16 16 16 16 16 16 O resultado conhecido do primeiro lançamento não altera a probabilidade de ocorrência do número 6 no segundo lançamento Mais formalmente o evento B é independente se PB PB A O resultado conhecido do primeiro lançamento não altera a probabilidade de ocorrência do número 6 no segundo lançamento Mais formalmente o evento B é independente se PB PB A Lançamento já realizado e resultado conhecido Dependência e independência são termos que obedecem a regras precisas Exemplo de evento dependente Probabilidade de uma pessoa consumir requeijão e manteiga dado que ela consome manteiga Exemplo de evento dependente Probabilidade de uma pessoa consumir requeijão e manteiga dado que ela consome manteiga 200 130 Requeijão R Manteiga M RM 50 Não é consumidor 20 O resultado conhecido do consumo de manteiga altera a probabilidade de ocorrência do consumo dos dois produtos Mais formalmente o evento B é dependente se PB PB A O resultado conhecido do consumo de manteiga altera a probabilidade de ocorrência do consumo dos dois produtos Mais formalmente o evento B é dependente se PB PB A PRM 50300 16 PRM M 50300 200300 14 Dependência e independência são termos que obedecem a regras precisas Eventos compostos são formados por dois ou mais eventos Um casal com três crianças ter somente meninos Um casal com três crianças ter uma ou duas meninas Um consumidor comprar requeijão e manteiga Exemplos de eventos compostos O termo eventos condicionais indica que a ocorrência de um está condicionada à do outro Uma pesquisa com 300 pessoas realizada em um supermercado teve os seguintes resultados 130 pessoas consomem requeijão 200 pessoas consomem manteiga 50 pessoas consomem os dois produtos 20 pessoas não consomem nenhum dos dois Sabendo que uma pessoa escolhida ao acaso é consumidora de manteiga qual é a probabilidade de que ela também consuma requeijão Uma pesquisa com 300 pessoas realizada em um supermercado teve os seguintes resultados 130 pessoas consomem requeijão 200 pessoas consomem manteiga 50 pessoas consomem os dois produtos 20 pessoas não consomem nenhum dos dois Sabendo que uma pessoa escolhida ao acaso é consumidora de manteiga qual é a probabilidade de que ela também consuma requeijão Descrição do caso Descrição do caso Requei jão Sim Não Total Sim Não To tal Manteiga Tabela de respostas 50 150 80 20 130 170 200 100 300 200 130 Requeijão R Manteiga M RM 50 Não é consumidor 20 Probabilidade de a pessoa ser consumidora dois produtos PRM 50300 16 Neste caso a incerteza é total Você não sabe nada sobre a pessoa que foi escolhida Portanto a probabilidade de que ela consuma os dois produtos é simplesmente a frequência de ocorrência desse tipo de consumidor na amostra Probabilidade de a pessoa ser consumidora dois produtos PRM 50300 16 Neste caso a incerteza é total Você não sabe nada sobre a pessoa que foi escolhida Portanto a probabilidade de que ela consuma os dois produtos é simplesmente a frequência de ocorrência desse tipo de consumidor na amostra Após a escolha do consumidor Após a escolha do consumidor 200 Manteiga M RM 50 Probabilidade de a pessoa ser consumidora dois produtos condicionado a ela consumir manteiga PRM M 50200 14 Neste caso você sabe que pessoa consome manteiga portanto os outros grupos de consumidores não devem ser considerados no cálculo Em outras palavras uma parte da incerteza foi eliminada Probabilidade de a pessoa ser consumidora dois produtos condicionado a ela consumir manteiga PRM M 50200 14 Neste caso você sabe que pessoa consome manteiga portanto os outros grupos de consumidores não devem ser considerados no cálculo Em outras palavras uma parte da incerteza foi eliminada Sinal condicionado a Em casos como esse uma parte da incerteza já foi eliminada Antes da escolha do consumidor Antes da escolha do consumidor Às vezes não se pode determinar a probabilidade de um evento ou pode ser muito demorado e custoso fazêlo Probabilidade de um time ganhar de outro em uma partida de futebol Probabilidade de o mercado acionário subir amanhã Probabilidade de o lançamento de um novo produto ser um sucesso Exemplos de eventos cuja probabilidade de ocorrência não pode ser facilmente determinada Evento Probabilidade não pode ser determinada Probabilidade não pode ser determinada Probabilidade pode ser estimada através de pesquisa de mercado porém Estudo pode ser muito caro Pesquisa não fornece nem pode fornecer 100 de certeza sobre o resultado do lançamento do produto Comentário Probabilidade Distribuição de probabilidade Distribuições descontínuas de probabilidade Binomial Poisson Distribuições contínuas de probabilidade Normal Probabilidade Distribuição de probabilidade Uma distribuição de probabilidade é uma distribuição de frequências para os resultados de um espaço amostral isto é para os resultados de uma variável aleatória Módulo D Módulo D Distribuição Binomial e Distribuição de Poisson Momento Tbl Probabilidade Distribuições descontínuas de probabilidade Binomial Usase o termo binomial para designar situações em que os resultados de uma variável aleatória podem ser agrupados em duas classes ou categorias A utilização da binomial exige certas hipótese como Há n observações ou provas idênticas Cada prova tem dois resultados possíveis um chamado sucesso e o outro fracasso As probabilidades p de sucesso e 1 p de fracasso permanecem constantes em todas as provas Os resultados das provas são independentes uns dos outros Probabilidade Distribuições descontínuas de probabilidade Fórmula da Binomial n x x p fracasso x p sucesso n P x Onde n numero de amostras x número de sucesso ps percentual de sucesso p f percentual de fracasso Exemplo Binomial suponha que 8 dos cachorrosquentes vendidos num estádio de beisebol sejam pedidos sem mostarda Se sete pessoas pedem cachorroquente determine a probabilidade de que Todos queiram mostarda Apenas um não queira 05578 0 008 092 7 7 0 0 P x a b 03396 1 008 092 7 7 1 1 x P Exemplo Probabilidade Distribuição de probabilidade Distribuições descontínuas de probabilidade Poisson É útil para descrever as probabilidades do número de ocorrências num campo ou intervalo contínuo em geral tempo ou espaço A utilização da Poisson exige certas hipótese como A probabilidade de uma ocorrência é a mesma em todo o campo de observação A probabilidade de mais de uma ocorrência num único ponto é aproximadamente zero O número de ocorrências em qualquer intervalo é independente do número de ocorrências em outros intervalos Probabilidade Distribuição de probabilidade Distribuições descontínuas de probabilidade Formula de Poisson x e x P x Onde média x número de ocorrências valor tabelado e Exemplo Poisson Uma mesa telefônica recebe chamadas a razão de 46 chamadas por minuto Determine a probabilidade de cada uma das ocorrências abaixo 1 Exatamente 2 chamadas 2 Nenhuma chamada 1 2 01063 2 46 00101 2 x P 00101 0 46 00101 0 P x Probabilidade Distribuições contínuas de probabilidade Normal É a mais importante distribuição de probabilidade sendo aplicada em inúmeros fenômenos e utilizada para desenvolvimento teórico da estatística As características das curvas normais são A curva normal tem forma de sino É simétrica em relação a média Prolongase de infinito a infinito Cada distribuição normal fica completamente especificada por sua média e seu desvio padrão há uma distribuição normal distinta para cada combinação de média e desvio padrão A área total sob a curva normal é considerado 100 A área sob a curva entre dois pontos é a probabilidade de uma variável normalmente distribuída tomar um valor entre esses pontos A área sob a curva entre a média e um ponto arbitrário é função do número de desvios padrões entre a média e aquele ponto Probabilidade Distribuições contínuas de probabilidade Normal Fórmula s x x z x z amostra população Onde Z número de desvios padrões a contar da média X valor arbitrário a média da distribuição normal o desvio padrão Exemplo Normal dado que uma população com média 25 e desvio padrão 2 tem distribuição normal determine os valores de z para os seguintes valores da população a 230 b255 2 25 23 z z 1 0 2 25 255 z 0 1 z Corresponde a 03413 ou 3413 da área sobre a curva normal ou a probabilidade conforme tabela z Corresponde a 00398 ou 398 da área sobre a curva normal ou a probabilidade conforme tabela z Módulo E Módulo E Distribuição Normal Momento Tbl Desvio padrão interpretação Regra de Chebyshev Ao menos 34 estará dentro de 2 s Ao menos 89 estará dentro de 3 s P k1 ao menos 11k2 das medidas cairá dentro de k desviospadrão Distribuição Normal Aproximadamente 68 das medidas caem dentro de 1 s Aproximadamente 95 das medidas caem dentro de 2 s Aproximadamente 997 das medidas caem dentro de 3 s Aplicações de todos os conceitos estudados em exercícios práticos