·

Administração ·

Estatística Geral 1

· 2022/1

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

1ª Parte – Estatística Descritiva Divisão da Estatística Estatística Descritiva: descrição, resumo e organização das informações. Compreende o uso de tabelas, gráficos e medidas resumo. Estatística Inferencial: através do particular (amostra) faz induções a respeito do todo (população), controlando a probabilidade de erro (por isso estudaremos a Teoria das Probabilidades). Exemplo 1.1: projeção da percentagem de votos para um candidato numa eleição, projeção de safras. Exemplo 1.2 (Prestosuchus Chimoquensis – Museu de Paleontologia UFRGS) . Através do fóssil, pode-se inferir peso, altura, idade e hábito alimentar. Nesta reprodução do espécime, a cor da pele foi inspirada observando os répteis atuais. Estatística Descritiva Definições População: conjunto universo de elementos que possuem ao menos uma característica em comum. O tamanho da população é representado por N. Exemplo 1.3: total de eleitores que compareceram ao último pleito. Dimensão de uma população: finita ( N <∞ ) infinita enumerável ( N=∞ ) não enumerável ( N=∞ ) Observação: um conjunto A é dito enumerável quando é finito ou quando há uma bijeção f : A→ N. No segundo caso diremos que é infinito enumerável. O conjunto N é infinito enumerável, assim como o conjunto dos racionais. O conjunto dos reais é não enumerável. Censo: é a investigação exaustiva de toda a população. Exemplo 1.4: Censo Demográfico Brasileiro, Censo Escolar do MEC Amostra: é um subconjunto da população, isto é, uma parte da população retirada segundo alguns critérios. O tamanho da amostra é representado por n. Exemplo 1.5: pesquisa pré-eleitoral do instituto IBOPE, Pesquisa Nacional por Amostragem de Domicílios (PNAD). Amostragem: é o processo de obtenção de uma amostra da população. Escalas de mensuração Variáveis: são as características de interesse em uma população ou amostra. Variáveis Qualitativas: Expressam qualidade e subdividem-se em: Nominais: os níveis da variável são categorias de qualidade. Exemplo 1.6: tipo de variedade de batata, cor, etc. Ordinais: os níveis da variável são ordenados de acordo com a intensidade do fenômeno. Exemplo 1.7: atribuir graus para uma característica não mensurável como aderência de uma tinta numa superfície metálica. Z = “Grau de aderência da tinta” A = “pouca” ; B = “ regular” ; C = “boa” ; D = “ótima” Note que nas escalas nominal e ordinal não podemos fazer operações aritméticas como numa escala numérica. No exemplo 1.7 não faz sentido fazer a soma A+B+C+ D. Variáveis Quantitativas: expressam uma quantidade numérica, subdividem-se em: Discretas: podem assumir valores observados somente em pontos isolados em uma escala. Exemplo 1.8: número de defeitos num lote de 100 peças, números de falhas diárias numa máquina, etc. Contínuas: Podem assumir qualquer valor em um conjunto não enumerável. Exemplo 1.9: comprimento, área, velocidade, temperatura. Arredondamentos de números (1ª) (2ª) Exemplo 1.10: Arredonde para (a) a unidade 72,8 : 73 (b) centésimos 72,8146: 72,81 (c) milésimos 72,8146: 72,815 (d) centésimos 72,465: 72,47 (e) centésimos 183,575: 183,58 (f) dezenas 737,2136 : 740 Observações: (1a) Recomenda-se não arredondar cálculos intermediários. Se for arredondar, apenas a resposta final. Para evitar erros nos cálculos, utilize as memórias (variáveis) da calculadora. Nas calculadoras científicas mais antigas havia apenas uma memória, mas nas mais recentes, há, pelo menos, seis para armazenar resultados. (2a) As calculadoras operam com sistema de ponto flutuante. Números racionais, como por exemplo 2 3, e irracionais como √2, são aproximados por um número finito de dígitos. (3a) Poderão acontecer erros em algumas operações, como no exemplo a seguir. 1 a b + c d = b×d a×d+b×c 1 7 3600 + 8 4600 =16560 61 =271,4754098 Arredondando 7 3600 como 0,0019 e 8 4600 como 0,0017, 1 7 3600 + 8 4600 ≈ 1 0,0019+0,0017=2500 9 =277,7777778 Somatórios ∑ é o símbolo reservado para representar uma soma ∑ i=k n xi=xk+xk+1+…+xK+n−1+xk+n x representa a variável i é dito o indexador (índice) k é o valor inicial do indexador, sendo que o caso especial é quando k=1 n é o valor final do indexador, Observações: (1ª) a notação “...” que aparece na definição do somatório significa que a operação de soma deve prosseguir, ou seja, todas as parcelas devem ser somadas. (2ª) quando não há menção em contrário, o incremento do indexador é igual a 1 Exemplo 1.11: ∑ i=1 5 i2=12+22+32+42+52=55 Propriedades dos somatórios: (1a) ∑ i=1 n c =n×c , c constante real (2a) ∑ i=1 n c×xi=c×∑ i=1 n xi (3a) ∑ i=1 n (xi+c)=∑ i= 1 n xi+n×c (4a) ∑ i=1 n (xi+y j)=∑ i= 1 n xi+∑ i=1 n yi Resumo de conjuntos de dados Um conjunto de valores será representado por: No caso de amostra: {x1, x2,...., xn} , n é o tamanho da amostra No caso de população: {x1, x2,...., xN} N é o tamanho da população Medidas de posição (tendência central) Média: requer escala de mensuração quantitativa. Média aritmética Na amostra: X=x1+x2+…+xn n = ∑ i=1 n xi n Na população: μ= x1+ x2+…+x N N = ∑ i=1 N xi N Observação: em uma sequência aritmética (progressão aritmética) o termo central entre dois termos é obtido pela média aritmética. Por exemplo, na P.A an=5n+2 , a2= a1+a3 2 =7+17 2 =12 . Exemplo 1.12: um trem de carga apresentou as seguintes velocidades registradas em instantes sucessivos: {10 20 30 40 50}. A velocidade do trem segue uma progressão aritmética, ou seja, v=10×n; n∈ {1;2;3;4;5} média aritmética: 10+20+30+40+50 5 =30 Exemplo 1.13: realizar a soma dos seguintes quocientes, truncando-os em duas casas decimais: 1 9 + 3 9+ 4 9+ 6 9 + 7 9 + 8 9+ 2 9 + 3 9+ 2 9 ≃ ≃0,11+0,33+0,44+0,66+0,77+0,88+0,22+0,33+0,22=3,96 Note que o truncamento em cada divisão resultou em uma resposta diferente daquela se fosse utilizada a fórmula da média aritmética, ou seja: 1+3+4+6+7+8+2+3+2 9 =36 9 =4 Além disso, é mais eficiente do ponto de vista computacional utilizar a fórmula da média aritmética. Média Aritmética ponderada X − =∑i=1 n mixi ∑i=1 n mi , sendo mi>0 os “pesos” Exemplo 1.14: verifique a tabela a seguir, e com base nos dados nela contidos, calcule a média salarial mensal. Quantidade de Funcionários Salários / mês (em R$) 15 800,00 3 3.000,00 2 5.250,00 1 12.100,00 Média aritmética ponderada : 15×800+3×3000+2×5250+1×12100 15+3+2+1 =2076,19 Se os funcionários confrontassem seus salários e as médias mensais dos seus salários com os outros funcionários, certamente ninguém concordaria com tais valores, tanto os que ganham mais, quanto os que ganham menos. Isso ocorre com a média aritmética porque ela é influenciada por valores extremos. Neste exemplo, o salário de 12100,00 é um valor extremo com relação aos outros. Exemplo 1.15: interpretação física da média aritmética mixi é o momento de massa da i-ésima partícula ∑i=1 n mi é a massa total; ∑i=1 n mixi é o momento de massa do sistema X − =∑i=1 n mixi ∑i=1 n mi é o centro de massa do sistema Média geométrica mg= n√x1×x2×…× xn , xi>0 para ∀i Observação: em uma sequência geométrica (progressão geométrica) o termo central entre dois termos é obtido pela média geométrica. Por exemplo, na PG an=6×3n , a2=2√a1×a3= 2√18×162=54 Exemplo 1.16: no exemplo 1.14 a média geométrica ponderada é 21√800 15 ×3000 3×5250 2×12100 1=1315,48 Exemplo 1.17: um jato apresentou as seguintes velocidades registradas em instantes sucessivos: {30 60 120 240 480}. A velocidade segue uma progressão geométrica, ou seja, v=15×2 n; n∈ {1;2;3;4;5}. média geométrica = 5√30×60×120×240×480=120 Exemplo 1.18: a média geométrica é utilizada nas situações envolvendo aumentos sucessivos. Por exemplo, vamos considerar um aumento de salário sucessivo de 15% no primeiro mês, 12% no segundo mês e 21% no terceiro mês. Suponhamos que o salário reajustado seja de R$ 600,00. 600,00*(1,15)=690,00 600,00*(1,15)*(1,12)=772,80 600,00*(1,15)*(1,12)*(1,21)= =600×( 3√1,15×1,12×1,21) 3=600×1,15943 sendo mg= 3√1,15×1,12×1,21=1,1594 Média harmônica mh= n ∑ i=1 n 1 xi xi>0 para ∀i Observação: em uma sequência harmônica o termo central entre dois termos é obtido pela média harmônica. Por exemplo: an=1 n , isto é, {1 1/2 1/3 .......}. Então, a2= 2 1+3=1 2 Exemplo 1.19 (a) Um navio de carga está se aproximando de um ancoradouro e vem desacelerando da seguinte maneira: { 30 15 10 7,5 6}. A velocidade segue uma sequência harmônica, ou seja, v=30 n ; n∈ {1;2;3;4;5}. Média harmônica = 5 1 30 + 1 15+ 1 10+ 1 7,5 + 1 6 =10 (b) Um veículo faz metade de uma distância d a 30 km/h e a outra a 50 km/h. Qual a velocidade média do veículo? 30= d 2 t1 ⇒t1= d 2×30 50= d 2 t2 ⇒t2= d 2×50 vm= d t 1+t2 = d 2 + d 2 d 2×30+ d 2×50 = 2 1 30 + 1 50 =37,5 Neste caso, como distância e tempo são inversamente proporcionais, a velocidade média coincide com a fórmula da média harmônica Comparação entre os tipos de médias (1o) As três médias mantém a seguinte relação entre elas, desde que os valores sejam positivos: mh≤mg≤ ¯X (2o) Média No de operações aritméticas necessárias Condição Harmônica Geométrica Aritmética 2n+1 n n Somente reais positivos Somente reais positivos Qualquer real (3ª) A média mais conhecida e utilizada é a aritmética, pois sua fórmula é mais simples, além de não ficar restrita a valores positivos. Contudo, valores extremos tendem a superestimar. A mediana: requer escala de medida ordinal ou quantitativa. De maneira informal, a mediana de um conjunto ordenado de valores, denotada por Md, é o ponto que separa o conjunto em dois subconjuntos de mesmo tamanho. Por convenção, o conjunto deve estar ordenado em ordem crescente, sendo {x[ .]} a amostra após a ordenação. A amostra original pode estar fora de ordem, com relação aos valores da variável, ou seja, pode acontecer que xi> x j para algum i< j. Na amostra ordenada xi≤ x j para quaisquer i< j. Suponha que n seja ímpar: A mediana é única, e será o elemento “do meio” no conjunto. Agora suponha que n seja par: Autores propõem fazer uma interpolação entre X [ n 2] e X [ n 2 +1], isto é, Med= X [ n 2] +X [ n 2 +1] 2 . Resumindo, Exemplo 1.20: (a) pesos em kg de cinco pessoas: {66; 62; 60; 70; 58} (b) dez usuários de uma operadora de celular foram inquiridos quanto ao número de chips que possuíam: { 1; 2; 1; 1; 1; 2; 3; 1; 2; 2} (c) alturas em cm de seis pessoas: {180; 165; 175; 182; 177; 160} A moda A moda de um conjunto de valores, denotada por Mo, é definida como o valor mais frequente no conjunto. Convém lembrar que a moda pode não ser única, isto é, um conjunto pode ser bimodal, trimodal, etc. No caso em que todas as frequências forem iguais diremos que não há moda. Exemplo 1.21: (a) dado o conjunto {1; 2; 2; 3; 3; 4; 4; 4; 7; 9; 15} a moda é Mo=4, pois este valor é o mais frequente. (b) para o conjunto { 1; 1 ; 2 ; 2 ; 2 ; 3 ; 4 ; 4 ; 4} teremos duas modas: Mo1=2 e Mo2=4 Observação: a mediana exige ordenação das categorias e, por sua vez, é indicada nas seguintes situações: (1ª) quando se deseja obter o ponto que divide o conjunto em duas partes de mesmo tamanho. (2ª) quando há resultados extremos que afetariam a Média de maneira acentuada. Escalas de mensuração e medidas de tendência central Nominal: moda Ordinal: moda, mediana Quantitativa discreta e contínua: moda, mediana e média Medidas de dispersão (variabilidade): requer escala quantitativa Amplitude: a medida de dispersão mais simples, porém “rústica”, é a amplitude, anotada por “h”, e definida como a diferença entre os valores extremos do conjunto, isto é: h=xmax−xmin≥0 Variância e o desvio padrão absolutos As medidas mais utilizadas são a variância e o desvio padrão. Estas medidas têm como ponto de referência a média aritmética. Variância absoluta: S 2=(x1− ¯X ) 2+(x2− ¯X) 2+...+(xn− ¯X) 2 n−1 = ∑ i=1 n (xi− ¯X) 2 n−1 A variância é a soma dos quadrados das distâncias em relação à X − Comparação de três amostras com mesma média aritmética Pode-se mostrar que ∑ i=1 n ( Xi−¯X) 2=(∑ i=1 n Xi 2)−n×( ¯X ) 2. Assim, há uma fórmula alternativa para a variância, ou seja, S 2=(∑ i=1 n Xi 2)−n× (¯X ) 2 n−1 . A variância, por ser um quadrado, não permite comparações com a unidade que estamos trabalhando. Para ter uma medida de variabilidade com a mesma unidade da variável, utiliza-se a raiz quadrada da variância, denominada de desvio padrão. Desvio padrão absoluto: S=√ S 2 Observações: (1ª) variância e desvio padrão são não negativos. (2ª) o desvio padrão mede o grau de dispersão dos valores em torno da média, ou seja, é variabilidade média (em unidades de medida) em torno da média aritmética. (3ª) para julgar se há “pouca” ou “muita” variação, o usuário tem que ter um conhecimento sobre a variável estudada. Exemplo 1.22: {17 18 19 18 22 24 26 18 21} é uma amostra das idades dos ingressantes numa faculdade. ∑ x=183;∑ x2=3799 ; X − =183 9 =20,3333 S2= [172+3×182+192+212+222+242+262]−9×( 183 9 ) 2 8 =9,75 S=3,1225 Note que cada observação pode ser escrita em função da média e do desvio padrão, por exemplo: 26=20,3333+k×3,1225⇒k=1,81 17=20 ,3333+k×3,1225⇒k=−1,07 Coeficiente de variação O coeficiente de variação, também chamado de desvio padrão relativo, é dado por: CV = S |X| − ×100% , ¯X≠0 Observação: o coeficiente de variação é interpretado como o grau de variabilidade relativa em torno da média. Exemplo 1.23: em relação ao exemplo anterior, CV = 3 ,1225 20,3333 ×100%=15,3566% Observações: (1ª) Após calcular a variância surge um problema: o que fazer com o valor obtido? A variância, por ter como unidade de medida o quadrado, pode não ter uma interpretação. Já o desvio padrão fica na mesma unidade de medida da variável. Mesmo assim, o que significa o valor do desvio padrão? Como julgar se há “pouca” ou “muita” variação? Não existe uma regra que permita responder! Dependerá mais da unidade de medida da variável. Por isso, o usuário tem que ter conhecimento sobre a variável analisada. No exemplo 1.22 o desvio padrão foi de 3,1225 anos. Este valor indica pouca ou muita variação? Difícil julgar! (2ª) Alternativa é o coeficiente de variação, o qual é uma medida relativa. Mesmo assim, também não existe uma regra para julgar a variabilidade. No exemplo 1.23, CV=15,3566%. Esse valor é pequeno ou alto? Também dependerá da unidade de medida para fazer este julgamento! Há casos em que fica evidente, por exemplo, se CV=1%, maioria das pessoas diria que é pouca variação. Por outro lado, CV=120%, sem dúvida responderiam que é elevada variação em torno da média. Mas um CV=30% dividiria as opiniões. Exemplo 1.24 (o problema do truncamento de números): os valores seguintes são espessuras em mm de chapas de alumínio: { 6,34 6,38 6,40 6,38 6,36 6,36 6,38 6,20 6,42 6,28}. Obtenha média, desvio padrão e coeficiente de variação. Solução: n=10 ∑ x=63,5 ∑ x2=403,2628 X − =6,35 ; S2=0,0042 ; S=0,064807 ; CV =1,020589% Se o valor do somatório dos quadrados for arredondado para décimos, então: S2=403,3−10×(6,35 )2 9 =0,008333 ; S=0,09128709 CV =1,437592% , que é diferente do resultado sem fazer arredondamento. Se arredondar para X − =6,4 , então S2=403,3−10×(6,4)2 9 =−0,7 , que é impossível (lembre que S2≥0 ). Propriedades das Medidas Seja {x1,,x2,…xn} uma amostra onde foi observada a variável X . (1ª ) c x y i i   ∀i , c  R  c X Y     2 2 X Y S S  (2ª ) i i y  cx ∀i , c  0     c X Y 2 2 2 X Y c S S  (3ª ) b cx y i i   ∀i , c  0 , b  R  b c X Y     2 2 2 X Y c S S  (4ª ) X i i S X x y    ∀i  0   Y 2 1 Y S (5ª) min≤mh≤mg≤ ¯X ≤max 0≤S 2≤( n n−1)h 2,;h=max−min (6ª) amostra A; {x1,...xn} amostra B: {xn+1,.., xn+m} média ponderada: ¯X p=n× ¯X A+m× ¯ X B n+m variância ponderada: Sp 2= (n−1)×S A 2 +(m−1)×SB 2 n+m−2 Distribuições de frequências Para se trabalhar com grandes conjuntos de dados é necessário inicialmente agrupá-los. O agrupamento é feito em tabelas, denominadas de distribuições de frequências. Distribuições de frequências por ponto (ou valores) Exemplo 1.25: peso de 27 embalagens de cereal em decigramas 31,5 32,5 32,5 32,5 32,5 32,5 33,5 33,5 33,5 33,5 33,5 33,5 33,5 33,5 33,5 33,5 33,5 34,5 34,5 34,5 34,5 34,5 34,5 34,5 34,5 35,5 35,5 Distribuição de frequências por ponto xi frequência ( f i ) xi×f i xi 2×f i 31,5 1 31,5 992,25 32,5 5 162,5 5281,25 33,5 11 368,5 12344,75 34,5 8 276 9522 35,5 2 71 2520,5 Total 27 909,5 30660,75 Medidas de tendência central e dispersão: no caso de uma tabela de distribuição de frequência por ponto as fórmulas ficam: n f x f f x X k i i i k i i k i i i            1 1 1 , 1 1 2 2 2            n n X f x S k i i i sendo f i a frequência absoluta (ou simples), que é o número de vezes que ocorre o valor xi , e k o número de valores distintos no conjunto. Observação: as outras medidas: mediana, moda, desvio padrão e coeficiente de variação, têm as mesmas fórmulas. Exemplo 1.26: em relação ao exemplo acima, X − =909,5 27 =33,6852 ; Mo=33,5; Mediana=33,5 S2=30660,75−27×(33,6852)2 26 =0,9250 ; S=0,9617 ; CV=2,8566%. Distribuições de frequências por classes (ou intervalos) Ao construirmos a distribuição de frequências por classes haverá perda de informação, mas haverá uma melhor organização na apresentação e compreensão, como ilustra o exemplo 1.27. Algoritmo para a construção de uma tabela de distribuição frequências por intervalos (1º) Determinar a amplitude dos dados: h=xmax−xmin . (2º) Decidir sobre o número de classes k a ser utilizado. Recomenda-se um número de classes entre 5 e 15. Para que a decisão não seja totalmente arbitrária, pode-se usar a raiz quadrada do número de valores, ou seja, k=√n ou k=ln(n) . (3º) Determinar a amplitude de cada classe. Sempre que possível manter todas as amplitudes iguais. Para tanto, deve-se dividir a amplitude dos dados “h” pelo número de classes “k”, arredondando para mais, ou seja, hi≃h k . (4º) Contar o número de valores pertencentes a cada classe. As classes devem ser disjuntas (sem intersecção). Em geral, utiliza-se a notação (|--- ), para indicar um intervalo fechado à esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|), aberto de ambos os lados ( --- ) ou ainda fechado de ambos os lados (|---|). Elementos de uma tabela de distribuição de frequências por intervalos Intervalos ix if iF ifr Fri i i x  f i i x  f 2 1l |------- 1L 1x 1f 1 F 1 fr 1 Fr 1 1 x  f 1 2 1 f x  2l |------- L2 2x 2f F2 fr2 Fr2 2 2 x  f 2 2 2 f x  kl |------- Lk kx kf n frk 1 k k x  f k k x  f 2 Total ---- n ---- 1 ----   i i f x   i i f x 2 k é o número de classes il é o limite inferior de classe iL é o limite superior de classe 2 i i i L l x   é o ponto médio de classe i i i l L h   é a amplitude de classe if é a frequência absoluta de classe iF é a frequência acumulada de classe, ou seja, F1=f 1 , Fi=f i+Fi−1 , para i≥2 ifr é a frequência relativa de classe, isto é, fri= f i n i Fr é a frequência relativa acumulada de classe, ou seja, 1 1 Fr  fr ; 2 1 2 fr fr Fr   ; ......; 1 2 1      k k fr fr fr Fr  Exemplo 1.27: diâmetro de eixos de veículos agrícolas em cm. x 1,00 1,02 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 f 1 1 1 14 8 8 6 6 5 9 8 9 5 6 6 6 5 x 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 f 3 2 6 6 4 4 3 3 3 5 2 2 2 1 1 1 1 x 1,36 1,37 1,39 f 1 1 1 Tabela de distribuição de frequências com 8 classes Diâmetros ix f i iF Percentual xi×f i xi 2×f i 1,00 |— 1,05 1,05 |— 1,10 1,10 |— 1,15 1,15 |— 1,20 1,20 |— 1,25 1,25 |— 1,30 1,30 |— 1,35 1,35 |— 1,40 1,025 1,075 1,125 1,175 1,225 1,275 1,325 1,375 3 42 36 26 22 16 7 4 3 45 81 107 129 145 152 156 1,92 26,92 23,08 16,67 14,10 10,26 4,49 2,56 3,075 45,15 40,5 30,55 26,95 20,4 9,275 5,5 3,151875 48,53625 45,5625 35,89625 33,01375 26,01 12,289375 7,5625 Total -------- 156 -------- 100 181,4 212,0225 O ponto médio de um intervalo é xi=li+Li 2 , seja para intervalo aberto ou fechado. Lembre que a notação |------- significa fechado à esquerda e aberto à direita. Para o 1o intervalo o ponto médio é x1=1+1,05 2 =1,025 . O número de observações no intervalo 1|------ 1,05 é f 1=3 . A coluna das frequências acumuladas inicia com F1=f 1=3 . Depois F2=F1+f 2=3+42=45 e assim até que F8=F7+f 8=152+4=156 Observações: (1a) Deve-se evitar tabelas com frequências zero ou 1. Se isto ocorrer, aglutine com outro intervalo. (2a) Comumente encontramos tabelas com intervalos de mesma amplitude, pois assim facilita os cálculos. Também é comum intervalos fechados à esquerda e abertos à direita. Medidas de tendência central e dispersão No caso de uma tabela de distribuição de frequência por intervalos as fórmulas para média e variância ficam as mesmas do caso de distribuições por ponto, exceto que onde tiver xi você deve utilizar o ponto médio de classe. Na fórmula da média e variância para dados agrupados em intervalos utilizamos o ponto médio xi=li+Li 2 . Fazendo isto, haverá uma aproximação para a média e variância, ou seja, as medidas serão diferentes daquelas feitas com os dados originais. No exemplo 30 será visto que as medidas para a distribuição por intervalo resultam diferentes daquelas feitas com os dados originais. As fórmulas da mediana e moda também são aproximações feitas por interpolação. Mediana: para localizar a classe mediana procuramos na coluna das frequências absolutas acumuladas a primeira Fi tal que Fi≥n 2 . Med=lm+hm×⟦ n 2−Fm−1 f m ⟧ ml o limite inferior da classe mediana m h a amplitude da classe mediana mf a frequência simples da classe mediana Fm1 a frequência acumulada da classe anterior à mediana Moda pelo processo de King: O primeiro passo é localizar a classe modal, aquela com maior frequência absoluta. Se houver mais de uma classe modal então a fórmula da moda é aplicada em cada classe modal. Moda=lm+hm×⟦ f m+1 f m+1+f m−1⟧ ml o limite inferior da classe modal m h a amplitude da classe modal mf 1 a frequência simples da classe posterior à modal mf 1 a frequência simples da classe anterior à modal Exemplo 1.28: com relação ao exemplo anterior, para a tabela com 8 classes: X − =181,4 156 =1,1628 S2=212,0225−156×(1,1628)2 156−1 =0,00712 S=0,0837 C .V=7,2013% Uma vez que 81> n 2=78 então a classe mediana é 1,10|-------1,15. Aplicando a fórmula: Med=1,10+0,05×( 78−45 36 )=1,1458 A classe modal é 1,05|-------1,10, pois tem maior frequência absoluta. Pelo processo de King, Mo=1,05+0,05×( 36 36+3)=1,096 . Conclusão: Mo<Med< X − devido à forma assimétrica à direita da distribuição (veja o gráfico no exemplo 1.30) Medidas Observações originais Observações agrupadas em 8 classes Média Variância Desvio padrão CV Mediana Moda 1,1561 0,00772 0,0855 7,3998% 1,14 1,05 1,1608 0,00737 0,0837 7,2013% 1,1458 1,096 Representações Gráficas Histograma: representação gráfica no plano cartesiano, sendo que o eixo das coordenadas corresponde aos valores (ou intervalos ) da variável e no eixo das abscissas são as frequências observadas. Note que pode ser frequências absolutas ou relativas. Exemplo 1.29 (caso de variável discreta): Exemplo 1.30 (caso de variável contínua): Histograma para a distribuição de frequências do exemplo 1.28. Diagrama de dispersão Um dos métodos mais usados para a investigação de pares de dados é a utilização de diagramas de dispersão cartesianos (ou seja, os conhecidos diagramas x-y). Geometricamente, um diagrama de dispersão (scatterplot em inglês) é simplesmente uma coleção de pontos num plano cujas duas coordenadas Cartesianas são os valores de cada membro do par de dados. E por que fazemos um diagrama de dispersão? Este é o melhor método de examinar os dados no que se refere à ocorrência de tendências (lineares ou não), agrupamentos de uma ou mais variáveis, mudanças de variabilidade de uma variável em relação à outra e verificar a ocorrência dos chamados ‘outliers’ (valores estranhos). Exemplo 1.31: Dados de temperatura média e a máxima obtidas em estação automática, em maio de 1998. Gráfico de setores É um diagrama circular onde as áreas de cada setor são proporcionais às respectivas freqüências. Este gráfico pode vir acompanhado de suas respectivas porcentagens. O ângulo correspondente na circunferência, para a i-ésima categoria, será: θ i=f i n ×360 . Exemplo 1.32: principais meios de transporte utilizados. Gráfico Polar Neste tipo de gráfico haverá círculos concêntricos . Poderão ser representados um ou mais fenômenos, variando no tempo ou espaço. Exemplo 1.33: Análise Exploratória de dados Tukey propôs uma maneira de avaliar a forma da distribuição de frequências quanto à assimetria e dispersão. Ele chamou de esquema dos cinco números. Ele se referia às medidas: mínimo, máximo, mediana, 2o quartil e 3o quartil. Um quartil é a extensão da mediana. Os quartis dividem a amostra em 4 subconjuntos de mesmo tamanho. São necessários 3 quartis para dividir a amostra em 4 subconjuntos. Note que o 2o quartil é a própria mediana. Tukey chamou Q1 e Q3 de juntas. Assim, J 1=Q1; J3=Q3 , e a distância interquartílica é dJ=J 3−J1 . Ele imaginou um retângulo, que passou a ser chamado de BOX PLOT. Por convenção, valores na amostra que estão abaixo de J 1−3 2 dJ ou acima de J 3+3 2 dJ são considerados possíveis OUTILIERS (observações estranhas). Visualizando o gráfico teremos uma ideia preliminar sobre a assimetria e a dispersão da amostra. Exemplo 1.34: no de empregados de microempresas min=2;max=6;Q1=2,5;Q2=Md=3;Q3=4,5 Observe que neste exemplo a distribuição de frequências está concentrada à esquerda, pois os valores 2 e 3 são mais frequentes. Isto explica a forma assimétrica do BOX PLOT(veja figura ao lado) 2ª Parte – Números Índices Definições Número índice: é a relação entre o valor de uma variável entre duas datas diferentes. Nota: números índice são valores relativos (adimensionais). Notação: I b,c= vc vb ×100 % vc é o valor da variável na data considerada vb é o valor da variável na data -base Exemplo 2.1: qual o índice de crescimento do salário de um operário da construção civil, sabendo-se que ele ganhava US$8,79/hora, em 1996, e que depois, em 1997, passou a receber US$10,60/hora? I 96;97=US $ 10,60 US $ 8,79 ×100=120,59 % Em 1 ano, o operário teve um aumento de 120,59%-100%=20,59%. Relativos: números-índice também são denominados de valores relativos, ou simplesmente de relativos. Preço relativo: pb ,c= pc pb ×100 % pc é o preço considerado pb é o preço-base Quantidade relativa: qb,c= qc qb ×100 % qc é a quantidade considerada qb é a quantidade-base Valor relativo: é o quanto foi gasto com um produto, isto é, vb,c=pb,c×qb,c Observação: outra maneira é representar o índice como I 0,t , sendo zero denotando o instante inicial (data base) e t o instante final (data considerada). Índices Agregativos Estes índices agregados procuram captar o efeito global devido à evolução dos preços (ou quantidades) de um conjunto de itens entre duas datas. Índice de Dutot: foi estabelecido em 1738, é dado por: D0 ,t= ∑ i X t(i) ∑ i X0(i) ×100 % Exemplo 2.2: a seguir estão os preços de quatro produtos em 2 datas distintas. Produtos Data inicial Data final Leite 36 42 Pão 6 8 Café 76 92 Açúcar 19 25 ∑ 137 167 D0,t=167 137 ×100%=121,90% Propriedades desejáveis de um número-índice: (1ª) Identidade: I b,b=100 (2ª) Reversibilidade: I b,c= 1 I c ,b (3ª) Circularidade: I a,b×I b ,c=I a ,c (4ª) Decomposição das causas: se uma variável econômica é dada por uma composição de outras variáveis, o índice dessa variável deve ser obtido pela mesma composição dos índices de cada variável. Por exemplo, v=p×q⇒va ,b=pa ,b×qa ,b . (5ª) Homogeneidade: mudanças nas unidades das variáveis componentes não deverão modificar em nada o valor do índice. (6ª) Proporcionalidade: se todas variáveis componentes do índice tiverem a mesma variação então o número-índice obtido deverá fornecer exatamente essa variação. (7ª) Determinabilidade: o número-índice deve ser sempre finito, determinável e diferente de zero, mesmo quando o valor de algumas das variáveis (mas não todas) é nulo. Observação: não há um índice que atenda a todas as propriedades Principais indices agregativos Índice de Laspeyres: L0 ,t=∑ i Xt(i) X 0(i)×f 0(i) % f 0(i)= p0(i)×q0(i) ∑ j p0( j)×q0( j ) é o fator de ponderação p0(i) é o preço do i-ésimo item na data-base q0(i) é a quantidade consumida do i-ésimo item na data-base Note que 0<f 0( j)<1;∑ j f 0( j )=1 L0,t p =∑ i pt(i) p0(i)×f 0(i)×100% . Pode-se mostrar que: preços: L0,t p = ∑ i pt(i)×q0(i) ∑ i p0(i)q0(i) ×100% quantidades: L0,t q = ∑ i p0(i)×qt(i) ∑ i p0(i)q0(i) ×100% valores: L0,t v = ∑ i pt(i)×qt(i) ∑ i p0(i)q0(i) ×100% Índice de Paasche: O índice de Laspeyres é a média aritmética ponderada dos relativos, adotando como fator de ponderação a participação relativa de cada item no total dos bens consumidos na data-base. Já, o índice de Paasche, é a média harmônica ponderada dos relativos adotando como fator de ponderação a participação relativa de cada item no total dos bens consumidos na data considerada. P0 ,t= 1 ∑ i X0(i) Xt(i) f t(i) f t(i)= pt(i)×qt(i) ∑ j pt( j)×qt( j) Note que 0<f t( j)<1;∑ j f t( j)=1 preços: P0,t p = ∑ i pt(i)×qt(i) ∑ i p0(i)qt(i) ×100% quantidades: P0,t q = ∑ i pt(i)×qt(i) ∑ i pt(i)q0(i) ×100% valores: P0,t v = ∑ i pt(i)×qt(i) ∑ i p0(i)q0(i) ×100% Observação: L0 ,t v =P0,t v Exemplo 2.3: Produto Unidade Janeiro 97 Agosto 97 Preço Quantidade Preço Quantidade Carne Kg 8,8 4,5 11,12 4,3 Arroz Kg 1,7 5 1,7 5 Óleo Lata 2,19 5 2,3 3 Pão 50g 0,08 60 0,1 55 Manteiga Pote 1,58 3 1,6 2 laranja Dúzia 2,4 3 2,4 2 A seguinte tabela foi obtida pelo EXCEL: p0 q0 pt qt p0*q0 pt*q0 p0*qt pt*qt 8,8 4,5 11,12 4,3 39,60000 50,04000 37,84000 47,81600 1,7 5 1,7 5 8,50000 8,50000 8,50000 8,50000 2,19 5 2,3 3 10,95000 11,50000 6,57000 6,90000 0,08 60 0,1 55 4,80000 6,00000 4,40000 5,50000 1,58 3 1,6 2 4,74000 4,80000 3,16000 3,20000 2,4 3 2,4 2 7,20000 7,20000 4,80000 4,80000 ------- ------- ------ ----- 75,79000 88,04000 65,27000 76,71600 L0 ,t p =( ∑ i pt(i)q0(i) ∑ i p0(i)q0(i )) ×100%=88,04 75,79 ×100%=1,1616308×100%=116,16308 % L0 ,t q =0,8611954×100%=86,11954 % L0 ,t v =1,0122179×100%=101,22179% P0 ,t p =1,1753638×100%=117,53638% P0 ,t q =0,8713766×100%=87,13766% P0 ,t v =1,0122179×100%=101,22179% Índices individuais para valor: Carne: 47,816 39,6 =1,2074 ; Arroz: 8,5 8,5=1 ; Óleo: 6,9 10,95 =0,63014 Pão: 5,5 4,8=1,145833 ; Manteiga: 3,2 4,74=0,6751 ; Laranja: 4,8 7,2=0,6667 A média aritmética dos índices individuais acima é 0,887536×100%=88,7536% , diferente de L0 ,t v =1,0122179×100%=101,22179% Observe que não se utiliza índices individuais, e sim os índices agregativos. Como pode ser visto, os índices agregativos não são iguais à média dos índices individuais. Uso dos indices de Laspeyres e Paasche data atual passado (indice de Paasche ) futuro (indice de Laspeyres) Z S S ponderado pela data considerada | ponderado pela data-base. por isso ¢ util para avaliar a variacao dos precos futuros em relacao a data-base Restricdo dos indices de Laspeyres e Paasche (12) servem para avaliar datas proximas e regides semelhantes (22) nao atendem ao principio da decomposi¢ao de fatores Indice de Fisher: tem como principal vantagem o fato de satisfazer as propriedades da decomposi¢ao das causas e da reversibilidade no tempo, contudo, nado atende a propriedade de circularidade. E dado pela média geométrica dos indices de Laspeyres e Paasche: Fo =V Ly .XPo,1 Indices Brasileiros No Brasil ha uma fartura de indices econédmicos, além de um mesmo indice ser calculado por mais de uma institui¢do e com métodos distintos. A maioria dos indices utilizam a formula de Laspeyres modificada. Uma discussdo sobre o assunto pode ser encontrada em Milone & Angelini - Estatistica Aplicada. Citamos apenas Os principais indices: Municipio de Sao Paulo * IPC (Indice de precos ao consumidor) /FIPE * ICV (Indice do custo de vida) / DIEESE No Brasil * INPC (Indice Nacional de Precos ao consumidor) /IBGE * IPCA (Indice de Precos ao consumidor ampliado) * IGP (Indice geral de precos) / FGV * IPA (Indice de precos por atacado) * INCC ( Indice Nacional da construcao civil) / FGV * Titulos da divida publica: os extintos ORTN, OTN, BTN. Também citamos a taxa SELIC e a TR. * IBV (Indice da bolsa de valores) * IDEB (Indice de desenvolvimento da educa¢ao basica) Indices internacionais PIB (Produto Interno Bruto), FIB (Felicidade Interna Bruta), Risco Brasil, Indices da ONU, BIRD, e outros 6rgdos internacionais. 3ª Parte - Fundamentos da Probabilidade Objeto de estudo da Teoria da Probabilidade A Teoria da Probabilidade tem como objeto de estudo os fenômenos aleatórios. No dicionário Michaelis da língua portuguesa “aleatório” tem o sentido de eventual, fortuito, incerto. Fenômenos determinísticos: o resultado observado é determinado pelas condições sob as quais o fenômeno ocorreu. Exemplo 3.1 (fenômeno determinístico): sempre que um corpo descreve uma trajetória circular, a força centrípeta é dada, a cada instante, pela resultante das forças que atuam no corpo, na direção do raio da trajetória. O globo da morte exemplifica a atuação da força centrípeta. Modelos Determinísticos: F=m×a , sendo F a força resultante, m a massa do corpo e a a aceleração E=m×c2 , sendo E energia, c a velocidade da luz Fenômenos aleatórios: o resultado não é determinado pelas condições de realização do fenômeno. Exemplo 3. 2: tempo de duração de uma lâmpada fluorescente Modelos Probabilísticos Modelos probabilísticos são modelos matemáticos que descrevem fenômenos aleatórios. Experimentos aleatórios são fenômenos aleatórios executados por nós. Exemplo 3.3 (Exemplos de Experimentos Aleatórios): EX1: Jogue um dado e observe o nº da face de cima EX2: Jogue uma moeda 3 vezes e observe o nº de caras EX3: Jogue uma moeda 3 vezes e observe as sequências de faces EX4: no. de peças defeituosas em um lote contendo N itens EX5: tempo de duração de uma lâmpada até esta queimar EX6: lance uma moeda até que ocorra a face cara pela primeira vez Espaço Amostral: é o conjunto de todos os resultados possíveis de um experimento aleatório. Notação:  ,   . Exemplo 3.4 (Exemplos de espaços amostrais): com relação aos exemplos anteriores, } 6,5,4,3,2,1 1 { } 3,2,1,0 2 { Ω3 ={KKK, CCC, KKC, KCK, CKK, CCK, CKC, KCC} C ”cara” K ”coroa” } ,...., 2,1,0 { 4 N   Ω5={t∈ℝ:t≥0} Ω6 = { C, KC, KKC, KKKC, ........} Tipos de espaços amostrais Finito: Ω1;Ω2;Ω3;Ω4 Infinito enumerável: Ω6 Não enumerável: Ω5 Evento: é um subconjunto do espaço amostral. Notação: A B C , , A  , B  ,  , C Observação: Ώ é dito evento certo e Ø evento impossível. Tipos de eventos: Simples: formado por um único elemento do espaço amostral. Composto: é a combinação de dois ou mais elementos do espaço amostral. Exemplo 3.5: considere um baralho padrão de 52 cartas, ou seja, 9 números e 4 figuras, cada um com 4 naipes. Ás (vale 1 em alguns tipos de jogos) 2; 3; 4; 5; 6; 7; 8; 9; 10 J = 11; Q = 12 ; K =13 Naipes: copas paus espada ouro Uma carta é retirada ao acaso e anota-se seu número e naipe. Escreva: os seguintes eventos: A: “ocorre naipe de ouro” B: “ocorre número ímpar” C: “ocorre número par” D: “ocorre 7 belo” Solução: Operações com eventos Seja Ώ um espaço amostral e A,B eventos. Então, as seguintes operações com eventos são definidas: (1º ) Evento união: A∪B : “ ocorre somente A, ou ocorre somente B, ou ocorrem ambos” (2º ) Evento intersecção: A∩B: “ocorre A e B simultaneamente” (3º) evento complementar: c A : “não ocorre A” (4º) evento diferença: A  B : “ocorre A e não B” Observação: A−B=B c∩A ; A−B=A−A∩B ; A=( A∩B )∪(B c∩A) Alguns resultados sobre a teoria dos conjuntos (1o) A∪A=A , A∩A=A (2o) A∪(B∩C)=( A∪B)∩( A∪C) , A∩(B∪C)=( A∩B)∪( A∩C) (3o) Ω∪A=Ω , Ω∩A=A ∅∪A=A , ∅∩A=∅ (4o) ( A∩B) c=A c∪B c , ( A∪B) c=A c∩B c Considere três eventos A,B,C Sentença Em notação de conjuntos (1a) Nenhum ocorre ( A c∩B c∩C c)=( A∪B∪C) c (2a) Somente um ocorre ( A∩B c∩C c)∪( A c∩B∩C c)∪(A c∩B c∩C) (3a) Somente dois ocorrem ( A∩B∩C c)∪( A∩B c∩C)∪( A c∩B∩C) (4a) Todos ocorrem ( A∩B∩C) (5a) Pelo menos um ocorre (A∪B∪C )=( A c∩B c∩C c) c (6a) Pelo menos dois ocorrem união (3a) com (4a) (7a) Pelo menos três ocorrem equivale a (4a) (8a) No máximo um ocorre união de (1a) com (2a) (9a) No máximo dois ocorrem união de (1a), (2a) e (3a) (10a) No máximo três ocorrem união de (1a), (2a), (3a) e (4a) Eventos exclusivos: A, B são mutuamente exclusivos se A∩ B=∅ . Eventos não exclusivos: se A∩ B≠∅ . Definição: Seja uma sequência de eventos ,....   , A1 A2 . Os eventos ,....} , { 1 A2 A são mutuamente exclusivos (disjuntos), dois a dois, se e somente se Ai A j=∅ ∀i≠ j Definição: uma união de eventos A, B tais que A∩ B=∅ é dita união disjunta. Exemplo 3.6: lance dois dados e observe as faces. Enumere:  A: “face do 1o dado é menor ou igual que a do 2o ” B: “a soma das faces é menor ou igual a 6” C: “a face do 1o dado é ímpar” D: “a face do 2o dado é igual ao dobro da face do 1o ” A∩B ; A∪B ; D c Solução: Cada elemento do espaço amostral é da forma: ( ______ ______) 1º dado 2º dado O experimento de lançar 2 vezes o mesmo dado também tem o mesmo espaço amostral , sendo que cada elemento é da forma : ( ______ ______ ) 1º lanç 2º lanç Ω={ (1,1);(1,2);(1,3);(1,4);(1,5);(1,6) (2,1);(2,2);(2,3);(2,4);(2,5);(2,6) (3,1);(3,2);(3,3);(3,4);(3,5);(3,6) (4,1);(4,2);(4,3);(4,4);(4,5);(4,6) (5,1);(5,2);(5,3);(5,4);(5,5);(5,6) (6,1);(6,2);(6,3);(6,4);(6,5);(6,6)} A={ (1,1);(1,2);(1,3);(1,4);(1,5);(1,6);(2,2) (2,3);(2,4);(2,5);(2,6);(3.3);(3,4 );(3,5) (3,6);(4,4);(4,5);(4,6)(5,5);(5,6);(6,6)} ={(x , y)| x≤ y} B={ (1,1);(1,2);(1,3);(1,4);(1,5) (2,1);(2,2);(2,3);(2,4 );(3,1) (3,2);(3,3);(4,1);(4,2);(5,1)} ={(x , y)|x+ y ≤6} C={ (1,1) (1,2)(1,3)(1,4)(1,5)(1,6) (3,1)(3,2)(3,3)(3,4) (3,5)(3,6) (5,1) (5,2)(5,3)(5,4)(5,5)(5,6)} D={(1,2);(2,4);(3,6)}={(x, y)| y=2 x} ; D c=Ω−{(1,2);(2,4);(3,6)} A∩ B={(1,1);(1,2);(1,3);(1,4);(1,5);(2,2);(2,3);(2,4);(3.3)} A∪ B={ (1,1);(1,2);(1,3);(1,4);(1,5);(1,6);(2,1);(2,2);(2,3) (2,4);(2,5);(2,6);(3,1);(3,2) (3.3);(3,4);(3,5);(3,6) (4,1);(4,2);(4,4);(4,5);(4,6);(5,1);(5,5);(5,6);(6,6)} Concepções de Probabilidade A concepção clássica de probabilidade: todos resultados possíveis do experimento são igualmente prováveis. P(ϖ )= 1 N , ∀ ϖ∈Ω , N=#Ω . P( A)= a N , sendo a o número de elementos do evento A Exemplo 3.7: lançamento de um dado honesto, observando-se a face de cima. } 6,5,4,3,2,1 {  6 1 (6) ..... (2) )1(     P P P A = “face par”; P( A)=3 6 Nota: a concepção clássica de probabilidade é válida somente para espaços amostrais finitos. Observações: (1ª) P(A) lemos como a “probabilidade do evento A”. (2ª) Uma probabilidade não tem unidade de medida. É um grau entre 0 e 1 (ou 0% e 100%). A concepção frequencista de probabilidade: a probabilidade de um evento é medida observando-se a frequência relativa do mesmo em uma sucessão de realizações do experimento. A frequência relativa é definida como: f r (n)( A )= r(n )( A ) n , r(n )( A) é o número de ocorrências do evento A até n realizações do experimento. A frequência relativa é um número entre zero e 1. A probabilidade do evento A será P( A)=limn→∞ f r (n )( A) , se o limite existir, ou seja, se a sequência {f r (n)(A):n≥1} convergir. Exemplo 3.8: : Resultados de 50 lançamentos de uma moeda equilibrada. O evento A é ocorreu a face cara. n Resultado r(n )( A) f r ( n)( A ) 1 2 3 4 5 6 7 8 9 10 11 C C K C C K K C K K C 1 2 2 3 4 4 4 5 5 5 6 1 1 2/3 3/4 4/5 4/6 4/7 5/8 5/9 5/10 6/11 A concepção axiomática de probabilidade: construção de uma teoria matemática para as probabilidades, com base em “axiomas”. Exemplo 3.9: axiomática de Kolmogorov Axiomas da Teoria das Probabilidades (Kolmogorov) Uma medida é dita probabilidade se e somente se: (1) P( A)≥0,∀ A ⊂Ω (2) P(Ω)=1 (3) P( A1∪A2∪…)=P(A1)+P( A2)+…, se A1, A2….estiverem contidos em  e forem disjuntos dois a dois. Propriedades das Probabilidades As propriedades a seguir decorrem imediatamente dos axiomas: (1a) P( A c)=1−P( A) prova: Ω=AU A c ⇒P(Ω)=P( A)+P( A c)⇒1=P( A)+P( A c)⇒P( A c)=1−P( A) (2a) P(∅)=0 prova: P(∅)=P(Ω c)=1−P(Ω)=1−1=0 (3a) Se A⊆B então P( A)≤P(B) e P(B−A)=P(B)−P( A) Como ( A∩B)⊂A,( A∩B)⊂B , P( A−( A∩B))=P( A)−P( A∩B) e P(B−(A∩B))=P(B)−P( A∩B) (4a) P( A)≤1 (5a) Para A, B eventos quaisquer P( A∪B)=P( A)+P(B)−P( A∩B) (6a) Para A, B, C eventos quaisquer P( A∪B∪C)=P( A)+P(B)+P(C)−P( A∩B)−P(A∩C )−P(B∩C)+P( A∩B∩C) Exemplo 3.10: uma peça produzida pode apresentar defeito tipo A com probabilidade p, tipo B com probabilidade q e ambos defeitos com probabilidade r. Qual a probabilidade ? (a) Apresentar pelo menos um defeito (b) Não apresentar nenhum dos defeitos (c) Apresentar apenas um dos defeitos Solução: (a) P( A∪B)=P( A)+P(B)−P( A∩B)=p+q−r (b) P((A∪ B) c)=1−P (A ∪ B)=1−p−q+r (c) P((A∩B c)∪( A c∩B))=(P( A)−P(A∩B))+(P(B)−P(A∩B))= =p−r+q−r= p+q−2r Métodos de enumeração Princípio da multiplicação: tarefas realizadas sequencialmente, isto é, n1×n2×∙∙∙×nk Princípio da adição: tarefas realizadas de forma mutuamente exclusivas, isto é, n1+n2+∙∙∙+nk Seja uma população finita constituída de N elementos. Considere uma amostra de tamanho n. Então: (1º) O número de amostras com reposição, considerando a ordenação, é Nn Amostras diferem pela ordenação. Nn é dito arranjos com reposição (2º) O número de amostras sem reposição, considerando a ordenação é A N n = N ! ( N−n)! , n≤N A N n é dito arranjos sem reposição (3º) o número de amostras sem reposição, desconsiderando a ordenação é CN n = AN n n! . Também vale que CN n = N ! (N−n)!×n! . ( N n)=CN n é dito coeficiente binomial (4º) a extensão de permutações é chamada de permutações com elementos repetidos. P(n1,n2,...,nr)= n! n1!×n2!×...×nr! , n=n1+n2+ ...+nr Se r=2 temos o coeficiente binomial. Por exemplo, quantos anagramas têm a palavra MATEMÁTICA? M ocorre 2 vezes A ocorre 3 vezes T ocorre 2 vezes E ocorre 1 vez I ocorre 1 vez C ocorre 1 vez P(2,3,2,1,1,1)= 10! 2!×3!×2!×1!×1!×1=151200 Exemplo 3.11: seja um conjunto Ω={ϖ1,ϖ2,ϖ3} e considere uma amostra de tamanho dois. Então: N=3 e n=2. No processo com reposição é considerada a ordenação, assim, as amostras possíveis são: (ϖ1,ϖ1) (ϖ1,ϖ2) (ϖ1,ϖ3) (ϖ2,ϖ1) (ϖ2,ϖ2) (ϖ2,ϖ3) (ϖ3,ϖ1) (ϖ3,ϖ2) (ϖ3,ϖ3) , portanto: P[(ϖi,ϖ j)]= 1 32 . No processo sem reposição, considerando ordenação, teremos: (ϖ1,ϖ2) (ϖ1,ϖ3) (ϖ2,ϖ1) (ϖ2,ϖ3) (ϖ3,ϖ1) (ϖ3,ϖ2) , e portanto: P[(ϖi,ϖ j)]=1 6 . No processo sem reposição, desconsiderando ordem, teremos: (ϖ1,ϖ2) (ϖ1,ϖ3) (ϖ2,ϖ3) . Note que no caso em que a ordem é desconsiderada, algumas pessoas respondem que P[(ϖi,ϖ j)]=1 6 , que está errado, pois a soma de todas as probabilidades não será 1. Quando a ordem não é considerada, P[(ϖi,ϖ j)] é multiplicada por n! , que é o número de réplicas da amostra, isto é: P[(ϖi,ϖ j)]=2×1 6=1 3 Isto acontece porque as réplicas, que eram do caso com ordenação, serão consideradas iguais, como mostra a figura abaixo: Exemplo 3.12: considere um congresso onde compareceram 35 engenheiros, 25 matemáticos e 15 físicos. Se for formada, ao acaso, uma comissão de 10 membros, qual a probabilidade de que esta seja constituída de: (a) 5 engenheiros, 3 matemáticos e 2 físicos em qualquer sequência ? (b) Exclusivamente de engenheiros, ou de matemáticos, ou de físicos ? (c) Mesma composição de (a), mas os cientistas de mesma área querem ficar juntos, contudo matemáticos não querem ficar ao lado de físicos. Solução: (a) pelo princípio da multiplicação, e uma vez que a ordem em que sentam não tem importância, C35 5 ×C25 3 ×C15 2 C75 10 = 35×34×33×32×31 120 ×25×24×23 6 ×15×14 2 75×74×73×72×71×70×69×68×67×66 3628800 =0,094577978 (b) pelo princípio da adição, C35 10 C75 10 + C25 10 C75 10 +C15 10 C75 10 = A35 10 A75 10+ A25 10 A75 10 + A15 10 A75 10=0,0002254 Note que há somente uma sequência EEEEEEEEEE, por isso, C35 10 C75 10= A35 10 A75 10 . (c) MEF ou FEM A25 3 ×A35 5 ×A15 2 A75 10 + A15 2 ×A35 5 ×A25 3 A75 10 =0,0000751 Note que agora se utilizou arranjos, pois a disposição na mesa terá uma ordenação. Probabilidade condicional Definição: seja Ω um espaço amostral e A ,B⊂Ω eventos. Definimos a probabilidade condicional de A , dado que ocorreu B, por : Observações: (1ª) A notação P(A | B) é entendida como a probabilidade de A ocorrer, sabendo-se que B já ocorreu. Algumas pessoas entendem que é para dividir A por B, mas isto não faz sentido, pois a barra “|” que aparece entre “A” e “B” é para informar que “B” já ocorreu. (2ª) A interpretação de P(A | B) é que uma vez conhecido o fato de que o evento B ocorreu, então não é mais necessário pensar em todo o espaço amostral. Na verdade, agora B passa a ser o “espaço amostral reduzido ”. Exemplo 3.13: extrair sem reposição, considerando a ordem das cores, duas bolas de uma urna com 5 azuis e 3 brancas. Para facilitar, faremos distinção apenas nas cores das bolinhas. Assim, Ω={(b,b);(b,a);(a,b);( a,a)} Sejam B = “1ª bola é branca” e A = “a 2ª bola é azul”. (a) Calcule P(B∩A) (b) Calcule a probabilidade de ocorrer uma branca e uma azul em qualquer ordem Solução: (a) B={(b,b);(b,a)} Bc={(a ,b);(a,a)} A={(b ,a);(a,a)} Ac={(b,b);( a,b)} (B∩A)={(b,a)} B c∩A={(a,a)} P(B∩ A )= A3 1× A5 1 A8 2 = 15 56 . Note que não vale P(B∩A )=# B ≠Ω =1 4. Somente valeria se houvesse mesmo número de bolas para as cores e se as extrações fossem com reposição. Outra maneira de obter P(B∩A ) é através da probabilidade condicional, isto é, P(B∩A )=P (B )×P (A|B)=3 8 × 5 7 =15 56 (b) P((b,a) (a,b ))=2× 3 8 × 5 7=30 56 =C3 1×C5 1 C8 2 Propriedades das probabilidades condicionais (1ª) 0≤P(A| B)≤1 (2ª) P( A∩B)=P( A)×P(B| A) ; P(B∩A)=P(B)×P( A|B) P( A∩B∩C)=P( A)×P(B| A)×P(C |( A∩B)) (3ª) P( A∪B|C)=P( A|C)+P(B|C) se A∩B=∅ Exemplo 3.14: outra maneira de resolver o Exemplo 3.12 (a). Note que algumas pessoas responderiam que a solução é ( 35 75 ×34 74 ×33 73×32 72×31 71)×( 25 70×24 69×23 68)×( 15 67 ×14 66) , que está errada, pois a ordem em que os membros são formados não está fixada, ou seja, é preciso levar em conta todas as posições dos membros dentro da comissão! A resposta correta é: C35 5 ×C25 3 ×C15 2 C75 10 = 10! 5!×3!×2!×( 35 75×34 74×33 73×32 72×31 71)×( 25 70×24 69×23 68)×( 15 67×14 66) Note que 10! 5!×3!×2! é dito coeficiente trinomial. Exemplo 3.15: considere uma urna contendo 5 bolas brancas, 4 verdes e 3 pretas. Uma pessoa retira, sem reposição, 3 bolas. Qual a probabilidade: (a) ocorrer a seguinte sequência de cores: verde, preta e branca? (b) saírem três cores diferentes? (c) ocorrer pelo menos uma branca? (d) sabendo-se que na 1ª extração saiu uma verde, qual a probabilidade de saírem mais duas verdes? (e) todas as cores iguais Solução: se fizermos distinção entre bolas de mesma cor, então a cardinalidade do espaço amostral será A12 3 =1320 . Logo, será um trabalho árduo escrever todo  . Fazendo distinção apenas das cores, , Ω={bbb,bbv ,bvb,vbb,…, ppp}, #Ω=33=27 (a) P(v pb)=P(v∩p∩b)=P(v)×P( p|v)×P(b|(vp))= 4 12× 3 11× 5 10 (b) Defina A o evento “ocorrem três cores diferentes”. Note que algumas pessoas responderiam que P( A)=# A #Ω = 6 27 =2 9 , que está errado! Este raciocínio somente valeria se houvesse mesmo número de bolas para as três cores e, além disso, se o processo fosse com reposição! O correto é P(vpb)+P(vbp)+P(bpv)+P(bvp)+P( pvb)+P( pbv)= =6×5 12 ×4 11 ×3 10 = C5 1×C4 1×C3 1 C12 3 Note que a sequência de cores não foi fixada, então há 3! 1!×1!×1!=3!=6 possíveis maneiras. (c) Neste caso é mais fácil operar com dois tipos, cor branca e cores não brancas. k = cor diferente da branca P(kkb)+P( kbk)+P(bkk )+P(bbk)+P(bkb)+P(kbb)+P(bbb)= 3×5 12 ×7 11 ×6 10 +3×5 12 ×4 11 ×7 10 +5 12 ×4 11 ×3 10 = =C5 1×C7 2 C12 3 +C5 2×C7 1 C12 3 +C5 3 C12 3 =37 44 Outra maneira, pelo evento complementar: 1−P(kkk )=1− 7 12 × 6 11 × 5 10 =37 44 . (d) P(vv|v)=P( vvv) P( v) = 3 11 × 2 10 (e) P(bbb)+P( vvv)+P( ppp)= 5 12 ×4 11 ×3 10 +4 12 ×3 11 ×2 10 +3 12 ×2 11 ×1 10 =90 1320 =0,068 Teorema de Bayes Definição: Seja Ω um espaço amostral. Um conjunto de eventos {B1,B2,..., Bk}⊂Ω forma uma partição de Ω se e somente se: (1º ) Bi∩Bj=∅ , ∀i≠ j (2º) ∪i=1 k Bi=Ω (3o) Bi≠∅ , ∀i≠ j Teorema da Probabilidade Total: Seja Ω espaço amostral e {B1,B2,..., Bk}⊂Ω uma partição. Para A⊂Ω evento qualquer: P( A)=∑i=1 k P( Bi)×P( A|Bi) Teorema de Bayes: Seja Ω espaço amostral e {B1,B2,..., Bk}⊂Ω uma partição. Para A⊂Ω evento qualquer: P(B j|A)= P( A|B j)×P(B j) ∑ i=1 k P( A|Bi)×P( Bi) , k j 2,1 ,.....,  . Observações: (1ª) só há um caso em que P(B j|A)=P( A|B j) , ou seja, quando P(B j)=1 k e P( A|B j)=1 k para todo j. (2ª) P(Bi)>0 e ∑ i=1 k P( Bi)=1 , mas ∑ i=1 k P( A|Bi) necessariamente não soma 1. (3ª) ∑ i=1 k P( Bi|A)=1 . Exemplo 3.16: Numa fábrica de parafusos, as máquinas A,B,C produzem 0,25, 0,35 e 0,40 do total produzido, respectivamente. Da produção de cada máquina, 0,5, 0,04 e 0,02, respectivamente, são defeituosos. Escolhe-se ao acaso um parafuso e verifica-se que ele é defeituoso. Qual a probabilidade de que o parafuso seja oriundo das máquinas: (a) A ? (b) B ? (c) C ? Solução: Representação das proporções de produção das 3 máquinas As informações de “entrada” são: P(A)=0,25 P(B)=0,35 P(C)=0,40 P(D|A)=0,05 P(D|B)=0,04 P(D|C)=0,02 Pelo Teorema da Probabilidade Total: P(D )= P( A)× P(D | A )+ P(B)× P(D |B)+ P(C)× P(D|C)= = 0,25×0,05+ 0,35×0,04 +0,40×0,02=0,0345 Pela fórmula de Bayes: ,0 3623 0345 ,0 ,0 05 25 ,0 ) ( ) | ( ) ( ) | (     D P P A P D A A D P ,0 4058 0345 ,0 ,0 04 35 ,0 ) ( ) | ( ) ( ) | (     D P P B P D B B D P P(C|D)=P(C)P(D|C) P(D) =0,40×0,02 0,0345 =0,2319 P( A|D)+P(B|D)+P(C|D)=1 Independência Probabilística Definição: dois eventos são probabilisticamente independentes se e somente se P( A∩B)=P( A)×P(B) Observação: da definição acima segue que P( A|B)=P( A) e P(B| A)=P(B) , ou seja, a ocorrência de um deles não altera a probabilidade de ocorrência do outro. Definição: três eventos A, B, C são ditos mutuamente independentes se e somente se: (1º) são independentes dois a dois (2º) P( A∩B∩C)=P( A)×P(B)× P(C) Observação: eventos mutuamente disjuntos não têm nenhuma relação com eventos mutuamente independentes. Exemplo 3.17: suponha que no exemplo 3.13 houvesse 3000 bolas brancas e 5000 azuis. Então: P(B∩A)=P(B)×P( A| B)=3000 8000 × 5000 7999=0,234404 Se as extrações fossem com reposição, P(B∩A)=P(B)×P( A| B)=3000 8000 × 5000 8000=0,234375 Para populações suficientemente grandes as duas formas de extração ficam próximas. Exemplo 3.18: A finalidade deste exemplo é mostrar que extração de amostras com reposição possui a propriedade de independência probabilística, mas se o processo for sem reposição não haverá independência. Suponha uma urna contendo 7 bolas vermelhas e 5 bolas pretas. Considere o experimento aleatório de extrair 4 bolas ao acaso. Descreva o espaço amostral com as respectivas probabilidades, nos casos com e sem reposição. Na extração sem reposição considere a ordenação interna da amostra. Solução: (1ª) com reposição: se fizermos distinção entre bolas de mesma cor então a cardinalidade do espaço amostral será 20736 12 # 4    . Logo, será um trabalho árduo escrever todo  . Se não fizermos distinção entre bolas de mesma cor então } ,....., , , { pppp   vvvv vvvp vvpv , ou seja, 16 2 # 4    . ( ) ( ) ( ) ) ( 12 7 12 7 12 7 12 7 12 7 ) ( | ) ( | ( | ) ( ) ) ( 4 P v P v P v v P P v vvv P v vv P v v P v vvvv P                     ( ) ( ) ( ) ) ( 12 5 12 7 12 5 12 7 12 7 12 7 ) | ( ) ( | ( | ) ( ) ) ( 3 P p P v P v v P P p vvv P v vv P v v P v vvvp P                                           12 5 12 7 ) ( ) ( ) ( ) ( 3 P vvvp P pvvv P vpvv vvpv P P(vvpp)=P(vpvp)=P( pvpv)=P( pvvp)=P(vppv )=P( ppvv)=( 7 12) 2 ×( 5 12) 2 P(vppp)=P( pvpp)=P( ppvp)=P(pppv )=( 7 12)×( 5 12) 3 ( ) ( ) ( ) ) ( 12 5 12 5 12 5 12 5 12 5 ) | ( ) | ( ) | ( ( ) ) ( 4 P p P p P p p P P p ppp P p pp P p p P p pppp P                     Concluímos que os eventos são independentes. (2ª) sem reposição: agora neste tipo de extração a mesma bola não pode aparecer mais que uma vez. 4 12 4 7 9 4 10 5 11 6 12 7 ) ( | ) ( | ( | ) ( ) ) ( A A P v vvv P v vv P v v P v P vvvv          4 12 7 ( ) ( ) ( ) ( )           P v P v P v v P Como ( ) ( ) ( ) ( ) ) ( P v P v P v P v P vvvv     , não há independência probabilística. Observação: o experimento de lançar diversas vezes um dado ou uma moeda, equivale a um processo de extração com reposição de bolas de uma urna. Especificamente, considere uma urna com mesma quantidade de bolas brancas e pretas. Fazendo extrações com reposição, equivale a lançar uma moeda honesta. Espaços amostrais não enumeráveis Há situações em que o número de elementos do espaço amostral é não enumerável, por exemplo um intervalo finito da reta real. Para espaços amostrais não enumeráveis, a definição clássica de probabilidade tem que ser estendida para o conceito de probabilidade geométrica, ou seja, para A subconjunto não enumerável de um espaço amostral não enumerável, a probabilidade será: P( A)=medida do conjunto A medida de Ω Entenda-se como “medida” comprimento, área ou o volume. Exemplo 3.19: se X e Y são pontos de uma linha de extremos A e B, a probabilidade de que um ponto da linha AB pertença à linha XY é proporcional ao comprimento de XY, e não depende da posição dos pontos X e Y sobre AB. Portanto, selecionado um ponto de AB, a probabilidade de que ele pertença a XY é: p=comprimento de XY comprimento de AB =Y−X B−A Exemplo 3.20: se tivermos uma região B do plano, contida em uma região A, a probabilidade de um ponto de A também pertencer a B é proporcional à área de B, e não depende da posição que B ocupa em A. Portanto, selecionado ao acaso um ponto de A, a probabilidade de que ele pertença a B é: p=área de B área de A 4ª Parte - Variáveis Aleatórias Discretas Definição: seja ε um experimento aleatório e Ω o espaço amostral associado a esse experimento. Uma função X , que associe a cada elemento ω∈Ω um número real X(ω) , é denominada de variável aleatória (v.a). Observação: em algumas situações o resultado ω do espaço amostral já constitui uma característica numérica que desejamos registrar. Assim, tomamos X(ω)=ω . Exemplo 4.1: lançamento de duas moedas. Considere a v.a. X sendo o número de faces CARA. Ω={CC , KK ,CK , KC} C = “CARA” K = “COROA” Definição: uma v.a X é dita discreta quando o conjunto dos valores possíveis de X é finito ou infinito enumerável. ΩX={x1, x2,.....,xn} ou ΩX={x1, x2,.....} . Função massa de probabilidade (fmp) Definição: a função massa de probabilidade (f.m.p) de uma v.a. discreta é: f :ΩX →[ 0,1] ; xi→f (xi)=P(X=xi) Condições para ser uma f.m.p: (1ª) 0≤f ( xi)≤1 , ∀ xi∈ΩX (2ª) ∑∀ xi∈ΩX f ( xi)=1 , (3ª) f (xi)=0 se xi∉ΩX Observações: (1ª) Soma à esquerda: P( X≤ x)= ∑ {y ∈ Ω: y ≤ x} f (y). Caso x∉ ΩX, P( X≤ x)=P (X<x)=∑ y<x f ( y) (2ª) Soma à direita: P( X≥ x)=∑ y≥ x f ( y). Caso x∉ ΩX, P( X≥ x)=P (X>x)=∑ y>x f ( y) (3ª) Soma entre dois pontos: P(a≤ X ≤b)= ∑ a≤ y≤ b f ( y)=f (a)+..+f (b). Caso a,b∉ ΩX, P(a≤ X ≤b)= ∑ a< y<b f ( y). Exemplo 4.2: Uma moeda é tal que a probabilidade da face cara é três vezes a da coroa. Seja X o número de faces cara em 3 lançamentos dessa moeda. Obtenha a distribuição de probabilidade de X. Solução: Ω={KKK ,CKK , KCK , KKC, KCC ,CKC ,CCK ,CCC} Defina p=P(C ) e q=P( K) . p+q=1 3q+q=1 4q=1 q= 1 4 Logo, P(C)=3 4 e P( K )= 1 4 . f (0)=P( X=0)=P( KKK )=1 4× 1 4×1 4 = 1 64 f (1)=P(X=1)=P[(CKK)∪(KCK)∪(KKC)]=P(CKK )+P (KCK )+P (KKC )= = 3 64 + 3 64 + 3 64 = 9 64 f (2)=P(X=2)=P[(CCK)∪(KCC)∪(CKC)]=P (CCK )+P(KCC )+P (CKC)= = 9 64 + 9 64 + 9 64=27 64 f (3)=P( X=3)=P(CCC)=3 4 ×3 4×3 4 =27 64 xi 0 1 2 3 ∑ f (xi) 1/64 9/64 27/64 27/64 1 Representação gráfica da f.m.p do Exemplo 4.2: Exemplo 4.3: seja X v.a. discreta com a seguinte f.m.p: x -3 -1 0 1 2 3 5 8 ∑ f (x ) 0,1 0,2 0,15 0,2 0,1 0,15 0,05 0,05 1 Obtenha: (a) probabilidade de X ser negativa (b) probabilidade de X ser par (c) P(X=−3|X≤0) (d) P(X≥3|X>0) Solução: (a) f (−3)+f (−1)=0,3 (b) f (0)+f (2)+f (8)=0,3 (c) P[( X=−3)(X ≤0)] P( X ≤0) =P( X=−3) P(X ≤0) = f (−3) f (−3)+f (−1)+f (0)= 0,1 0,45=2 9 (d) f (3)+f (5)+f (8) f (1)+f (2)+f (3)+f (5)+f (8)=0,25 0,55= 5 11 Exemplo 4.4: nas funções massas abaixo obtenha o valor de C (a) f (x)={ C×2 x; x∈{1,2,...,N } 0;caso contrário (b) f (x)={ C×( 1 2) x ; x∈{1,2,...} 0;caso contrário Solução: (a) Usando a soma dos termos de uma PG finita, C= 1 ∑ x=1 N 2x = 1 2(2N−1) 2−1 = 1 2(2N−1) (b) Usando a soma dos termos de uma PG infinita, C( 1 2 1−1 2) =1⇒C=1 Esperança de uma variável aleatória discreta A esperança matemática da v.a. X é definida como: E( X )=∑xi∈ΩX xi f ( xi) . notações: E( X ),μ, EX Observações: (1ª) A esperança matemática é a média da população, enquanto X − é a média da amostra, ou seja, uma estimativa de E(X). (2ª) Interpretamos a esperança matemática como sendo o centro de gravidade (equilíbrio) de uma fmp, e é empregada com a finalidade de representatividade dos valores de ΩX . Exemplo 4.5: calcule o rendimento esperado das seguintes aplicações financeiras (a) LTN pré-fixada 12% ao ano (b) NTN pós-fixada tal que 14% ao ano com probabilidade 0,60 ou 6% ao ano com probabilidade 0,40 Solução: sendo C o capital aplicado (a) rendimento esperado: C×1,12×1 (b) rendimento esperado: C×1,14×0,60+C×1,06×0,40=C ×1,108 Exemplo 4.6: Uma fábrica opera com 3 marcas de máquinas: A, B, C. O gerente deseja saber qual marca tem menor custo médio de manutenção. Marca A Marca B Marca C Tipo de defeito Custo do Conserto(X) Probab. de Falha Custo do Conserto(Y) Probab. de falha Custo do Conserto(Z) Probab. de falha Mecânico 33 0,50 32 0,48 34 0,45 Elétrico 34 0,20 36 0,21 35 0,27 Hidráulico 50 0,30 47 0,31 51 0,28 EX=33×0,50+34×0,20+50×0,30=38,3 ; EY =37,49 ; EZ=39,03 A marca B tem menor custo médio, logo deve ser a preferida. Exemplo 4.7: Um vendedor de carrocerias de caminhões pode visitar, num dia, nenhum cliente, um ou dois clientes, com probabilidades 4/8; 3/8 e 1/8, respectivamente. De cada contato pode resultar a venda por 50 mil, sendo que a probabilidade de venda é 1/4. Assuma que número de visitas e a venda são eventos independentes. Qual o número esperado de vendas num dia? Solução: defina Y como o valor total de vendas diárias deste vendedor Y=0: esta situação ocorre se não visitar nenhum cliente, ou se o vendedor visitar apenas um cliente e a venda não se efetivar, ou se visitar dois clientes A , B e a venda não efetivar para os dois. Assim, a probabilidade será: 4 8 + 3 8 × 3 4 + 1 8 ×( 3 4 × 3 4)=109 128=0,8516 Y=50: esta situação ocorre se o vendedor visitar apenas um cliente e a venda se efetivar, ou se visitar dois clientes A , B e a venda se efetivar ou apenas para A ou apenas para B. Assim, a probabilidade será: 3 8 × 1 4 +1 8 ×( 1 4 × 3 4 + 3 4 × 1 4)= 9 64=0,1406 Y=100: esta situação ocorre se o vendedor visitar dois clientes A , B e a venda se efetivar com os dois. Assim, a probabilidade será: 1 8 ×( 1 4 × 1 4)= 1 128=0,0078. Y P(Y=y) 0 50 100 0,8516 0,1406 0,0078 Total 1 E (Y )=0×0,8516+50×0,1406+100×0,0078=7,81 Propriedades da Esperança: (1ª) E(c)=c , se c for uma constante (2ª) E(cX )=cE( X) , se c for uma constante (3ª) E(aX+b)=aE( X )+b, a,b∈ R constantes (4ª) E( X±Y )=E( X)±E(Y ) Mediana e moda para variáveis aleatórias discretas Definição: a moda de uma v.a. discreta é o valor x∈ ΩX tal que f (x)>f (xi), ∀ xi∈ ΩX. notação: Mo Nota: pode haver mais de uma moda. Se todas f (xi) são iguais, diremos que não existe moda. Definição: a mediana de uma v.a. discreta é um valor x∈ R tal que P(X ≤ x)≥ 1 2 e P(X ≥ x)≥ 1 2. notação: Md Exemplo 4.8: seja X uma v.a. com f.m.p dada por x 1 2 ∑ f (x) 1/8 7/8 1 P( X≤2)=1 8+ 7 8=1 e P( X≥2)=7 8 Md = 2 é única. Exemplo 4.9: lançar 3 vezes uma moeda equilibrada. x 0 1 2 3 ∑ f (x) 1/8 3/8 3/8 1/8 1 Neste exemplo, a mediana pode ser qualquer valor no intervalo [1; 2]. Se adotarmos Md=1+2 2 =1,5 estaremos utilizando o ponto médio do intervalo [1; 2], além do fato de que Md=E(X). Também, tem-se que Mo (1)=1 e Mo (2)=2. Observação: em uma v.a. cuja f.m.p é simétrica e unimodal , então E( X)=Md=Mo Variância e desvio padrão de uma v.a. discreta Definição: Seja X v.a discreta com f.m.p f e espaço amostral ΩX={x1, x2,......} . Definimos a variância de X por Var( X)=∑x i∈ΩX (xi−EX ) 2 f ( xi) . Definição: o desvio padrão é definido como DP( X)=√Var( X ) . Notações: V ( X ),Var( X ),σ X 2 ,DP( X ),σ X . Observações: (1ª) uma fórmula alternativa para a variância é Var( X)=(∑x i∈ΩX xi 2f (xi))−(EX ) 2 (2ª) Var( X)≥0 (3ª) a variância tem como unidade de medida o quadrado da unidade de medida (4ª) o desvio padrão tem mesma unidade de medida que a v.a. X , e mede o grau de dispersão dos valores de ΩX em torno de EX (5ª) podemos também utilizar o coeficiente de variação de X , definido como CV = DP |EX|×100% . O CV é interpretado como o grau de variabilidade relativa em torno da esperança, ou seja, CV é uma medida relativa, enquanto DP é absoluta. Exemplo 4.10: com relação ao Exemplo 4.2, E( X )=144 64 , Var( X)=360 64 −( 144 64 ) 2 =0,5625 DP( X)=0,75 e CV =33,3333% . Propriedades da variância (1ª) Var(c)=0, c constante; (2ª) Var(cX )=c2Var( X ) ; (3ª) Var(aX+b)=a2Var( X), a,b∈ R . (4ª) Z=X−μ σ , E( Z)=0 , Var(Z )=1 Modelos probabilísticos discretos Modelo Uniforme Discreto fmp: f (xi)= 1 N , i∈{1,2....., N} . caso particular: xi=i⇒ΩX={1,2,..., N} Notação: Unif ( N ) Gráfico da fmp de uma distribuição uniforme discreta Esperança e variância de uma Uniforme discreta EX=1+N 2 ; Var( X)=( N2−1) 12 . Exemplo 4.11: X= “no. de pontos marcados na face superior de um dado”. x 1 2 3 4 5 6 ∑ f (x ) 1/6 1/6 1/6 1/6 1/6 1/6 1 E( X )=6+1 2 =3,5 Exemplo 4.12: a amostra a seguir é o resultado de 24 lançamentos de um dado equilibrado Face 1 2 3 4 5 6 Total No. ocorrências 4 4 5 4 3 4 24 X − = 1×4+2×4+3×5+4×4+5×3+6×4 24 =82 24 =3,416666 Em n lançamentos de um dado a soma das faces divida por n é aproximadamente 3,5. Modelo Binomial Seja um experimento aleatório com dois resultados possíveis, isto é, Ω={ω1,ω2} , com P(ω1)=p e P(ω2)=1−p=q . A variável aleatória X , tal que X(ω1)=1 (ocorreu um sucesso) e X (ω2)=0 (ocorreu um fracasso) é dita modelo de Bernoulli. O que é um “sucesso” ou um “fracasso” é subjetivo. Exemplo 4.13: lançamento de uma moeda equilibrada Ω={cara, coroa} P(X=1)=0,5 e P(X=0)=0,5 . Exemplo 4.14: Ω={ fator RH+ ; fator RH-} Sabe-se, da Biologia, que P(X=1)=0,85 e P(X=0)=0,15 . Sendo X1, X2 ,...., Xn v.a’s. independentes e identicamente distribuídas segundo uma Bernoulli de parâmetro p , então X=∑i=1 n Xi é dita binomial de parâmetros n e p . Notação: Binomial( n, p) Observação: A v.a. X é interpretada como o número de sucessos em n repetições independentes do experimento. O valor n é também visto como o tamanho da amostra e p a proporção de sucessos na população. fmp: f (x ,n, p)=Cn x pxqn−x , x∈{0,1,2.....,n} Esperança e Variância de uma v.a. Binomial: EX=np ; VarX=np(1−p) Exemplo 4.15: considere uma prova com 10 questões, cada uma com 4 alternativas. Suponha que o aluno escolha as respostas ao acaso. Qual é a probabilidade de: (a) Acertar todas (b) Errar todas (c) Acertar no máximo 1 (d) Acertar no mínimo 2 (e) Qual o número esperado de acertos? Solução: vamos denotar X como o número de acertos . X é binomial com n=10 e p=0,25 Uma vez que n e p estão fixados, podemos escrever sucintamente apenas f (x) em vez de f (x,n, p) . (a) P(X=10)=f (10)=C¿×0,25 10×0,75 0=0,25 10=9,5367×10 −7 (b) P( X=0)=f (0)=C10 0 0,2500 ,7510=0,7510=0,0563 (c) P( X≤1)=f (0)+f (1)=0,1877+0,0563=0,2440 (d) P( X≥2)=1−P( X≤1)=1−f (0)−f (1)=1−0,2440 (e) E( X )=10×0,25=2,5≃3 Exemplo 4.16: no exemplo anterior, se a prova tivesse 40 questões, qual o número esperado de acertos? Solução: E( X )=40×0,25=10 , Var( X)=40×0,25×0,75=7,5 CV =27,3861% Modelo Hipergeométrico Nota: a denominação do modelo tem relação com a série hipergeométrica. Experimento aleatório: Seja uma população de tamanho N com r elementos possuindo uma característica em comum. O experimento consiste em extrair uma amostra, sem reposição, e observar se a unidade amostral possui a característica. Se a unidade amostral tiver a característica, diremos que ocorreu um “sucesso”. A v.a. X = “número de sucessos (itens com a característica de interesse) na amostra” é tal que ΩX={0,1,....,min(n,r)} . f.m.p: f (x , N ,n,r )=P( X=x )=Cr x×CN −r n−x CN n , x∈{0,1,....,min(n,r )} . 1≤r≤N ; 1≤n≤N Notação: H ( N ,n,r ) Esperança e variância de uma Hipergeométrica: E( X )=np , Var( X)=np(1− p)( N−n N −1) , p= r N Observação: para N→∞ e mantendo p= r N constante, a fmp de uma hipergeométrica converge para a binomial . Logo, para uma população suficientemente grande, os processos com e sem reposição ficam muito próximos. Exemplo 4.17: parafusos são vendidos em embalagens de 20 unidades. Um inspetor de qualidade examina uma embalagem, selecionando ao acaso e sem reposição 5 unidades. Sabendo-se que há 4 defeituosos na embalagem, qual a probabilidade de que nesta amostra ele encontre: (a) Nenhum item defeituoso? (b) Um item defeituoso? (c) No mínimo dois com defeitos? Solução: X é “número de parafusos defeituosos na amostra” ΩX={0,1,2,3,4} N=20 n=5 r=4 (a) P( X=0)=f (0)=C4 0×C16 5 C20 5 =0,2817 (b) P( X=1)=f (1)=C4 1×C16 4 C20 5 =0,4696 (c) P( X≥2)=1−P( X≤1)=1−f (0)−f (1)=1−0,2817−0,4696=0,2487 Variáveis aleatórias com espaço amostral infinito enumerável Modelo de Poisson Relembrando, o conjunto dos naturais é infinito enumerável. O modelo de Poisson tem como espaço amostral o conjunto dos naturais (incluindo o zero). Agora, a definição clássica para espaços finitos leva-nos a um paradoxo, ou seja, f (x)=P (X=x)= 1 número de pontos de Ω = 1 ∞=0. O paradoxo é que todo ponto de Ω terá probabilidade zero, e assim ∑ x f (x)=0, contrariando a definição de função massa de probabilidade! Se o evento A for conjunto infinito enumerável, P( A)=número de pontos do evento A número de pontos de Ω =∞ ∞, que é uma indeterminação. No caso de espaço amostral infinito enumerável a concepção clássica de probabilidade não pode ser admitida. Distribuição de Poisson A distribuição de Poisson é o modelo probabilístico que descreve um experimento aleatório, cuja variável aleatória X é o número de sucessos em um intervalo de comprimento t . Notação: Poisson (λ,t) Exemplo 4,.18: aplicações do modelo de Poisson: (1º) no. de chamadas telefônicas recebidas por uma operadora durante um período de tempo. (2º) no. de falhas de um computador durante 1 dia. (3º) no. de veículos que chegam a um pedágio durante 1 hora. (4º) no. de falhas em 1 metro de tecido de algodão. fmp: f (x , λ,t )=e−λt( λt)x x! , x∈{0,1,2,.......} sendo e=2,718281828 , t > 0 e λ>0 o número médio de “sucessos” no intervalo de comprimento 1. Observação: Num espaço amostral infinito enumerável as probabilidades dos pontos tem que somar 1, isto é, ∑ x f (x)=1. Para que a soma de infinitos termos resulte 1 é preciso que as massas f (x) decaiam para zero de maneira muito veloz, caso contrário o valor da soma será ∞. De fato, com a função massa de probabilidade da Poisson, ∑ x=0 ∞ f (x)=∑ x=0 ∞ 1 x! ×(λ) x×exp(−λ)=1. Por um teorema do cálculo, se a soma é finita então lim x→∞ f (x)=0. Isto explica porque a distribuição de Poisson tem uma queda muito rápida para zero quando x→∞. Gráfico da fmp de uma Poisson Esperança e variância de uma Poisson: EX=λt ; Var( X)=λt . Exemplo 4.19: em um pedágio de uma autoestrada chegam em média 3 veículos por minuto. Qual a probabilidade de que em: (a) 1 minuto não chegue nenhum veículo? (b) 2 minutos cheguem 7 veículos? (c) 1 minuto cheguem no mínimo 3 veículos? (d) Qual o menor k tal que P( X≤k)≥0,95 ? Assuma t =1 . Solução: X é o número de veículos em um intervalo de t minutos” (a) λt=3×1=3 P( X=0)=e−λ (λ)0 0! =e−3=0,04978 (b) λt=3×2=6 P( X=7)=e−2 λ (2 λ)7 7! =e−6 67 7!=0,1377 (c) λt=3×1=3 P( X≥3)=1−P( X≤2)=1−f (0)−f (1)−f (2) =1−0,04978−0,1494−0,2240=1−0,4232=0,5768 (d) P( X≤K )≥0,95 , ou seja, e−3∑ x=0 K 3x x! ≥0,95 .Não há uma solução explícita para a incógnita K, pois ela está relacionada com o número de parcelas da soma. A solução é obtida através do método recursivo, como consta na tabela. Assim, K=6, pois não conseguimos que a soma seja exatamente 0,95, uma vez que K deve ser inteiro positivo. K P( X≤K ) 0 1 2 3 4 5 6 0,04978 0,1991 0,4232 0,6472 0,8152 0,9161 0,9664 5ª Parte - Variáveis aleatórias contínuas De uma maneira geral, medidas de grandezas físicas, como coordenadas espaciais, peso, tempo, temperatura e voltagem, são descritas mais adequadamente como variáveis aleatórias contínuas. O espaço amostral de variáveis aleatórias contínuas é não enumerável, como por exemplo, a reta real, ou subintervalos da reta. Se usarmos a definição de probabilidade clássica em espaços não enumeráveis haverá um paradoxo. Suponha A um subintervalo do espaço amostral R. Assim, P( A)=número de pontos de A número de pontos de Ω =∞ ∞ que é uma indeterminação. Agora seja A={x}, x∈ R. Então, P( A)=número de pontos de A número de pontos de Ω = 1 ∞ =0 e novamente ocorre um paradoxo, pois todos os pontos da reta terão probabilidade zero! Para variáveis aleatórias contínuas não faz sentido dizer que P( X=x)=f (x), Na verdade, P( X=x)=∫ x x f ( y)dy=0, ou seja, um ponto tem medida zero. Mas isto não significa que o ponto x∈ R nunca ocorrerá. Em espaços finitos, P( A)=0 implica que A é o conjunto vazio, e P( A)=1 implica que A é Ω. Tal raciocínio não funciona no caso de espaço infinito enumerável ou não enumerável. Para calcular a medida de um evento teremos que recorrer à integração. Há casos em que poderemos utilizar fórmulas conhecidas, como área de retângulo, triângulo, círculo. A integral de Riemann é definida como : ∫ a b f (x)dx=lim n→∞ f (ci) Δx sendo ci∈ [xi;xi+1] e Δx=xi+1−xi. Se o limite da soma existir, isto é, for finito, diremos que a função é integrável. Função densidade de probabilidade (fdp) Exemplo 5.1: suponha um experimento que consiste em selecionar aleatoriamente um ponto x no intervalo [2, 5]. Defina o evento A = “o ponto está no subintervalo [4,8; 5]”. Pelo critério da probabilidade geométrica, P( A)=5−4,8 5−2 =0,2 3 , ou seja, o comprimento do intervalo [4,8; 5] dividido pelo comprimento de [2; 5]. Agora, vamos reescrever P(A) como a área sob uma função matemática. A lei da função é: f (x)={ 1 3 ;x∈[2;5] 0;caso contrário Note que P( A)=(5−4,8)×( 1 3)= 1 5×1 3= 1 15 é exatamente a área do retângulo da figura acima, ou seja, P( A) é a área sob a função f . A finalidade da função f é fornecer probabilidades. Definição: Diz-se que X é variável aleatória contínua se existir uma função f , denominada de função densidade de probabilidade (f.d.p), tal que: (1º) f (x )≥0 , ∀ x ∈R (2º) a área (integral) sob a fdp é igual a 1 (3º) P(a≤X≤b) é a área sob a fdp no intervalo [a, b] Observações: (1ª) A denominação de densidade é devida à Mecânica. Suponha que há uma massa total (em certa unidade) distribuída sobre o intervalo [a, b]. Então, f (x ) representa a densidade de massa no ponto x , e ∫ c d f ( x)dx a massa contida no intervalo [c, d], com [c, d] ⊂ [a, b]. (2ª) f (x ) não é probabilidade. (3ª) Uma vez que P( X=x )=∫ x x f ( y )dy=0 , então no caso contínuo P( X=a)=P( X=b)=0 , e portanto, P(a≤X≤b)=P( a<X≤b)=P(a<X<b)=P(a≤X<b) (4ª) Se g é tal que g( x)≥0 e ∫ −∞ +∞ g( x)dx=K≠1 , então a função f (x )=g(x ) K é uma função densidade. (5ª) área à esquerda (ou área inferior): p=P (X ≤a)=P (X<a) (6ª) área à direita (ou área superior) : p=P (X ≥a)=P (X>a) (7ª) área bilateral: P( X≤a ou X≥b)=P (X≤a)+P (X≥b)=p+q (8) área central entre dois pontos: p=P (a≤ X≤b) Exemplo 5.2: seja uma v.a. contínua com a seguinte fdp: (a) Faça o gráfico da densidade (b) Encontre a constante C (c) Obtenha P(X≤1 2) ; P(X≥1 4) e P( 1 4 ≤X≤3 4) Solução: (a) (b) área do triângulo=1 1×C 2 2 =1⇒C=4 (c) P(X≤1 2)= 1 2×2 2 =1 2 ; P(X≥1 4)=1− 1 4 ×1 2 =7 8 P( 1 4 ≤X≤3 4)=1−2×( 1 4 ×1 2 )=3 4 Exemplo 5.3: A demanda diária de arroz em um supermercado, em centenas de quilos, é uma v.a. X com fdp dada por: (a) Faça o gráfico da densidade (b) Verifique que f é densidade (c) Qual a probabilidade, em um dia escolhido ao acaso, de se vender menos do que 150 kg? (d) Qual a quantidade de arroz que deve ser deixada à disposição do público diariamen- te para que não falte arroz em 95% dos dias? Solução: (a) (b) área do triângulo = 3×2 3 2 =1 (c) P(X≤1,5)=1−1,5×0,5 2 =1−3 8=5 8=0 ,625 (d) Temos que encontrar K tal que P(X≤K )=0,95 . De maneira equivalente, P(X≥K )=0,05 , que é uma área superior. (3−K)×(1−k 3) 2 =0,05 (3−K )2=30 100 3−K=√0,30⇒K=2,452277 Função de Distribuição Acumulada (Fda) de uma v.a. contínua: F( x)=P( X≤x)=∫ −∞ x f ( y)dy , x∈ R , onde f é f.d.p Área correspondente a F(x) Observações (1ª) Lembrando o Teorema Fundamental do Cálculo para integrais, F(b)−F(a)=∫ a b f (x )dx , ou seja, F é dita a “primitiva” de f (2a ) É importante a distinção entre F e f . A letra maiúscula fica reservada à função acumulada. (3ª) No caso contínuo a Fda será útil para calcular probabilidades. Propriedades da fda: (1ª) 0≤F( x)≤1 (2ª) F é contínua e não decrescente em R (3ª) lim x→−∞F( x)=0 e lim x→+∞ F( x)=1 (4ª) f (x )=dF dx nos pontos onde F for derivável. No ponto onde F não for derivável, f (x )=0 (5ª) P(a≤X≤b)=P( a<X≤b)=P(a≤X<b)=P(a< X<b)=F(b)−F(a) P( X≤a)=P( X<a)=F(x ) P( X≥a)=P( X>a)=1−F(a) Exemplo 5.4: selecionar aleatoriamente um ponto no intervalo [2, 5]. (a) P( X≤2,3)=F(2,3)=2,3−2 3 =0,1 (b) P( X≤4,8)=F( 4,8)= 4,8−2 3 =0,93333 (c) P( X>2,7)=1−P( X≤2,7)=1−F(2,7)=0,76667 (d) P(3,1≤X≤4,6)=F(4,6)−F(3,1)=0,5 Esperança e variância de variáveis aleatórias contínuas A esperança e variância de uma v.a contínua são obtidas por integração. Mediana e Moda de variáveis aleatórias contínuas Definição: a mediana é o valor x tal que F(x)=∫ −∞ x f ( y)dy= 1 2 . Notação: Md Definição: a moda é o valor x tal que f (x)>f ( y), para ∀ y ∈ R. Pode haver mais de uma moda. Quando não houver máximo, então diremos que a moda não existe. Notação: Mo Exemplo 5.5: Obtenha E( X); Moda e Mediana para a seguinte fdp: Solução: Pelo gráfico, a priori podemos observar que E( X)<Md<Mo. Para obter a moda, devemos resolver a equação df dx =0, ou seja, 3 4 (4 x−3 x 2)=0, cuja solução é x=4 3 . E( X)= 3 4∫ 0 2 x 3(2−x)dx=1,2. Obtendo a mediana: P(X ≤m)=0,5 3 4∫ 0 m (2x 2−x 3)dx=0,5⇔3 m 4−8m 3+8=0 A equação 3m 4−8m 3+8=0 tem quatro raízes, onde duas são complexas e duas são reais. Das raízes reais, somente uma delas está no intervalo [0; 2]. Como 1,2=E(X)<Md<Mo=1,33333, utilizando o computador serão fornecidas as raízes: 1,2285448 ; -052842+0,768608i ; -052842-0,768608i e 2,494964. Portanto, Md=1,2285448. Observação: para obter a esperança, mediana e moda pode ser utilizado um software numérico, por exemplo o MatLab, ou o site Symbolab, que poderá ser utilizado sem instalar nenhum software. Importante: (1º) mesmas propriedades da esperança e variância são válidas para o caso contínuo. (2º) em densidades simétricas e unimodais E( X )=Md=Mo . Modelos probabilísticos contínuos Modelo Uniforme contínuo Notação: U [ a,b] Função densidade de probabilidade: Função de distribuição acumulada Esperança e variância: EX=a+b 2 ; V ar( X )=(b−a)2 12 Exemplo 5.6: Os geradores de números pseudoaleatórios, de calculadoras e computadores, têm distribuição uniforme contínua em [0,1). Por exemplo, no EXCEL o comando é : ALEATORIO( ) Por exemplo, foram gerados 18 números: 0,156829637 0,846649578 0,469263346 0,577564193 0,664633565 0,462117229 0,973857121 0,964847015 0,968308066 0,981239892 0,322957938 0,118940193 0,937166033 0,135396175 0,840436215 0,023279616 0,431708782 0,587640809 A média desses valores gerados é 0,495327. Exemplo 5.7: considere um relógio circular de ponteiros. O relógio pode parar, por falta de bateria, em qualquer quadrante. Defina X o ângulo formado pelo ponteiro maior quando o relógio parar. Determinar: (a) fdp (b) fda (c) probabilidade do ponteiro parar entre -90 e 0 graus Solução: Modelo Exponencial Este modelo possui aplicações em diversas áreas: Biologia, Engenharia, Computação. Na Teoria da Confiabilidade está associada à probabilidade de falha de componentes em um sistema. Função densidade de probabilidade: f (x)={ 0; x≤0 λ×exp(−λ×x); x>0 , λ>0 Observações: (1a) A notação exp(x) equivale a e x . (2a) O parâmetro λ é a taxa (intensidade) de falhas. Notação: Expon( λ) Exemplo 5.8: distribuições exponenciais de parâmetros 2; 1,5 e 0,6 Função de distribuição acumulada: F(x)={ 0; x≤0 1−exp(−λ×x); x>0 Observações: (1ª) P( X≤x )=1−exp{−λx } (2a) P(X≥x )=exp{−λx} (3a) P( x≤X≤ y)=exp{−λx}−exp{−λy} Esperança e variância da exponencial: EX=1 λ , Var( X)= 1 λ2 Observação: quanto menor a taxa de falhas, maior será o tempo médio de duração do componente (veja figura abaixo). Exemplo 5.9: seja a v.a. T o tempo de duração de uma lâmpada. A f.d.p. é dada por: (a) Qual a probabilidade da lâmpada durar mais que a média? (b) O custo de fabricação é 3,00 u.m. e o preço de venda é 5,00. O fabricante garante total devolução do dinheiro pago pelo cliente se o tempo de duração for menor que t . Qual é o lucro esperado? (c) Em (b), qual o lucro esperado para t=20 ? (d) Em (b), qual deve ser t para que o lucro esperado seja de 1,95 u.m.? (e) Em (b), para quais t o lucro esperado é negativo, nulo ou positivo? Solução: (a) A media de T é μ=1 λ=1000 . Assim, P( X>1000)=1−F(1000)=1−(1−e−1000×λ)=e−1=0,367879 (b) L={ −3;T<t 2;T≥t E( L)=−3×P(T <t)+2×P(T≥t)=−3×F(t )+2×(1−F(t))= =5×exp{−t/1000}−3 (c) E( L)=5×exp{−20/1000}−3=1,90 (d) 5×exp{−t /1000}−3=1,95⇒t=10,05 (e) E( L)=0⇔5×exp{−t /1000}−3=0⇒t=−1000×ln( 3 5)=510,8256 A distribuição Normal (Gaussiana) A distribuição Normal é de grande importância em Probabilidade e em Inferência Estatística. A distribuição normal foi introduzida pela primeira vez por Abraham de Moivre em um artigo no ano 1733. O nome "distribuição normal", foi criado por Charles S. Peirce, Francis Galton e Wilhelm Lexis, em 1875. Exemplo 5.10 (algumas aplicações da normal): (1º) distribuição das alturas de pessoas (2º) distribuição dos valores de depósitos bancários (3º) distribuição do quociente intelectual (QI) (4º) distribuição da produção de cereais Função densidade: a fdp tem forma de “sino” e tem dois parâmetros: μ∈ R e σ>0 . f (x ,μ ,σ )= 1 √2πσ 2×exp{−1 2( x−μ σ ) 2}, −∞<x<+∞ Notação: N( μ,σ) Gráfico da densidade normal Propriedades da distribuição normal: (1ª) f (x )>0 , lim x→−∞f ( x)=0 e lim x→+∞f (x )=0 (2ª) A área sob a densidade f é igual a 1. (3ª) EX=Md=Mo=μ (que é o ponto de máximo) , ou seja, a densidade é simétrica Em torno da média. (4ª) Var( X)=σ2 ; DP( X)=σ . Quanto maior for σ mais achatada (baixa) será a fdp (5ª) P( X<μ−4×σ )≃0 ; P( X>μ+4×σ)≃0 , logo, P( μ−4×σ≤X≤μ+4×σ)≃1 (6ª) Se X é N( μ,σ) então Z=X−μ σ é N(0,1) . A transformação Z é dita padronização da v.a. normal. Tabulação da distribuição Normal padrão No caso da distribuição normal a integral Φ(z)=∫ −∞ z 1 √2 π e −u 2/2du existe e fica entre (0, 1). O problema é que não conhecemos a forma funcional de Φ. O Teorema Fundamental do Cálculo garante que Φ existe e é única, mas não diz como obtê-la. Até os dias atuais não se sabe a forma funcional, por isso tem-se que recorrer à integração numérica. A integral Φ(z)=∫ −∞ z 1 √2 π ×e −u 2/2du é aproximada por integração numérica, gerando uma tabela. Atualmente calculadoras já tem incorporadas funções que fazem o cálculo aproximado para esta integral. Seja Z N(0;1) . A função de distribuição acumulada de Z é denotada por Φ( z)=P(Z≤z)=∫−∞ z 1 √2 π exp{ x2 2 }dx , a qual corresponde à área na figura: Gráfico aproximado da função Φ( z) : Propriedades de Φ (1ª) lim z→−∞Φ( z)=0 , lim z→+∞Φ( z)=1 (2ª) Φ(0)=0,5 (3ª) P(a≤Z≤b)=Φ(b)−Φ(a) (4ª) P(Z≥b)=1−Φ(b) (5ª) Φ( z)=1−Φ(−z) , devido a simetria da densidade (6ª) Se X é N ( μ;σ) é preciso padronizá-la , para poder usar a tabela da normal padrão. P(a≤X≤b)=P( a−μ σ ≤ X−μ σ ≤b−μ σ )=P( a−μ σ ≤Z≤b−μ σ )=Φ( b−μ σ )−Φ( a−μ σ ) Nota: Na figura acima, as áreas A e B têm formas diferentes, mas tem mesmo valor. Tabela de Φ : fornece P(Z≤z ) , z∈[−3,79;3,79] , que é a área hachurada na figura abaixo. No exemplo, P(Z≤1,27)=0,8980 . Na tabela da função de distribuição acumulada da normal padrão as coordenadas têm dois dígitos após a vírgula, por isso na tabela não há toda área (probabilidade) que desejamos. Por exemplo, não encontramos a área 0,95. Neste caso é feita uma interpolação linear ( em uma curva que não é linear!) na função acumulada. Esta é a maneira empírica de resolver o problema, e que autores adotam. Sendo assim, z=1,64+1,65 2 =1,645 será uma aproximação da coordenada tal que a área inferior é 0,95. Se você utilizar um software vai encontrar 1,64485363. Exemplo 5.11: Seja Z N (0;1) . Obtenha: (a) P(Z≤1) (b) P(Z≤1,57) (c) P(−1,96≤Z ≤1,96) (d) P(Z≥1,64) (e) P(|Z|≤1,33) (f) P(|Z|>1,50) (g) P(Z≤−4) Solução: (a) P(Z≤1)=Φ(1,00)=0,8413 (b)P(Z≤1,57)=Φ(1,57)=0,9418 (c) P(−1,96≤Z ≤1,96)=Φ(1,96)−Φ(−1,96)=0,9750−0,025=0,95 (d) P(Z≥1,64)=1−Φ(1,64 )=1−0,9495=0,0505 (e) Aqui usamos a propriedade |x|≤a⇔−a≤ x≤a P(|Z|≤1,33)=P(Z<1,33)−P(Z<−1,33)=Φ(1,33)−Φ(−1,33)= =0,9082−0,0918=0,8164 Outra maneira, pela simetria da densidade, P(|Z|≤1,33)=1−2×Φ(−1,33)=1−2×0,0918=0,8164 (f) Aqui usamos a propriedade |x|≥a⇔ x≤−a ou x≥a P(|Z|>1,50)=P (Z ≤−1,50)+P(Z≥1,50)= =Φ(−1,50)+(1−Φ(1,50))=0,1336 Outra maneira, pela simetria da densidade, P(|Z|>1,50)=1−2×Φ(−1,50)=0,1336 (g) P(Z≤−4)=Φ(−4)=0 e P(Z≥4)=1−Φ(4)=1−1=0 . Mas, pelo computador P(Z≤−4)=0,000031671242 , ou seja, na tabela a área foi arredondada para zero. Exemplo 5.12: As notas da disciplina de Direito Tributário de uma determinada faculdade tem distribuição segundo uma normal de média 6,4 e desvio padrão 0,8. Os conceitos são atribuídos de acordo com a seguinte graduação: Em uma classe de 80 alunos, qual o número esperado de conceitos A, B, C e D? Solução: P(0≤X<5)=P( 0−6,4 0,8 ≤X−6,4 0,8 ≤5−6,4 0,8 )=P(−8≤Z<−1,75)= =Φ(−1,75)−Φ(−8)=0,0401−0=0,0401 P(5≤X<7,5)=Φ(1,38)−Φ(−1,75)=0,9162−0,0401=0,8761 P(7,5≤X<9)=Φ(3,25)−Φ(1,38)=0 ,9994−0,9162=0,0832 P(9≤X≤10)=Φ(4,5)−Φ(3,25)=1−0,9994=0,0006 Notas Conceito 0≤X<5 5≤X<7,5 7,5≤X<9 9≤X≤10 D C B A Tabela da Normal Padrão Inversa: Φ−1 : fornece as coordenadas tais que z=Φ−1(α ) , ou seja: P(Z≥z(u))=α (áreas unilaterais superiores) P(|Z|≥z(b))=α (áreas bilaterais) Exemplo 5.13: Para uma normal padrão, obtenha z tal que : (a) P(Z≤z )=0,9750 (b) P(Z≤z )=0,95 (c) P(Z≤−z )=0,01 (d) P(−z≤Z≤z)=0,95 Solução: (a) Na tabela da normal inversa, com a área unilateral de 0,025, z=1,96 como mostra a figura. Notas Probabilidade Probabilidade ×N 0≤X<5 5≤X<7,5 7,5≤X<9 9≤X≤10 0,0401 0,8761 0,0832 0,0006 3 70 7 0 (b) O valor da coordenada é z=1,6449 (c) Neste caso, a área deseja é a cauda inferior. Pela tabela da normal inversa, obtemos z = 2,3263, e portanto - z = -2,3263. (d) Pela tabela da normal inversa com área bilateral de 0,05 , z=1,96. Exemplo 5.14: uma variável X tem distribuição normal com desvio padrão σ =5 e tal que 1,5% dos valores estão abaixo de 35. (a) Qual a média μ ? (b) Se forem obtidos 20 valores, independentemente um do outro, qual a probabilidade de que metade deles sejam menores que a média μ ? Solução: (a) P(X<35)=P( X−μ 5 <35−μ 5 )=P(Z< X−μ 5 )=0,015 , sendo Z=X−μ σ normal padrão. Uma vez que dispomos da tabela inversa da normal padrão para áreas superiores, a coordenada tal que P(Z>z)=0,015 é z=2,17. Logo, P(Z<−z)=0,015 . Agora temos que resolver a equação: 35−μ 5 =−2,17⇒−2,17⇒μ=45,85 (b) Vamos denotar Y = no de valores que são menores que μ . A variável Y é Binomial de parâmetros n=20 e p=P( X<μ)=0,5 . A probabilidade de 10 dos 20 valores serem menores que μ é C20 10× p 10×(1−p) 10=0,1762 . 6ª Parte -Variáveis aleatórias bidimensionais Definição 6.1 ( Função massa de probabilidade conjunta) : f (x, y)=P( X=x∩Y= y) x∈ΩX e y∈ΩY Nota: f (x , y) é a probabilidade conjunta (simultânea) do evento [ X=xY =y] Propriedades: (1ª) 0≤f ( x , y )≤1 , ∀ x , y (2ª) ∑x∑y f ( x, y)=∑y∑x f ( x , y )=1 Exemplo 6.1: suponha que se esteja interessado em estudar a composição de famílias com 3 crianças. Defina: X = “número de meninos” Y = 1, se a primeira criança nascida é menino = 0, se a primeira criança nascida é menina Assumiremos nascimentos independentes e equiprováveis. P( H)=P( M )=1 2 f (0,0)=P( X=0∩Y=0)=P(M M M )=P(M )×P (M )×P (M )=1 8 f (0,1)=P(X=0∩Y=1)=P(∅ )=0 f (1,0)=P(X=1∩Y =0)=P(M H M)+P(M M H )=2 8 f (1,1)=P(X=1∩Y=1)=P(H M M )=1 8 f (2,0)=P( X=2∩Y =0)=P(M H H )=1 8 f (2,1)=P(X=2∩Y=1)=P(H H M)+P(H M H )=2 8 f (3,0)=P(X=3∩Y =0)=P(∅ )=0 f (3,1)=P(X=3∩Y =1)=P( H H H)=1 8 X Y 0 1 2 3 ∑ 0 1/8 2/8 1/8 0 1/2 1 0 1/8 2/8 1/8 1/2 ∑ 1/8 3/8 3/8 1/8 1 Observação: a posição das variáveis na tabela não tem uma convenção. Definição 6.2 (Função massa de probabilidade marginal): f X ( x)=P (X=x)=∑ y f ( x , y) , x∈ΩX f Y ( y)=P (Y=y)=∑ x f ( x, y) , y∈ΩY Exemplo 6.2: no Exemplo 6.1, x 0 1 2 3 ∑ f X(x) 1/8 3/8 3/8 1/8 1 X tem distribuição binomial(n=3,p=0,5), veja na tabela da binomial y 0 1 ∑ f Y ( y) 1/2 1/2 1 Y é binomial(n=1,p=0,5) Definição 6.3 (Função massa de probabilidade condicional): f (x| y)=P(X=x|Y= y)= P(X=x∩Y=y) P(Y= y) =f (x , y) f Y ( y) , f Y ( y)>0 f ( y| x)=P(Y= y| X=x)= P(X=x∩Y=y) P(X=x) =f (x , y) f X(x) , f X ( x)>0 Exemplo 6.3: X = “número de acidentes” Y = 1, se for motocicleta 2, se for automóvel 3, se for caminhão ou ônibus X Y 1 2 3 4 5 ∑ 1 2/48 4/48 2/48 2/48 6/48 16/48 2 1/48 2/48 1/48 1/48 6/48 11/48 3 3/48 6/48 3/48 3/48 6/48 21/48 ∑ 6/48 12/48 6/48 6/48 18/48 1 Distribuições marginais: y 1 2 3 ∑ f Y ( y) 16/48 11/4 8 21/48 1 x 1 2 3 4 5 ∑ f X (x) 6/48 12/4 8 6/48 6/48 18/4 8 1 Distribuição condicional de ( X|Y=1) x 1 2 3 4 5 ∑ f (x|y=1) 2/16 4/16 2/16 2/16 6/16 1 Por exemplo, f (2|y=1)= 4/ 48 16/ 48 =4/16 Definição 6.4 : as variáveis aleatórias X e Y são ditas independentes se e somente se f (x, y)=P( X=x∩Y= y)=P (X=x)×P (Y=y)=f X(x)×f Y ( y) , para quaisquer x, y Exemplo 6.4: para o exemplo 1 f (0,0)=1 8 , mas f X (0)×f Y (0)=1 8 ×1 2= 1 16 . Logo, X e Y não são independentes. Exemplo 6.5: para o Exemplo 6.3 temos f (1,1)=2 48 f X (1)×f Y(1)=6 48 ×16 48 =2 48 ⇒ f (1,1)=f X(1)×f Y (1) f (2,1)=4 48 f X (2)×f Y(1)=12 48 ×16 48 =4 48 ⇒ f (2,1)=f X(2)×f Y (1) f (1,2)=1 48 f X (1)×f Y(2)=6 48 ×11 48 ⇒ f (1,2)≠f X(1)×f Y (2) Logo, X e Y não são independentes. Definição 6.5: a Covariância de duas variáveis aleatórias é definida como: Cov( X,Y )=E[(X−EX )×(Y−EY )]=E( XY )−E( X)×E(Y ) ,onde E (XY )=∑ x ∑ y xy×f (x , y) E (X )=∑ x x×f X ( x) E (Y )=∑ y y×f Y ( y) Teorema 6.1: para duas variáveis aleatórias independentes E( XY )=E( X )E(Y ) , e portanto Cov( X,Y )=0 . Definição 6.6: o coeficiente de correlação linear de Pearson para duas variáveis aleatórias é definida como: ρ(X ,Y )= Cov( X ,Y ) √Var( X)×Var(Y ) = E( XY )−E(X )×E(Y ) √Var( X )×Var(Y ) , Observação: Covariância tem como unidade de medida o produto das unidades de X e Y, e por isso é de difícil interpretação. Por outro lado, a correlação é uma medida relativa (sem unidade), sendo mais fácil a interpretação. Resultados: (1º) −1≤ρ( X,Y )≤1 ρ( X ,Y )=cos(Ψ ) ; sendo Ψ o ângulo entre os vetores X e Y. (2º) se Y e X tiverem uma relação linear perfeita diretamente proporcional ( Y=a+bX ;b>0 ), então ρ( X ,Y )=1 . b=tg(θ) (3º) se Y e X tiverem uma relação linear perfeita inversamente proporcional ( Y=a+bX ;b<0 ), então ρ( X ,Y )=−1 . (4º) se Y e X forem independentes então ρ( X ,Y )=cos(0)=0 . Contudo, a recíproca não vale, ρ( X ,Y )=0 não implica Y e X independentes. Exemplo 6.6: X Y 0 1 2 3 ∑ 0 0 0 0 1/8 1/8 1 0 0 3/8 0 3/8 2 0 3/8 0 0 3/8 3 1/8 0 0 0 1/8 ∑ 1/8 3/8 3/8 1/8 1 X é Binomial de parâmetros n=3 e p=0,5 Y é Binomial de parâmetros n=3 e p=0,5 E( X )=E(Y )=1,5 Var( X)=Var(Y )=0,75 E( XY )=1,5 Cov( X,Y )=−0,75 ρ( X ,Y )=−1 . Note que ρ( X ,Y )=−1 era de se esperar, pois Y=3−X . Exemplo 6.7: lançamento de 2 dados honestos. X é o número da face do 1º dado Y é o número da face do 2º dado X Y 1 2 3 4 5 6 ∑ 1 1/36 1/36 1/36 1/36 1/36 1/36 1/6 2 1/36 1/36 1/36 1/36 1/36 1/36 1/6 3 1/36 1/36 1/36 1/36 1/36 1/36 1/6 4 1/36 1/36 1/36 1/36 1/36 1/36 1/6 5 1/36 1/36 1/36 1/36 1/36 1/36 1/6 6 1/36 1/36 1/36 1/36 1/36 1/36 1/6 ∑ 1/6 1/6 1/6 1/6 1/6 1/6 1 E( X )=E(Y )=3,5 Var( X)=Var(Y )=35 12 E( XY )=441 36 =12,25=E( X )×E(Y )⇒Cov( X ,Y )=0 ⇒ρ (X ,Y)=0 Note que f (x , y)=f X( x)×f Y ( x) para qualquer par ( x, y) , portanto, Cov( X,Y )=0 .