·

Biomedicina ·

Estrutura de Dados

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Recomendado para você

Texto de pré-visualização

31102023 1758 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 134 ESTATÍSTICA APLICADA AO DATA SCIENCE ESTATÍSTICA APLICADA AO DATA SCIENCE PREDIÇÕES COM REGRESSÃO PREDIÇÕES COM REGRESSÃO LOGÍSTICA LOGÍSTICA Autor Dr Antonio Gomes de Mattos Neto Revisor Rafael Maltempe INICIAR 31102023 1758 Eadbr Introduce Na primeira unidade vimos como aplicar modelos da estatistica a ciéncia dos dados Especificamente estudamos um caso de aplicagdo de modelos de regressdo linear simples e multipla na predicgdo do valor esperado de venda de iméveis Nesse caso a variavel resposta 0 valor do imével quantitativa Denominamos modelos de regressdo a classe de modelos que produzem como saida uma variavel resposta quantitativa Nesta unidade veremos outra classe de modelos preditivos aqueles que produzem como saida o resultado de uma variavel qualitativa Modelos desse tipo sdo chamados modelos de classificagdo Daremos inicio ao estudo de algoritmos de classificagdo examinando um dos mais famosos o de regressdo logistica Mas ha uma curiosidade afinal regressdo logistica um algoritmo de regressdo que faz predigdo de valores para variaveis quantitativas ou um algoritmo de classificagdo que faz predicdo de valores de variadveis qualitativas Regressdo logistica 6 de fato empregada como um algoritmo de classificagdo mas parte de sua construgdo funciona como um modelo de regressdo Esses pontos ficardo mais notdrios ao longo da unidade O fato é que regressdo logistica muito popular e aplicada a cincia dos dados com enorme frequéncia httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 234 31102023 1758 Eadbr j 7 re aan 1A WF lipos de Aprendizagem de DF oe Maquina eee eee eee eee ee ee ee Nesta segdo veremos aprendizagem supervisionada e ndo supervisionada jargdes tipicos da area de machine learning que acabou sendo empregada também na ciéncia dos dados Em seguida como nosso foco sao modelos preditivos veremos quais sdo os dois tipos principais de aprendizagem supervisionada regressdo e classificacgdo Aprendizagem nao Supervisionada e Supervisionada Em primeiro lugar antes de descrevermos quais sdo os dois principais tipos de aprendizagem supervisionada precisamos entender o que sdo aprendizagem supervisionada e nado supervisionada Vamos comegar com esta ultima utilizando dados estruturados organizados em uma tabela na qual as variaveis sdo dispostas nas colunas e as observacoes nas linhas 1 L414 L192 ve Lim 2 H91 L929 wee LIm n Ln Ln2 wee Lnm Tabela 21 Organizagdo dos dados em aprendizagem ndo supervisionada Fonte Elaborada pelo autor httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 334 31102023 1758 Eadbr LINHAS Observacoes repeticées realizagées instancias exemplos COLUNAS Variaveis qualitativas ou quantitativas CELULA x4 Resultado da iésima observacdo da variavel X Na aprendizagem nado supervisionada ndo apontamos uma das varidveis como uma variavel resposta sobre a qual gostariamos de predizer o resultado para diferentes valores das variaveis de entrada O foco é nas observacoes e 0 objetivo do aprendizado é o de procurar padr6es comuns entre as observacdes da amostra Chamamos uma linha da tabela de observacdo Uma observacdo 2 é um vetor de registros a1 Li2 LiZ5 265 Lim 412n dos valores das variaveis X X2 X3 Xm da observacgdo 7 e nm é o tamanho da amostra igual ao numero de linhas na tabela Cada um desses vetores representa uma observacgdo individual Uma das mais frequentes abordagens da aprendizagem nado supervisionada é a de tentar identificar similaridades entre essas observacées X isto 6 similaridades entre os vetores de observacées X e ao encontrar similaridades agrupalas Aos individuos de um mesmo grupo podemos dar um nome A partir desse ponto qualquer novo individuo observado sera classificado como pertencente a um dos grupos previamente identificados Esse ponto sera elucidado na Unidade 4 quando estudaremos algoritmos de agrupamento que fazem parte dos métodos de aprendizagem nao supervisionada Entretanto se vocé quiser ja ler algo sobre esse tema recomendamos o livro ntrodudo a Mineracdo de Dados com o R de Leandro Augusto da Silva et a 2016 ou Estatistica Prdtica para Cientistas de Dados de Peter Bruce e Andrew Bruce 2019 1 X11 X12 wee Lip V4 2 L941 L992 wee L2p Yo Nn Ln Ln2 wee Lnp Yn Tabela 22 Organizagdo dos dados em aprendizagem supervisionada Fonte Elaborada pelo autor LINHAS Observacoes repeticées realizagées instancias exemplos COLUNAS Variaveis qualitativas ou quantitativas httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 434 31102023 1758 Eadbr CELULA x4 Resultado da iésima observacdo da variavel X y Resultado da iésima observacdo da variavel Y Na aprendizagem supervisionada as variaveis X1 Xo Xp sao as variaveis de entrada enquanto a variavel Y é a variavel de saida Ao coletarmos os dados consideramos uma das variaveis que chamamos de Y como uma resposta aos valores dados de entrada assumidos pelas outras varidveis denominadas X1 Xo Xp procuramos descobrir uma fungdo que alimentada com os dados de entrada produza a resposta Y Os dados da varidvel resposta agem como supervisores ou exemplos das tentativas de acertar qual funcdo leva aos valores de saida Comparamos nossas estimativas Y1 Yo Yn Obtidas por meio do modelo escolhido com os valores observados y Yo Yn Essa comparacdo funciona com um supervisor que nos diz qudo boas sdo nossas estimativas Quando fazemos essas tentativas podemos aprimorar nosso modelo usando algum critério de medida de performance até ficarmos satisfeitos Cada modelo preditivo possui um ou mais critérios de medida da sua performance Na aprendizagem supervisionada outros nomes dados para as variaveis de entrada sdo variaveis regressoras explanatorias preditoras ou independentes e para a variavel resposta variavel de saida dependente ou target variable este ultimo nome é um jargdo da ciéncia da computacdo Na Unidade 1 usamos esse arranjo de variaveis para fazer o ajuste dos modelos de regressdo linear simples e multipla aos dados observados Especificamente ajustamos os modelos aos dados usando 0 Método dos Minimos Quadrados ja automaticamente embutido no software estatistico R para determinar os coeficientes do modelo Dois Principais Tipos de Aprendizagem Supervisionada Na aprendizagem supervisionada usamos valores conhecidos das variaveis de entrada obtidos por meio de uma amostra de tamanho n e tentamos predizer o valor da variavel resposta Y Se anotarmos as variaveis de entrada como um vetor X Xi Xo Xp podemos escrever esse processo como aquele de procurar uma fungdo preditiva f que faca esse trabalho qual seja YfXe em que um termo de erro aleatdrio Representa a aleatoriedade do fenédmeno estudado rufdos ambientais erros de medicées efeitos de variaveis que nado sabemos existir mas que influenciam o fenédmeno estudado httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 534 31102023 1758 Eadbr Quando Y é uma variavel aleatéria quantitativa assume valores quantitativos que sdo coisas que a gente consegue medir massa comprimento temperatura prego area densidade inflacdo Quando Y é uma variavel qualitativa assume como valores suas classes ou niveis que sdo coisas que se consegue contar por exemplo quantas pessoas moram no Centro Zona Leste Zona Sul Zona Norte ou Zona Oeste na sua turma da faculdade A sua turma é a Sua amostra e vocé conta quantos dos alunos sdo de uma ou de outra classe zona onde moram Outros exemplos sdo classes sociais A B C D e E escolaridade fundamental médio superior sexo feminino ou masculino cor vermelho azul ou verde gravidade de uma doenga leve moderada grave Quando em um problema de aprendizagem supervisionada a variavel resposta que queremos predizer é quantitativa denominamos regressdo Quando em um problema de aprendizagem supervisionada a variavel resposta é qualitativa é denominado classificagdo Note que para ambos os problemas as variaveis de entrada podem ser quantitativas ou qualitativas conforme ja estudamos na Unidade 1 para modelos de regressdo linear simples e multipla na predigdo de valores de venda esperados para iméveis XXX Y quantitativa regressdo Rio Np Y quantitativa classificagao Figura 21 Problemas de regressdGo e de classificacdo Fonte Elaborada pelo autor PraCegoVer A Figura 21 representa transformagdao das entradas na safda por um modelo de regressao Linear simples na figura temos as variaveis de entrada X1 X2 Xp que transformardo os dados de entrada num valor de saida Y quantitativa regressdo e um valor de saida Y qualitativa classificado variaveis de saida respostas da transformagao Finalmente observamos que classificagdo é tanto ou mesmo mais frequente que regressdo Alguns exemplos nos ajudardo a perceber isso JAMES et al 2013 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 634 31102023 1758 Eadbr i Os sintomas apresentados por uma pessoa X batimentos cardiacos pressdo arterial ritmo respiratorio movimentagdo ocular levam a suspeita de que pode estar tendo um dentre trés tipos de ataques Y overdose ataque cardiaco ataque epiléptico ii Um servigo de banco online pode suspeitar que a operagdo que esta sendo realizada X IP do cliente localizagdo valor padrao de digitacdo fraudulenta Y sim ou nado fraudulenta iii Um teste de sequéncia de DNA X sequéncia pode indicar se o paciente tem alguma doenga genética Y sim ou nado doenga genética A andlise preditiva é uma tarefa de mineracdo de dados aplicavel em um grande numero de dominios Alguns exemplos de areas nas quais a analise preditiva esta presente sdo analise do comportamento e expressdo das emocoes em redes sociais realizada com base no vocabulario usado nas manifestagées de opinides sobre produtos na biometria com reconhecimento de iris impressdo digital face ou assinatura na predigdo de subida ou queda de acdes no mercado financeiro na Biologia mediante a classificagdo de novas espécies de organismos vivos na Medicina com aplicagdo de modelos de predicdo categorica para auxiliar no diagndstico de um tumor como maligno ou benigno SILVA L A da PERES S M BOSCARIOLI C Introdugao a mineragao de dados com aplicagdes em R Rio de Janeiro Elsevier Editora 2016 Esta correto 0 que se afirma em O a Analise de comportamento é um problema de regressdo O b Reconhecimento de iris impressdo digital face ou assinatura sdo um problema de regressdo O cA predigdo se um tumor é maligno ou benigno é um problema de regressdo O d Todas as aplicacdes descritas sao problemas de classificacdao O e Apenas a predicdo de subida e queda de acdes sdo um problema de classificacao httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 734 31102023 1758 Eadbr Ler a fe LwEe 5 r Estudo de Caso Predicao de 7 an 7 Inadimpleéencia eeeeeeeeeeeeeeeeeeeee reer reer reer ee eee eee Nesta segdo veremos como fazer predido de classes de uma variavel qualitativa com modelos de regressdo logistica Regressdo logistica um método de classificagdo da estatistica de emprego muito comum na ciéncia dos dados Explicaremos a aparente contradido do nome regressdo usado em problemas de classificacdo Regressao Logistica e Outros Classificadores Sado muitos os algoritmos de classificagdo disponiveis para o desenvolvimento de modelos preditivos regressdo logistica analise discriminante linear LDA Linear Discriminant Analysis arvores de decisdo para classificagdo maquinas de vetores de suporte SVM support vector machines kvizinhos mais proximos KNN k nearest neighbors A lista nado acaba aqui Nesses listados estado alguns métodos de classificagdo classicos e outros mais recentes originados da fusdo de métodos da estatistica com métodos de aprendizado de maquina ML Machine Learning da ciéncia da computagdo Este ultimo termo machine learning vocé ja deve ter ouvido ou lido Classificagdo por métodos de machine learning estao hoje muito presentes no nosso dia a dia Sdo algoritmos como os que a Netflix usa para recomendar o préximo filme a ser assistido ou que o Facebook usa para sugerir uma nova amiga ou uM novo amigo para nossa rede de relacionamento social ou bancos usam para detectar operagdes potencialmente fraudulentas com cartées de débito ou crédito ou que concessionarias de distribuigdo de energia elétrica usam para identificar casos potenciais de roubo de energia da rede os famosos gatos Entraremos nesse mundo via regressdo logistica Nada melhor para demonstrar a aplicagdo da estatistica a cincia dos dados Porém antes de apresentar o modelo de classificagdo por regressdo logistica devemos entender duas formas diferentes de fazer classificacgdo httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 834 31102023 1758 Eadbr deterministica ou probabilistica Tome por exemplo a variavel resposta qualitativa Y com dois niveis classes 0 individuo esta infectado pelo virus HIV Y 1 ou nao esta infectado Y 0 dado um conjunto de sintomas 21 Z2 2p que apresenta X x Xo as Xp om Yy SEE X KX Xp y om PYyXx i Figura 22 Classificagdo deterministica e classificagdo probabilistica Fonte Elaborada pelo autor PraCegoVer A Figura 22 representa transformagao das entradas na saida por um modelo de regressao logistica na figura temos as variaveis de entrada X podendo ser composta por uma ou mais variaveis X1 X2 Xp que transformardo os dados de entrada num valor de saida de classificagdo deterministica e um valor de saida de classificagdo probabilistica como respostas da transformagdo No jargdo da estatistica escrever Y y significa que a variavel aleatéria Y resultou no valor y em que y 6 um dos possiveis valores que a variavel aleatoria Y pode assumir ou seja uma de suas classes no caso das variaveis qualitativas Também nesse mesmo jargdo escrever PY yX 2 significa a probabilidade de Y ser igual a um dos seus possiveis valores y quando a variavel de entrada X é igual a x dado que X 2 Um classificador deterministico confirmara se o individuo esta ou ndo esta infectado dados os sintomas que apresenta Um classificador probabilistico determinara a probabilidade de o individuo estar ou ndo infectado dados os sintomas que apresenta Veja que no primeiro caso a variavel resposta é claramente uma qualidade estar ou nado infectado e o classificador classificara o individuo em uma das duas classes da variavel resposta sim ou ndo infectado No segundo caso 0 Classificador produz como saida a probabilidade de cada um dos niveis classes se manifestar ou seja a probabilidade de 0 individuo estar ou ndo infectado Ambos os tipos de classificadores precisam ser treinados com base em dados que lhes sdo passados No exemplo aqui discutido sdo dados relativos a pessoas com sintomas indicativos de possivel infeccdo por HIV x a129 Lp Oo resultado exato de um teste httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 934 31102023 1758 Eadbr diagndstico padrdo ouro que confirmou se essas pessoas estavam ou ndo com o virus Y 1ou0 O modelo de classificagdo por regressdo logistica um classificador probabilistico Indica a probabilidade de uma determinada classe e em sintonia com 0 exemplo que acabamos de ver mais usado para 0 caso de variaveis respostas qualitativas com duas classes apenas ditas dicot6micas Pode ser usado para varidveis respostas qualitativas com mais de duas Classes dita polit6micas mas isso menos frequente no caso de classificagdo por regressdo logistica Finalmente todos os modelos ou algoritmos da estatistica ou de machine learning aplicados a cincia de dados erram Em outras palavras apresentam uma performance com maior ou menor nivel de acertos e erros Isso depende dos dados com os quais foram treinados e testados e também do proprio jeito de funcionar do algoritmo Cada um tem seu jeito prdprio de funcionar que pode ser melhor ou pior do que outro algoritmo para cada situagdo especifica Adiante apresentaremos a técnica de classificagdo da regressdo logistica com a ajuda de um estudo de caso simulado Mesmo sendo simulado reflete bem situagdes vividas no mundo real para a aprovacdo de créditos bancarios tais como cart6es de créditos A diferenga 6 que no mundo real a classificagdo é feita com um grande numero de variaveis de entrada enquanto neste estudo de caso simulado por conta de seu propésito didatico trabalharemos com um conjunto pequeno de variaveis preditivas Esse estudo abrira um grande leque de possiveis aplicacées da estatistica e das cincias dos dados no mundo no qual vivemos hoje De fato é exatamente isso que ja esta acontecendo em praticamente todas as areas da atividade humana seja no mundo académico ou no mundo dos negécios e e A e 6 e Predicao de Inadimpléncia com Cartoes de Credito Um gerente de pessoas fisicas de um banco de varejo vive em um ambiente onde quest6es relativas a analise de aprovagdo de cartdo de crédito para seus clientes e a inadimpléncia no pagamento das faturas mensais desses cart6es sdo frequentes A atividade de venda de produtos financeiros por bancos de varejo tais como cartées de crédito requer que se faca uma avaliacdo do cliente E foco dessa avaliacdo aprovar ou ndo um cartdo de crédito para o cliente e se aprovado definir o limite do cartdo ou seja o valor do crédito a conceder O primeiro problema é um problema de classificagdo aprovar sim ou ndo o cartdo de crédito uma variavel qualitativa dicot6mica com dois niveis classes O segundo problema é um problema de regressdo predizer o valor do limite do crédito do cartado Como ja explicado aqui daremos atencdo ao primeiro problema Como se fazia isso nos bancos e ainda se faz ao menos em parte Por meio da definigdo de regras que devem ser atendidas por cada cliente tais como idade emprego estavel renda fixa httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1034 31102023 1758 Eadbr dividas pequenas nome limpo casa propria etc Como se faz isso com algoritmos ou modelos preditivos Uma alternativa frequentemente usada sdo algoritmos de aprendizagem supervisionada Para isso precisamos de dados Ensinamos ao algoritmo com base nos dados que lhes sao passados a predizer clientes que sao maus pagadores potenciais das faturas do cartdo Dessa forma se o algoritmo ao ser alimentado com os dados referentes a um novo cliente classificar esse cliente como um mau pagador potencial o banco nado aprovara o cartdo Predicado y provavel inadimplente x x X wna Xp p Y1 x NAO APROVA za classificagao y improvavel inadimplente APROVA Figura 23 Algoritmo de classificagdo para aprovacdo de crédito Fonte Elaborada pelo autor PraCegoVer A Figura 23 representa transformacdo das entradas na saida por um modelo preditivo algoritmos de aprendizagem supervisionada na figura temos as variaveis de entrada X podendo ser composta por uma ou mais variaveis X1 X2 Xp que transformardo os dados de entrada resultando na opcdo de ndo aprovacdo de crédito para o cliente provavel inadimplente ou e aprovagdo de crédito para o cliente improvavel inadimplente como respostas da transformacdo Para equipes de andlise de crédito poder contar com a ajuda de um software com a capacidade de recomendar a aprovacdo ou nao da concessdo do cartdo é de grande valor A recomendagao feita pelo software podera ser tratada ao lado de outras regras de crédito para uma decisdo final sobre a concessdo de cartdo para o cliente e A e 6 e Dados de Inadimplencia com Cartoes de Credito Usaremos um conjunto de dados de um banco ficticio de nome Banco Mais com Menos O gerente desse banco decidiu investigar a possibilidade de trabalhar com um algoritmo de predigdo de potencial de inadimpléncia referente ao pagamento das faturas de cartdo de crédito Para isso contratou uma jovem cientista de dados que solicitou uma amostra colhida randomicamente da base cadastral do banco de pessoas fisicas dos ultimos dois anos A httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1134 31102023 1758 Eadbr cientista de dados pediu uma amostra pequena de tamanho 200 com o propésito de realizar alguns testes iniciais Se tivesse sucesso solicitaria mais dados ao banco para melhor treinar e testar o seu algoritmo para uma futura validagdo pelo seu cliente o banco A amostra Ihe foi passada na forma de uma tabela com 200 observacoes de 4 variaveis Alguns de seus valores encontramse exibidos no Quadro 23 As variaveis observadas foram a renda mensal da pessoa R seu gasto médio com cartdo de crédito R se a pessoa tinha um emprego estavel Sim ou Ndo e se a pessoa havia ao longo do periodo pesquisado ficado inadimplente com o pagamento de faturas do cartdo ao menos uma vez Sim ou Nao 1 548378 220836 1 1 2 404042 119697 0 1 3 467789 63681 1 0 4 173246 122513 0 1 5 37739 95666 0 0 6 140497 39273 1 0 7 291427 94697 1 0 199 209997 92999 0 1 200 278975 143822 1 1 Tabela 23 Dados de inadimpléncia com cartées de crédito Fonte Elaborada pelo autor A jovem cientista de dados usou a seguinte nomenclatura com o objetivo de usar uma notagdo mais compacta para as variaveis a serem analisadas n Tamanho da amostra 200 X1 Renda mensal da pessoa R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1234 31102023 1758 Eadbr X2 Gasto médio com cartao R X3 Sea pessoa tem emprego estavel 1 Sim ou 0 Nao Y Sea ficou inadimplente nos ultimos 2 anos 1 Sim ou 0 Nao Decidiu realizar em primeiro lugar uma analise descritiva dos dados amostrados Como a variavel resposta de interesse uma variavel qualitativa dicot6mica também decidiu que adotaria como modelo preditivo o de classificagdo por regressdo logistica Veremos adiante como ela prosseguiu com seu trabalho Tipicamente uma base de dados usada em sistemas informatizados convencionais é organizada de forma que se tenham dados armazenados em estruturas tabulares em que as linhas armazenam uma ocorréncia de um evento caracterizado por um conjunto de colunas que representam caracteristicas que descrevem um exemplar instancia daquele evento SILVA L A da PERES S M BOSCARIOLI C Introdugao a mineragao de dados com aplicagdes em R Rio de Janeiro Elsevier Editora 2016 p 7 O a Otrecho referese a dados ndo estruturados tais como textos imagens videos e sons Outros tipos de dados sdo chamados dados estruturados O b Otrecho referese a dados qualitativos que sdo os Unicos que podem ser organizados em forma tabular Dados quantitativos ndo podem ser organizados em forma tabular O c Otrecho referese a dados quantitativos que sdo os Unicos que podem ser organizados em forma tabular Dados qualitativos ndo podem ser organizados em forma tabular O d Otrecho referese a dados dicotémicos ou bindarios os Unicos que podem ser organizados em forma tabular Dados polit6micos ndo podem ser organizados em forma tabular O e Otrecho referese a dados estruturados que sdo aqueles que podem ser organizados em forma tabular Podem conter tanto dados quantitativos como qualitativos httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1334 31102023 1758 Eadbr A DF e a m rT Co 5 a land rc Analise Descritiva dos Dados eeeeeeeeeeeeeeeeeeeee reer reer reer ee eee eee Nesta secdo faremos uma analise descritiva dos dados Iniciaremos com a andlise descritiva de cada variavel da amostra isoladamente Depois examinaremos a relacdo entre algumas dessas variaveis eye eoe of Analise Descritiva de Cada Variavel da Amostra Sao quatro as variaveis observadas neste estudo A primeira delas é a renda mensal das pessoas Usando as fungdes min mean e max do R a cientista de dados obteve minx1 113702 meanx1 340556 maxx1 908615 Para visualizarmos a distribuigdo de frequéncias desses dados como se trata de uma variavel quantitativa recorreu a fungdo grafica hist do R Obteve o histograma exibido na Figura 24 A segunda delas é 0 gasto médio das pessoas com cartdo de crédito Usando as fungdes min mean e max do R obteve minx2 37979 meanx2 118087 maxx2 311827 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1434 31102023 1758 Eadbr oS oO So uw oO s D oO 4 e 8 LL 7 5 CQ SS OT 2000 4000 6000 8000 10000 Renda Mensal R Figura 24 Histograma da renda mensal das pessoas R Fonte Elaborada pelo autor PraCegoVer A figura 24 representa um histograma quantitativo que se refere aos dados de renda mensal das pessoas O eixo x linha x horizontal exibe os valores de renda numa escala de 2 mil iniciando em 2000 até 6000 mil O eixo Y linha Y vertical representa a frequéncia de 0 a 60 numa escala de 10 A maior frequéncia esta no inicio do histograma na faixa de valores entre dois mil 2000 e quatro mil 4000 atingindo a frequéncia acima de 40 e pouco abaixo de 60 Para visualizar a distribuigado de frequéncias desses dados como também se trata de uma variavel quantitativa novamente recorreu a fungdo grafica hist do R e obteve o histograma exibido na Figura 25 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1534 31102023 1758 Eadbr oO o a Ww i 5 oO oD wz o LL oO a a TT 0 500 1000 1500 2000 2500 3000 3500 Gasto Médio Mensal com Cartao de Crédito R Figura 25 Histograma do gasto médio mensal das pessoas com cartdo de crédito R mil Fonte Elaborada pelo autor PraCegoVer A figura 25 representa um histograma quantitativo que se refere aos dados de gasto médio mensal com o cartdo de crédito O eixo x linha x horizontal exibe os valores de renda numa escala de quinhentos reais R 500 iniciando de zero até trés mil e quinhentos reais R 3500 O eixo Y linha Y vertical representa a frequéncia de 0 a 80 numa escala de 20 A maior frequéncia esta na segunda classe do histograma atingindo o pico da frequéncia de 80 na faixa de valores entre quinhentos reais R 500 e mil reais R 1000 A terceira uma variavel qualitativa dicot6mica que indica se a pessoa tem ou nado um emprego estavel Para contar a frequéncia desses valores no conjunto de dados da amostra a jovem cientista de dados empregou a fundo table do R tablex3 N S 94 106 Ou seja das 200 pessoas da amostra 94 ndo tinham emprego estavel enquanto 106 tinham um emprego estavel A quarta e ultima referese a variavel resposta também qualitativa dicot6mica que indica se a pessoa ficou ou ndo inadimplente ao longo do periodo estudado A jovem cientista de dados também usou nesse caso a fungao table do software estatistico R para contar a frequéncia de aparecimento desses valores na amostra coletada e obteve httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1634 31102023 1758 Eadbr tabley N S 122 78 Ou seja das 200 pessoas da amostra 122 ndo tinham ficado inadimplentes nos dois anos do periodo selecionado e 78 sim e falharam em pagar a fatura do cartadéo ao menos uma vez ao longo desse periodo eye o of e Analise Descritiva da Relacao entre Variaveis Até agora a jovem cientista de dados havia examinado as variaveis uma a uma Decidiu analisar a relagdo entre algumas delas Comegou com a tentativa de visualizar a relagdo entre trés variaveis a renda mensal das pessoas gasto médio mensal com 0 cartdo de crédito dessas mesmas pessoas e se haviam ou nao ficado inadimplentes Para isso recorreu a fungdo plot do R base e obteve o grafico exibido na Figura 26 Esse grafico exibe as duas variaveis quantitativas nos eixos horizontal e vertical respectivamente e a variavel qualitativa que indica se a pessoa ficou ou ndo inadimplente foi exibida com as cores azulclaro para os adimplentes e laranja para os inadimplentes FT e gg ro 9 LN ptt 4p He ee tt tet 3s oo Bt e ft tigate f ta OL e e ca e e n Oo e om e e 5 A FR M00 toe 2000 4000 6000 8000 Renda Mensal R Figura 26 Renda mensal x gasto médio cartdo x inadimpléncia Fonte Elaborada pelo autor PraCegoVer A Figura 26 representa um Grafico de dispersdo da renda mensal e o gasto médio com cartdo e a relagdo destas duas variaveis quantitativas com a inadimpléncia que é uma variavel qualitativa O eixo x1 linha X1 representa o valor da renda mensal iniciando do zero até dez mil reais R 10000 em escala de dois mil reais R 2000 O eixo y linha y vertical representa 0 gasto médio com cartdo iniciando em quinhentos reais R 500 a dois mil httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1734 31102023 1758 Eadbr e quinhentos reais R 2500 marco inicial até quinhentos reais R 500 numa escala de mil reais R 1000 na figura observase a maior concentragdo de adimplentes sinalizados em azul na faixa de gasto mensal com cartdo entre quinhentos R 500 e mil e quinhentos reais R 1500 e outra concentracao significativa de inadimplentes sinalizados em amarelo na faixa de gasto mensal com cartdo entre mil e quinhentos R 1500 e dois mil e quinhentos reais R 2500 Para visualizar a relagdo da renda mensal variavel quantitativa com o status de adimpléncia das pessoas variavel qualitativa decidiu usar a fungdo grafica boxplot do R Fez 0 mesmo para visualizar a relagdo entre o gasto médio mensal das pessoas com cartdo de crédito com seu status de adimpléncia As Figuras 27 e 28 exibem esses graficos oO O 8 gg 3 5 S N ee ee Adimplente 0 Inadimplente 1 Figura 27 Boxplot renda mensal x inadimpléncia Fonte Elaborada pelo autor PraCegoVer A Figura 27 representa uma fungdo grafica boxplot relacionando a renda mensal e o status de inadimpléncia O eixo x1 linha X1 representa o status de adimplente sinalizado em azul do lado esquerdo da area do grafico e o status de inadimplente sinalizado em amarelo do lado direito da area do grafico O eixo y linha y vertical representa a renda mensal iniciando em dois mil reais R 2000 a oito mil reais R 8000 marco inicial de dois mil reais R 2000 numa escala de dois mil reais R 2000 na figura observase a maior sinalizagdo de adimplentes na faixa de renda mensal entre dois mil R 2000 e quatro mil reais R 4000 e outra sinalizagdo de inadimplentes sinalizados em amarelo na faixa de renda mensal trés mil R 3000 e cinco mil reais R 5000 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1834 31102023 1758 Eadbr I 7 i oe 2 i Oo I wn I 8 U Oo 8 oD s oO I Ss I wn I 5 O oS S Ww ee Adimplente 0 Inadimplente 1 Figura 28 Boxplot gasto médio mensal com cartdo x inadimpléncia Fonte Elaborada pelo autor PraCegoVer A Figura 28 representa uma funcdo grafica boxplot relacionando o gasto médio mensal com cartdo e o status de inadimpléncia O eixo x1 linha X1 representa o status de adimplente sinalizado em azul do lado esquerdo da area do grafico e o status de inadimplente sinalizado em amarelo do lado direito da area do grafico O eixo y linha y vertical representa o gasto médio com cartdo iniciando em quinhentos reais R 500 a dois mil reais R 2500 marco inicial de quinhentos reais R 500 numa escala de mil reais R 1000 na figura observase a maior sinalizagdo de adimplentes na faixa de gasto médio entre quinhentos R 500 e mil reais R 1000 e outra sinalizagao de inadimplentes sinalizados em amarelo na faixa de gasto médio com cartdo entre um pouco acima de mil R 1000 e dois mil reais R 2000 E facil perceber que ha um efeito de aumento da inadimpléncia tanto com um aumento da renda média da pessoa quanto com o aumento de seus gastos com cartdo de crédito Esse efeito porém é mais pronunciado pelo aumento dos gastos com cartdo do que com a renda mensal das pessoas Por meio do software R é possivel verificar que as pessoas adimplentes tém uma renda média de R 318831 e as inadimplentes de R 374533 ou seja 175 a mais Igualmente possivel verificar que as pessoas adimplentes gastaram em média R 87901 por més com 0 cartdo de crédito e que as inadimplentes gastaram em média R 165300 ou seja 881 a mais quase o dobro httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 1934 31102023 1758 Eadbr N S a wv oe c a o E To 7 oo Emprego Estavel Figura 29 Mosaicplot da estabilidade no emprego x inadimpléncia Fonte Elaborada pelo autor PraCegoVer A Figura 29 representa uma fungdo grafica mosaicplot relacionando estabilidade de emprego e o status de inadimpléncia duas variaveis qualitativas O eixo x1 linha X1 representa o status de emprego estavel com duas opcées Nao N do lado esquerdo da area do grafico e Sim S do lado direito da area do grafico O eixo y linha y vertical representa o status de inadimplente também com duas opcées sendo Nao N sinalizado em azul e Sim S sinalizado em amarelo na figura do lado esquerdo da area do grafico que representa Ndo para estabilidade de emprego observase a maior indicagdo de Sim para inadimplentes numa propordo de 23 enquanto que do lado direito que representa Sim para estabilidade de emprego observase a menor indicagdo para Nao para inadimplentes numa proporgao de 23 Para finalizar a andalise descritiva a jovem cientista resolveu investigar a relagdo entre as duas variaveis qualitativas emprego estavel S ou N e inadimpléncia S ou N Para isso empregou novamente a funcdo table do R e obteve y x3 N S N 41 53 S 81 25 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2034 31102023 1758 Eadbr Esse resultado indica que das 53 25 78 pessoas com emprego estavel apenas 25 ficaram inadimplentes 321 Por outro lado do total das 41 81 122 pessoas sem emprego estavel 81 ficaram inadimplentes 664 O efeito da instabilidade de empregos no nivel de inadimpléncia das pessoas é muito forte ao menos para essa pequena amostra de 200 pessoas A jovem cientista de dados resolveu visualizar esse resultado recorrendo a fungdo grafica mosaicplot do R como mostra a Figura 29 Com isso a analise descritiva inicial foi finalizada A nossa jovem cientista de dados ja tendo decidido anteriormente desenvolver seu modelo preditivo para esse caso adotando a regressdo logistica respirou fundo e deu partida a esse desafiante passo com veremos adiante Estatistica é a ciéncia dos dados Um aspecto importante de lidar com dados é organizar e resumir os dados em maneiras que facilitem sua interpretagdo e andalise subsequente Veremos que ha métodos numéricos para resumir dados e um numero de técnicas graficas poderosas As técnicas graficas sdo particularmente importantes Qualquer boa andlise estatistica deve sempre comecar plotando os dados MONTGOMERY D C RUNGER G C Estatistica aplicada e probabilidade para engenheiros 5 ed Rio de Janeiro LTC 2013 p 128 Quanto a esse assunto analise as afirmativas a seguir A organizacdo de dados em tabelas e 0 calculo de resumos estatisticos sAo um aspecto importante para a interpretacdo e analise de dados Il Resumos estatisticos sdo calculados com base em amostras de dados e também sdo chamados sumarios estatisticos Ill Técnicas graficas so poderosas para a interpretacdo e analise de dados e qualquer analise estatistica deve sempre comegar plotando graficos lV O termo estatistica descritiva referese a um conjunto de técnicas de organizagao de dados calculo de resumos e exposicdo grafica dos dados Esta correto 0 que se afirma em httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2134 31102023 1758 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2234 a II III e IV apenas b II e III apenas c III e IV apenas d I II III apenas e I II III e IV 31102023 1758 Eadbr e 0 FI Aac lel ra le reo igoes COM MOQeIOs Ge D PI a Aqraces erics KeQressaodO LOGIStICa eeeeeeeeeeeeeeeeeeeee reer reer reer ee eee eee Nesta secdo ajustaremos modelos de regressdo logistica simples e multipla aos dados Com os modelos prontos realizaremos predig6es de classes usando 0 caso para 0 qual foi contratada pelo gerente do banco a nossa jovem cientista de dados Modelo de Regressao Logistica Simples Como ja dito a regressdo logistica 6 um classificador muito usado em situagdes nas quais a variavel qualitativa é dicotémica Ndo somente isso mas também quando as classes se misturam um pouco e ndo ha uma fronteira muito clara de divisdo entre elas Aqui entre adimplentes e inadimplentes Para enxergar esse ponto volte a Figura 26 e veja como os pontos azuis dos adimplentes se misturam um pouco com os pontos laranja dos inadimplentes Nessa situagdo a regressdo logistica também se mostra uma opdo interessante Outro ponto a observar que nossa jovem cientista de dados verificou na sua analise descritiva dos dados que dentre as duas variaveis quantitativas renda e gastos com cartdo a segunda é mais influente Dessa forma decidiu comecar com um modelo de regressdo logistica simples com uma SO variavel de entrada justamente a mais influente a variavel gastos médios mensais com 0 cartao O modelo preditivo que vai tentar desenvolver sera um de predigdao da probabilidade de a pessoa ficar inadimplente em fungdo dos seus gastos médios com o cartdo httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2334 31102023 1758 Eadbr Os cientistas de dados costumam encarar problemas que exigem decisoes automatizadas E um email ou uma tentativa de phishing O cliente esta propenso a desistir O usuario web esta propenso a clicar em um anuncio Esses problemas sdo todos de classificacdo A classificagdo é talvez a forma mais importante de previsdo 0 objetivo prever se um registro 0 ou uM 1 phishing nao phishing clicarnao clicar desistirnao desistir ou em alguns casos uma entre muitas categorias por exemplo a filtragem do Gmail em suas Caixa de entrada principal social oromogdes ou foruns Geralmente precisamos saber de mais do que uma simples classificagdo binaria queremos saber a probabilidade prevista de um caso pertencer a uma classe Fonte Bruce e Bruce 2019 p 177 Na discussdo que se segue anotaremos pa2 para a probabilidade esperada da variavel resposta Y do status de adimpléncia das pessoas ser igual a sua classe y 1 inadimplente quando o valor da variavel de entrada X92 for igual a um determinado valor a2 de gasto médio mensal dessa pessoa com 0 seu cartdo de crédito isto é PY 1 X 2 Essa notacdo tipica dos campos da probabilidade e da estatistica lése probabilidade de Y 1 dado X 92 A palavra regressdo em regressdo logistica tem relagdo com a regressdo linear que ja vimos na Unidade 1 Por outro lado nesta unidade ja vimos que a regressdo logistica um classificador probabilistico Porém nado boa ideia a nossa cientista de dados tentar desenvolver um modelo preditivo de probabilidade usando uma equagao como p a2 bo boxe pois essa equacdo representa uma reta e pa2 sendo uma reta poderia assumir valores menores do que 0 probabilidades negativas ou maiores do que 1 maiores do que 100 o que nado é possivel para probabilidades Para resolver esse problema os estatisticos recorreram a outro modelo substituindo a probabilidade p a2 na equacao acima pelo logaritmo de sua chance escrita como log px2 1pw2 bo bows Dessa equacdo podemos isolar p 2 com alguns poucos passos de algebra para obter httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2434 31102023 1758 Eadbr p x2 exp bo box 1 exp bo boxe Essa ultima equacdo garante que a probabilidade p x2 ficard contida entre os limites 0 e 1 para qualquer valor da variavel de entrada 9 A partir desse ponto 0 procedimento seguido pela jovem cientista de dados foi o de estimar os coeficientes bg e bg usando o software estatistico R O método que o R usa aqui é o de Minimizagdo da Fungdo de Verossimilhanga algo parecido ao que faz o Método dos Minimos Quadrados para 0 caso dos modelos de regressdo linear A cientista obteve os seguintes valores para os coeficientes do modelo b0 416 e b2 000314 Podemos agora predizer a probabilidade de uma pessoa ser inadimplente em fungdo dos seus gastos médios com 0 cartdo de crédito Analisemos duas pessoas uma com gastos mensais médios com cartdo de crédito de R 50000 e outra de R 100000 ou seja o dobro da primeira Usando os valores calculados para seus coeficientes a equacdo fica p x2 exp416 00314 x2 1 exp 4 16 000314z2 e obtemos p 500 0 07 e p 1000 0 27 Em palavras a probabilidade de a primeira pessoa ficar inadimplente gastando R 50000 por més com cartdo de crédito de 7 enquanto para a segunda pessoa com gastos de R 100000 essa mesma probabilidade de 27 Ou seja a segunda pessoa tem uma probabilidade 38 vezes maior de ficar inadimplente do que a primeira pessoa Para visualizar esse resultado a jovem cientista de dados construiu um grafico no qual plotou simultaneamente 1 na cor azulclaro ndo inadimplentes y O versus gastos com cartdo 2 na cor laranja inadimplentes y 1 versus gastos com cartdo 2 3na cor salmao probabilidade p a2 de inadimpléncia y 1 versus gastos com cartao Lo Obteve o grafico exibido na Figura 210 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2534 31102023 1758 Eadbr Eo A 2 SHES ee HA TH eseevesece Hl ee co eo e vo e 6 z 8 s ll e S 2 9 c eo ooo e GT Oo eee SC SG CDOCIIIIEIENISOSSEDEID CD OOO C8 GD E88 CD 0 ee e 500 1000 1500 2000 2500 Gasto Médio Mensal com Cartdo de Crédito R Figura 210 Inadimpléncia 1 Sim ou 0 NGo versus gastos com cartdo 2 Fonte Elaborada pelo autor PraCegoVer A Figura 210 representa um grafico de linha relacionando o gasto médio com cartdo de crédito variavel quantitativa e o status de inadimpléncia variavel qualitativa O eixo x1 linha X1 horizontal representa o gasto médio mensal com cartdo de crédito numa escala de quinhentos reais R 500 iniciando de quinhentos até dois mil e quinhentos reais O eixo y linha y vertical representa o status de inadimplente com duas opcoées Ndo indicado por zero ou Sim indicado por um 1 numa escala de 02 dois décimos iniciando por zero 00 e finalizando com um 1 na figura observase um crescimento da curva de grau de inadimpléncia iniciado com 00 até o atingimento do grau de total inadimpléncia finalizado com 10 a medida que 0 gasto mensal com cartdo de crédito aumenta Esse exemplo deixa claro 0 que queremos dizer quando denominamos a regressdo logistica classificador probabilistico que estima a probabilidade de acontecer uma das classes da variavel resposta em fungdo do valor da variavel de entrada No caso o da pessoa ficar inadimplente A predicdo para a probabilidade de a outra classe acontecer é simplesmente 1 p 22 que é a probabilidade de a pessoa nao ficar inadimplente O banco pode entdo decidir usar um valor limite superior tal como p x2 005 isto 6 5 como seu critério de aprovagdo do cartdo Se a probabilidade de a pessoa ficar inadimplente for menor ou igual a esse valor o banco aprova 0 cartdo e desaprova se essa probabilidade for superior a esse valor limite httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2634 31102023 1758 Eadbr Ao chegar a esse ponto a jovem cientista de dados ja estava bastante satisfeita com esses resultados parciais Decidiu dar mais um passo adiante Neste estudo vocé podera ler sobre técnicas de regressdo logistica aplicadas a andlise ambiental Procurase demonstrar 0 quanto se pode ganhar em entendimento dos fatores que promovem alteragées no padrdo de uso do solo com anidilise estatistica e geografica é e A e Modelo de Regressao Logistica Multipla Regressdo multipla 6 aquela cujo modelo de regressdo considera mais de uma variavel de entrada Na amostra cedida pelo gerente do banco a jovem cientista de dados ha 200 observacées de 4 variaveis Dessa forma ela escreveu 0 modelo de regressdo logistica multipla da seguinte forma logpx 1pa bo bia boxe b3x3 em que t x1 2 x3 x1 Renda mensal da pessoa R x2 Gasto médio mensal com cartao de crédito R xz3 Sea pessoa tem um emprego estavel 1 Sim ou 0 Nao p a Probabilidade esperada da pessoa ficar inadimplente 0 px 1 Assim como no caso do modelo de regressdo logistica simples a jovem cientista de dados fez o ajuste desse modelo aos dados da amostra com a ajuda do software R e obteve para os coeficientes b0285 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 27134 31102023 1758 Eadbr b1 0000920 b2 000519 b3 152 Ela sabia que a relacdo entre log px 1pa e pa é tal que quando uma cresce a outra também cresce Com isso pdde deduzir que p x2 a probabilidade de a pessoa ser inadimplente Isso nds ja sabiamos da analise descritiva feita pela nossa jovem cientista de dados mas agora ela foi muito além Quantificou essas relacdes por meio desse modelo de regressdo logistica multipla E se apressou em mostrar esse resultado ao gerente do banco aquele que a havia contratado Este logo pediu a cientista que demonstrasse o poder de predigdo desse modelo e para isso ela apresentou duas situagées httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2834 31102023 1758 Eadbr Primeira situagao Duas pessoas com renda de R 100000 ao més e gastos médios mensais com cartdo de crédito de R 40000 porém uma com emprego estavel e a outra sem emprego estavel como segue Pessoa A x1 1200 x2 400ex731 p12004001 0032 Pessoa B 4 1200 x2 400er730 p12004000 0133 A pessoa A tem uma probabilidade de 32 de ficar inadimplente com o cartdo Para a pessoa B essa probabilidade é de 133 Desse modo se 0 banco usar 0 critério do limite maximo de 5 aprovaria Oo Cartao para A e ndo para B Segunda situagao Duas pessoas com renda de R 800000 ao més e ambas com empregos estaveis porém uma com gastos médios mensais com cartdo de crédito de R 150000 e a outra R 300000 Pessoa C 41 8000 2 1500 e 3 1 p 8000 1500 1 0019 Pessoa D x1 8000 zz 3000 e 3 1 p 8000 3000 1 0979 A pessoa C tem uma probabilidade de 19 de ficar inadimplente com o cartdo Para a pessoa B essa probabilidade é de 979 Obviamente para essa pessoa 0 banco ndo aprovaria o cartdo de crédito O gerente do banco ficou tao contente que convidou a jovem cientista de dados a ingressar definitivamente para sua equipe de inteligéncia de negdécios e também pediulhe para liderar um time no uso desse tipo de ferramentas de estatistica e machine learning Concluiu que ja estava na hora de mudar alguns dos processos do banco com esse tipo de tecnologia Considere os seguintes exemplos de aplicagdo de regressdo logistica assim como as afirmativas a seguir 1 previsdo de risco na area tributaria calcular a probabilidade de o contribuinte ser inadimplente ou adimplente apds o parcelamento de tributos 2 utilizada para classificar se a empresa encontrase no grupo de empresas solvente ou insolvente 3 determinar quais caracteristicas levam as empresas a adotarem o balanced scorecard httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 2934 31102023 1758 Eadbr UNIVERSIDADE DE SAO PAULO Sistemas de Apoio as Disciplinas Regressao Logistica 2019 Disponivel em httpsedisciplinasuspbrpluginfilephp3769787 modresourcecontent109RegressaoLogisticapdf Acesso em 26 dez 2019 Euma técnica recomendada para situagdes em que a varidvel dependente é de natureza dicotémica ou binaria Quanto as independentes podem ser categdricas ou ndo Il A regressdo logistica um recurso que nos permite estimar a probabilidade associada a ocorréncia de determinado evento em face de um conjunto de variaveis explanatorias Ill Busca estimar a probabilidade de a varidvel dependente assumir um determinado valor em fungao dos conhecidos de outras variaveis IV Os resultados da andlise ficam contidos no intervalo entre zero a um Esta correto 0 que se afirma em O a ll Ille IV apenas O b Il e Ill apenas O cI Il Ile IV O dI Il Ill apenas O e Ill e lV apenas httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 3034 31102023 1758 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 3134 indicações Material Complementar LIVRO Análise Estatística com R para Leigos Joseph Schmuller Editora Alta Books ISBN 9788550804859 Comentário nesse livro o autor procura apresentar a estatística de maneira fácil com o uso do software estatístico R Faz um balanço entre conceitos estatísticos e programação em R de forma a tornar o mais fácil possível o aprendizado 31102023 1758 Eadbr FILME O homem que mudou 0 jogo Ano 2011 Comentario esse filme discorre sobre um treinador de um time de y beisebol que decidiu usar a analise de dados e estatistica no processo de tomada de decisdo para melhorar a performance do seu time eens Para saber mais sobre o filme acesse 0 trailer TRAILER httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 3234 31102023 1758 Eadbr Nesta unidade vimos um caso simulado Casos reais sdo similares ao caso abordado Porém é comum encontrarmos nos casos reais Muito mais dados tanto em numero de observacgées que chegam a casa de milhares ou milhédes como também em numero de variaveis que facilmente chegam a algumas dezenas ou mesmo centenas No caso aqui estudado a amostra possuia apenas 200 observacdes e somente quatro variaveis Para problemas em dimensées maiores ou muito maiores como os problemas chamados de big data mais importante ainda é o uso intensivo de técnicas computacionais na aplicagdo da estatistica a cincia dos dados A ideia nesta unidade como também foi a da unidade anterior foi a de mostrar poder dessas técnicas modelos e algoritmos quando usados em favor da sociedade humana dos seus negdcios das suas pesquisas Ndo seria produtivo tentar nessa introducdo cobrir em mais profundidade detalhes importantes para a construgdo desses modelos como treinalos como testalos e como validalos por exemplo Sendo assim ha muitas coisas que ndo vimos e que deixamos para vocé ao longo da sua trajetéria como estudante e no futuro como profissional explorar e aprender se assim desejar Concluindo essa area hoje 6 muito promissora e valorizada pelo mercado de trabalho e que qualquer profissional pode se apoderar dessas ferramentas e aplicadlas a sua area de especializacao meee eee reer errr BRUCE P BRUCE A Estatistica pratica para cientistas de dados 50 conceitos essenciais Rio de Janeiro Alta Books 2019 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 3334 31102023 1758 Eadbr JAMES G WITTEN D HASTIE T TIBSHIRANI R An introduction to statistical learning with applications in R New york Springer 2013 MENDES C A B VEGA F A C Técnicas de regressdo logistica aplicada a andlise ambiental Revista Geografia Londrina v 20 nn 1 2011 Disponivel em httpwwwuelbrrevistasuelindexphpgeografiaarticleview6878 Acesso em 26 dez 2019 MONTGOMERY D C RUNGER G C Estatistica aplicada e probabilidade para engenheiros 5 ed Rio de Janeiro LTC 2013 SILVA L A da PERES S M BOSCARIOLI C Introdugao a mineragao de dados com aplicagdes em R Rio de Janeiro Elsevier 2016 UNIVERSIDADE DE SAO PAULO Sistemas de Apoio as Disciplinas Regressdo Logistica 2019 Disponivel em httpsedisciplinasuspbrpluginfilephp3769787modresourcecontent109RegressaoLogisticapd Acesso em 5 dez 2019 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade2ebookindexhtml 3434