·
Biomedicina ·
Estrutura de Dados
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
Texto de pré-visualização
31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 141 ESTATÍSTICA APLICADA AO DATA ESTATÍSTICA APLICADA AO DATA SCIENCE SCIENCE PREDIÇÕES COM MODELOS DE PREDIÇÕES COM MODELOS DE REGRESSÃO LINEAR REGRESSÃO LINEAR Autor PhD Antonio Gomes de Mattos Neto Revisor Antonio do Nascimento Alves INICIAR 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 241 introdução Introdução Nesta unidade aprenderemos as Predições com Modelos de Regressão Linear Modelos de regressão linear são um dos principais métodos preditivos da estatística e da ciência dos dados data science São muito usados em praticamente todos os campos de conhecimento humano saúde engenharia economia geologia etc onde se quer estimar o valor de uma variável quantitativa em função de outras variáveis chamadas de variáveis de entrada ou preditoras Veremos um pouco sobre a evolução recente da estatística e como a mesma se tornou uma das principais ferramentas da ciência dos dados Falaremos sobre a fusão de métodos de machine learning com aqueles da estatística todos esses usados na ciência dos dados Feita essa passagem introdutória por parte do mundo da estatística de machine learning e ciência dos dados voltaremos nossas atenções ao principal foco dessa unidade que são os modelos de regressão linear Apresentaremos o que são esses modelos em que situações são usados tudo isso ilustrado com um exemplo que nos acompanhará ao longo desta unidade Praticaremos esse aprendizado com atividades a serem realizadas por você 31102023 1757 Eadbr SC eratricris ee VI ff EStatistica MAchINe yd aa mar Y qr y rf re e cY Learning e Ciencia dos Dados ee Nesta secao discutiremos sobre a relagdo entre a estatistica a ciéncia da computacdo e a ciéncia dos dados Falaremos sobre como a estatistica e a ciéncia dos dados fizeram proveito dos algoritmos de aprendizagem de maquina machine learning da ciéncia da computagao Breve Historico O nome dessa disciplina é Estatistica Aplicada ao Data Science Temos aqui a fusdo de duas areas a estatistica e a cincia dos dados a primeira aplicada a segunda A estatistica uma area de conhecimento humano mais antigo que a ciéncia dos dados Sua estrutura atual comegou a tomar forma ha aproximadamente 130 anos Verdadeiramente sua origem se estende por muitos séculos atras mas foram os trabalhos de grandes nomes tais como os famosos Karl Pearson e Ronald Fisher que comegaram a dar a estatistica a forma como a conhecemos hoje Uma ciéncia forte com brilho proprio e enorme relevancia para a sociedade humana Uma outra ciéncia de enorme relevancia para a sociedade moderna a ciéncia da computagdo Essa é mais recente que a estatistica e sO surge com o advento httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 341 31102023 1757 Eadbr dos computadores a partir das décadas de 1940 e 1950 A ciéncia da computagdo preocupouse inicialmente com temas ligados a arquitetura e funcionamento dos computadores Porém em algum momento passou a tentar emular a inteligncia humana Essas tentativas levaram ao nascimento de uma nova area de conhecimento humano denominada de inteligéncia artificial uma area muito vasta e diversificada Dentro dela como um dos seus ramos Surgiram os algoritmos de aprendizado de maquina em inglés machine learning Mas por que falamos aqui de machine learning Porque entre ciéncias nao ha fronteiras rigidas e tanto os cientistas da computagdo tomaram emprestados os modelos ja desenvolvidos pela estatistica quanto os estatisticos tomaram emprestados os algoritmos de machine learning desenvolvidos pela ciéncia da computacao Essa fusdo mostrouse ser muito rica vigorosa e pavimentou o caminho para o surgimento de uma nova area chamada de ciéncia dos dados A ciéncia dos dados é muito recente na histéria da sociedade humana De fato parece ter surgido entre 20 a 10 anos atras Um dos relatos que se ouve é que uma das grandes empresas americanas da era digital anunciou seu interesse em contratar cientistas de dados Mas quem ela queria contratar Bem parece que ela queria contratar um estatistico mas um estatistico com um viés computacional forte Um que soubesse programar Mas ela também ficaria satisfeita com um cientista da computagdo porém um que possuisse algum conhecimento de estatistica pois um cientista da computagdo sabe programar muito bem mas para se tornar um cientista de dados precisa conhecer estatistica E por esse motivo que a estatistica esta intimamente ligada a ciéncia dos dados e ao mundo dos algoritmos de machine learning da ciéncia da computagao Enfim todos de alguma forma entrelagados Cada um desses mundos com suas especialidades mas usufruindo mutuamente dos conhecimentos gerados pelos outros trés mundos 1 a estatistica com seus métodos tdo cuidadosamente construidos e aplicados 2 a cincia da computacgdo com seus algoritmos de machine learning e 3 a cincia dos dados que aplica todos esses conhecimentos e métodos de forma fértil e produtiva httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 441 31102023 1757 Eadbr e CA e Linguagens de Programacao na Ciencia dos Conversamos cada vez mais com as maquinas sejam computadores smartphones nossos carros etc as Maquinas entre si loT nternet of Things a Internet das Coisas Essa conversa com as maquinas e a conversa delas entre elas mesmas é construida por meio de linguagens de programagdo que se transformam em codigos executaveis e permitem a realizagao das comunicagdes dos seres humanos com as maquinas e das maquinas entre si Sao tao diversas as linguagens de programagao e suas historias tao variadas que seria impossivel tentarmos abordar esse assunto aqui Mas aqui devemos deixar claro que ndo se faz mais estatistica sem 0 uso intensivo de computadores para isso precisamos langar mado de linguagens de programagao E isso também se aplica a ciéncia dos dados Sendo assim que linguagens de programagdo sdo as mais empregadas por essas duas ciéncias a cincia dos dados e a estatistica A resposta é Para rodar poderosas rotinas computacionais usamse linguagens como Fortran C C e Java e para o desenvolvimento de aplicagdes em ciéncia dos dados linguagens mais flexiveis como R Python Julia e MatLab sdo preferidas Dentre essas R e Python sdo aquelas que se destacam no mundo da estatistica e da ciéncia dos dados Ambas incriveis e muito produtivas Aqui nesta disciplina sera mais facil usarmos o R A razdo é simples O R base ja vem com todas as fungdes estatisticas e graficas das quais precisaremos Mas ndo se preocupe usaremos oO R apenas para alguns exercicios bem simples sO para mostrar a vocé que é possivel Além disso 6 muito facil instalar e rodar o R Em suma preste muita atengdo a essas duas linguagens de programacdo 0 Re o Python O mercado valoriza quem possui alguma familiaridade com elas e com a estatistica e a cincia dos dados httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 541 31102023 1757 Eadbr Vamos Praticar Campo em crescimento exponencial a Ciéncia dos Dados tem se tornado uma area apaixonante para entusiastas das mais diversas areas Estatisticos contribuem com Solida teoria de analise de dados enquanto cientistas e engenheiros da computagdo contribuem com novas capacidades e possibilidades computacionais Assim pesquisadoresas da biologia psicologia direito economia comunicagao sociologia e diversas outras areas podem usufruir desse conjunto de técnicas algumas nem tao novas para aprimorar e desenvolver suas pesquisas E a linguagem R uma das principais linguagens de programagao utilizadas para isso STABILE M Prefacio n OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R introducao Brasilia IBPAD 2018 p 7 Diante disso assinale a alternativa correta O a Aciéncia dos dados desenvolveuse sem qualquer ligagao com a estatistica ou com a ciéncia da computacao O b Linguagens de programacao nado tém relevancia nas aplicagdes da estatistica a ciéncia dos dados cO Rndo é uma linguagem de programagao de referéncia para a estatisticae a ciéncia dos dados O d Aciéncia dos dados campo que vem apresentando um crescimento exponencial pode ser usufruida por pesquisadores e profissionais das mais diversas areas O e Nao é possivel a aplicacdo da estatistica ou da ciéncia dos dados em ciéncias humanas ou sociais Mas apenas nas ciéncias exatas httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 641 31102023 1757 Eadbr r Y ra D ro A GP om i re FY rn Cr reaicao com Kegressao u a 1 a ry Linear Stuao ae vaso ee Nesta secdo discutiremos sobre o desenvolvimento de modelos preditivos e apresentaremos o estudo de caso que nos acompanhara ao longo desta unidade Através desse caso aprenderemos as regressoes linear e multipla e Fases do Desenvolvimento de Modelos Preditivos Nesta segdo veremos como modelos de regressdo linear podem nos ajudar a predizer o valor de venda de um imovel a partir de dados coletados relativos a algumas de suas caracteristicas Faremos isso por meio de um exemplo ilustrativo centrado em dois personagens principais uma corretora de imoveis especializada na venda de apartamentos e um estatistico Esse exemplo um estudo de caso simulado nos acompanhara até o final da unidade Ele vai nos permitir entender sobre uma das maneiras como a estatistica pode ser aplicada a ciéncia dos dados Na criagao de uma aplicagdo que tem como objetivo o desenvolvimento de um algoritmo preditivo uma das maneiras possiveis de descrever as principais httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 741 31102023 1757 Eadbr etapas do seu desenvolvimento é 1 Definigdo da questdao a ser resolvida business case 2 Definigao dos dados necessarios ao desenvolvimento do caso 3 Coleta dos dados evitando vicios de amostragem 4 Limpeza e tratamento dos dados quando necessario 5 Analise descritiva resumos estatisticos e visualizacdo grafica 6 Escolha de um modelo algoritmo preditivo 7 Ajuste treino do modelo do algoritmo 8 Teste do modelo para verificagdo da sua performance preditiva 9 Entrega do modelo para validagdo e utilizacgdo pelo cliente 10 Feedback do cliente para ajustes e melhoramentos do modelo Como neste material pretendemos dar apenas uma visdo inicial e também como nado podemos nos estender com mais profundidade em aspectos mais técnicos nao daremos atengdo a todas essas etapas Concentraremonos em mostrar de uma forma mais direta e simples possivel o poder de predicdo de modelos de regressdo linear em situagdes tipicas onde podem ser empregados Se vocé tiver interesse em se aprofundar nesses temas ha uma vasta literatura disponivel para sua consulta e leitura como por exemplo o livro Ciéncia dos Dados Introdugdo OLIVEIRA GUERRA MCDONNEL 2018 Predicao do Valor de Venda de Imoéveis Uma corretora de imoveis residenciais queria saber se seria possivel através de algum tipo de aplicativo estimar valores de venda de imoveis residenciais Ela trabalhava exclusivamente com venda de apartamentos e sabia que se pudesse contar com tal aplicativo teria mais agilidade na definigdo do valor de venda dos imdveis junto aos proprietarios assim como tornaria mais assertiva Sua conversa junto a compradores potenciais Em outras palavras imaginava que com tal aplicativo ela teria mais e melhores argumentos pois seriam argumentos balizados tecnicamente Sendo mais precisa imaginava que poderia dar mais velocidade aos negocios gerando mais satisfagdo para os seus clientes assim como melhores resultados para a imobiliaria onde trabalhava ja ha anos httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 841 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 941 Como tinha um amigo estatístico decidiu conversar com ele Seu amigo estatístico lhe pediu para trazer alguns dados de mercado Passados alguns dias a corretora voltou a procurar seu amigo estatístico e lhe mostrou os seguintes dados observados de 100 imóveis residenciais todos apartamentos sua especialidade vendidos nos últimos meses pela imobiliária No Quadro 11 exibimos algumas do total das 100 observações que ela coletou Quadro 11 Dados amostrados relativos aos apartamentos Fonte Elaborado pelo autor Com isso o estatístico tinha em suas mãos dados O estatístico podia a partir desse momento examinar esses dados e decidir sobre o que fazer o que veremos em seguida após uma atividade para você treinar seus conhecimentos praticar V P ti Ap Área m2 Andar Local Valor Rmil 1 594 2 Bairro 398 2 627 8 Bairro 340 3 806 4 Centro 544 4 657 9 Bairro 283 99 626 4 Centro 304 100 547 6 Centro 347 31102023 1757 Eadbr Varmos Praticafl Workflow da Ciéncia dos Dados ndo existe apenas uma forma de estruturar e aplicar os conhecimentos da Ciéncia dos Dados A forma de aplicagdo varia bastante conforme a necessidade do projeto ou do objetivo que se busca alcangar Neste curso usaremos um modelo de workflow bastante utilizado Esse workflow propde basicamente os seguintes passos Carregar os dados Limpar os dados Transformar visualizar e modelar Comunicar 0 resultado OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R introducdo Brasilia IBPAD 2018 p 10 Descrevemos as principais etapas para o desenvolvimento de um algoritmo preditivo na ciéncia dos dados Deixamos claro que as etapas la descritas sdo apenas uma das formas de se definir essas etapas porém entre todas as descricgdes ha similaridades Veja por exemplo a descrigdo dessas etapas como dadas no texto introdutorio referenciado Analise as duas descrigdes do ebook e do texto introdut6rio reflita e assinale a alternativa correta a No desenvolvimento de um projeto em ciéncia dos dados nunca se faz a visualizagao dos dados também chamada de analise descritiva dos dados O b No desenvolvimento de um projeto em ciéncia dos dados nunca se faz a etapa de limpeza e tratamento dos dados O c No desenvolvimento de um projeto em ciéncia dos dados comum que se faga a modelagem dos dados que consiste na escolha treino e teste de um modelo O d No desenvolvimento de um projeto em ciéncia dos dados nunca se faz a comunicacao dos resultados pois eles so interessam ao proprio cientista de dados O e Nas etapas de desenvolvimento de um projeto em ciéncia dos dados descritas no ebook nao se considera a etapa de feedback do cliente para ajustes e melhoramentos do modelo httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1041 31102023 1757 Eadbr DF J ov j mm TY co rc Analise Descritiva dos a Dados ee Nesta secdo discutiremos sobre a estrutura de dados preferida pelos estatisticos e cientistas de dados e em seguida veremos um exemplo de como um cientista de dados examina seus dados através de técnicas descritivas que sdo sumarios estatisticos também chamados de resumos e graficos para a visualizagdo dos dados O estatistico decidiu examinar os dados que sua amiga corretora lhe trouxe Ele logo percebeu que estavam bem organizados na forma de uma tabela com as variaveis dispostas em colunas e as observacgoes relativas a cada imovel dispostas em linhas Essa é talvez a forma preferida por um estatistico ou por um cientista de dados de organizagao de dados Por vezes referimonos a dados que podem ser organizados em uma tabela desse jeito ou seja as variaveis dispostas nas colunas e as observagédes dispostas nas linhas como dados retangulares ou dados estruturados No software estatistico R essa forma de organizagdo de dados é referida como data httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1141 31102023 1757 Eadbr frame Esse conceito foi copiado alguns anos depois em 2012 pelo Python por meio de sua famosa biblioteca Pandas Voltando ao estatistico ele também viu que sua amostra tinha tamanho n 100 ou seja la havia dados relativos a 100 diferentes apartamentos Para simplificar a sua analise ele decidiu adotar uma notagdo compacta para as variaveis observadas X1 area do imovel m X andar doimovel 1 2 3 X3 localizaao do imovel Bairro ou Centro Y valor de venda do imovel kR e x 4 s Dados Relativos a Area do Imovel O estatistico iniciou sua analise examinando X area do imdvel Usou as fungdes min mean max e sd do software estatistico R na determinagdo dos valores minimo médio maximo e desviopadrao dos dados observados para 71 min1 419 meanr1 656 mazr1 869 sd91 Ele viu entao que para esses 100 apartamentos vendidos a area variou entre um minimo de 419 m e um maximo de 869 m com drea média de 65 6 m e desviopadrao da drea de 9 1 m Em seguida decidiu visualizar esses dados Como area uma variavel quantitativa optou por construir um histograma de X usando a fungdo grafica hist do R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1241 31102023 1757 Eadbr 30 25 S 20 Oo 3 15 oa ov x 10 Mian I I 40 50 60 70 80 90 Area do Imével m2 Figura 11 Histograma dos dados relativos a drea dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 11 exibe o histograma X1 de colunas verticais que representa a area dos apartamentos 0 eixo X linha horizontal representa a area do imdvel em m elevado a 2 metros quadrados iniciando em 40 com uma escala de 10 metros quadrados no grafico a medida da area em metros quadrados vai de 40 a 90 metros quadrados O eixo y representa a frequéncia numero de ocorréncias quantidade de imdveis a escala vertical cinco 5 contando de 0 a origem a 30 No histograma X1 a maior quantidade de apartamentos possui a metragem de 60 a 70 metros e a menor quantidade de apartamentos esta na metragem de 40 a 50 metros e é Dados Relativos ao Andar do Imovel Depois 0 estatistico passou ao exame dos dados relativos a variavel X2 andar do imovel Também aqui usou de algumas fungées do R para calcular o valor minimo min a mediana median 0 maximo max e 0 desviopadrdo sd dos dados observados minz21 medianz24 maz214 sd31 Ele viu entao que para esses 100 apartamentos vendidos o andar do imovel variou entre um minimo de 1 primeiro andar uma mediana de 4 50 dos apartamentos até o quarto andar um maximo de 14 décimoquarto andar e httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1341 31102023 1757 Eadbr um desviopadrdo de 31 andares uma indicagao da variabilidade desses dados relativos ao andar dos apartamentos Ao longo da unidade falamos diversas vezes sobre o R Primeiro na segdo em que discutimos sobre linguagens de programacgao e ao longo do caso estudado quando o estatistico recorreu ao R inumeras vezes Ou para produzir sumarios estatisticos ou estimar os coeficientes dos modelos ou mesmo para a visualizagao dos dados com as fungdes graficas do R Se vocé quiser conhecer mais sobre o R vocé pode instalalo e usalo livremente em casa ou no trabalho pois é publico e gratuito Fonte Adaptado de Ritter e They 2019 Em seguida decidiu visualizar esses dados Como o andar do imovel uma variavel quantitativa optou por construir um histograma de X2 usando a funcdo grafica hist do R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1441 31102023 1757 Eadbr 30 25 S 20 Oo 3 15 oa ov x 10 0 I 0 2 4 6 8 10 12 14 Area do Imével Figura 12 Histograma dos dados relativos ao andar dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 12 representa o histograma de X2 de colunas verticais que se refere aos andares dos apartamentos a maior frequéncia ocorréncia de andares dos imdveis esta nos andares baixos entre o térreo andar 0 e o quarto 4 andar e a menor frequéncia esta entre o décimo segundo ao décimo quarto andar 12 ao 14 andares mais altos O eixo X linha X representa os andares dos imoveis do 0 térreo até o décimo quarto 14 andar em escala 2 O eixo Y Linha Y representa a frequéncia de 0 a 30 com escala 5 e e é Dados Relativos a Localizacao do Imovel Em seguida 0 estatistico passou ao exame dos dados relativos a localizagdo dos apartamentos Logo percebeu que essa variavel X3 local do imdvel tratavase de uma variavel qualitativa nominal com apenas dois niveis Bairro e Centro uma variavel por vezes chamada de dicot6mica em oposicgdo as variaveis qualitativas polit6micas as quais podem assumir mais de dois niveis ou classes Decidiu codificar esses dados usando uma forma de codificagdo muito comum para variaveis dicot6micas como segue Bairro 0 Centro 1 Apos isso como esses dados sao qualitativos uma das formas mais praticas para Sumarizalos contando a frequéncia de aparigdo de cada nivel 0 ou 1 na httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1541 31102023 1757 Eadbr amostra coletada Para isso usou de uma interessante fungdo do R denominada de table obtendo os seguintes resultados tablex3 0 1 32 668 Ou seja do total de apartamentos observados 32 estavam localizados no Bairro 0 e 68 no Centro 1 A corretora havia explicado ao estatistico que a imobiliaria havia coletado os dados dessa forma sem tentar distinguir em maior detalhe qual exato bairro ou qual exato local no centro porque com base na sua experiéncia de varios anos havia concluido ndo haver a necessidade de maior detalhamento ao menos naquele municipio onde ela atuava Em seguida decidiu visualizar esses dados A forma preferida do estatistico ou do cientista de dados de visualizar dados qualitativos 6 por meio de diagramas de barras Nesse diagrama cada nivel classe da variavel é associada a uma barra e a altura da barra é proporcional a frequéncia absoluta com que 0 nivel classe foi observado na amostra O estatistico usou uma fungdo grafica do R denominada de barplot e obteve o seguinte resultado 100 80 60 40 0 Bairro 0 Centro 1 Figura 13 Diagrama de barras dos dados de localizagdo dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 13 representa o histograma de barra verticais simples que se refere a localizagdo dos apartamentos a maior frequéncia ocorréncia de andares dos imoveis esta no centro 1 apartamento e a menor frequéncia esta no bairro com nenhuma ocorréncia O eixo x linha X horizontal referese a httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1641 31102023 1757 Eadbr localizagdo Bairro 0 e Centro 1 nado ha escala pois a representagdo é qualitativa bairrocentro O eixo y linha y vertical representa a frequéncia variando de 0 origem até o valor cem 100 numa escala de 20 Como vocé pode observar o diagrama de barras oferece uma simples porém bastante efetiva visualizagdo da frequéncia de observacées de cada nivel classe da variavel qualitativa Vale notar aqui que podemos usar a frequéncia relativa no lugar da frequéncia absoluta com o mesmo resultado visual Também vale notar que graficos de pizza sao uma alternativa aos diagramas de barras e é Dados Relativos ao Valor de Venda do Imovel Finalmente o estatistico prosseguiu com sua analise descritiva examinando a variavel Y valor de venda do imével e novamente usou de fungédes do R para calcular os valores minimo min médio mean maximo max e desviopadrao sd dos dados observados miny 129 meany 3665 mazy 556 sd 859 Vemos que para esses 100 apartamentos o valor de venda variou entre um minimo de 129 kR e um maximo de 556 kR com valor médio de 3665 kR e um desvio padrdo de 859 kR Assim como fez para as outras variaveis também aqui resolveu visualizar os dados coletados quanto ao valor de venda Sendo esses dados quantitativos construiu um histograma de Y valor de venda do imével usando a fungdo grafica hist do R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1741 31102023 1757 Eadbr 30 20 Cc S15 o x 10 5 le 100 200 300 400 500 600 Valor de Venda do Imével Rmil Figura 14 Histograma dos dados do valor de venda dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 14 representa um histograma quantitativos que se refere aos dados do valor de venda dos apartamentos O eixo x linha x horizontal exibe os valores do imdvel numa escala de 100 mil iniciando em 100 até 600 mil O eixo Y linha Y vertical representa a frequéncia de 0 a 30 numa escala de cinco A maior frequéncia esta no meio do histograma com os imdveis na faixa de valores entre trezentos 300 a quatrocentos 400 mil Percebeu serem dos dados relativos aos valores de venda dos imoveis distribuidos de forma ligeiramente assimétrica com uma maior frequéncia de observagées se concentrando a direita e e a Visualizacao do Valor versus Area do Imovel Como a ideia da corretora era conseguir fazer uma predicdo do valor de venda de um apartamento dadas as suas caracteristicas com base nos dados coletados na amostra o estatistico decidiu visualizar essa possivel relagdo construindo um grafico de dispersdo scatter plot em inglés no qual plotaria os dados relativos a area do imdvel X 1 no eixo horizontal e os dados relativos ao valor de venda do imdvel Y no eixo vertical Graficos de dispersdo sdo usados para a visualizacdo da relagdo entre variaveis quantitativas Os dados nesse caso devem ser tomados aos pares isto é X1 Y a primeira e a Ultima coluna da tabela linha a linha aos pares httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1841 31102023 1757 Eadbr 594 398 627 340 806 544 657 283 626 304 547 347 Quadro 12 Tabela area e valor Fonte Elaborado pelo autor Para isso o estatistico usou uma fungdo grafica do R de nominada de plot obtendo o seguinte resultado exibido na Figura 15 Essa figura mostra que ha uma associacdo positiva entre Y e X1 Ha uma tendéncia de Y subir o valor do imdvel quando X cresce a area do imovel A dispersdo dos dados se da porque ha outros fatores influentes que causam essa variabilidade nas observagées da amostra coletada A fungdo cor do R permite uma medida da forga dessa associado cory 21 055 Esse valor indica que para os dados amostrados a correlagdo entre Y e Xj é positiva com uma forga moderada httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1941 31102023 1757 Eadbr s 500 s oe 200 3 e deny 0 9 Bo e 300 ee euttte me ee 5 e Sq e 5 7 100 So 40 50 60 70 80 90 x1 Area do Imovel m2 Figura 15 Grafico de dispersdo da drea e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 15 representa um Grafico de dispersdo da area e valor dos apartamentos O eixo x1 linha X1 representa a area do imovel em metros quadrados iniciando em 40 até 90 metros em escala 10 O eixo y linha y vertical representa o valor de venda dos imoveis iniciando em zero 0 a cem 100 mil marco inicial até quinhentos 500 mil numa escala de 200 mil na figura observa se a maior concentragdo de imdveis com metragem entre 60 a 70 metros quadrados que custam entre 300 a 400 mil Visualizacao do Valor versus o Andar do é Imovel Em seguida fez 0 mesmo para a relagdo entre os dados de valor de venda do imdvel Y versus seu andar X2 e os plotou aos pares isto é Xo Y a segunda e a ultima coluna da tabela com os dados dos imoveis linha a linha aos pares Novamente o estatistico recorreu a funcdo plot do R e obteve o resultado exibido na Figura 16 Essa figura também mostra que ha uma associado positiva entre Y e Xo porém mais sutil Talvez vocé nado consiga ver isso muito bem mas nao se preocupe O estatistico tem ja uma grande experiéncia e mesmo ele pode ter dificuldade em ver que ha uma tendéncia de Y subir 0 valor do apartamento httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2041 31102023 1757 Eadbr quando X cresce o andar do apartamento Para verificar essa questdo o estatistico aqui langou mado da fungado cor do R obtendo cory 22 0 24 Também nesse caso a correlagdo positiva porém aqui com uma forga mais fraca do que a correlacdo entre Y e X 1 A dispersdo dos dados se da porque ha outros fatores influentes e ruidos que causam variabilidade nas observacées da amostra coletada tA 500 g oo 0 3 e c 63 3 e e S300 8 83 5 88 8 e 5 S 100 0 2 4 6 8 10 12 14 x2 Andar do Imével m2 Figura 16 Grafico de dispersdo do andar e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 16 representa um Grafico de dispersdo do andar e valor dos apartamentos O Eixo x2 Linha X2 horizontal representa os andares numa escala dois 2 O eixo y linha y vertical representa os valores numa escala de 200 mil O grafico mostra maior concentragdo nos andares 1 4 e 5 e valores Superiores a duzentos e cinquenta e trezentos mil até quatrocentos mil Outra curiosidade 6 que os dados relativos 4 Y encontramse empilhados sobre alguns valores de X2 mas isto é apenas fruto direto do fato que X92 varia de forma discreta ou seja X2 123 0 andar de cada apartamento vendido Visualizacao do Valor versus Localizacao httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2141 31102023 1757 Eadbr Aqui 0 estatistico teve de langar mado de um tipo de grafico que permitisse a visualizagdo de dados quantitativos Y valor de venda versus dados qualitativos X3 localizagdo do imével Uma solucdo muito inteligente para isso é recorrer aos boxplots diagramas de caixas onde no eixo horizontal indicamos os niveis da variavel qualitativa X3 e no eixo vertical os valores observados da variavel quantitativa Y também aos pares X3 Y isto é a terceira e a quarta coluna da tabela de dados O resultado que o estatistico obteve foi o seguinte 500 2 TD S 300 OD 1 3 200 oO I Bairro 0 Centro 1 x2 Andar do Imével m2 Figura 17 Boxplots da localizacdo e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 17 representa o grafico Boxplot ou diagrama de caixas da localizagdo e valor dos apartamentos O boxplot comega sempre no valor minimo da base de dados e termina no valor maximo assim como o histograma A caixa representa os valores centrais onde no histograma essa parte é representada pelas barras mais altas ou seja dados com maior frequéncia maior ocorréncia O eixo X linha x representa a localizagdo e o eixo y linha y vertical representa o valor de venda do imdével e ao centro do boxplot ha as caixas boxes de representagao da concentragdo bairro e valor de venda Esse grafico permite ver como se dispersam os valores de venda dos imoveis da amostra exibidos ao longo do eixo vertical em fungdo da sua localizagdao exibida no eixo horizontal Veja que imoveis no centro tém valor inferior a imdveis no bairro Nas palavras de um especialista Boxplots sdo muito uteis na visualizagdo grafica entre diferentes conjuntos de dados porque tém um alto impacto visual e httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2241 31102023 1757 Eadbr sao faceis de entender MONTGOMERY 2013 p 139 SAdo muito usados nas situagdes em que queremos viSualizar a relagdo de dados quantitativos com dados qualitativos Dados Estruturados talvez seja o formato mais facil de se trabalhar no R Sado conjuntos de informagdes organizadas em colunas atributos variaveis features etc e linhas registros itens observacgoes etc Sado dados mais comumente encontrados diretamente em bancos de dados arquivos com algum tipo de separagdo entre as colunas Excel arquivos com campos de tamanhos fixo etc OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R introducdo Brasilia IBPAD 2018 p 19 Com base neste texto assinale a alternativa correta O a Dados estruturados ndo sdo importantes para a estatistica ou para a ciéncia dos dados O b No R estruturas de dados organizados em tabelas com as variaveis dispostas nas colunas e as observacoées nas linhas sao chamados de dataframes O c Dados retangulares nado sdo a mesma coisa que dados estruturados Dados retangulares tém estrutura de retangulos e dados estruturados sdo organizados na forma de tabelas O d Dados retangulares ndo sdo organizados com as variaveis dispostas nas colunas e as observagées dispostas nas linhas e Chamar variaveis de atributos é imprdprio na ciéncia dos dados ja que variaveis Sdo sempre variaveis httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2341 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2441 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2541 Nesta seção veremos como modelos de regressão linear simples e múltipla são empregados como modelos preditivos de valores de variáveis quantitativas Isso será ilustrado com o desenvolvimento de um modelo de regressão linear na predição do valor de venda de imóveis Modelos de Regressão Linear Modelos de regressão linear são usados para a predição do valor esperado de uma variável resposta quantitativa habitualmente anotada como em função de uma ou muitas variáveis de entrada habitualmente anotadas como com um índice a elas associados se mais do que uma Por exemplo no caso aqui estudado temos três variáveis de entrada e Esquematicamente podemos representar essa ideia da seguinte forma Predição com Modelos de Predição com Modelos de Regressão Linear Regressão Linear Y X X1 X2 X3 31102023 1757 Eadbr XxX XX Y MODELO DE REGRESSAO mT Figura 18 Representacdo da transformacdo das entradas na saida Fonte Elaborada pelo autor PraCegoVer A Figura 18 Representa a transformagdo das entradas na saida por um modelo de regressdo Linear na figura temos as variaveis de entrada X1 X2 X3 que transformardo os dados de entrada num valor de saida Y variavel de saida resposta da transformacdo O modelo aqui funciona como uma fungdo que transforma os dados de entrada em um dado de saida Vale dizer nesse momento que ha outras denominagoes comuns para essas variaveis tais como X variavel de entrada regressora preditora independente Y varidvel de saida de resposta dependente target variable Vamos ver como evolui 0 caso da nossa corretora seus apartamentos e a ajuda do seu amigo estatistico a Valor versus Area do Imovel Em um primeiro momento a corretora pediu para o estatistico fazer uma tentativa inicial de predigdo usando apenas a variavel area do imdvel X como variavel de entrada preditora O estatistico imediatamente pensou em um modelo de regressdo linear simples O nome simples na regressdo linear significa que o modelo de regressdo considerara apenas uma variavel de entrada aqui neste nosso caso Xj a area do imdvel e procurara verificar qual seu possivel efeito na variavel resposta aqui neste nosso caso Y 0 valor do imével com base nos dados amostrados httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2641 31102023 1757 Eadbr O estatistico entao escreveu o seguinte modelo de regressdo linear simples para essa situacao ybo 6121 Aqui bg e by so coeficientes do modelo Seu maior interesse nesse momento era o de determinar os valores desses coeficientes Com isso ele poderia estimar y EY 0 valor esperado valor médio para o imével quando sua drea Xj for igual a 21 metros quadrados ou seja X1 2 Ele fez isso usando de um método classico da estatistica o Método dos Minimos Quadrados Nao nosso objetivo discutir o funcionamento desse método mas apenas ilustrar o poder da estatistica quando aplicada a ciéncia dos dados Vamos nos concentrar nos resultados da aplicagdo desse método quando o usamos para 0 calculo dos coeficientes bo e by O estatistico usou do software R para fazer esses calculos e obteve b0 kR2722 e b1 kR515m2 tal que substituindo esses valores no modelo de regressdo linear simples acima chegamos a y 2722515 2 Esse resultado pode ser plotado no grafico de dispersdo que vimos anteriormente para o valor do imdvel y em fungdo da area do imovel x1 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2741 31102023 1757 Eadbr 500 4 o ge e e o e e Saye Sagas e Eure s 3007 o ww wes e e e 5 ee o Oo wz 1007 1 0 1 0 20 40 60 80 Area do Imével m2 Figura 19 Grdfico de dispersdo da area e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 19 exibe um Grafico de dispersdo da area e valor dos apartamentos realizando uma correlagdo de proporcionalidade entre a area do imdvel e o valor de venda do imével na plotagem desenho do modelo ha uma linha reta com uma intersecgdo entre os eixos na origem 0 zero observase uma maior concentragdo dos imdveis com metragem em torno de 60 a 70 metros e valores em torno de trezentos 300 mil Vemos que a plotagem do modelo ajustado fornece uma reta com intersegao com o eixo vertical em x1 0 igual a by 2722 m e inclinacdo igual a b kR 5 15m Podemos mudar a escala do eixo horizontal para a mesma escala que usamos anteriormente para a construgdo do grafico de dispersdo entre y e 1 resultando numa melhor visualizacdo httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2841 31102023 1757 Eadbr 500 ae ce ta 9 eo o we 5 o ait 28 9 300 oe FN e 7 0 S 100 Ss 0 40 50 60 70 80 90 Area do Imével m2 Figura 110 Grdfico de dispersdo da area e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 110 exibe um Grafico de dispersdo da area e valor dos apartamentos igual a figura 19 no entanto ha um destaque na figura a regido de plotagem de maior concentragdo permitindo uma melhor analise ha uma correlagao de proporcionalidade entre a area do imdvel e o valor de venda do imdvel na plotagem desenho do modelo ha uma linha reta com uma intersecdo entre os eixos na origem O zero observase uma maior concentragdao 0 destaque permite a observacdo de imdveis com metragem em torno de 60 a 65 metros e valores em torno de trezentos 300 mil Ha maior ocorréncia de imdveis da metragem com valor em torno de 300 mil Devemos interpretar esse resultado O coeficiente de intersegdo é o valor esperado valor médio para y quando x 0 ou seja o valor esperado para o prego de venda quando a area do apartamento for igual a zero Essa interpretagdo nao tem um sentido real pois ndo existem apartamentos com area igual a zero Nessa situagdo comum tomarmos esse coeficiente apenas como um coeficiente de ajuste do modelo sem nos preocuparmos em atribuir a ele um significado real Apenas quando faz sentido a variavel preditora assumir um valor igual a zero é que também faz sentido interpretar o coeficiente b0 ndo so como um coeficiente de ajuste do modelo mas efetivamente como o valor esperado para y quando httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2941 31102023 1757 Eadbr Z1 igual a zero Espero que vocé tenha entendido esse ponto Ndo é muito complicado Ja com respeito ao coeficiente b1 que é a inclinagdo da reta esse sempre tera uma interpretagdo bastante util O valor calculado pelo estatistico para esse coeficiente foi b1 kR515m2 Ele representa 0 quanto aumenta o preco de venda do apartamento com o aumento da area em exatamente 1 metro quadrado Isto é ele o valor do metro quadrado médio para os apartamentos da amostra que a corretora passou para 0 estatistico Fazer uma predicdo do valor esperado de y prego de venda do imovel dada sua area em Z1 em metros quadrados fica facil agora Suponha que vocé quer saber qual seria o prego de venda médio estimado para um apartamento de 65 m Basta substituir esse valor na equagdo do modelo e o resultado sera y 2722 515 x 65 362 Aqui arredondamos o valor 36197 mil para 362 mil reais pois estamos estimando em mil reais e nado temos interesse em fragdes de mil reais Valor versus Andar do Imovel O estatistico mostrou a sua amiga corretora a analise preditiva que ele havia realizado com base nos dados da area dos imoveis x e seus valores de venda y Ela ficou muito admirada e curiosa em saber como seria esse resultado se ao invés de usarmos como dados de entrada a area dos imoveis usassemos oO numero zx do seu andar E pediu que o estatistico desenvolvesse esse outro modelo preditivo Obviamente 0 estatistico ja tendo usado um modelo de regressdo linear simples para a situacgdo anterior decidiu fazer 0 mesmo para esse novo caso e escreveu Oo seguinte modelo de regressdo linear simples para essa nova situagdo y bo boxe httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3041 31102023 1757 Eadbr Também aqui aplicou o Método dos Minimos Quadrados para o ajuste do modelo por meio do software estatistico R Obteve os seguintes valores para os coeficientes do modelo b0 kR6 55andar tal que substituindo esses valores no modelo de regressdo linear simples acima chegamos a y 333 71 655 ro Esse resultado pode ser plotado no grafico de dispersdo que vimos anteriormente para valor do imdvel y kR em fungdo de andar do imovel 2 1 2 3 e E 3 500 8 eee 8 o 3 os 8 e e 5 304 e 5 8 a 1 QO 8 888s S 1 oO 7 100 0 0 5 10 15 Andar do Imével m2 Figura 111 Grdfico de dispersdo do andar e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 111 apresenta Grafico de dispersdo do andar e valor dos apartamentos 0 grafico exibe maior concentragdo entre os andares mais baixos do térreo 0 ao 5 andar e com os valores em torno de 300 mil Também aqui devemos interpretar esse resultado O coeficiente de intersegdo é o valor esperado para y quando x2 QO ou seja o valor esperado para o preco de venda quando o andar do apartamento for igual a zero 0 térreo Nesse caso temos uma interpretacgdo para o coeficiente de intersegao do modelo além de um mero pardmetro de ajuste do modelo aos dados amostrados pois existem httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3141 31102023 1757 Eadbr apartamentos em andares térreos Devemos notar entretanto que na amostra coletada pela imobiliaria onde trabalha a corretora nenhum dos apartamentos vendidos ficava no andar térreo Fazer 22 O nesse caso 6 uma extrapolacgdo da predigdo para além da regido onde os dados foram observados Quando x2 0 andar térreo a predido para o valor do imével é y 333 71 655 x 0 333 71 Ou seja y 6 exatamente igual a bg a intersecdo da reta com o eixo vertical na posicdo 22 O do grafico Quanto ao coeficiente bz que é a inclinagdo da reta a interpretagdo é similar aquela que ja demos anteriormente para o caso do coeficiente b O valor calculado para esse coeficiente foi b2 kR 655andar representa o valor do aumento por cada 1 andar valor unitario por andar o qual deve se somar a R 33371 mil para se ter a estimativa do valor esperado para o valor do imovel Fazer uma predicdo do valor esperado de y prego de venda do imovel dado seu andar fica facil agora Suponha que vocé quer saber qual seria o prego de venda médio estimado para um apartamento no décimo andar Basta substituir esse valor na equagao do modelo e o resultado sera y 333 71 655 x 10 399 Aqui arredondamos o valor 39921 para 399 mil reais pois estamos estimando em mil reais e nado temos interesse em fragdes de mil reais Val A Andar do Imével Nesse ponto o estatistico decidiu combinar os dois modelos anteriores em um SO onde o valor esperado para y valor do imovel escrito como funcdo de x1 area do imdvel e x2 andar do imével simultaneamente Esse modelo fica assim y bop by 21 box httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3241 31102023 1757 Eadbr Denominamos um modelo desse tipo onde ha mais do que uma variavel de entrada de modelo de regressdo linear multipla Muito importante é evitarmos a tentagado de usar os valores previamente determinados nos modelos de regressdo simples anteriores para bo b e bz nesse modelo de regressdo multipla Quando aplicamos o Método dos Minimos Quadrados cada novo modelo deve ser ajustado aos dados da amostra independentemente de outros modelos gerando assim um conjunto de coeficientes especificos para si O estatistico que conhecia muito bem sobre isso recorreu novamente ao software estatistico R para calcular os valores dos coeficientes desse novo modelo Chegou aos seguintes resultados b0 kR5 12m2b2 kR6 34andar Substituindo esses valores no modelo de regressdo multipla temos y 259 5122 634 x Essa expressdo pode ser usada para fazermos prediées do valor esperado de y a area desejada e o andar desejado para o apartamento A corretora ja aproveitou para fazer um teste pois uma cliente gostaria de saber qual valor esperado de um apartamento com uma area de 50 metros quadrados situado no 10 andar Esse apartamento seria para ela o seu marido e um filhinho De posse do modelo foi simples fazer a predicdo y 259512 x 50 634 x 10 317 Aqui novamente arredondamos 31681 para 317 mil reais pois queremos avaliar o valor do imdvel sem nos preocuparmos com fragées de mil reais e Valor versus Area Andar e Localizacao do é Imovel Naturalmente a corretora ficou muito feliz ao ver que ja dispunha de um algoritmo de predigdo Percebeu que agora so faltava incluir no modelo de regressdo multipla a ultima variavel da base de dados da imobiliaria ou seja aquela relativa a localizagdo do imdvel httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3341 31102023 1757 Eadbr A imobiliaria so registrava se 0 imovel havia sido vendido em um bairro ou no centro Sendo assim essa variavel que uma variavel qualitativa sO podia assumir dois valores dois niveis duas classes Vocé lembra que o estatistico ja havia decidido codificar esses dois niveis da seguinte forma Bairro 0 Centro 1 O estatistico prosseguiu e escreveu o seguinte modelo de regressdo multipla com variaveis preditoras mistas quantitativas e qualitativas y bo 6121 boxe 1323 Novamente recorreu ao R e calculou os coeficientes para esse modelo obtendo bOkR 487 m2 b2kR 2743 localizagao Substituindo esses valores na expressdo do modelo fica assim y 3267 4 87 21 6 36 x2 27 43 z3 Ja discutimos a interpretagdo dos coeficientes b e bg Vamos agora discutir a interpretacdo do coeficiente b3 Para isso basta lembrar que x3 pode assumir dois valores ou niveis classes Bairro 0 e Centro 1 Como o coeficiente b3 esta multiplicando x3 a contribuigdo do termo contendo b3 para o valor de y sera zero quando 23 0 e menos kR 2743 quando x3 1 Ou seja o modelo nos informa que quando o iméovel esta localizado no centro ele custa em média 2743 mil reais a menos que um apartamento de bairro de mesma area e mesmo andar A corretora pediu um exemplo Precisava entender melhor O estatistico entdo deu o seguinte exemplo pensou na mesma cliente que ja havia solicitado uma predicdo do valor esperado para um apartamento de 50 metros quadrados de décimo andar mas ela ndo havia especificado onde se no bairro ou no centro ora agora ele tinha um modelo que levava em conta essa variavel e so substituiu os 50 metros e 10 andar no modelo Obteve o seguinte resultado y 3267 4 87 x 50 6 36 x 10 27 43 x3 339 77 27 43 x3 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3441 31102023 1757 Eadbr e viu que x3 Obairro y33977 x3 l1centroo y831234 A diferenca de valor é 2743 mil reais que resulta em 27 mil reais ao arredondarmos para mil Apartamentos de mesmas caracteristicas no centro custam 27 mil reais a menos que apartamentos nos bairros Isso vale para aquele municipio para os dados amostrados pela imobiliaria e para esse modelo especifico de regressdo linear multipla com variaveis de entrada preditoras mistas quantitativas e qualitativas Outros dados e outros modelos podem levar a resultados diferentes A corretora entendeu e quase atingiu o auge de sua felicidade Agora tinha a sua disposigdo um algoritmo preditor de valores esperados para os imoveis que ela comercializava Mas e 0 aplicativo O aplicativo deve ser produzido em um passo posterior ao desenvolvimento do algoritmo Com o algoritmo de predigdo pronto agora a corretora devera procurar um profissional que possa desenvolver um aplicativo um engenheiro de software por exemplo especializado em aplicagses na web ou em smartphones Esse profissional criara uma interface entre o usuario a corretora e o algoritmo o modelo preditivo tal que com a entrada de dados das caracteristicas de um apartamento o aplicativo produzira na tela do computador ou do smartphone a predigdo do seu valor esperado médio de venda httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3541 31102023 1757 Eadbr Sera que vocé sabia que a estatistica e a cincia dos dados sdo muito usadas nas ciéncias dos esportes tanto amadores quanto profissionais E vocé Consegue se imaginar trabalhando para um grande clube como especialista em analise estatistica esportiva Reflita sobre isso enquanto é analisa e pensa sobre o que Ihe propomos aqui Além disso 0 engenheiro de software podera desenvolver o aplicativo de uma forma ainda mais robusta permitindo que a imobilidaria o alimente periodicamente com novos dados de apartamentos vendidos Isso permitira que oO aplicativo se mantenha atualizado frente a evolugdo das condigdes de pregos do mercado imobiliario que podem subir ou descer com as flutuagdes da economia Vamos Praticar Exemplo didatico para regressdo linear como exemplo didatico para a regressdo linear considere o proprietario de um restaurante que deseja aumentar as vendas investindo em propaganda na radio da cidade Considere também que o gasto nesse tipo de publicidade é calculado pelo numero de insergdes do anuncio na programacao da radio durante o més Com o cuidado de mensurar o efeito desses anuncios 0 proprietario do restaurante somou ao final dos meses em que fez 0 investimento com o anuncio oO numero de vendas do prato filé a parmegiana httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3641 31102023 1757 Eadbr SILVA L A da PERES S M BOSCARIOLI C Introdugao a mineracao de dados com aplicagdes em R Rio de Janeiro Elsevier 2016 O texto em referéncia descreve um problema de regressdo linear para o qual se obteve o seguinte modelo y 117 38 9 622 onde x numero de inserdes de anuncios durante o més y numero de pratos de Filé a Parmegiana vendidos no més Para essa situaGdo assinale a alternativa correta O a Os modelos de regressdo linear sdo divididos em modelos de regressdo linear simples e multipla O modelo desenvolvido para a situagao aqui descrita um modelo de regressdo linear multipla onde ha mais do que uma variavel de entrada O b A variavel resposta deste modelo de regressdo linear o numero de insercdes de anuncios em um més A variavel resposta também é chamada de variavel independente ou regressora O c O pardametro 962 representa o numero de pratos de filé a parmegiana que sao vendidos em um més em que nado se fez nenhuma insercdo de anuncios Em outras palavras representa o numero de pratos y quando x 0 O d Para saber quanto pratos de filé a parmegiana conseguira vender no més se investir em 50 insercdes de anuncios 0 proprietario substituiu o x da equacao do modelo por 50 e obteve 598 pratos arredondando para um numero inteiro de pratos O e Como a estatistica e a cincia dos dados possuem em suas bases teorias matematicas nao é possivel aplicalas a ciéncias sociais ou humanas sociologia historia antropologia ciéncias politicas direito administragao filosofia geografia economia etc httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3741 31102023 1757 Eadbr Material LIVRO O Andar do Bébado Como o Acaso Determina Nossas Vidas Editora Jorge Zahar Autor Leonard Mlodinow ISBN 9788537801550 Comentario este livro discorre sobre aleatoriedade probabilidade e estatistica E um bestseller que ficou varios anos como um dos mais vendidos na sua categoria Dividido em 10 capitulos usa de uma linguagem simples para nos contar por meio de um passeio por varios casos interessantes como 0 acaso determina nossas vidas httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3841 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3941 WEB Hans Rosling Mostra As Melhores Estatísticas Que Você Já Viu Ano 2006 Comentário este TED TALK é talvez um dos mais representativos do famoso médico sueco Hans Rosling 1948 2017 Além de médico Hans Rosling também era estatístico e orador Dedicou parte de sua vida à difusão por meio de inúmeras palestras e vídeos da importância da aplicação da estatística ao estudo da saúde pública dos países no mundo ACESSAR 31102023 1757 Eadbr Nessa unidade contamos com a ajuda de dois personagens uma corretora de imdveis e um estatistico e pudemos ver com essa valiosa ajuda como é possivel desenvolvermos uma capacidade preditiva se tivermos dados onde nos basear e modelos que aprendem com os dados Especificamente iniciamos a nossa jornada por este mundo o da Estatistica Aplicada a Cincia dos Dados com os modelos preditivos chamados de regressdo linear simples e multipla Nas proximas unidades aprofundaremos nossa jornada por esse incrivel e poderoso mundo Vamos la EEE MONTGOMERY D C RUNGER G C Estatistica Aplicada e Probabilidade para Engenheiros Rio de Janeiro LTC 2013 OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R Introducdo Brasilia IBPAD 2018 Disponivel em httpscdribpadcombrcdr intropdf Acesso em 25 nov 2019 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 4041 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 4141 RITTER M do N THEY N H Introdução ao software estatístico R Imbé CECLIMARUFRGS 2019 Disponível em httpslumeufrgsbrbitstreamhandle10183188778001087242pdf sequence1isAllowedy Acesso em 4 dez 2019 SILVA L A da PERES S M BOSCARIOLI C Introdução à mineração de dados com aplicações em R Rio de Janeiro Elsevier 2016 WICKHAM H GROLEMUND G R for data science import tidy transform visualize and model data Sebastopol OReilly Media 2017
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
Texto de pré-visualização
31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 141 ESTATÍSTICA APLICADA AO DATA ESTATÍSTICA APLICADA AO DATA SCIENCE SCIENCE PREDIÇÕES COM MODELOS DE PREDIÇÕES COM MODELOS DE REGRESSÃO LINEAR REGRESSÃO LINEAR Autor PhD Antonio Gomes de Mattos Neto Revisor Antonio do Nascimento Alves INICIAR 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 241 introdução Introdução Nesta unidade aprenderemos as Predições com Modelos de Regressão Linear Modelos de regressão linear são um dos principais métodos preditivos da estatística e da ciência dos dados data science São muito usados em praticamente todos os campos de conhecimento humano saúde engenharia economia geologia etc onde se quer estimar o valor de uma variável quantitativa em função de outras variáveis chamadas de variáveis de entrada ou preditoras Veremos um pouco sobre a evolução recente da estatística e como a mesma se tornou uma das principais ferramentas da ciência dos dados Falaremos sobre a fusão de métodos de machine learning com aqueles da estatística todos esses usados na ciência dos dados Feita essa passagem introdutória por parte do mundo da estatística de machine learning e ciência dos dados voltaremos nossas atenções ao principal foco dessa unidade que são os modelos de regressão linear Apresentaremos o que são esses modelos em que situações são usados tudo isso ilustrado com um exemplo que nos acompanhará ao longo desta unidade Praticaremos esse aprendizado com atividades a serem realizadas por você 31102023 1757 Eadbr SC eratricris ee VI ff EStatistica MAchINe yd aa mar Y qr y rf re e cY Learning e Ciencia dos Dados ee Nesta secao discutiremos sobre a relagdo entre a estatistica a ciéncia da computacdo e a ciéncia dos dados Falaremos sobre como a estatistica e a ciéncia dos dados fizeram proveito dos algoritmos de aprendizagem de maquina machine learning da ciéncia da computagao Breve Historico O nome dessa disciplina é Estatistica Aplicada ao Data Science Temos aqui a fusdo de duas areas a estatistica e a cincia dos dados a primeira aplicada a segunda A estatistica uma area de conhecimento humano mais antigo que a ciéncia dos dados Sua estrutura atual comegou a tomar forma ha aproximadamente 130 anos Verdadeiramente sua origem se estende por muitos séculos atras mas foram os trabalhos de grandes nomes tais como os famosos Karl Pearson e Ronald Fisher que comegaram a dar a estatistica a forma como a conhecemos hoje Uma ciéncia forte com brilho proprio e enorme relevancia para a sociedade humana Uma outra ciéncia de enorme relevancia para a sociedade moderna a ciéncia da computagdo Essa é mais recente que a estatistica e sO surge com o advento httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 341 31102023 1757 Eadbr dos computadores a partir das décadas de 1940 e 1950 A ciéncia da computagdo preocupouse inicialmente com temas ligados a arquitetura e funcionamento dos computadores Porém em algum momento passou a tentar emular a inteligncia humana Essas tentativas levaram ao nascimento de uma nova area de conhecimento humano denominada de inteligéncia artificial uma area muito vasta e diversificada Dentro dela como um dos seus ramos Surgiram os algoritmos de aprendizado de maquina em inglés machine learning Mas por que falamos aqui de machine learning Porque entre ciéncias nao ha fronteiras rigidas e tanto os cientistas da computagdo tomaram emprestados os modelos ja desenvolvidos pela estatistica quanto os estatisticos tomaram emprestados os algoritmos de machine learning desenvolvidos pela ciéncia da computacao Essa fusdo mostrouse ser muito rica vigorosa e pavimentou o caminho para o surgimento de uma nova area chamada de ciéncia dos dados A ciéncia dos dados é muito recente na histéria da sociedade humana De fato parece ter surgido entre 20 a 10 anos atras Um dos relatos que se ouve é que uma das grandes empresas americanas da era digital anunciou seu interesse em contratar cientistas de dados Mas quem ela queria contratar Bem parece que ela queria contratar um estatistico mas um estatistico com um viés computacional forte Um que soubesse programar Mas ela também ficaria satisfeita com um cientista da computagdo porém um que possuisse algum conhecimento de estatistica pois um cientista da computagdo sabe programar muito bem mas para se tornar um cientista de dados precisa conhecer estatistica E por esse motivo que a estatistica esta intimamente ligada a ciéncia dos dados e ao mundo dos algoritmos de machine learning da ciéncia da computagao Enfim todos de alguma forma entrelagados Cada um desses mundos com suas especialidades mas usufruindo mutuamente dos conhecimentos gerados pelos outros trés mundos 1 a estatistica com seus métodos tdo cuidadosamente construidos e aplicados 2 a cincia da computacgdo com seus algoritmos de machine learning e 3 a cincia dos dados que aplica todos esses conhecimentos e métodos de forma fértil e produtiva httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 441 31102023 1757 Eadbr e CA e Linguagens de Programacao na Ciencia dos Conversamos cada vez mais com as maquinas sejam computadores smartphones nossos carros etc as Maquinas entre si loT nternet of Things a Internet das Coisas Essa conversa com as maquinas e a conversa delas entre elas mesmas é construida por meio de linguagens de programagdo que se transformam em codigos executaveis e permitem a realizagao das comunicagdes dos seres humanos com as maquinas e das maquinas entre si Sao tao diversas as linguagens de programagao e suas historias tao variadas que seria impossivel tentarmos abordar esse assunto aqui Mas aqui devemos deixar claro que ndo se faz mais estatistica sem 0 uso intensivo de computadores para isso precisamos langar mado de linguagens de programagao E isso também se aplica a ciéncia dos dados Sendo assim que linguagens de programagdo sdo as mais empregadas por essas duas ciéncias a cincia dos dados e a estatistica A resposta é Para rodar poderosas rotinas computacionais usamse linguagens como Fortran C C e Java e para o desenvolvimento de aplicagdes em ciéncia dos dados linguagens mais flexiveis como R Python Julia e MatLab sdo preferidas Dentre essas R e Python sdo aquelas que se destacam no mundo da estatistica e da ciéncia dos dados Ambas incriveis e muito produtivas Aqui nesta disciplina sera mais facil usarmos o R A razdo é simples O R base ja vem com todas as fungdes estatisticas e graficas das quais precisaremos Mas ndo se preocupe usaremos oO R apenas para alguns exercicios bem simples sO para mostrar a vocé que é possivel Além disso 6 muito facil instalar e rodar o R Em suma preste muita atengdo a essas duas linguagens de programacdo 0 Re o Python O mercado valoriza quem possui alguma familiaridade com elas e com a estatistica e a cincia dos dados httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 541 31102023 1757 Eadbr Vamos Praticar Campo em crescimento exponencial a Ciéncia dos Dados tem se tornado uma area apaixonante para entusiastas das mais diversas areas Estatisticos contribuem com Solida teoria de analise de dados enquanto cientistas e engenheiros da computagdo contribuem com novas capacidades e possibilidades computacionais Assim pesquisadoresas da biologia psicologia direito economia comunicagao sociologia e diversas outras areas podem usufruir desse conjunto de técnicas algumas nem tao novas para aprimorar e desenvolver suas pesquisas E a linguagem R uma das principais linguagens de programagao utilizadas para isso STABILE M Prefacio n OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R introducao Brasilia IBPAD 2018 p 7 Diante disso assinale a alternativa correta O a Aciéncia dos dados desenvolveuse sem qualquer ligagao com a estatistica ou com a ciéncia da computacao O b Linguagens de programacao nado tém relevancia nas aplicagdes da estatistica a ciéncia dos dados cO Rndo é uma linguagem de programagao de referéncia para a estatisticae a ciéncia dos dados O d Aciéncia dos dados campo que vem apresentando um crescimento exponencial pode ser usufruida por pesquisadores e profissionais das mais diversas areas O e Nao é possivel a aplicacdo da estatistica ou da ciéncia dos dados em ciéncias humanas ou sociais Mas apenas nas ciéncias exatas httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 641 31102023 1757 Eadbr r Y ra D ro A GP om i re FY rn Cr reaicao com Kegressao u a 1 a ry Linear Stuao ae vaso ee Nesta secdo discutiremos sobre o desenvolvimento de modelos preditivos e apresentaremos o estudo de caso que nos acompanhara ao longo desta unidade Através desse caso aprenderemos as regressoes linear e multipla e Fases do Desenvolvimento de Modelos Preditivos Nesta segdo veremos como modelos de regressdo linear podem nos ajudar a predizer o valor de venda de um imovel a partir de dados coletados relativos a algumas de suas caracteristicas Faremos isso por meio de um exemplo ilustrativo centrado em dois personagens principais uma corretora de imoveis especializada na venda de apartamentos e um estatistico Esse exemplo um estudo de caso simulado nos acompanhara até o final da unidade Ele vai nos permitir entender sobre uma das maneiras como a estatistica pode ser aplicada a ciéncia dos dados Na criagao de uma aplicagdo que tem como objetivo o desenvolvimento de um algoritmo preditivo uma das maneiras possiveis de descrever as principais httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 741 31102023 1757 Eadbr etapas do seu desenvolvimento é 1 Definigdo da questdao a ser resolvida business case 2 Definigao dos dados necessarios ao desenvolvimento do caso 3 Coleta dos dados evitando vicios de amostragem 4 Limpeza e tratamento dos dados quando necessario 5 Analise descritiva resumos estatisticos e visualizacdo grafica 6 Escolha de um modelo algoritmo preditivo 7 Ajuste treino do modelo do algoritmo 8 Teste do modelo para verificagdo da sua performance preditiva 9 Entrega do modelo para validagdo e utilizacgdo pelo cliente 10 Feedback do cliente para ajustes e melhoramentos do modelo Como neste material pretendemos dar apenas uma visdo inicial e também como nado podemos nos estender com mais profundidade em aspectos mais técnicos nao daremos atengdo a todas essas etapas Concentraremonos em mostrar de uma forma mais direta e simples possivel o poder de predicdo de modelos de regressdo linear em situagdes tipicas onde podem ser empregados Se vocé tiver interesse em se aprofundar nesses temas ha uma vasta literatura disponivel para sua consulta e leitura como por exemplo o livro Ciéncia dos Dados Introdugdo OLIVEIRA GUERRA MCDONNEL 2018 Predicao do Valor de Venda de Imoéveis Uma corretora de imoveis residenciais queria saber se seria possivel através de algum tipo de aplicativo estimar valores de venda de imoveis residenciais Ela trabalhava exclusivamente com venda de apartamentos e sabia que se pudesse contar com tal aplicativo teria mais agilidade na definigdo do valor de venda dos imdveis junto aos proprietarios assim como tornaria mais assertiva Sua conversa junto a compradores potenciais Em outras palavras imaginava que com tal aplicativo ela teria mais e melhores argumentos pois seriam argumentos balizados tecnicamente Sendo mais precisa imaginava que poderia dar mais velocidade aos negocios gerando mais satisfagdo para os seus clientes assim como melhores resultados para a imobiliaria onde trabalhava ja ha anos httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 841 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 941 Como tinha um amigo estatístico decidiu conversar com ele Seu amigo estatístico lhe pediu para trazer alguns dados de mercado Passados alguns dias a corretora voltou a procurar seu amigo estatístico e lhe mostrou os seguintes dados observados de 100 imóveis residenciais todos apartamentos sua especialidade vendidos nos últimos meses pela imobiliária No Quadro 11 exibimos algumas do total das 100 observações que ela coletou Quadro 11 Dados amostrados relativos aos apartamentos Fonte Elaborado pelo autor Com isso o estatístico tinha em suas mãos dados O estatístico podia a partir desse momento examinar esses dados e decidir sobre o que fazer o que veremos em seguida após uma atividade para você treinar seus conhecimentos praticar V P ti Ap Área m2 Andar Local Valor Rmil 1 594 2 Bairro 398 2 627 8 Bairro 340 3 806 4 Centro 544 4 657 9 Bairro 283 99 626 4 Centro 304 100 547 6 Centro 347 31102023 1757 Eadbr Varmos Praticafl Workflow da Ciéncia dos Dados ndo existe apenas uma forma de estruturar e aplicar os conhecimentos da Ciéncia dos Dados A forma de aplicagdo varia bastante conforme a necessidade do projeto ou do objetivo que se busca alcangar Neste curso usaremos um modelo de workflow bastante utilizado Esse workflow propde basicamente os seguintes passos Carregar os dados Limpar os dados Transformar visualizar e modelar Comunicar 0 resultado OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R introducdo Brasilia IBPAD 2018 p 10 Descrevemos as principais etapas para o desenvolvimento de um algoritmo preditivo na ciéncia dos dados Deixamos claro que as etapas la descritas sdo apenas uma das formas de se definir essas etapas porém entre todas as descricgdes ha similaridades Veja por exemplo a descrigdo dessas etapas como dadas no texto introdutorio referenciado Analise as duas descrigdes do ebook e do texto introdut6rio reflita e assinale a alternativa correta a No desenvolvimento de um projeto em ciéncia dos dados nunca se faz a visualizagao dos dados também chamada de analise descritiva dos dados O b No desenvolvimento de um projeto em ciéncia dos dados nunca se faz a etapa de limpeza e tratamento dos dados O c No desenvolvimento de um projeto em ciéncia dos dados comum que se faga a modelagem dos dados que consiste na escolha treino e teste de um modelo O d No desenvolvimento de um projeto em ciéncia dos dados nunca se faz a comunicacao dos resultados pois eles so interessam ao proprio cientista de dados O e Nas etapas de desenvolvimento de um projeto em ciéncia dos dados descritas no ebook nao se considera a etapa de feedback do cliente para ajustes e melhoramentos do modelo httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1041 31102023 1757 Eadbr DF J ov j mm TY co rc Analise Descritiva dos a Dados ee Nesta secdo discutiremos sobre a estrutura de dados preferida pelos estatisticos e cientistas de dados e em seguida veremos um exemplo de como um cientista de dados examina seus dados através de técnicas descritivas que sdo sumarios estatisticos também chamados de resumos e graficos para a visualizagdo dos dados O estatistico decidiu examinar os dados que sua amiga corretora lhe trouxe Ele logo percebeu que estavam bem organizados na forma de uma tabela com as variaveis dispostas em colunas e as observacgoes relativas a cada imovel dispostas em linhas Essa é talvez a forma preferida por um estatistico ou por um cientista de dados de organizagao de dados Por vezes referimonos a dados que podem ser organizados em uma tabela desse jeito ou seja as variaveis dispostas nas colunas e as observagédes dispostas nas linhas como dados retangulares ou dados estruturados No software estatistico R essa forma de organizagdo de dados é referida como data httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1141 31102023 1757 Eadbr frame Esse conceito foi copiado alguns anos depois em 2012 pelo Python por meio de sua famosa biblioteca Pandas Voltando ao estatistico ele também viu que sua amostra tinha tamanho n 100 ou seja la havia dados relativos a 100 diferentes apartamentos Para simplificar a sua analise ele decidiu adotar uma notagdo compacta para as variaveis observadas X1 area do imovel m X andar doimovel 1 2 3 X3 localizaao do imovel Bairro ou Centro Y valor de venda do imovel kR e x 4 s Dados Relativos a Area do Imovel O estatistico iniciou sua analise examinando X area do imdvel Usou as fungdes min mean max e sd do software estatistico R na determinagdo dos valores minimo médio maximo e desviopadrao dos dados observados para 71 min1 419 meanr1 656 mazr1 869 sd91 Ele viu entao que para esses 100 apartamentos vendidos a area variou entre um minimo de 419 m e um maximo de 869 m com drea média de 65 6 m e desviopadrao da drea de 9 1 m Em seguida decidiu visualizar esses dados Como area uma variavel quantitativa optou por construir um histograma de X usando a fungdo grafica hist do R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1241 31102023 1757 Eadbr 30 25 S 20 Oo 3 15 oa ov x 10 Mian I I 40 50 60 70 80 90 Area do Imével m2 Figura 11 Histograma dos dados relativos a drea dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 11 exibe o histograma X1 de colunas verticais que representa a area dos apartamentos 0 eixo X linha horizontal representa a area do imdvel em m elevado a 2 metros quadrados iniciando em 40 com uma escala de 10 metros quadrados no grafico a medida da area em metros quadrados vai de 40 a 90 metros quadrados O eixo y representa a frequéncia numero de ocorréncias quantidade de imdveis a escala vertical cinco 5 contando de 0 a origem a 30 No histograma X1 a maior quantidade de apartamentos possui a metragem de 60 a 70 metros e a menor quantidade de apartamentos esta na metragem de 40 a 50 metros e é Dados Relativos ao Andar do Imovel Depois 0 estatistico passou ao exame dos dados relativos a variavel X2 andar do imovel Também aqui usou de algumas fungées do R para calcular o valor minimo min a mediana median 0 maximo max e 0 desviopadrdo sd dos dados observados minz21 medianz24 maz214 sd31 Ele viu entao que para esses 100 apartamentos vendidos o andar do imovel variou entre um minimo de 1 primeiro andar uma mediana de 4 50 dos apartamentos até o quarto andar um maximo de 14 décimoquarto andar e httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1341 31102023 1757 Eadbr um desviopadrdo de 31 andares uma indicagao da variabilidade desses dados relativos ao andar dos apartamentos Ao longo da unidade falamos diversas vezes sobre o R Primeiro na segdo em que discutimos sobre linguagens de programacgao e ao longo do caso estudado quando o estatistico recorreu ao R inumeras vezes Ou para produzir sumarios estatisticos ou estimar os coeficientes dos modelos ou mesmo para a visualizagao dos dados com as fungdes graficas do R Se vocé quiser conhecer mais sobre o R vocé pode instalalo e usalo livremente em casa ou no trabalho pois é publico e gratuito Fonte Adaptado de Ritter e They 2019 Em seguida decidiu visualizar esses dados Como o andar do imovel uma variavel quantitativa optou por construir um histograma de X2 usando a funcdo grafica hist do R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1441 31102023 1757 Eadbr 30 25 S 20 Oo 3 15 oa ov x 10 0 I 0 2 4 6 8 10 12 14 Area do Imével Figura 12 Histograma dos dados relativos ao andar dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 12 representa o histograma de X2 de colunas verticais que se refere aos andares dos apartamentos a maior frequéncia ocorréncia de andares dos imdveis esta nos andares baixos entre o térreo andar 0 e o quarto 4 andar e a menor frequéncia esta entre o décimo segundo ao décimo quarto andar 12 ao 14 andares mais altos O eixo X linha X representa os andares dos imoveis do 0 térreo até o décimo quarto 14 andar em escala 2 O eixo Y Linha Y representa a frequéncia de 0 a 30 com escala 5 e e é Dados Relativos a Localizacao do Imovel Em seguida 0 estatistico passou ao exame dos dados relativos a localizagdo dos apartamentos Logo percebeu que essa variavel X3 local do imdvel tratavase de uma variavel qualitativa nominal com apenas dois niveis Bairro e Centro uma variavel por vezes chamada de dicot6mica em oposicgdo as variaveis qualitativas polit6micas as quais podem assumir mais de dois niveis ou classes Decidiu codificar esses dados usando uma forma de codificagdo muito comum para variaveis dicot6micas como segue Bairro 0 Centro 1 Apos isso como esses dados sao qualitativos uma das formas mais praticas para Sumarizalos contando a frequéncia de aparigdo de cada nivel 0 ou 1 na httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1541 31102023 1757 Eadbr amostra coletada Para isso usou de uma interessante fungdo do R denominada de table obtendo os seguintes resultados tablex3 0 1 32 668 Ou seja do total de apartamentos observados 32 estavam localizados no Bairro 0 e 68 no Centro 1 A corretora havia explicado ao estatistico que a imobiliaria havia coletado os dados dessa forma sem tentar distinguir em maior detalhe qual exato bairro ou qual exato local no centro porque com base na sua experiéncia de varios anos havia concluido ndo haver a necessidade de maior detalhamento ao menos naquele municipio onde ela atuava Em seguida decidiu visualizar esses dados A forma preferida do estatistico ou do cientista de dados de visualizar dados qualitativos 6 por meio de diagramas de barras Nesse diagrama cada nivel classe da variavel é associada a uma barra e a altura da barra é proporcional a frequéncia absoluta com que 0 nivel classe foi observado na amostra O estatistico usou uma fungdo grafica do R denominada de barplot e obteve o seguinte resultado 100 80 60 40 0 Bairro 0 Centro 1 Figura 13 Diagrama de barras dos dados de localizagdo dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 13 representa o histograma de barra verticais simples que se refere a localizagdo dos apartamentos a maior frequéncia ocorréncia de andares dos imoveis esta no centro 1 apartamento e a menor frequéncia esta no bairro com nenhuma ocorréncia O eixo x linha X horizontal referese a httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1641 31102023 1757 Eadbr localizagdo Bairro 0 e Centro 1 nado ha escala pois a representagdo é qualitativa bairrocentro O eixo y linha y vertical representa a frequéncia variando de 0 origem até o valor cem 100 numa escala de 20 Como vocé pode observar o diagrama de barras oferece uma simples porém bastante efetiva visualizagdo da frequéncia de observacées de cada nivel classe da variavel qualitativa Vale notar aqui que podemos usar a frequéncia relativa no lugar da frequéncia absoluta com o mesmo resultado visual Também vale notar que graficos de pizza sao uma alternativa aos diagramas de barras e é Dados Relativos ao Valor de Venda do Imovel Finalmente o estatistico prosseguiu com sua analise descritiva examinando a variavel Y valor de venda do imével e novamente usou de fungédes do R para calcular os valores minimo min médio mean maximo max e desviopadrao sd dos dados observados miny 129 meany 3665 mazy 556 sd 859 Vemos que para esses 100 apartamentos o valor de venda variou entre um minimo de 129 kR e um maximo de 556 kR com valor médio de 3665 kR e um desvio padrdo de 859 kR Assim como fez para as outras variaveis também aqui resolveu visualizar os dados coletados quanto ao valor de venda Sendo esses dados quantitativos construiu um histograma de Y valor de venda do imével usando a fungdo grafica hist do R httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1741 31102023 1757 Eadbr 30 20 Cc S15 o x 10 5 le 100 200 300 400 500 600 Valor de Venda do Imével Rmil Figura 14 Histograma dos dados do valor de venda dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 14 representa um histograma quantitativos que se refere aos dados do valor de venda dos apartamentos O eixo x linha x horizontal exibe os valores do imdvel numa escala de 100 mil iniciando em 100 até 600 mil O eixo Y linha Y vertical representa a frequéncia de 0 a 30 numa escala de cinco A maior frequéncia esta no meio do histograma com os imdveis na faixa de valores entre trezentos 300 a quatrocentos 400 mil Percebeu serem dos dados relativos aos valores de venda dos imoveis distribuidos de forma ligeiramente assimétrica com uma maior frequéncia de observagées se concentrando a direita e e a Visualizacao do Valor versus Area do Imovel Como a ideia da corretora era conseguir fazer uma predicdo do valor de venda de um apartamento dadas as suas caracteristicas com base nos dados coletados na amostra o estatistico decidiu visualizar essa possivel relagdo construindo um grafico de dispersdo scatter plot em inglés no qual plotaria os dados relativos a area do imdvel X 1 no eixo horizontal e os dados relativos ao valor de venda do imdvel Y no eixo vertical Graficos de dispersdo sdo usados para a visualizacdo da relagdo entre variaveis quantitativas Os dados nesse caso devem ser tomados aos pares isto é X1 Y a primeira e a Ultima coluna da tabela linha a linha aos pares httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1841 31102023 1757 Eadbr 594 398 627 340 806 544 657 283 626 304 547 347 Quadro 12 Tabela area e valor Fonte Elaborado pelo autor Para isso o estatistico usou uma fungdo grafica do R de nominada de plot obtendo o seguinte resultado exibido na Figura 15 Essa figura mostra que ha uma associacdo positiva entre Y e X1 Ha uma tendéncia de Y subir o valor do imdvel quando X cresce a area do imovel A dispersdo dos dados se da porque ha outros fatores influentes que causam essa variabilidade nas observagées da amostra coletada A fungdo cor do R permite uma medida da forga dessa associado cory 21 055 Esse valor indica que para os dados amostrados a correlagdo entre Y e Xj é positiva com uma forga moderada httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 1941 31102023 1757 Eadbr s 500 s oe 200 3 e deny 0 9 Bo e 300 ee euttte me ee 5 e Sq e 5 7 100 So 40 50 60 70 80 90 x1 Area do Imovel m2 Figura 15 Grafico de dispersdo da drea e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 15 representa um Grafico de dispersdo da area e valor dos apartamentos O eixo x1 linha X1 representa a area do imovel em metros quadrados iniciando em 40 até 90 metros em escala 10 O eixo y linha y vertical representa o valor de venda dos imoveis iniciando em zero 0 a cem 100 mil marco inicial até quinhentos 500 mil numa escala de 200 mil na figura observa se a maior concentragdo de imdveis com metragem entre 60 a 70 metros quadrados que custam entre 300 a 400 mil Visualizacao do Valor versus o Andar do é Imovel Em seguida fez 0 mesmo para a relagdo entre os dados de valor de venda do imdvel Y versus seu andar X2 e os plotou aos pares isto é Xo Y a segunda e a ultima coluna da tabela com os dados dos imoveis linha a linha aos pares Novamente o estatistico recorreu a funcdo plot do R e obteve o resultado exibido na Figura 16 Essa figura também mostra que ha uma associado positiva entre Y e Xo porém mais sutil Talvez vocé nado consiga ver isso muito bem mas nao se preocupe O estatistico tem ja uma grande experiéncia e mesmo ele pode ter dificuldade em ver que ha uma tendéncia de Y subir 0 valor do apartamento httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2041 31102023 1757 Eadbr quando X cresce o andar do apartamento Para verificar essa questdo o estatistico aqui langou mado da fungado cor do R obtendo cory 22 0 24 Também nesse caso a correlagdo positiva porém aqui com uma forga mais fraca do que a correlacdo entre Y e X 1 A dispersdo dos dados se da porque ha outros fatores influentes e ruidos que causam variabilidade nas observacées da amostra coletada tA 500 g oo 0 3 e c 63 3 e e S300 8 83 5 88 8 e 5 S 100 0 2 4 6 8 10 12 14 x2 Andar do Imével m2 Figura 16 Grafico de dispersdo do andar e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 16 representa um Grafico de dispersdo do andar e valor dos apartamentos O Eixo x2 Linha X2 horizontal representa os andares numa escala dois 2 O eixo y linha y vertical representa os valores numa escala de 200 mil O grafico mostra maior concentragdo nos andares 1 4 e 5 e valores Superiores a duzentos e cinquenta e trezentos mil até quatrocentos mil Outra curiosidade 6 que os dados relativos 4 Y encontramse empilhados sobre alguns valores de X2 mas isto é apenas fruto direto do fato que X92 varia de forma discreta ou seja X2 123 0 andar de cada apartamento vendido Visualizacao do Valor versus Localizacao httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2141 31102023 1757 Eadbr Aqui 0 estatistico teve de langar mado de um tipo de grafico que permitisse a visualizagdo de dados quantitativos Y valor de venda versus dados qualitativos X3 localizagdo do imével Uma solucdo muito inteligente para isso é recorrer aos boxplots diagramas de caixas onde no eixo horizontal indicamos os niveis da variavel qualitativa X3 e no eixo vertical os valores observados da variavel quantitativa Y também aos pares X3 Y isto é a terceira e a quarta coluna da tabela de dados O resultado que o estatistico obteve foi o seguinte 500 2 TD S 300 OD 1 3 200 oO I Bairro 0 Centro 1 x2 Andar do Imével m2 Figura 17 Boxplots da localizacdo e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A figura 17 representa o grafico Boxplot ou diagrama de caixas da localizagdo e valor dos apartamentos O boxplot comega sempre no valor minimo da base de dados e termina no valor maximo assim como o histograma A caixa representa os valores centrais onde no histograma essa parte é representada pelas barras mais altas ou seja dados com maior frequéncia maior ocorréncia O eixo X linha x representa a localizagdo e o eixo y linha y vertical representa o valor de venda do imdével e ao centro do boxplot ha as caixas boxes de representagao da concentragdo bairro e valor de venda Esse grafico permite ver como se dispersam os valores de venda dos imoveis da amostra exibidos ao longo do eixo vertical em fungdo da sua localizagdao exibida no eixo horizontal Veja que imoveis no centro tém valor inferior a imdveis no bairro Nas palavras de um especialista Boxplots sdo muito uteis na visualizagdo grafica entre diferentes conjuntos de dados porque tém um alto impacto visual e httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2241 31102023 1757 Eadbr sao faceis de entender MONTGOMERY 2013 p 139 SAdo muito usados nas situagdes em que queremos viSualizar a relagdo de dados quantitativos com dados qualitativos Dados Estruturados talvez seja o formato mais facil de se trabalhar no R Sado conjuntos de informagdes organizadas em colunas atributos variaveis features etc e linhas registros itens observacgoes etc Sado dados mais comumente encontrados diretamente em bancos de dados arquivos com algum tipo de separagdo entre as colunas Excel arquivos com campos de tamanhos fixo etc OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R introducdo Brasilia IBPAD 2018 p 19 Com base neste texto assinale a alternativa correta O a Dados estruturados ndo sdo importantes para a estatistica ou para a ciéncia dos dados O b No R estruturas de dados organizados em tabelas com as variaveis dispostas nas colunas e as observacoées nas linhas sao chamados de dataframes O c Dados retangulares nado sdo a mesma coisa que dados estruturados Dados retangulares tém estrutura de retangulos e dados estruturados sdo organizados na forma de tabelas O d Dados retangulares ndo sdo organizados com as variaveis dispostas nas colunas e as observagées dispostas nas linhas e Chamar variaveis de atributos é imprdprio na ciéncia dos dados ja que variaveis Sdo sempre variaveis httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2341 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2441 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2541 Nesta seção veremos como modelos de regressão linear simples e múltipla são empregados como modelos preditivos de valores de variáveis quantitativas Isso será ilustrado com o desenvolvimento de um modelo de regressão linear na predição do valor de venda de imóveis Modelos de Regressão Linear Modelos de regressão linear são usados para a predição do valor esperado de uma variável resposta quantitativa habitualmente anotada como em função de uma ou muitas variáveis de entrada habitualmente anotadas como com um índice a elas associados se mais do que uma Por exemplo no caso aqui estudado temos três variáveis de entrada e Esquematicamente podemos representar essa ideia da seguinte forma Predição com Modelos de Predição com Modelos de Regressão Linear Regressão Linear Y X X1 X2 X3 31102023 1757 Eadbr XxX XX Y MODELO DE REGRESSAO mT Figura 18 Representacdo da transformacdo das entradas na saida Fonte Elaborada pelo autor PraCegoVer A Figura 18 Representa a transformagdo das entradas na saida por um modelo de regressdo Linear na figura temos as variaveis de entrada X1 X2 X3 que transformardo os dados de entrada num valor de saida Y variavel de saida resposta da transformacdo O modelo aqui funciona como uma fungdo que transforma os dados de entrada em um dado de saida Vale dizer nesse momento que ha outras denominagoes comuns para essas variaveis tais como X variavel de entrada regressora preditora independente Y varidvel de saida de resposta dependente target variable Vamos ver como evolui 0 caso da nossa corretora seus apartamentos e a ajuda do seu amigo estatistico a Valor versus Area do Imovel Em um primeiro momento a corretora pediu para o estatistico fazer uma tentativa inicial de predigdo usando apenas a variavel area do imdvel X como variavel de entrada preditora O estatistico imediatamente pensou em um modelo de regressdo linear simples O nome simples na regressdo linear significa que o modelo de regressdo considerara apenas uma variavel de entrada aqui neste nosso caso Xj a area do imdvel e procurara verificar qual seu possivel efeito na variavel resposta aqui neste nosso caso Y 0 valor do imével com base nos dados amostrados httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2641 31102023 1757 Eadbr O estatistico entao escreveu o seguinte modelo de regressdo linear simples para essa situacao ybo 6121 Aqui bg e by so coeficientes do modelo Seu maior interesse nesse momento era o de determinar os valores desses coeficientes Com isso ele poderia estimar y EY 0 valor esperado valor médio para o imével quando sua drea Xj for igual a 21 metros quadrados ou seja X1 2 Ele fez isso usando de um método classico da estatistica o Método dos Minimos Quadrados Nao nosso objetivo discutir o funcionamento desse método mas apenas ilustrar o poder da estatistica quando aplicada a ciéncia dos dados Vamos nos concentrar nos resultados da aplicagdo desse método quando o usamos para 0 calculo dos coeficientes bo e by O estatistico usou do software R para fazer esses calculos e obteve b0 kR2722 e b1 kR515m2 tal que substituindo esses valores no modelo de regressdo linear simples acima chegamos a y 2722515 2 Esse resultado pode ser plotado no grafico de dispersdo que vimos anteriormente para o valor do imdvel y em fungdo da area do imovel x1 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2741 31102023 1757 Eadbr 500 4 o ge e e o e e Saye Sagas e Eure s 3007 o ww wes e e e 5 ee o Oo wz 1007 1 0 1 0 20 40 60 80 Area do Imével m2 Figura 19 Grdfico de dispersdo da area e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 19 exibe um Grafico de dispersdo da area e valor dos apartamentos realizando uma correlagdo de proporcionalidade entre a area do imdvel e o valor de venda do imével na plotagem desenho do modelo ha uma linha reta com uma intersecgdo entre os eixos na origem 0 zero observase uma maior concentragdo dos imdveis com metragem em torno de 60 a 70 metros e valores em torno de trezentos 300 mil Vemos que a plotagem do modelo ajustado fornece uma reta com intersegao com o eixo vertical em x1 0 igual a by 2722 m e inclinacdo igual a b kR 5 15m Podemos mudar a escala do eixo horizontal para a mesma escala que usamos anteriormente para a construgdo do grafico de dispersdo entre y e 1 resultando numa melhor visualizacdo httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2841 31102023 1757 Eadbr 500 ae ce ta 9 eo o we 5 o ait 28 9 300 oe FN e 7 0 S 100 Ss 0 40 50 60 70 80 90 Area do Imével m2 Figura 110 Grdfico de dispersdo da area e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 110 exibe um Grafico de dispersdo da area e valor dos apartamentos igual a figura 19 no entanto ha um destaque na figura a regido de plotagem de maior concentragdo permitindo uma melhor analise ha uma correlagao de proporcionalidade entre a area do imdvel e o valor de venda do imdvel na plotagem desenho do modelo ha uma linha reta com uma intersecdo entre os eixos na origem O zero observase uma maior concentragdao 0 destaque permite a observacdo de imdveis com metragem em torno de 60 a 65 metros e valores em torno de trezentos 300 mil Ha maior ocorréncia de imdveis da metragem com valor em torno de 300 mil Devemos interpretar esse resultado O coeficiente de intersegdo é o valor esperado valor médio para y quando x 0 ou seja o valor esperado para o prego de venda quando a area do apartamento for igual a zero Essa interpretagdo nao tem um sentido real pois ndo existem apartamentos com area igual a zero Nessa situagdo comum tomarmos esse coeficiente apenas como um coeficiente de ajuste do modelo sem nos preocuparmos em atribuir a ele um significado real Apenas quando faz sentido a variavel preditora assumir um valor igual a zero é que também faz sentido interpretar o coeficiente b0 ndo so como um coeficiente de ajuste do modelo mas efetivamente como o valor esperado para y quando httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 2941 31102023 1757 Eadbr Z1 igual a zero Espero que vocé tenha entendido esse ponto Ndo é muito complicado Ja com respeito ao coeficiente b1 que é a inclinagdo da reta esse sempre tera uma interpretagdo bastante util O valor calculado pelo estatistico para esse coeficiente foi b1 kR515m2 Ele representa 0 quanto aumenta o preco de venda do apartamento com o aumento da area em exatamente 1 metro quadrado Isto é ele o valor do metro quadrado médio para os apartamentos da amostra que a corretora passou para 0 estatistico Fazer uma predicdo do valor esperado de y prego de venda do imovel dada sua area em Z1 em metros quadrados fica facil agora Suponha que vocé quer saber qual seria o prego de venda médio estimado para um apartamento de 65 m Basta substituir esse valor na equagdo do modelo e o resultado sera y 2722 515 x 65 362 Aqui arredondamos o valor 36197 mil para 362 mil reais pois estamos estimando em mil reais e nado temos interesse em fragdes de mil reais Valor versus Andar do Imovel O estatistico mostrou a sua amiga corretora a analise preditiva que ele havia realizado com base nos dados da area dos imoveis x e seus valores de venda y Ela ficou muito admirada e curiosa em saber como seria esse resultado se ao invés de usarmos como dados de entrada a area dos imoveis usassemos oO numero zx do seu andar E pediu que o estatistico desenvolvesse esse outro modelo preditivo Obviamente 0 estatistico ja tendo usado um modelo de regressdo linear simples para a situacgdo anterior decidiu fazer 0 mesmo para esse novo caso e escreveu Oo seguinte modelo de regressdo linear simples para essa nova situagdo y bo boxe httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3041 31102023 1757 Eadbr Também aqui aplicou o Método dos Minimos Quadrados para o ajuste do modelo por meio do software estatistico R Obteve os seguintes valores para os coeficientes do modelo b0 kR6 55andar tal que substituindo esses valores no modelo de regressdo linear simples acima chegamos a y 333 71 655 ro Esse resultado pode ser plotado no grafico de dispersdo que vimos anteriormente para valor do imdvel y kR em fungdo de andar do imovel 2 1 2 3 e E 3 500 8 eee 8 o 3 os 8 e e 5 304 e 5 8 a 1 QO 8 888s S 1 oO 7 100 0 0 5 10 15 Andar do Imével m2 Figura 111 Grdfico de dispersdo do andar e valor dos apartamentos Fonte Elaborada pelo autor PraCegoVer A Figura 111 apresenta Grafico de dispersdo do andar e valor dos apartamentos 0 grafico exibe maior concentragdo entre os andares mais baixos do térreo 0 ao 5 andar e com os valores em torno de 300 mil Também aqui devemos interpretar esse resultado O coeficiente de intersegdo é o valor esperado para y quando x2 QO ou seja o valor esperado para o preco de venda quando o andar do apartamento for igual a zero 0 térreo Nesse caso temos uma interpretacgdo para o coeficiente de intersegao do modelo além de um mero pardmetro de ajuste do modelo aos dados amostrados pois existem httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3141 31102023 1757 Eadbr apartamentos em andares térreos Devemos notar entretanto que na amostra coletada pela imobiliaria onde trabalha a corretora nenhum dos apartamentos vendidos ficava no andar térreo Fazer 22 O nesse caso 6 uma extrapolacgdo da predigdo para além da regido onde os dados foram observados Quando x2 0 andar térreo a predido para o valor do imével é y 333 71 655 x 0 333 71 Ou seja y 6 exatamente igual a bg a intersecdo da reta com o eixo vertical na posicdo 22 O do grafico Quanto ao coeficiente bz que é a inclinagdo da reta a interpretagdo é similar aquela que ja demos anteriormente para o caso do coeficiente b O valor calculado para esse coeficiente foi b2 kR 655andar representa o valor do aumento por cada 1 andar valor unitario por andar o qual deve se somar a R 33371 mil para se ter a estimativa do valor esperado para o valor do imovel Fazer uma predicdo do valor esperado de y prego de venda do imovel dado seu andar fica facil agora Suponha que vocé quer saber qual seria o prego de venda médio estimado para um apartamento no décimo andar Basta substituir esse valor na equagao do modelo e o resultado sera y 333 71 655 x 10 399 Aqui arredondamos o valor 39921 para 399 mil reais pois estamos estimando em mil reais e nado temos interesse em fragdes de mil reais Val A Andar do Imével Nesse ponto o estatistico decidiu combinar os dois modelos anteriores em um SO onde o valor esperado para y valor do imovel escrito como funcdo de x1 area do imdvel e x2 andar do imével simultaneamente Esse modelo fica assim y bop by 21 box httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3241 31102023 1757 Eadbr Denominamos um modelo desse tipo onde ha mais do que uma variavel de entrada de modelo de regressdo linear multipla Muito importante é evitarmos a tentagado de usar os valores previamente determinados nos modelos de regressdo simples anteriores para bo b e bz nesse modelo de regressdo multipla Quando aplicamos o Método dos Minimos Quadrados cada novo modelo deve ser ajustado aos dados da amostra independentemente de outros modelos gerando assim um conjunto de coeficientes especificos para si O estatistico que conhecia muito bem sobre isso recorreu novamente ao software estatistico R para calcular os valores dos coeficientes desse novo modelo Chegou aos seguintes resultados b0 kR5 12m2b2 kR6 34andar Substituindo esses valores no modelo de regressdo multipla temos y 259 5122 634 x Essa expressdo pode ser usada para fazermos prediées do valor esperado de y a area desejada e o andar desejado para o apartamento A corretora ja aproveitou para fazer um teste pois uma cliente gostaria de saber qual valor esperado de um apartamento com uma area de 50 metros quadrados situado no 10 andar Esse apartamento seria para ela o seu marido e um filhinho De posse do modelo foi simples fazer a predicdo y 259512 x 50 634 x 10 317 Aqui novamente arredondamos 31681 para 317 mil reais pois queremos avaliar o valor do imdvel sem nos preocuparmos com fragées de mil reais e Valor versus Area Andar e Localizacao do é Imovel Naturalmente a corretora ficou muito feliz ao ver que ja dispunha de um algoritmo de predigdo Percebeu que agora so faltava incluir no modelo de regressdo multipla a ultima variavel da base de dados da imobiliaria ou seja aquela relativa a localizagdo do imdvel httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3341 31102023 1757 Eadbr A imobiliaria so registrava se 0 imovel havia sido vendido em um bairro ou no centro Sendo assim essa variavel que uma variavel qualitativa sO podia assumir dois valores dois niveis duas classes Vocé lembra que o estatistico ja havia decidido codificar esses dois niveis da seguinte forma Bairro 0 Centro 1 O estatistico prosseguiu e escreveu o seguinte modelo de regressdo multipla com variaveis preditoras mistas quantitativas e qualitativas y bo 6121 boxe 1323 Novamente recorreu ao R e calculou os coeficientes para esse modelo obtendo bOkR 487 m2 b2kR 2743 localizagao Substituindo esses valores na expressdo do modelo fica assim y 3267 4 87 21 6 36 x2 27 43 z3 Ja discutimos a interpretagdo dos coeficientes b e bg Vamos agora discutir a interpretacdo do coeficiente b3 Para isso basta lembrar que x3 pode assumir dois valores ou niveis classes Bairro 0 e Centro 1 Como o coeficiente b3 esta multiplicando x3 a contribuigdo do termo contendo b3 para o valor de y sera zero quando 23 0 e menos kR 2743 quando x3 1 Ou seja o modelo nos informa que quando o iméovel esta localizado no centro ele custa em média 2743 mil reais a menos que um apartamento de bairro de mesma area e mesmo andar A corretora pediu um exemplo Precisava entender melhor O estatistico entdo deu o seguinte exemplo pensou na mesma cliente que ja havia solicitado uma predicdo do valor esperado para um apartamento de 50 metros quadrados de décimo andar mas ela ndo havia especificado onde se no bairro ou no centro ora agora ele tinha um modelo que levava em conta essa variavel e so substituiu os 50 metros e 10 andar no modelo Obteve o seguinte resultado y 3267 4 87 x 50 6 36 x 10 27 43 x3 339 77 27 43 x3 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3441 31102023 1757 Eadbr e viu que x3 Obairro y33977 x3 l1centroo y831234 A diferenca de valor é 2743 mil reais que resulta em 27 mil reais ao arredondarmos para mil Apartamentos de mesmas caracteristicas no centro custam 27 mil reais a menos que apartamentos nos bairros Isso vale para aquele municipio para os dados amostrados pela imobiliaria e para esse modelo especifico de regressdo linear multipla com variaveis de entrada preditoras mistas quantitativas e qualitativas Outros dados e outros modelos podem levar a resultados diferentes A corretora entendeu e quase atingiu o auge de sua felicidade Agora tinha a sua disposigdo um algoritmo preditor de valores esperados para os imoveis que ela comercializava Mas e 0 aplicativo O aplicativo deve ser produzido em um passo posterior ao desenvolvimento do algoritmo Com o algoritmo de predigdo pronto agora a corretora devera procurar um profissional que possa desenvolver um aplicativo um engenheiro de software por exemplo especializado em aplicagses na web ou em smartphones Esse profissional criara uma interface entre o usuario a corretora e o algoritmo o modelo preditivo tal que com a entrada de dados das caracteristicas de um apartamento o aplicativo produzira na tela do computador ou do smartphone a predigdo do seu valor esperado médio de venda httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3541 31102023 1757 Eadbr Sera que vocé sabia que a estatistica e a cincia dos dados sdo muito usadas nas ciéncias dos esportes tanto amadores quanto profissionais E vocé Consegue se imaginar trabalhando para um grande clube como especialista em analise estatistica esportiva Reflita sobre isso enquanto é analisa e pensa sobre o que Ihe propomos aqui Além disso 0 engenheiro de software podera desenvolver o aplicativo de uma forma ainda mais robusta permitindo que a imobilidaria o alimente periodicamente com novos dados de apartamentos vendidos Isso permitira que oO aplicativo se mantenha atualizado frente a evolugdo das condigdes de pregos do mercado imobiliario que podem subir ou descer com as flutuagdes da economia Vamos Praticar Exemplo didatico para regressdo linear como exemplo didatico para a regressdo linear considere o proprietario de um restaurante que deseja aumentar as vendas investindo em propaganda na radio da cidade Considere também que o gasto nesse tipo de publicidade é calculado pelo numero de insergdes do anuncio na programacao da radio durante o més Com o cuidado de mensurar o efeito desses anuncios 0 proprietario do restaurante somou ao final dos meses em que fez 0 investimento com o anuncio oO numero de vendas do prato filé a parmegiana httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3641 31102023 1757 Eadbr SILVA L A da PERES S M BOSCARIOLI C Introdugao a mineracao de dados com aplicagdes em R Rio de Janeiro Elsevier 2016 O texto em referéncia descreve um problema de regressdo linear para o qual se obteve o seguinte modelo y 117 38 9 622 onde x numero de inserdes de anuncios durante o més y numero de pratos de Filé a Parmegiana vendidos no més Para essa situaGdo assinale a alternativa correta O a Os modelos de regressdo linear sdo divididos em modelos de regressdo linear simples e multipla O modelo desenvolvido para a situagao aqui descrita um modelo de regressdo linear multipla onde ha mais do que uma variavel de entrada O b A variavel resposta deste modelo de regressdo linear o numero de insercdes de anuncios em um més A variavel resposta também é chamada de variavel independente ou regressora O c O pardametro 962 representa o numero de pratos de filé a parmegiana que sao vendidos em um més em que nado se fez nenhuma insercdo de anuncios Em outras palavras representa o numero de pratos y quando x 0 O d Para saber quanto pratos de filé a parmegiana conseguira vender no més se investir em 50 insercdes de anuncios 0 proprietario substituiu o x da equacao do modelo por 50 e obteve 598 pratos arredondando para um numero inteiro de pratos O e Como a estatistica e a cincia dos dados possuem em suas bases teorias matematicas nao é possivel aplicalas a ciéncias sociais ou humanas sociologia historia antropologia ciéncias politicas direito administragao filosofia geografia economia etc httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3741 31102023 1757 Eadbr Material LIVRO O Andar do Bébado Como o Acaso Determina Nossas Vidas Editora Jorge Zahar Autor Leonard Mlodinow ISBN 9788537801550 Comentario este livro discorre sobre aleatoriedade probabilidade e estatistica E um bestseller que ficou varios anos como um dos mais vendidos na sua categoria Dividido em 10 capitulos usa de uma linguagem simples para nos contar por meio de um passeio por varios casos interessantes como 0 acaso determina nossas vidas httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3841 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 3941 WEB Hans Rosling Mostra As Melhores Estatísticas Que Você Já Viu Ano 2006 Comentário este TED TALK é talvez um dos mais representativos do famoso médico sueco Hans Rosling 1948 2017 Além de médico Hans Rosling também era estatístico e orador Dedicou parte de sua vida à difusão por meio de inúmeras palestras e vídeos da importância da aplicação da estatística ao estudo da saúde pública dos países no mundo ACESSAR 31102023 1757 Eadbr Nessa unidade contamos com a ajuda de dois personagens uma corretora de imdveis e um estatistico e pudemos ver com essa valiosa ajuda como é possivel desenvolvermos uma capacidade preditiva se tivermos dados onde nos basear e modelos que aprendem com os dados Especificamente iniciamos a nossa jornada por este mundo o da Estatistica Aplicada a Cincia dos Dados com os modelos preditivos chamados de regressdo linear simples e multipla Nas proximas unidades aprofundaremos nossa jornada por esse incrivel e poderoso mundo Vamos la EEE MONTGOMERY D C RUNGER G C Estatistica Aplicada e Probabilidade para Engenheiros Rio de Janeiro LTC 2013 OLIVEIRA P F de GUERRA S MCDONNEL R Ciéncia dos Dados com R Introducdo Brasilia IBPAD 2018 Disponivel em httpscdribpadcombrcdr intropdf Acesso em 25 nov 2019 httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 4041 31102023 1757 Eadbr httpscodelyfmucontents3amazonawscomMoodleEADConteudoENGESTDAS20unidade1ebookindexhtml 4141 RITTER M do N THEY N H Introdução ao software estatístico R Imbé CECLIMARUFRGS 2019 Disponível em httpslumeufrgsbrbitstreamhandle10183188778001087242pdf sequence1isAllowedy Acesso em 4 dez 2019 SILVA L A da PERES S M BOSCARIOLI C Introdução à mineração de dados com aplicações em R Rio de Janeiro Elsevier 2016 WICKHAM H GROLEMUND G R for data science import tidy transform visualize and model data Sebastopol OReilly Media 2017