·

Ciências Contábeis ·

Estatística 2

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Escolha uma base de dados e aplique as técnicas de regressão linear simples aprendidas Em anexo segue uma base de dados de sugestão porém vocês estão livres para escolher alguma aplicação que gostem Mais sobre a base disponibilizada httpswwwkagglecomdatasetsmirichoi0218insurance A entrega deverá ser feita em formato de relatório contendo Introdução Metodologia Análise exploratória Resultados Conclusão É importante interpretar todos os gráficos tabelas e resultados obtidos Não esqueça de analisar o ajuste do modelo A data de entrega é dia 3110 às 2359 Sites para buscar bases de dados httpskagglecom httpsarchiveicsuciedu httpsdatasetsearchresearchgooglecom Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Análise de Regressão Linear com o Método dos Mínimos Quadrados Johann Resumo A regressão linear simples é uma ferramenta estatística amplamente utilizada na modela gem de dados permitindo a identificação de relações entre variáveis No contexto do estudo de preços de aluguéis e metragem de imóveis a regressão linear simples permite quantificar como a metragem de um imóvel influencia seu preço Esta abordagem facilita a análise de tendências proporcionando uma melhor compreensão das dinâmicas do mercado imobiliário Além disso a parametrização de modelos de regressão permite a realização de previsões mais precisas e a identificação de anomalias nos dados contribuindo para decisões informadas por parte de locatários e investidores A análise de resíduos e a verificação das premissas de nor malidade são essenciais para validar os modelos gerados garantindo a robustez das inferências estatísticas e a eficácia das estratégias de investimento no setor imobiliário 1 Introdução A presente pesquisa de mercado foi solicitada por um escritório interessado em analisar o comportamento dos preços de aluguel em um bairro específico de uma cidade Com o objetivo de obter uma visão abrangente do mercado de aluguel nessa região foram coletados dados de fontes variadas incluindo anúncios na internet informações de imobiliárias locais e registros de contratos de aluguel As amostras coletadas focam em um bairro previamente definido com critérios estabe lecidos que incluem a localização geográfica o tipo de imóvel e outras variáveis relevantes para a análise A variedade das fontes e dos critérios de coleta visa garantir uma amostra representativa e confiável refletindo o comportamento real dos preços praticados na região Uma análise estatística detalhada dos dados coletados será realizada permitindo a extração de informações úteis para a pesquisa de mercado Dentre os objetivos da análise destacase a modelagem do preço do aluguel em função da metragem do imóvel que se espera fornecer insights sobre a relação entre o tamanho do imóvel e seu valor de aluguel Essa modelagem busca criar uma representação fiel da dinâmica do mercado de aluguel contribuindo para a compreensão de fatores que influenciam o preço e fornecendo subsídios para decisões estra tégicas futuras 2 Objetivos O principal objetivo deste estudo é modelar a dependência do preço de aluguel em função da metragem do imóvel A partir dessa modelagem buscamos parametrizar a relação entre essas variáveis permitindo uma análise mais aprofundada do comportamento do mercado de aluguel de imóveis na região em questão Página 1 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Com a modelagem adequada esperase identificar padrões e tendências que ajudem a compreender como a metragem impacta o preço de aluguel Isso proporcionará informações valiosas para stakeholders incluindo imobiliárias proprietários e potenciais inquilinos con tribuindo para decisões mais informadas e estratégias mais eficazes no mercado imobiliário local Além disso a análise estatística possibilitará a identificação de outros fatores que podem influenciar os preços de aluguel levando a uma compreensão mais ampla da dinâmica do mercado nessa região 3 Metodologia A metodologia deste estudo envolve a coleta de dados referentes ao mercado de aluguel de imóveis a partir de diversas fontes Os dados serão obtidos principalmente de ofertas disponí veis na internet informações fornecidas por imobiliárias e contratos de aluguel disponibiliza dos por empresas do setor Após a coleta será realizado um processo de filtragem para identificar e selecionar variá veis distintas que possam influenciar o preço de aluguel como metragem do imóvel localiza ção tipo de imóvel e outros fatores relevantes Uma vez filtradas as variáveis será realizada uma análise estatística abrangente para ex plorar as relações entre elas Essa análise incluirá representações gráficas tais como Média de Preços Gráficos que mostram a média dos preços de aluguel em diferentes faixas de metragem facilitando a visualização do comportamento médio do mercado Variações Análise das variações nos preços permitindo entender a amplitude e a dis persão dos valores praticados Histogramas Gráficos de histogramas para ilustrar a distribuição dos preços de aluguel revelando padrões e tendências no mercado Dispersão Gráficos de dispersão que ajudarão a visualizar a relação entre a metragem dos imóveis e os respectivos preços de aluguel permitindo uma análise mais profunda sobre a dependência entre essas variáveis Essa abordagem metodológica visa proporcionar uma compreensão clara e detalhada do mercado de aluguel na região estudada fundamentando as conclusões e recomendações do estudo 4 Modelagem dos Dados Nesta seção será analisada a relação entre o preço de aluguel e a metragem dos imóveis utilizando uma abordagem estatística fundamentada em dados coletados A modelagem será realizada a partir da tomada de dados de uma amostragem representativa do mercado de alu guel na região em estudo Os dados incluirão informações sobre os preços de aluguel de diversos imóveis assim como suas respectivas metragens A partir dessa amostra será criado um rol de dados que permitirá observar padrões e tendências na relação entre essas variáveis A modelagem buscará identificar a dependência do preço de aluguel em relação à metra gem possibilitando a elaboração de um modelo preditivo que poderá ser utilizado para estimar o valor de aluguel com base na metragem do imóvel Esse processo incluirá a aplicação de Página 2 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ técnicas estatísticas como a regressão linear para quantificar a relação entre o preço e a me tragem além de permitir a análise de variáveis adicionais que possam influenciar essa relação Com essa análise esperase obter uma compreensão aprofundada do comportamento do mercado de aluguel o que contribuirá para a formulação de estratégias e decisões informadas tanto por parte de proprietários quanto de inquilinos 41 Representação Gráfica dos Dados A representação gráfica dos dados coletados é fundamental para visualizarmos a relação entre o preço de aluguel e a metragem dos imóveis A figura a seguir mostra um gráfico de dispersão onde os pontos representam os preços de aluguel em função das metragens dos imóveis Figura 1 Gráfico de Dispersão dos preços do aluguel R função da metragem do imóvel m2 No gráfico 1 cada ponto corresponde a um imóvel da amostra com a metragem no eixo horizontal e o preço de aluguel no eixo vertical Esta visualização permite identificar a distri buição dos dados e possíveis tendências como a relação positiva entre a metragem e o preço do aluguel indicando que em geral imóveis maiores tendem a ter preços de aluguel mais altos Além disso a dispersão dos pontos pode sugerir a presença de variáveis adicionais que influenciam o preço que serão exploradas nas análises subsequentes 5 Método dos Mínimos Quadrados O método dos mínimos quadrados é uma técnica estatística usada para ajustar um modelo li near a um conjunto de dados minimizando a soma dos quadrados dos resíduos Esse método busca uma linha que melhor descreva a relação entre duas variáveis x e y ajustando os parâ metros da linha para reduzir a discrepância entre os valores observados e os valores preditos pela linha de regressão Dado um conjunto de n pontos de dados xi yi o objetivo do método dos mínimos qua drados é encontrar os coeficientes a coeficiente angular e b coeficiente linear da linha de regressão y ax b que minimizam a soma dos quadrados dos resíduos Soma dos Quadrados n i1 yi axi b2 Página 3 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ 51 Sem Barras de Erro Na regressão linear sem barras de erro a linha de ajuste é determinada diretamente pelos pontos de dispersão xi yi sem considerar a variabilidade interna dos dados Os coeficientes a angular e b linear são calculados pelas fórmulas a n xiyi xi yi n x2 i xi2 b yi a xi n O coeficiente de determinação R2 que mede a qualidade do ajuste é dado por R2 1 n i1yi axi b2 n i1yi y2 onde y 1 n n i1 yi é a média dos valores de y 52 Com Barras de Erro Quando se consideram barras de erro média e desvio padrão a análise é feita para cada intervalo de x usando os valores médios yi e os desvios padrão σyi Esse ajuste ponderado ajuda a dar mais peso a intervalos com menor variabilidade Os coeficientes a e b são dados por a n i1 wixi xyi y n i1 wixi x2 b y ax onde x n i1 wixi n i1 wi e y n i1 wi yi n i1 wi sendo wi 1 σ2yi o peso dado a cada ponto com base na variabilidade O coeficiente de determinação R2 ponderado é R2 1 n i1 wiyi axi b2 n i1 wiyi y2 Esse ajuste ponderado considera as barras de erro o que resulta em uma estimativa mais precisa da tendência central dos dados 6 Relação entre R2 Método dos Mínimos Quadrados e Dis tribuição Normal de Probabilidades A relação entre o coeficiente de determinação R2 o método dos mínimos quadrados e a dis tribuição normal de probabilidades é fundamental para entender a qualidade de um modelo de regressão e a forma como ele é estimado A seguir apresentamos os principais pontos de interconexão 61 Método dos Mínimos Quadrados Objetivo O método dos mínimos quadrados é uma técnica usada para encontrar a linha de regressão que minimiza a soma dos quadrados das diferenças resíduos entre os valores observados e os valores previstos pelo modelo Página 4 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Modelo Linear Em um modelo de regressão linear assumimos que a relação entre a variável dependente Y e a variável independente X pode ser expressa como Y β0 β1X ϵ onde ϵ é o erro aleatório 62 Distribuição Normal de Probabilidades 3 Supondo Normalidade Para que as inferências feitas a partir do modelo de regressão sejam válidas uma suposição comum é que os erros ϵ são independentes e identicamente distribuídos iid seguindo uma distribuição normal ou seja ϵ N0 σ2 Isso significa que os resíduos diferenças entre os valores observados e os valores previstos devem ser normalmente distribuídos 4 Consequências da Normalidade Se os erros são normalmente distribuídos podemos fazer inferências sobre os parâmetros do modelo como β0 e β1 usando testes estatísticos como o teste t e construir intervalos de confiança 63 Coeficiente de Determinação R2 5 Definição O coeficiente de determinação R2 é uma medida que indica a proporção da variabilidade da variável dependente que é explicada pelo modelo de regressão É calculado como R2 1 Soma dos Quadrados dos Resíduos SSR Soma Total dos Quadrados SST SSR é a soma dos quadrados dos erros diferença entre os valores observados e os valores previstos SST é a soma total dos quadrados diferença entre os valores observados e a média dos valores observados 6 Interpretação de R2 Um R2 próximo de 1 indica que uma grande proporção da variabilidade dos dados é explicada pelo modelo enquanto um R2 próximo de 0 indica que o modelo não explica bem a variabilidade dos dados 64 Relação entre os Conceitos Quando os erros ϵ são normalmente distribuídos a soma dos quadrados dos resíduos SSR e consequentemente o R2 podem ser interpretados com base na teoria estatís tica Isso permite a utilização de testes de significância e a construção de intervalos de confiança Um modelo de regressão com um R2 elevado que também apresenta resíduos normal mente distribuídos indica que o modelo é um bom ajuste e as inferências feitas a partir dele são mais confiáveis A relação entre R2 o método dos mínimos quadrados e a distribuição normal de probabi lidades é crucial na análise de regressão pois a normalidade dos resíduos é uma premissa que permite inferir sobre a validade do modelo e um R2 alto sugere que o modelo explica bem os dados observados Página 5 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ 7 Análise dos Dados O gráfico 1 da dispersão acima dos dados revela pelo menos duas características já evidenci adas no mercado imobiliário a Que o preço dos imóveis aumenta com sua metragem b Que para uma metragem específica o preço possui variações devido a outros fatores também levantados na amostragem de dados mas que não serão analisados aqui Essas duas características podem ser observadas a partir de uma regressão numérica via o método a presentado acima Foi ajustado ao gráfcio de dispersão uma relação linear entre o preço dos imóveis e sua metragem Os dados obtidos estão tabelados 3 abaixo Tabela 1 Resultados da Análise de Regressão Linear para o Gráfico de Dispersão Sem Barras de Erro Parâmetro Valor Coeficiente Angular slope 2515 Coeficiente Linear intercept 147425 Coeficiente de Determinação R2 075 A partir desse ajuste uma relação linear pode ser obtida Sua parametrização é dada por O preço do imóvel P em função da metragem M é dado por PM 14474 25M 25 15 Figura 2 Gráfico de Dispersão dos Preços do Aluguel versus Metragem com Regressão Linear 71 Largura do Gráfico de Dispersão A largura da faixa do gráfico de dispersão contém mais informações relevantes sobre a relação entre o preço dos imóveis e sua metragem Para investigar essas informações serão analisa dos os dados a partir de faixas de metragem Para isso serão realizadas subamostragens dos dados com uma variação de 5 m2 na metragem dos imóveis fornecendo no total 25 classes de metragem como dadas na tabela 2 abaixo pode ser melhor visualizada no gráfico abaixo 3 Página 6 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Tabela 2 Tabela das Médias e Desvios Padrão Metragem m² Média do Aluguel Desvio Padrão 225 194548 46833 275 220068 47234 325 227525 45096 375 240363 48824 425 264090 47937 475 273687 56637 525 274795 59683 575 297812 45382 625 311071 37889 675 318251 50968 725 339460 56052 775 331667 56243 825 351953 60483 875 348765 45134 925 376134 56140 975 399920 55936 1025 401553 59522 1075 414777 58950 1125 420843 50984 1175 440409 63665 1225 456899 44439 1275 472003 53758 1325 489186 61204 1375 514621 43237 1425 501557 59275 1475 507259 61192 Figura 3 Gráfico da média e do desvio padrão versus metragem do imóvel com uma largura de classe de 5m2 8 Comparação dos Resultados de Regressão Os resultados das análises de regressão linear para o gráfico de médias e desvio padrão Tabela 4 e para o gráfico de dispersão Tabela 5 apresentam algumas semelhanças e diferenças Página 7 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Tabela 3 Resultados da Regressão para o Gráfico de Médias e Desvio Padrão Com Barras de Erro Descrição Valor Coeficiente Angular slope 2515 Coeficiente Linear intercept 147321 Coeficiente de Determinação R2 099 Figura 4 Gráfico de Médias e Desvios Padrão com Regressão importantes que merecem ser destacadas Tabela 4 Resultados da Análise de Regressão Linear para o Gráfico de Médias e Desvio Padrão Com Barras de Erro Descrição Valor Coeficiente Angular slope 2515 Coeficiente Linear intercept 147321 Coeficiente de Determinação R2 099 Tabela 5 Resultados da Análise de Regressão Linear para o Gráfico de Dispersão Sem Barras de Erro Parâmetro Valor Coeficiente Angular slope 2515 Coeficiente Linear intercept 147425 Coeficiente de Determinação R2 075 81 Análise Comparativa Coeficiente Angular slope Ambos os modelos apresentam o mesmo coeficiente an gular de 2515 o que indica que a relação entre a metragem e o preço dos imóveis é consistente em ambas as análises Página 8 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Coeficiente Linear intercept O coeficiente linear é ligeiramente diferente entre os dois modelos sendo 147321 para o gráfico de médias e desvio padrão e 147425 para o gráfico de dispersão Essa diferença pode ser considerada insignificante mas sugere que a média do preço de imóveis para uma metragem de zero é ligeiramente superior no segundo caso Coeficiente de Determinação R2 O coeficiente de determinação é significativa mente diferente com um valor de 099 para o gráfico de médias e desvio padrão e 075 para o gráfico de dispersão Isso indica que o modelo que usa médias e desvios padrão explica uma proporção muito maior da variabilidade dos dados em comparação ao mo delo baseado no gráfico de dispersão Portanto o ajuste linear do gráfico de médias e desvios padrão é mais robusto e confiável Em resumo embora os coeficientes angulares sejam iguais a diferença no coeficiente de determinação destaca a eficácia do ajuste no gráfico de médias e desvios padrão sugerindo que ele é um melhor preditor do preço dos imóveis em função da metragem 9 Análise da Amostragem de Dados O histograma da figura 5 abaixo representa a distribuição de preços para todas as metragem Um ajuste de uma curva normal foi realizada Observe a média e o desvio padrão obtidos Figura 5 Histograma dos Preços do Aluguel com Curva Normal Ajustada Para cada classe de metragem a normalidade do rol de dados também foi analisada Veja figura 6 abaixo 91 Normalidade e Modelagem via Regressão A análise de normalidade dos dados é um aspecto fundamental na modelagem estatística es pecialmente quando se utiliza a regressão linear A normalidade dos resíduos a diferença Página 9 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Figura 6 Histogramas dos Preços do Aluguel por Metragem com Curvas Normais Ajustadas entre os valores observados e os valores preditos pelo modelo é uma das premissas princi pais da regressão linear Abaixo discutiremos a relação entre a normalidade dos dados e os resultados da regressão obtidos 911 1 Importância da Normalidade A normalidade dos dados especialmente dos resíduos é importante por várias razões Inferência Estatística Muitas inferências estatísticas na regressão linear como a sig nificância dos coeficientes assumem que os resíduos seguem uma distribuição normal Essa suposição permite a aplicação de testes estatísticos como o teste t para significância dos coeficientes e o teste F para a qualidade do modelo Estimativas de Parâmetros A normalidade dos resíduos assegura que as estimati vas de parâmetros coeficientes da regressão são eficientes e não tendenciosas Se os resíduos não são normais isso pode indicar que o modelo não está capturando adequa damente a relação entre as variáveis 912 2 Verificação da Normalidade A verificação da normalidade pode ser realizada através de Gráficos Histogramas gráficos de QQ quantilquantil e gráficos de probabilidade podem ser usados para visualizar a distribuição dos resíduos Em um gráfico QQ se os pontos se alinham aproximadamente com a linha de referência isso sugere que os resíduos são normais Página 10 de 11 28 de outubro de 2024 Estatística II Para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísti cos DME Instituto de Matemática UFRJ Testes Estatísticos Testes como o teste de ShapiroWilk ou o teste de Kolmogorov Smirnov podem ser utilizados para formalmente testar a normalidade Se esses testes indicarem que a hipótese nula de que os dados são normais é rejeitada pode ser ne cessário considerar transformações nos dados ou usar métodos de regressão que não assumem normalidade 913 3 Efeitos da NãoNormalidade Se a normalidade não for atendida isso pode impactar Significância dos Coeficientes A nãonormalidade dos resíduos pode levar a intervalos de confiança e testes de hipóteses imprecisos Isso significa que um coeficiente que parece estatisticamente significativo pode não ser ou viceversa Robustez do Modelo Um modelo que não considera a normalidade pode ser mais suscetível a outliers o que pode distorcer a interpretação dos resultados e reduzir a con fiabilidade do modelo 914 4 Estratégias em Caso de NãoNormalidade Se a análise indicar que a normalidade não é atendida várias estratégias podem ser adotadas Transformações Transformações logarítmicas quadráticas ou de BoxCox podem ser aplicadas para tentar normalizar os dados ou os resíduos Modelos Alternativos Considerar modelos que não assumem normalidade como re gressão robusta ou modelos de regressão não linear pode ser uma alternativa viável Análise de Resíduos Realizar uma análise mais detalhada dos resíduos pode ajudar a identificar padrões que não foram capturados pelo modelo fornecendo insights sobre como melhorálo 10 Conclusão A normalidade dos dados e dos resíduos é crucial para a validade das inferências em modelos de regressão A análise cuidadosa da normalidade pode fornecer informações valiosas sobre a adequação do modelo a significância dos resultados e a robustez das conclusões Em casos onde a normalidade não é observada é importante investigar as causas e considerar ajustes no modelo para garantir que os resultados sejam confiáveis e interpretáveis Referências 1 Estatística II para Ciências Contábeis Códigos MAD245 Turma B Oferecido pelo Departamento de Métodos Estatísticos DME Instituto de Matemática UFRJ 20231 2 Fernandez R C Estatística e Métodos Estatísticos Email rafaelcdmeufrjbr Departamento de Métodos Estatísticos DME Instituto de Matemática UFRJ 3 McKinney W Python for Data Analysis Data Wrangling with Pandas NumPy and IPython OReilly Media 2012 Página 11 de 11 28 de outubro de 2024