·

Cursos Gerais ·

Inferência Estatística 2

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Resumo Este trabalho propõe uma análise de regressão usando o conjunto de dados Real Estate para compreender os fatores que impactam os preços das propriedades em uma área específica Com variáveis como data da transação idade da casa distância até a estação MRT número de lojas de conveniência latitude longitude e preço da unidade de área a análise visa proporcionar insights para compradores vendedores investidores e agentes imobiliários A análise estatística revelou estatísticas descritivas das variáveis destacando correlações relevantes e a matriz de correlação evidenciou as relações entre as variáveis O modelo de regressão inicial indicou a influência de múltiplos fatores nos preços das propriedades levando a uma refinada seleção de variáveis O modelo final focando na idade da casa distância até a estação MRT e número de lojas de conveniência explicou cerca de 5411 da variabilidade nos preços A análise de resíduos validou o modelo reforçando a distribuição normal e homocedasticidade 1 Introdução O presente relatório tem como objetivo realizar uma análise de regressão utilizando o conjunto de dados Real Estate Esse conjunto é composto por diversas variáveis que descrevem características relacionadas a transações imobiliárias tais como data da transação idade da casa distância até a estação de metrô mais próxima número de lojas de conveniência próximas latitude longitude e preço da unidade de área O estudo se insere no âmbito da avaliação e compreensão dos fatores que influenciam o preço das propriedades imobiliárias em uma determinada área Com a utilização de técnicas de análise de regressão buscamos identificar quais variáveis apresentam uma relação significativa com o preço das unidades imobiliárias permitindo uma melhor compreensão dos determinantes desse mercado A análise de regressão é uma ferramenta estatística fundamental para compreender a relação entre variáveis independentes e dependentes No contexto imobiliário entender como diferentes fatores influenciam o preço das propriedades é de grande importância para diversos stakeholders incluindo compradores vendedores investidores e agentes imobiliários Ao identificar as variáveis que mais impactam no preço das unidades podemos fornecer insights valiosos para tomadas de decisão estratégicas Além disso a análise de regressão permite a criação de modelos preditivos que podem ser utilizados para estimar o valor de uma propriedade com base em suas características auxiliando na precificação e na identificação de oportunidades de investimento A importância dessa análise reside na capacidade de fornecer informações valiosas para diferentes partes interessadas no mercado imobiliário Compreender como a data da transação a idade da casa a proximidade de serviços essenciais e as coordenadas geográficas influenciam o preço das propriedades pode orientar estratégias de precificação marketing e investimento Além disso a modelagem preditiva resultante da análise de regressão pode ser utilizada para prever futuros valores de propriedades contribuindo para a mitigação de riscos e a identificação de oportunidades lucrativas Dessa forma o estudo não apenas aprimora o entendimento do mercado imobiliário mas também fornece ferramentas práticas para aprimorar a eficiência e a eficácia das operações nesse setor 2 Análise Estatística No primeiro momento foi feita a analise exploratória dos dados para compreender melhor as variáveis do problema O conjunto de dados possui as seguintes variáveis X1transactiondate Data da transação X2houseage Idade da casa X3distancetothenearestMRTstation Distância até a estação de metrô mais próxima X4numberofconveniencestores Número de lojas de conveniência próximas X5latitude Latitude da localização da propriedade X6longitude Longitude da localização da propriedade Yhousepriceofunitarea Preço da unidade de área A função sumary indicou as seguintes estatísticas descritivas dos dados X1transactiondate A data da transação varia de 2013 a 2014 X2houseage A idade das casas varia de 0 a 438 anos com uma média de aproximadamente 1771 anos X3distancetothenearestMRTstation A distância até a estação de metrô mais próxima varia consideravelmente com uma média de aproximadamente 108389 metros X4numberofconveniencestores O número de lojas de conveniência próximas varia de 0 a 10 com uma média de aproximadamente 409 lojas X5latitude e X6longitude As coordenadas de latitude variam de 2493 a 2501 e as coordenadas de longitude variam de 1215 a 1216 Yhousepriceofunitarea O preço da unidade de área varia de 760 a 11750 com uma média de aproximadamente 3798 Além disso a matriz de correlação mostra que as variáveis Número de Lojas de Conveniencia Latitute e Longitude possuem uma boa correlação com a varivável dependente Preço sendo que a variável Distância até a estação mais próxima é inversamente correlacionada ao Preço As outras variáveis aparentam ter uma baixa correlação A matriz é mostrada na figura abaixo Após as analises iniciais o modelo de regressão foi ajustado gerando o seguinte resultado Os resultados geram interpretações importantes O Rquadrado Multiple Rsquared é 05824 indicando que o modelo explica cerca de 5824 da variabilidade nos dados O valor p associado ao Fstatistic é muito próximo de zero indicando que pelo menos uma das variáveis independentes é significativa no modelo O Ajusted Rsquared é 05762 indicando a proporção da variabilidade explicada pelo modelo ajustado para o número de variáveis independentes O valorp mostra que todas as variáveis são significativas com excessão da variável Longitude O modelo foi ajustado novamente dessa vez a variavel que foi menos correlacionada ao Preço foi retirada do modelo Transaction Date Além disso Longitude não possui significância estatística nesse modelo e acreditase que ela tenha o mesmo comportamento de Latitude pois são variáveis que descrevem uma característica muito similar Por isso Latitude também foi removida do modelo O novo modelo ajustado possui as seguintes características O modelo mostra um bom ajuste global com as variáveis selecionadas idade da casa distância até a estação MRT mais próxima e número de lojas de conveniência sendo estatisticamente significativas O modelo explica aproximadamente 5411 da variabilidade nos preços das unidades de área Essas variáveis demonstram ter um impacto estatisticamente significativo nos preços das unidades imobiliárias Por isso foi escolhido o seguinte modelo de regressão Preço 42977 0252856Idade da Casa 0005379Distancia da estação MRT mais próxima 1297443Número de lojas de conveniência Os resíduos aparentam ter distribuição normal tal como demonstra a simetria do histograma abaixo Os pontos no QQ plot demonstram uma tendencia de linha reta indicando novamente a distribuição normal dos residuos 3 Conclusão O relatório buscou realizar uma análise abrangente de regressão utilizando o conjunto de dados Real Estate com o objetivo de compreender os fatores que influenciam o preço das propriedades imobiliárias em uma determinada área O estudo se revela relevante no contexto de avaliação e estratégias de decisão para diversas partes interessadas no mercado imobiliário incluindo compradores vendedores investidores e agentes imobiliários A análise estatística proporcionou uma visão detalhada das variáveis do problema destacando a diversidade de características nas transações imobiliárias A matriz de correlação indicou que algumas variáveis como o número de lojas de conveniência latitude e longitude apresentam uma correlação significativa com o preço das unidades Ao ajustar modelos de regressão foram obtidos insights valiosos O modelo inicial revelou que a data da transação a idade da casa a distância até a estação MRT o número de lojas de conveniência a latitude e a longitude influenciam o preço das propriedades No entanto uma análise mais refinada conduziu à seleção de um modelo simplificado excluindo variáveis menos relevantes e redundantes O modelo final focando na idade da casa distância até a estação MRT e número de lojas de conveniência apresentou um ajuste global satisfatório explicando aproximadamente 5411 da variabilidade nos preços das unidades de área A análise de resíduos reforçou a validade do modelo sugerindo uma distribuição normal e homocedasticidade nos erros Referencias RODRIGUES Sandra Cristina Antunes Modelo de regressão linear e suas aplicações 2012 Tese de Doutorado Universidade da Beira Interior Portugal Anexo I Código no R librarycorrplot libraryreadxl summarydados sumario correlacao correlacao cordados windowswidth 10 height 8 Ajuste os valores conforme necessário corrplotcorrelacao method circle ajuste do modelo modelo lmdadosYhousepriceofunitarea dadosX1transactiondate dadosX2houseage dadosX3distancetothenearestMRTstation dadosX4numberofconveniencestores dadosX5latitude dadosX6longitude summarymodelo modelo2 lmdadosYhousepriceofunitarea dadosX2houseage dadosX3distancetothenearestMRTstation dadosX4numberofconveniencestores summarymodelo2 analise dos residuos histresidmodelo2 main Histograma dos Resíduos col lightblue border black qqnormresidmodelo qqlineresidmodelo