• Home
  • Chat IA
  • Recursos
  • Guru IA
  • Professores
Home
Recursos
Chat IA
Professores

·

Administração ·

Estatística 2

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Analise de Correlacao e Regressao Linear - Trabalho Pratico de Estatistica

16

Analise de Correlacao e Regressao Linear - Trabalho Pratico de Estatistica

Estatística 2

CEFET/MG

Trabalho Correlação

47

Trabalho Correlação

Estatística 2

CEFET/MG

Aplicação de Correlação e Regressão Linear

9

Aplicação de Correlação e Regressão Linear

Estatística 2

CEFET/MG

Regressão Linear Simples: Definição, Estimação e Interpretação

22

Regressão Linear Simples: Definição, Estimação e Interpretação

Estatística 2

CEFET/MG

Análise de Regressão Linear com Variáveis Categóricas e Análise de Resíduos

14

Análise de Regressão Linear com Variáveis Categóricas e Análise de Resíduos

Estatística 2

CEFET/MG

Analise Critica de Artigo Cientifico em Estatistica Aplicada a Administracao

1

Analise Critica de Artigo Cientifico em Estatistica Aplicada a Administracao

Estatística 2

CEFET/MG

Lista de Exercícios sobre Regressão Linear Simples e Múltipla - Estatística II

1

Lista de Exercícios sobre Regressão Linear Simples e Múltipla - Estatística II

Estatística 2

CEFET/MG

Análise da Qualidade do Ajuste em Regressão Linear Simples

17

Análise da Qualidade do Ajuste em Regressão Linear Simples

Estatística 2

CEFET/MG

Analise Critica de Artigo Cientifico - Aplicacao de Metodos de Inferencia Estatistica

59

Analise Critica de Artigo Cientifico - Aplicacao de Metodos de Inferencia Estatistica

Estatística 2

CEFET/MG

Lista de Exercícios de Estatística II - CEFETMG

5

Lista de Exercícios de Estatística II - CEFETMG

Estatística 2

CEFET/MG

Texto de pré-visualização

Centro Federal de Educacao Tecnologica de Minas Gerais Departamento de Computacao Disciplina Estatıstica II Prof Guilherme Lopes de Oliveira Trabalho Pratico Final Valor 250 pontos ASSUNTO Analise de correlacao linear analise de regressao linear simples e multipla estimativa e inter pretacao dos coeficientes de regressao significˆancia dos coeficientes e predicao GRUPOS Individual DADOS Sera disponibilizado pelo professor um conjunto de dados Y X1 Xq para cada alunoa mediante sorteio previo Como o objetivo e aplicacao de regressao linear multipla os dados terao um conjunto de no mınimo duas variaveis explicativas isto e q 2 ENTREGA O relatorio contendo as analises PDF deve ser enviado atraves do email guilhermeoliveiracefetmgbr ate o dia 13082024 impreterivelmente ROTEIRO Para o banco de dados indicado pelo professor prossiga com as analises de acordo com os itens abaixo sempre deixando claras e completas as suas respostas 1 Descreva as variaveis e o problema relacionado ao seu conjunto de dados Identifique qual e a variavel resposta e quais sao as variaveis explicativas de interesse 2 Investigue a correlacao linear entre a variavel resposta e cada uma das variaveis explicativas Comente sobre a direcao e magnitude da correlacao Para tal faca uso do grafico de dispersao e calcule e interprete o coeficiente de correlacao amostral de Pearson R 3 Ajuste um modelo de regressao linear com todas as variaveis do seu conjunto de dados Lembrese que caso possua alguma variavel explicativa categorica vocˆe deve criar as variaveis indicadorasdummies pertinentes e incluilas no modelo Apresente a tabela de Analise de Variˆancia ANOVA do modelo e faca o teste de hipoteses associado a estatıstica F presente nesta tabela escreva as hipoteses nula e alternativa apresente o valor da estatıstica do teste e conclua o teste com base no valorp associado Use o nıvel de 5 de significˆancia em sua analise 4 Indique se o modelo ajustado no item 3 contem coeficientes que nao sao estatisticamente significantes para cada um dos coeficientes escreva as hipoteses nula e alternativa do teste t associado apresente o valor da estatıstica do teste apropriado e conclua o teste com base no valorp Use o nıvel de 5 de significˆancia em sua analise Se sua resposta foi positiva retire do modelo aquela variavel explicativa que tem o maior pvalor e a menos significativa e refaca o ajuste Repita o procedimento ate obter um modelo em que todas as variaveis preditoras sejam estatisticamente significativas 1 5 Para o modelo final obtido interprete cada um dos parˆametros do modelo 6 Qual e a porcentagem da variabilidade da variavel resposta que e explicada pelas variavelis ex plicativas no seu modelo final 7 Qual a estimativa da variˆancia σ2 do termo de erro do modelo 8 Escolha um conjunto de valores para as variavelis explicativas presentes no seu modelo final e faca uma previsao aplicando estes valores no modelo ajustado 9 Descreva as suposicoes feitas sobre o termo de erro do modelo de regressao linear Nao precisa fazer a verificacao destas suposicoes atraves da analise de resıduos Basta enunciar quais sao estas suposicoes No entanto vale lembrar que na pratica o ideal e fazer a analise de resıduos para validar o modelo antes de usalo para predicao eou extrapolacao para a populacao 2 Análise de Correlação e Regressão Linear Aplicada aos Salários Semestrais Baseados na Experiência Lucca No contexto atual compreender a relação entre os anos de experiência e os salários recebidos é fundamental para decisões estratégicas tanto de profissionais quanto de empresas Este estudo visa analisar como a variável Anos de Experiência se relaciona com o Salário Semestral de indivíduos em diferentes setores propondo uma análise quantitativa detalhada Neste estudo a variável SalariosSemestral será a variável resposta dependente enquanto AnosExperiencia será a variável explicativa independente Além disso o SetorAtuacao será analisado como uma possível variável categórica moderadora influenciando o comportamento dos salários Abaixo temos uma breve ideia dos nossos dados as 5 linhas iniciais de nosso dataset AnosExperiencia SalariosSemestral SetorAtuacao 11 393430 A 13 462050 A 15 377310 A 20 435250 B 22 398910 A Esses dados incluem os anos de experiência o salário semestral e o setor de atuação dos indivíduos Metodologia As técnicas estatísticas que serão utilizadas neste estudo serão realizadas através de um relatório gerado pelo Rmarkdown utilizando a linguagem python e diversas bibliotecas que serão listadas nas referências finais desta forma as técnicas são Visualização Inicial Para ter uma primeira ideia da relação entre as variáveis será feito um gráfico de dispersão dos dados Isso ajudará a observar a tendência geral Correlação de Pearson Esta técnica será usada para quantificar o grau de associação linear entre Anos de Experiência e Salário Semestral O coeficiente de correlação de Pearson r nos dirá se existe uma correlação positiva negativa ou nenhuma correlação entre as variáveis Regressão Linear Simples Será ajustado um modelo de regressão linear simples para prever os Salários Semestrais com base nos Anos de Experiência O modelo será da forma SalariosSemestral 𝛽0 𝛽1 AnosExperiencia 𝜖 onde 𝛽0 é o intercepto 𝛽1 é o coeficiente de inclinação e 𝜖 é o erro residual ANOVA Análise de Variância Será realizada para avaliar a significância do modelo de regressão ajustado Testes de Hipóteses A suposição de normalidade dos resíduos e a homocedasticidade serão verificadas por meio de gráficos de resíduos e testes estatísticos como o teste de ShapiroWilk Essas análises ajudarão a entender a magnitude e a significância da relação entre os anos de experiência e o salário Visualização e Análise inicial O gráfico de dispersão mostra a relação entre os Anos de Experiência e os Salários Semestrais Observase uma tendência positiva sugerindo que à medida que os anos de experiência aumentam o salário tende a aumentar também As cores representam os diferentes Setores de Atuação sugerindo possíveis diferenças entre os setores Também calculamos o coeficiente de correlação de Pearson 𝑅 entre Anos de Experiência e Salários Semestrais sendo esse aproximadamente 09786 Direção A correlação é positiva o que significa que à medida que os anos de experiência aumentam os salários semestrais tendem a aumentar Magnitude O valor de 𝑅 09786 indica uma correlação muito forte entre as variáveis sugerindo uma relação linear quase perfeita entre a experiência e o salário O histograma dos Anos de Experiência apresenta uma distribuição ligeiramente enviesada à esquerda com a maioria dos indivíduos concentrados em até 6 anos de experiência O histograma dos Salários Semestrais mostra uma concentração maior de salários entre 50000 e 80000 unidades monetárias com poucos casos acima desse intervalo O boxplot exibe a dispersão dos Salários Semestrais por Setor de Atuação destacando que o Setor B parece ter uma menor variação de salários enquanto o Setor A apresenta salários menos concentrados e valores mais baixos e o setor C também apresenta alta dispersão e valores mais altos Estatística Anos de Experiência Salário Semestral Contagem 300 300 Média 531 760030 Desvio Padrão 284 2741443 Mínimo 11 377310 25 32 5672075 50 Mediana 47 652370 75 77 10054475 Máximo 105 1223910 1 Anos de Experiência A amostra contém 30 observações A média de anos de experiência é de 531 anos O desvio padrão é de 284 anos indicando uma dispersão moderada A experiência varia de 11 anos mínimo a 105 anos máximo A mediana 50 é de 47 anos sugerindo uma distribuição ligeiramente assimétrica à direita 2 Salário Semestral Também há 30 observações para o salário O salário semestral médio é de 76003 O desvio padrão é de 2741443 indicando uma variabilidade considerável nos salários Os salários variam de 37731 mínimo a 122391 máximo A mediana salarial é de 65237 que é menor que a média sugerindo uma distribuição assimétrica à direita possivelmente devido a alguns salários muito altos Análise correlação e ajuste do modelo Sabemos que há uma grande correlação com anos de experiência e o salário semestral todavia precisamos analisar também quando incluímos o setor de Atuação abaixo verificamos o gráfico de dispersão considerando todos os setores Setor de Atuação Coeficiente de Correlação R A 0939711 B 0870452 C 0953325 Setor A A correlação continua sendo forte com um valor de aproximadamente 094 indicando uma forte relação positiva entre os anos de experiência e os salários semestrais Setor B A correlação também é forte com um valor de 087 embora ligeiramente menor que o setor A ainda assim indicando uma relação forte e positiva Setor C A correlação é muito forte com um valor de 095 mostrando uma forte relação linear entre os anos de experiência e o salário semestral neste setor Em todos os setores há uma clara tendência de aumento dos salários à medida que a experiência aumenta No entanto o Setor C é o que apresenta o crescimento salarial mais rápido seguido pelos Setores A e B Isso sugere que embora a experiência seja importante em todos os setores seu impacto pode ser maior em determinados setores como o Setor C onde a relação é mais forte Considerando todas essas informações o modelo de regressão linear foi ajustado utilizando as variáveis explicativas Anos de Experiência numérica Setor de Atuação categórica com as dummies para os setores B e C usando o Setor A como referência As variáveis foram codificadas da seguinte forma Setor B Recebe 1 para indivíduos do setor B e 0 caso contrário Setor C Recebe 1 para indivíduos do setor C e 0 caso contrário O objetivo desse modelo é verificar como os anos de experiência e o setor de atuação influenciam o salário semestral Tabela ANOVA Fonte de Variação Soma dos Quadrados SS Graus de Liberdade df Média dos Quadrados MS F Estatística Valor p Anos de Experiência 583e09 1 583e09 39668 808e 22 Setor de Atuação B 453e08 1 453e08 3018 0034 Setor de Atuação C 247e09 1 247e09 505 0000 Erro resíduos 443e08 26 170e07 A ANOVA mostra que o modelo de regressão linear explica uma parte significativa da variação no salário semestral A estatística F global é 39668 com um valorp de 808e22 indicando que as variáveis explicativas combinadas são altamente significativas no nível de significância de 5 Teste F Global H₀ Todos os coeficientes das variáveis explicativas são iguais a zero não há relação significativa entre as variáveis e o salário semestral H₁ Pelo menos um dos coeficientes é diferente de zero existe uma relação significativa Resultado Festatística 39668 Valorp 808e22 Como o valorp é extremamente pequeno menor que 005 rejeitamos a hipótese nula Isso indica que pelo menos uma das variáveis explicativas tem um impacto significativo no salário semestral O modelo como um todo é altamente significativo Análise de Significância dos Coeficientes Variável Coeficiente Erro Padrão Estatística t Valor p Intervalo de Confiança 0025 0975 Intercepto 3001000 215403 1393 0000 25600 34400 Anos de Experiência 708197 55270 1281 0000 5945 8218 Setor de Atuação B 457494 204680 223 0034 367 8782 Setor de Atuação C 1754000 347231 505 0000 10400 24700 Intercepto Valor 3001000 Significativo indicando que na ausência de experiência e diferenças entre setores o salário semestral médio é de aproximadamente 30010 Anos de Experiência Coeficiente 708197 Para cada ano adicional de experiência o salário semestral aumenta em média 708197 Este coeficiente é altamente significativo p 005 indicando uma forte relação entre experiência e salário Setor de Atuação B Coeficiente 457494 Profissionais no Setor B em média ganham 457494 a mais que os do Setor A com significância estatística p 005 Setor de Atuação C Coeficiente 1754000 Profissionais no Setor C em média ganham 1754000 a mais que os do Setor A com alta significância p 005 Teste t para cada Coeficiente H₀ O coeficiente é igual a zero a variável não é significativa H₁ O coeficiente é diferente de zero a variável é significativa Todos os coeficientes têm valoresp menores que 005 o que leva à rejeição da hipótese nula para todas as variáveis Portanto todas as variáveis explicativas são significativas no nível de 5 Coeficiente de Determinação 𝑅2 𝑅2 0979 𝑅2 Ajustado 0976 O 𝑅2 de 0979 indica que aproximadamente 979 da variação no salário semestral é explicada pelas variáveis independentes anos de experiência e setor de atuação O 𝑅2 ajustado de 0976 corrige o coeficiente de determinação para o número de variáveis no modelo mostrando que o modelo ajustase muito bem aos dados e não é superajustado Variância do Termo de Erro 𝜎2 Estimativa de 𝜎2 17922948 A variância do termo de erro é a estimativa do quanto a variação nos salários que não pode ser explicada pelas variáveis no modelo O valor de 𝜎2 é relativamente baixo o que indica que os resíduos do modelo não têm uma variabilidade muito alta Suposições do Modelo Os modelos de regressão linear fazem algumas suposições importantes sobre o termo de erro que precisam ser verificadas para garantir a validade dos resultados 1 Linearidade A relação entre as variáveis explicativas e a variável dependente é linear 2 Independência dos erros Os erros são independentes uns dos outros 3 Homoscedasticidade A variância dos erros é constante para todos os valores das variáveis independentes 4 Normalidade dos erros Os erros seguem uma distribuição normal Verificação das Suposições 1 Linearidade e Homoscedasticidade O gráfico de Resíduos vs Valores Ajustados mostra que os resíduos estão distribuídos de forma relativamente aleatória em torno da linha zero Isso sugere que a suposição de linearidade foi atendida No entanto há um pequeno padrão visível nos valores maiores o que pode indicar alguma heterocedasticidade variância dos erros não constante em níveis elevados de salários 2 Normalidade dos Erros O QQ Plot dos resíduos mostra que a maioria dos pontos segue uma linha reta com alguns desvios nas extremidades Isso sugere que a distribuição dos resíduos está próxima da normal mas pode haver uma leve cauda para valores extremos O Histograma dos Resíduos reforça essa análise com uma distribuição relativamente simétrica embora haja uma leve assimetria à direita As suposições de linearidade normalidade e homoscedasticidade são atendidas de maneira razoável embora haja pequenos indícios de heterocedasticidade nos extremos dos valores ajustados Isso pode ser considerado para ajustes futuros no modelo ou validações adicionais Conclusão Geral O presente estudo teve como objetivo investigar a relação entre os anos de experiência e o salário semestral de profissionais atuando em diferentes setores A partir da análise de regressão linear foi possível demonstrar que há uma forte relação positiva entre a experiência profissional e o aumento dos salários Além disso verificouse que o setor de atuação também exerce um papel significativo na determinação dos salários Com base nos resultados concluise que a experiência profissional e o setor de atuação são fatores determinantes no salário semestral dos indivíduos analisados A análise estatística forneceu evidências robustas de que o salário aumenta de forma previsível com a experiência e que o setor de atuação também contribui de maneira significativa para essa variação Referências Bibliográficas e PAcotes utilizados 1 Montgomery D C Peck E A Vining G G 2021 Introduction to Linear Regression Analysis John Wiley Sons Referência clássica que aborda todos os aspectos da regressão linear incluindo a verificação das suposições e o uso de análise de variância ANOVA 2 Kutner M H Nachtsheim C J Neter J Li W 2004 Applied Linear Statistical Models McGrawHill Livro que aborda em profundidade o modelo de regressão linear ANOVA e análise de resíduos 3 pandas Utilizado para manipulação e análise dos dados McKinney W 2011 pandas a foundational Python library for data analysis and statistics Python Software Foundation 4 statsmodels Utilizado para ajuste do modelo de regressão linear cálculos de ANOVA e geração de resumos estatísticos Seabold S Perktold J 2010 statsmodels Econometric and statistical modeling with Python Proceedings of the 9th Python in Science Conference 5 matplotlib e seaborn Usados para a criação de gráficos de dispersão histogramas e verificação das suposições Hunter J D 2007 Matplotlib A 2D graphics environment Computing in Science Engineering 93 9095 Waskom M L 2021 Seaborn statistical data visualization Journal of Open Source Software 660 3021 Análise de Correlação e Regressão Linear Aplicada aos Salários Semestrais Baseados na Experiência Lucca No contexto atual compreender a relação entre os anos de experiência e os salários recebidos é fundamental para decisões estratégicas tanto de profissionais quanto de empresas Este estudo visa analisar como a variável Anos de Experiência se relaciona com o Salário Semestral de indivíduos em diferentes setores propondo uma análise quantitativa detalhada Neste estudo a variável SalariosSemestral será a variável resposta dependente enquanto AnosExperiencia será a variável explicativa independente Além disso o SetorAtuacao será analisado como uma possível variável categórica moderadora influenciando o comportamento dos salários Abaixo temos uma breve ideia dos nossos dados as 5 linhas iniciais de nosso dataset AnosExperiencia SalariosSemestral SetorAtuacao 11 393430 A 13 462050 A 15 377310 A 20 435250 B 22 398910 A Esses dados incluem os anos de experiência o salário semestral e o setor de atuação dos indivíduos Metodologia As técnicas estatísticas que serão utilizadas neste estudo serão realizadas através de um relatório gerado pelo Rmarkdown utilizando a linguagem python e diversas bibliotecas que serão listadas nas referências finais desta forma as técnicas são Visualização Inicial Para ter uma primeira ideia da relação entre as variáveis será feito um gráfico de dispersão dos dados Isso ajudará a observar a tendência geral Correlação de Pearson Esta técnica será usada para quantificar o grau de associação linear entre Anos de Experiência e Salário Semestral O coeficiente de correlação de Pearson r nos dirá se existe uma correlação positiva negativa ou nenhuma correlação entre as variáveis Regressão Linear Simples Será ajustado um modelo de regressão linear simples para prever os Salários Semestrais com base nos Anos de Experiência O modelo será da forma SalariosSemestralβ0β1AnosExperienciaϵ onde β0 é o intercepto β1 é o coeficiente de inclinação e ϵ é o erro residual ANOVA Análise de Variância Será realizada para avaliar a significância do modelo de regressão ajustado Testes de Hipóteses A suposição de normalidade dos resíduos e a homocedasticidade serão verificadas por meio de gráficos de resíduos e testes estatísticos como o teste de ShapiroWilk Essas análises ajudarão a entender a magnitude e a significância da relação entre os anos de experiência e o salário Visualização e Análise inicial O gráfico de dispersão mostra a relação entre os Anos de Experiência e os Salários Semestrais Observase uma tendência positiva sugerindo que à medida que os anos de experiência aumentam o salário tende a aumentar também As cores representam os diferentes Setores de Atuação sugerindo possíveis diferenças entre os setores Também calculamos o coeficiente de correlação de Pearson R entre Anos de Experiência e Salários Semestrais sendo esse aproximadamente 09786 Direção A correlação é positiva o que significa que à medida que os anos de experiência aumentam os salários semestrais tendem a aumentar Magnitude O valor de R09786 indica uma correlação muito forte entre as variáveis sugerindo uma relação linear quase perfeita entre a experiência e o salário O histograma dos Anos de Experiência apresenta uma distribuição ligeiramente enviesada à esquerda com a maioria dos indivíduos concentrados em até 6 anos de experiência O histograma dos Salários Semestrais mostra uma concentração maior de salários entre 50000 e 80000 unidades monetárias com poucos casos acima desse intervalo O boxplot exibe a dispersão dos Salários Semestrais por Setor de Atuação destacando que o Setor B parece ter uma menor variação de salários enquanto o Setor A apresenta salários menos concentrados e valores mais baixos e o setor C também apresenta alta dispersão e valores mais altos Estatística Anos de Experiência Salário Semestral Contagem 300 300 Média 531 760030 Desvio Padrão 284 2741443 Mínimo 11 377310 25 32 5672075 50 Mediana 47 652370 75 77 10054475 Máximo 105 1223910 1 Anos de Experiência A amostra contém 30 observações A média de anos de experiência é de 531 anos O desvio padrão é de 284 anos indicando uma dispersão moderada A experiência varia de 11 anos mínimo a 105 anos máximo A mediana 50 é de 47 anos sugerindo uma distribuição ligeiramente assimétrica à direita 2 Salário Semestral Também há 30 observações para o salário O salário semestral médio é de 76003 O desvio padrão é de 2741443 indicando uma variabilidade considerável nos salários Os salários variam de 37731 mínimo a 122391 máximo A mediana salarial é de 65237 que é menor que a média sugerindo uma distribuição assimétrica à direita possivelmente devido a alguns salários muito altos Análise correlação e ajuste do modelo Sabemos que há uma grande correlação com anos de experiência e o salário semestral todavia precisamos analisar também quando incluímos o setor de Atuação abaixo verificamos o gráfico de dispersão considerando todos os setores Setor de Atuação Coeficiente de Correlação R A 0939711 B 0870452 C 0953325 Setor A A correlação continua sendo forte com um valor de aproximadamente 094 indicando uma forte relação positiva entre os anos de experiência e os salários semestrais Setor B A correlação também é forte com um valor de 087 embora ligeiramente menor que o setor A ainda assim indicando uma relação forte e positiva Setor C A correlação é muito forte com um valor de 095 mostrando uma forte relação linear entre os anos de experiência e o salário semestral neste setor Em todos os setores há uma clara tendência de aumento dos salários à medida que a experiência aumenta No entanto o Setor C é o que apresenta o crescimento salarial mais rápido seguido pelos Setores A e B Isso sugere que embora a experiência seja importante em todos os setores seu impacto pode ser maior em determinados setores como o Setor C onde a relação é mais forte Considerando todas essas informações o modelo de regressão linear foi ajustado utilizando as variáveis explicativas Anos de Experiência numérica Setor de Atuação categórica com as dummies para os setores B e C usando o Setor A como referência As variáveis foram codificadas da seguinte forma Setor B Recebe 1 para indivíduos do setor B e 0 caso contrário Setor C Recebe 1 para indivíduos do setor C e 0 caso contrário O objetivo desse modelo é verificar como os anos de experiência e o setor de atuação influenciam o salário semestral Tabela ANOVA Fonte de Variação Soma dos Quadrados SS Graus de Liberdade df Média dos Quadrados MS F Estatística Valor p Anos de Experiência 583e09 1 583e09 39668 808e 22 Setor de Atuação B 453e08 1 453e08 3018 0034 Setor de Atuação C 247e09 1 247e09 505 0000 Erro resíduos 443e08 26 170e07 A ANOVA mostra que o modelo de regressão linear explica uma parte significativa da variação no salário semestral A estatística F global é 39668 com um valorp de 808e22 indicando que as variáveis explicativas combinadas são altamente significativas no nível de significância de 5 Teste F Global H₀ Todos os coeficientes das variáveis explicativas são iguais a zero não há relação significativa entre as variáveis e o salário semestral H₁ Pelo menos um dos coeficientes é diferente de zero existe uma relação significativa Resultado Festatística 39668 Valorp 808e22 Como o valorp é extremamente pequeno menor que 005 rejeitamos a hipótese nula Isso indica que pelo menos uma das variáveis explicativas tem um impacto significativo no salário semestral O modelo como um todo é altamente significativo Análise de Significância dos Coeficientes Variável Coeficiente Erro Padrão Estatística t Valor p Intervalo de Confiança 0025 0975 Intercepto 3001000 215403 1393 0000 25600 34400 Anos de Experiência 708197 55270 1281 0000 5945 8218 Setor de Atuação B 457494 204680 223 0034 367 8782 Setor de Atuação C 1754000 347231 505 0000 10400 24700 Intercepto Valor 3001000 Significativo indicando que na ausência de experiência e diferenças entre setores o salário semestral médio é de aproximadamente 30010 Anos de Experiência Coeficiente 708197 Para cada ano adicional de experiência o salário semestral aumenta em média 708197 Este coeficiente é altamente significativo p 005 indicando uma forte relação entre experiência e salário Setor de Atuação B Coeficiente 457494 Profissionais no Setor B em média ganham 457494 a mais que os do Setor A com significância estatística p 005 Setor de Atuação C Coeficiente 1754000 Profissionais no Setor C em média ganham 1754000 a mais que os do Setor A com alta significância p 005 Teste t para cada Coeficiente H O coeficiente é igual a zero a variável não é significativa ₀ H O coeficiente é diferente de zero a variável é significativa ₁ Todos os coeficientes têm valoresp menores que 005 o que leva à rejeição da hipótese nula para todas as variáveis Portanto todas as variáveis explicativas são significativas no nível de 5 Coeficiente de Determinação R 2 R 2 0979 R 2 Ajustado 0976 O R 2 de 0979 indica que aproximadamente 979 da variação no salário semestral é explicada pelas variáveis independentes anos de experiência e setor de atuação O R 2 ajustado de 0976 corrige o coeficiente de determinação para o número de variáveis no modelo mostrando que o modelo ajustase muito bem aos dados e não é superajustado Variância do Termo de Erro σ 2 Estimativa de σ 2 17922948 A variância do termo de erro é a estimativa do quanto a variação nos salários que não pode ser explicada pelas variáveis no modelo O valor de σ 2 é relativamente baixo o que indica que os resíduos do modelo não têm uma variabilidade muito alta Suposições do Modelo Os modelos de regressão linear fazem algumas suposições importantes sobre o termo de erro que precisam ser verificadas para garantir a validade dos resultados 1 Linearidade A relação entre as variáveis explicativas e a variável dependente é linear 2 Independência dos erros Os erros são independentes uns dos outros 3 Homoscedasticidade A variância dos erros é constante para todos os valores das variáveis independentes 4 Normalidade dos erros Os erros seguem uma distribuição normal Verificação das Suposições 1 Linearidade e Homoscedasticidade O gráfico de Resíduos vs Valores Ajustados mostra que os resíduos estão distribuídos de forma relativamente aleatória em torno da linha zero Isso sugere que a suposição de linearidade foi atendida No entanto há um pequeno padrão visível nos valores maiores o que pode indicar alguma heterocedasticidade variância dos erros não constante em níveis elevados de salários 2 Normalidade dos Erros O QQ Plot dos resíduos mostra que a maioria dos pontos segue uma linha reta com alguns desvios nas extremidades Isso sugere que a distribuição dos resíduos está próxima da normal mas pode haver uma leve cauda para valores extremos O Histograma dos Resíduos reforça essa análise com uma distribuição relativamente simétrica embora haja uma leve assimetria à direita As suposições de linearidade normalidade e homoscedasticidade são atendidas de maneira razoável embora haja pequenos indícios de heterocedasticidade nos extremos dos valores ajustados Isso pode ser considerado para ajustes futuros no modelo ou validações adicionais Conclusão Geral O presente estudo teve como objetivo investigar a relação entre os anos de experiência e o salário semestral de profissionais atuando em diferentes setores A partir da análise de regressão linear foi possível demonstrar que há uma forte relação positiva entre a experiência profissional e o aumento dos salários Além disso verificouse que o setor de atuação também exerce um papel significativo na determinação dos salários Com base nos resultados concluise que a experiência profissional e o setor de atuação são fatores determinantes no salário semestral dos indivíduos analisados A análise estatística forneceu evidências robustas de que o salário aumenta de forma previsível com a experiência e que o setor de atuação também contribui de maneira significativa para essa variação Referências Bibliográficas e PAcotes utilizados 1 Montgomery D C Peck E A Vining G G 2021 Introduction to Linear Regression Analysis John Wiley Sons Referência clássica que aborda todos os aspectos da regressão linear incluindo a verificação das suposições e o uso de análise de variância ANOVA 2 Kutner M H Nachtsheim C J Neter J Li W 2004 Applied Linear Statistical Models McGrawHill Livro que aborda em profundidade o modelo de regressão linear ANOVA e análise de resíduos 3 pandas Utilizado para manipulação e análise dos dados McKinney W 2011 pandas a foundational Python library for data analysis and statistics Python Software Foundation 4 statsmodels Utilizado para ajuste do modelo de regressão linear cálculos de ANOVA e geração de resumos estatísticos Seabold S Perktold J 2010 statsmodels Econometric and statistical modeling with Python Proceedings of the 9th Python in Science Conference 5 matplotlib e seaborn Usados para a criação de gráficos de dispersão histogramas e verificação das suposições Hunter J D 2007 Matplotlib A 2D graphics environment Computing in Science Engineering 93 9095 Waskom M L 2021 Seaborn statistical data visualization Journal of Open Source Software 660 3021

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Analise de Correlacao e Regressao Linear - Trabalho Pratico de Estatistica

16

Analise de Correlacao e Regressao Linear - Trabalho Pratico de Estatistica

Estatística 2

CEFET/MG

Trabalho Correlação

47

Trabalho Correlação

Estatística 2

CEFET/MG

Aplicação de Correlação e Regressão Linear

9

Aplicação de Correlação e Regressão Linear

Estatística 2

CEFET/MG

Regressão Linear Simples: Definição, Estimação e Interpretação

22

Regressão Linear Simples: Definição, Estimação e Interpretação

Estatística 2

CEFET/MG

Análise de Regressão Linear com Variáveis Categóricas e Análise de Resíduos

14

Análise de Regressão Linear com Variáveis Categóricas e Análise de Resíduos

Estatística 2

CEFET/MG

Analise Critica de Artigo Cientifico em Estatistica Aplicada a Administracao

1

Analise Critica de Artigo Cientifico em Estatistica Aplicada a Administracao

Estatística 2

CEFET/MG

Lista de Exercícios sobre Regressão Linear Simples e Múltipla - Estatística II

1

Lista de Exercícios sobre Regressão Linear Simples e Múltipla - Estatística II

Estatística 2

CEFET/MG

Análise da Qualidade do Ajuste em Regressão Linear Simples

17

Análise da Qualidade do Ajuste em Regressão Linear Simples

Estatística 2

CEFET/MG

Analise Critica de Artigo Cientifico - Aplicacao de Metodos de Inferencia Estatistica

59

Analise Critica de Artigo Cientifico - Aplicacao de Metodos de Inferencia Estatistica

Estatística 2

CEFET/MG

Lista de Exercícios de Estatística II - CEFETMG

5

Lista de Exercícios de Estatística II - CEFETMG

Estatística 2

CEFET/MG

Texto de pré-visualização

Centro Federal de Educacao Tecnologica de Minas Gerais Departamento de Computacao Disciplina Estatıstica II Prof Guilherme Lopes de Oliveira Trabalho Pratico Final Valor 250 pontos ASSUNTO Analise de correlacao linear analise de regressao linear simples e multipla estimativa e inter pretacao dos coeficientes de regressao significˆancia dos coeficientes e predicao GRUPOS Individual DADOS Sera disponibilizado pelo professor um conjunto de dados Y X1 Xq para cada alunoa mediante sorteio previo Como o objetivo e aplicacao de regressao linear multipla os dados terao um conjunto de no mınimo duas variaveis explicativas isto e q 2 ENTREGA O relatorio contendo as analises PDF deve ser enviado atraves do email guilhermeoliveiracefetmgbr ate o dia 13082024 impreterivelmente ROTEIRO Para o banco de dados indicado pelo professor prossiga com as analises de acordo com os itens abaixo sempre deixando claras e completas as suas respostas 1 Descreva as variaveis e o problema relacionado ao seu conjunto de dados Identifique qual e a variavel resposta e quais sao as variaveis explicativas de interesse 2 Investigue a correlacao linear entre a variavel resposta e cada uma das variaveis explicativas Comente sobre a direcao e magnitude da correlacao Para tal faca uso do grafico de dispersao e calcule e interprete o coeficiente de correlacao amostral de Pearson R 3 Ajuste um modelo de regressao linear com todas as variaveis do seu conjunto de dados Lembrese que caso possua alguma variavel explicativa categorica vocˆe deve criar as variaveis indicadorasdummies pertinentes e incluilas no modelo Apresente a tabela de Analise de Variˆancia ANOVA do modelo e faca o teste de hipoteses associado a estatıstica F presente nesta tabela escreva as hipoteses nula e alternativa apresente o valor da estatıstica do teste e conclua o teste com base no valorp associado Use o nıvel de 5 de significˆancia em sua analise 4 Indique se o modelo ajustado no item 3 contem coeficientes que nao sao estatisticamente significantes para cada um dos coeficientes escreva as hipoteses nula e alternativa do teste t associado apresente o valor da estatıstica do teste apropriado e conclua o teste com base no valorp Use o nıvel de 5 de significˆancia em sua analise Se sua resposta foi positiva retire do modelo aquela variavel explicativa que tem o maior pvalor e a menos significativa e refaca o ajuste Repita o procedimento ate obter um modelo em que todas as variaveis preditoras sejam estatisticamente significativas 1 5 Para o modelo final obtido interprete cada um dos parˆametros do modelo 6 Qual e a porcentagem da variabilidade da variavel resposta que e explicada pelas variavelis ex plicativas no seu modelo final 7 Qual a estimativa da variˆancia σ2 do termo de erro do modelo 8 Escolha um conjunto de valores para as variavelis explicativas presentes no seu modelo final e faca uma previsao aplicando estes valores no modelo ajustado 9 Descreva as suposicoes feitas sobre o termo de erro do modelo de regressao linear Nao precisa fazer a verificacao destas suposicoes atraves da analise de resıduos Basta enunciar quais sao estas suposicoes No entanto vale lembrar que na pratica o ideal e fazer a analise de resıduos para validar o modelo antes de usalo para predicao eou extrapolacao para a populacao 2 Análise de Correlação e Regressão Linear Aplicada aos Salários Semestrais Baseados na Experiência Lucca No contexto atual compreender a relação entre os anos de experiência e os salários recebidos é fundamental para decisões estratégicas tanto de profissionais quanto de empresas Este estudo visa analisar como a variável Anos de Experiência se relaciona com o Salário Semestral de indivíduos em diferentes setores propondo uma análise quantitativa detalhada Neste estudo a variável SalariosSemestral será a variável resposta dependente enquanto AnosExperiencia será a variável explicativa independente Além disso o SetorAtuacao será analisado como uma possível variável categórica moderadora influenciando o comportamento dos salários Abaixo temos uma breve ideia dos nossos dados as 5 linhas iniciais de nosso dataset AnosExperiencia SalariosSemestral SetorAtuacao 11 393430 A 13 462050 A 15 377310 A 20 435250 B 22 398910 A Esses dados incluem os anos de experiência o salário semestral e o setor de atuação dos indivíduos Metodologia As técnicas estatísticas que serão utilizadas neste estudo serão realizadas através de um relatório gerado pelo Rmarkdown utilizando a linguagem python e diversas bibliotecas que serão listadas nas referências finais desta forma as técnicas são Visualização Inicial Para ter uma primeira ideia da relação entre as variáveis será feito um gráfico de dispersão dos dados Isso ajudará a observar a tendência geral Correlação de Pearson Esta técnica será usada para quantificar o grau de associação linear entre Anos de Experiência e Salário Semestral O coeficiente de correlação de Pearson r nos dirá se existe uma correlação positiva negativa ou nenhuma correlação entre as variáveis Regressão Linear Simples Será ajustado um modelo de regressão linear simples para prever os Salários Semestrais com base nos Anos de Experiência O modelo será da forma SalariosSemestral 𝛽0 𝛽1 AnosExperiencia 𝜖 onde 𝛽0 é o intercepto 𝛽1 é o coeficiente de inclinação e 𝜖 é o erro residual ANOVA Análise de Variância Será realizada para avaliar a significância do modelo de regressão ajustado Testes de Hipóteses A suposição de normalidade dos resíduos e a homocedasticidade serão verificadas por meio de gráficos de resíduos e testes estatísticos como o teste de ShapiroWilk Essas análises ajudarão a entender a magnitude e a significância da relação entre os anos de experiência e o salário Visualização e Análise inicial O gráfico de dispersão mostra a relação entre os Anos de Experiência e os Salários Semestrais Observase uma tendência positiva sugerindo que à medida que os anos de experiência aumentam o salário tende a aumentar também As cores representam os diferentes Setores de Atuação sugerindo possíveis diferenças entre os setores Também calculamos o coeficiente de correlação de Pearson 𝑅 entre Anos de Experiência e Salários Semestrais sendo esse aproximadamente 09786 Direção A correlação é positiva o que significa que à medida que os anos de experiência aumentam os salários semestrais tendem a aumentar Magnitude O valor de 𝑅 09786 indica uma correlação muito forte entre as variáveis sugerindo uma relação linear quase perfeita entre a experiência e o salário O histograma dos Anos de Experiência apresenta uma distribuição ligeiramente enviesada à esquerda com a maioria dos indivíduos concentrados em até 6 anos de experiência O histograma dos Salários Semestrais mostra uma concentração maior de salários entre 50000 e 80000 unidades monetárias com poucos casos acima desse intervalo O boxplot exibe a dispersão dos Salários Semestrais por Setor de Atuação destacando que o Setor B parece ter uma menor variação de salários enquanto o Setor A apresenta salários menos concentrados e valores mais baixos e o setor C também apresenta alta dispersão e valores mais altos Estatística Anos de Experiência Salário Semestral Contagem 300 300 Média 531 760030 Desvio Padrão 284 2741443 Mínimo 11 377310 25 32 5672075 50 Mediana 47 652370 75 77 10054475 Máximo 105 1223910 1 Anos de Experiência A amostra contém 30 observações A média de anos de experiência é de 531 anos O desvio padrão é de 284 anos indicando uma dispersão moderada A experiência varia de 11 anos mínimo a 105 anos máximo A mediana 50 é de 47 anos sugerindo uma distribuição ligeiramente assimétrica à direita 2 Salário Semestral Também há 30 observações para o salário O salário semestral médio é de 76003 O desvio padrão é de 2741443 indicando uma variabilidade considerável nos salários Os salários variam de 37731 mínimo a 122391 máximo A mediana salarial é de 65237 que é menor que a média sugerindo uma distribuição assimétrica à direita possivelmente devido a alguns salários muito altos Análise correlação e ajuste do modelo Sabemos que há uma grande correlação com anos de experiência e o salário semestral todavia precisamos analisar também quando incluímos o setor de Atuação abaixo verificamos o gráfico de dispersão considerando todos os setores Setor de Atuação Coeficiente de Correlação R A 0939711 B 0870452 C 0953325 Setor A A correlação continua sendo forte com um valor de aproximadamente 094 indicando uma forte relação positiva entre os anos de experiência e os salários semestrais Setor B A correlação também é forte com um valor de 087 embora ligeiramente menor que o setor A ainda assim indicando uma relação forte e positiva Setor C A correlação é muito forte com um valor de 095 mostrando uma forte relação linear entre os anos de experiência e o salário semestral neste setor Em todos os setores há uma clara tendência de aumento dos salários à medida que a experiência aumenta No entanto o Setor C é o que apresenta o crescimento salarial mais rápido seguido pelos Setores A e B Isso sugere que embora a experiência seja importante em todos os setores seu impacto pode ser maior em determinados setores como o Setor C onde a relação é mais forte Considerando todas essas informações o modelo de regressão linear foi ajustado utilizando as variáveis explicativas Anos de Experiência numérica Setor de Atuação categórica com as dummies para os setores B e C usando o Setor A como referência As variáveis foram codificadas da seguinte forma Setor B Recebe 1 para indivíduos do setor B e 0 caso contrário Setor C Recebe 1 para indivíduos do setor C e 0 caso contrário O objetivo desse modelo é verificar como os anos de experiência e o setor de atuação influenciam o salário semestral Tabela ANOVA Fonte de Variação Soma dos Quadrados SS Graus de Liberdade df Média dos Quadrados MS F Estatística Valor p Anos de Experiência 583e09 1 583e09 39668 808e 22 Setor de Atuação B 453e08 1 453e08 3018 0034 Setor de Atuação C 247e09 1 247e09 505 0000 Erro resíduos 443e08 26 170e07 A ANOVA mostra que o modelo de regressão linear explica uma parte significativa da variação no salário semestral A estatística F global é 39668 com um valorp de 808e22 indicando que as variáveis explicativas combinadas são altamente significativas no nível de significância de 5 Teste F Global H₀ Todos os coeficientes das variáveis explicativas são iguais a zero não há relação significativa entre as variáveis e o salário semestral H₁ Pelo menos um dos coeficientes é diferente de zero existe uma relação significativa Resultado Festatística 39668 Valorp 808e22 Como o valorp é extremamente pequeno menor que 005 rejeitamos a hipótese nula Isso indica que pelo menos uma das variáveis explicativas tem um impacto significativo no salário semestral O modelo como um todo é altamente significativo Análise de Significância dos Coeficientes Variável Coeficiente Erro Padrão Estatística t Valor p Intervalo de Confiança 0025 0975 Intercepto 3001000 215403 1393 0000 25600 34400 Anos de Experiência 708197 55270 1281 0000 5945 8218 Setor de Atuação B 457494 204680 223 0034 367 8782 Setor de Atuação C 1754000 347231 505 0000 10400 24700 Intercepto Valor 3001000 Significativo indicando que na ausência de experiência e diferenças entre setores o salário semestral médio é de aproximadamente 30010 Anos de Experiência Coeficiente 708197 Para cada ano adicional de experiência o salário semestral aumenta em média 708197 Este coeficiente é altamente significativo p 005 indicando uma forte relação entre experiência e salário Setor de Atuação B Coeficiente 457494 Profissionais no Setor B em média ganham 457494 a mais que os do Setor A com significância estatística p 005 Setor de Atuação C Coeficiente 1754000 Profissionais no Setor C em média ganham 1754000 a mais que os do Setor A com alta significância p 005 Teste t para cada Coeficiente H₀ O coeficiente é igual a zero a variável não é significativa H₁ O coeficiente é diferente de zero a variável é significativa Todos os coeficientes têm valoresp menores que 005 o que leva à rejeição da hipótese nula para todas as variáveis Portanto todas as variáveis explicativas são significativas no nível de 5 Coeficiente de Determinação 𝑅2 𝑅2 0979 𝑅2 Ajustado 0976 O 𝑅2 de 0979 indica que aproximadamente 979 da variação no salário semestral é explicada pelas variáveis independentes anos de experiência e setor de atuação O 𝑅2 ajustado de 0976 corrige o coeficiente de determinação para o número de variáveis no modelo mostrando que o modelo ajustase muito bem aos dados e não é superajustado Variância do Termo de Erro 𝜎2 Estimativa de 𝜎2 17922948 A variância do termo de erro é a estimativa do quanto a variação nos salários que não pode ser explicada pelas variáveis no modelo O valor de 𝜎2 é relativamente baixo o que indica que os resíduos do modelo não têm uma variabilidade muito alta Suposições do Modelo Os modelos de regressão linear fazem algumas suposições importantes sobre o termo de erro que precisam ser verificadas para garantir a validade dos resultados 1 Linearidade A relação entre as variáveis explicativas e a variável dependente é linear 2 Independência dos erros Os erros são independentes uns dos outros 3 Homoscedasticidade A variância dos erros é constante para todos os valores das variáveis independentes 4 Normalidade dos erros Os erros seguem uma distribuição normal Verificação das Suposições 1 Linearidade e Homoscedasticidade O gráfico de Resíduos vs Valores Ajustados mostra que os resíduos estão distribuídos de forma relativamente aleatória em torno da linha zero Isso sugere que a suposição de linearidade foi atendida No entanto há um pequeno padrão visível nos valores maiores o que pode indicar alguma heterocedasticidade variância dos erros não constante em níveis elevados de salários 2 Normalidade dos Erros O QQ Plot dos resíduos mostra que a maioria dos pontos segue uma linha reta com alguns desvios nas extremidades Isso sugere que a distribuição dos resíduos está próxima da normal mas pode haver uma leve cauda para valores extremos O Histograma dos Resíduos reforça essa análise com uma distribuição relativamente simétrica embora haja uma leve assimetria à direita As suposições de linearidade normalidade e homoscedasticidade são atendidas de maneira razoável embora haja pequenos indícios de heterocedasticidade nos extremos dos valores ajustados Isso pode ser considerado para ajustes futuros no modelo ou validações adicionais Conclusão Geral O presente estudo teve como objetivo investigar a relação entre os anos de experiência e o salário semestral de profissionais atuando em diferentes setores A partir da análise de regressão linear foi possível demonstrar que há uma forte relação positiva entre a experiência profissional e o aumento dos salários Além disso verificouse que o setor de atuação também exerce um papel significativo na determinação dos salários Com base nos resultados concluise que a experiência profissional e o setor de atuação são fatores determinantes no salário semestral dos indivíduos analisados A análise estatística forneceu evidências robustas de que o salário aumenta de forma previsível com a experiência e que o setor de atuação também contribui de maneira significativa para essa variação Referências Bibliográficas e PAcotes utilizados 1 Montgomery D C Peck E A Vining G G 2021 Introduction to Linear Regression Analysis John Wiley Sons Referência clássica que aborda todos os aspectos da regressão linear incluindo a verificação das suposições e o uso de análise de variância ANOVA 2 Kutner M H Nachtsheim C J Neter J Li W 2004 Applied Linear Statistical Models McGrawHill Livro que aborda em profundidade o modelo de regressão linear ANOVA e análise de resíduos 3 pandas Utilizado para manipulação e análise dos dados McKinney W 2011 pandas a foundational Python library for data analysis and statistics Python Software Foundation 4 statsmodels Utilizado para ajuste do modelo de regressão linear cálculos de ANOVA e geração de resumos estatísticos Seabold S Perktold J 2010 statsmodels Econometric and statistical modeling with Python Proceedings of the 9th Python in Science Conference 5 matplotlib e seaborn Usados para a criação de gráficos de dispersão histogramas e verificação das suposições Hunter J D 2007 Matplotlib A 2D graphics environment Computing in Science Engineering 93 9095 Waskom M L 2021 Seaborn statistical data visualization Journal of Open Source Software 660 3021 Análise de Correlação e Regressão Linear Aplicada aos Salários Semestrais Baseados na Experiência Lucca No contexto atual compreender a relação entre os anos de experiência e os salários recebidos é fundamental para decisões estratégicas tanto de profissionais quanto de empresas Este estudo visa analisar como a variável Anos de Experiência se relaciona com o Salário Semestral de indivíduos em diferentes setores propondo uma análise quantitativa detalhada Neste estudo a variável SalariosSemestral será a variável resposta dependente enquanto AnosExperiencia será a variável explicativa independente Além disso o SetorAtuacao será analisado como uma possível variável categórica moderadora influenciando o comportamento dos salários Abaixo temos uma breve ideia dos nossos dados as 5 linhas iniciais de nosso dataset AnosExperiencia SalariosSemestral SetorAtuacao 11 393430 A 13 462050 A 15 377310 A 20 435250 B 22 398910 A Esses dados incluem os anos de experiência o salário semestral e o setor de atuação dos indivíduos Metodologia As técnicas estatísticas que serão utilizadas neste estudo serão realizadas através de um relatório gerado pelo Rmarkdown utilizando a linguagem python e diversas bibliotecas que serão listadas nas referências finais desta forma as técnicas são Visualização Inicial Para ter uma primeira ideia da relação entre as variáveis será feito um gráfico de dispersão dos dados Isso ajudará a observar a tendência geral Correlação de Pearson Esta técnica será usada para quantificar o grau de associação linear entre Anos de Experiência e Salário Semestral O coeficiente de correlação de Pearson r nos dirá se existe uma correlação positiva negativa ou nenhuma correlação entre as variáveis Regressão Linear Simples Será ajustado um modelo de regressão linear simples para prever os Salários Semestrais com base nos Anos de Experiência O modelo será da forma SalariosSemestralβ0β1AnosExperienciaϵ onde β0 é o intercepto β1 é o coeficiente de inclinação e ϵ é o erro residual ANOVA Análise de Variância Será realizada para avaliar a significância do modelo de regressão ajustado Testes de Hipóteses A suposição de normalidade dos resíduos e a homocedasticidade serão verificadas por meio de gráficos de resíduos e testes estatísticos como o teste de ShapiroWilk Essas análises ajudarão a entender a magnitude e a significância da relação entre os anos de experiência e o salário Visualização e Análise inicial O gráfico de dispersão mostra a relação entre os Anos de Experiência e os Salários Semestrais Observase uma tendência positiva sugerindo que à medida que os anos de experiência aumentam o salário tende a aumentar também As cores representam os diferentes Setores de Atuação sugerindo possíveis diferenças entre os setores Também calculamos o coeficiente de correlação de Pearson R entre Anos de Experiência e Salários Semestrais sendo esse aproximadamente 09786 Direção A correlação é positiva o que significa que à medida que os anos de experiência aumentam os salários semestrais tendem a aumentar Magnitude O valor de R09786 indica uma correlação muito forte entre as variáveis sugerindo uma relação linear quase perfeita entre a experiência e o salário O histograma dos Anos de Experiência apresenta uma distribuição ligeiramente enviesada à esquerda com a maioria dos indivíduos concentrados em até 6 anos de experiência O histograma dos Salários Semestrais mostra uma concentração maior de salários entre 50000 e 80000 unidades monetárias com poucos casos acima desse intervalo O boxplot exibe a dispersão dos Salários Semestrais por Setor de Atuação destacando que o Setor B parece ter uma menor variação de salários enquanto o Setor A apresenta salários menos concentrados e valores mais baixos e o setor C também apresenta alta dispersão e valores mais altos Estatística Anos de Experiência Salário Semestral Contagem 300 300 Média 531 760030 Desvio Padrão 284 2741443 Mínimo 11 377310 25 32 5672075 50 Mediana 47 652370 75 77 10054475 Máximo 105 1223910 1 Anos de Experiência A amostra contém 30 observações A média de anos de experiência é de 531 anos O desvio padrão é de 284 anos indicando uma dispersão moderada A experiência varia de 11 anos mínimo a 105 anos máximo A mediana 50 é de 47 anos sugerindo uma distribuição ligeiramente assimétrica à direita 2 Salário Semestral Também há 30 observações para o salário O salário semestral médio é de 76003 O desvio padrão é de 2741443 indicando uma variabilidade considerável nos salários Os salários variam de 37731 mínimo a 122391 máximo A mediana salarial é de 65237 que é menor que a média sugerindo uma distribuição assimétrica à direita possivelmente devido a alguns salários muito altos Análise correlação e ajuste do modelo Sabemos que há uma grande correlação com anos de experiência e o salário semestral todavia precisamos analisar também quando incluímos o setor de Atuação abaixo verificamos o gráfico de dispersão considerando todos os setores Setor de Atuação Coeficiente de Correlação R A 0939711 B 0870452 C 0953325 Setor A A correlação continua sendo forte com um valor de aproximadamente 094 indicando uma forte relação positiva entre os anos de experiência e os salários semestrais Setor B A correlação também é forte com um valor de 087 embora ligeiramente menor que o setor A ainda assim indicando uma relação forte e positiva Setor C A correlação é muito forte com um valor de 095 mostrando uma forte relação linear entre os anos de experiência e o salário semestral neste setor Em todos os setores há uma clara tendência de aumento dos salários à medida que a experiência aumenta No entanto o Setor C é o que apresenta o crescimento salarial mais rápido seguido pelos Setores A e B Isso sugere que embora a experiência seja importante em todos os setores seu impacto pode ser maior em determinados setores como o Setor C onde a relação é mais forte Considerando todas essas informações o modelo de regressão linear foi ajustado utilizando as variáveis explicativas Anos de Experiência numérica Setor de Atuação categórica com as dummies para os setores B e C usando o Setor A como referência As variáveis foram codificadas da seguinte forma Setor B Recebe 1 para indivíduos do setor B e 0 caso contrário Setor C Recebe 1 para indivíduos do setor C e 0 caso contrário O objetivo desse modelo é verificar como os anos de experiência e o setor de atuação influenciam o salário semestral Tabela ANOVA Fonte de Variação Soma dos Quadrados SS Graus de Liberdade df Média dos Quadrados MS F Estatística Valor p Anos de Experiência 583e09 1 583e09 39668 808e 22 Setor de Atuação B 453e08 1 453e08 3018 0034 Setor de Atuação C 247e09 1 247e09 505 0000 Erro resíduos 443e08 26 170e07 A ANOVA mostra que o modelo de regressão linear explica uma parte significativa da variação no salário semestral A estatística F global é 39668 com um valorp de 808e22 indicando que as variáveis explicativas combinadas são altamente significativas no nível de significância de 5 Teste F Global H₀ Todos os coeficientes das variáveis explicativas são iguais a zero não há relação significativa entre as variáveis e o salário semestral H₁ Pelo menos um dos coeficientes é diferente de zero existe uma relação significativa Resultado Festatística 39668 Valorp 808e22 Como o valorp é extremamente pequeno menor que 005 rejeitamos a hipótese nula Isso indica que pelo menos uma das variáveis explicativas tem um impacto significativo no salário semestral O modelo como um todo é altamente significativo Análise de Significância dos Coeficientes Variável Coeficiente Erro Padrão Estatística t Valor p Intervalo de Confiança 0025 0975 Intercepto 3001000 215403 1393 0000 25600 34400 Anos de Experiência 708197 55270 1281 0000 5945 8218 Setor de Atuação B 457494 204680 223 0034 367 8782 Setor de Atuação C 1754000 347231 505 0000 10400 24700 Intercepto Valor 3001000 Significativo indicando que na ausência de experiência e diferenças entre setores o salário semestral médio é de aproximadamente 30010 Anos de Experiência Coeficiente 708197 Para cada ano adicional de experiência o salário semestral aumenta em média 708197 Este coeficiente é altamente significativo p 005 indicando uma forte relação entre experiência e salário Setor de Atuação B Coeficiente 457494 Profissionais no Setor B em média ganham 457494 a mais que os do Setor A com significância estatística p 005 Setor de Atuação C Coeficiente 1754000 Profissionais no Setor C em média ganham 1754000 a mais que os do Setor A com alta significância p 005 Teste t para cada Coeficiente H O coeficiente é igual a zero a variável não é significativa ₀ H O coeficiente é diferente de zero a variável é significativa ₁ Todos os coeficientes têm valoresp menores que 005 o que leva à rejeição da hipótese nula para todas as variáveis Portanto todas as variáveis explicativas são significativas no nível de 5 Coeficiente de Determinação R 2 R 2 0979 R 2 Ajustado 0976 O R 2 de 0979 indica que aproximadamente 979 da variação no salário semestral é explicada pelas variáveis independentes anos de experiência e setor de atuação O R 2 ajustado de 0976 corrige o coeficiente de determinação para o número de variáveis no modelo mostrando que o modelo ajustase muito bem aos dados e não é superajustado Variância do Termo de Erro σ 2 Estimativa de σ 2 17922948 A variância do termo de erro é a estimativa do quanto a variação nos salários que não pode ser explicada pelas variáveis no modelo O valor de σ 2 é relativamente baixo o que indica que os resíduos do modelo não têm uma variabilidade muito alta Suposições do Modelo Os modelos de regressão linear fazem algumas suposições importantes sobre o termo de erro que precisam ser verificadas para garantir a validade dos resultados 1 Linearidade A relação entre as variáveis explicativas e a variável dependente é linear 2 Independência dos erros Os erros são independentes uns dos outros 3 Homoscedasticidade A variância dos erros é constante para todos os valores das variáveis independentes 4 Normalidade dos erros Os erros seguem uma distribuição normal Verificação das Suposições 1 Linearidade e Homoscedasticidade O gráfico de Resíduos vs Valores Ajustados mostra que os resíduos estão distribuídos de forma relativamente aleatória em torno da linha zero Isso sugere que a suposição de linearidade foi atendida No entanto há um pequeno padrão visível nos valores maiores o que pode indicar alguma heterocedasticidade variância dos erros não constante em níveis elevados de salários 2 Normalidade dos Erros O QQ Plot dos resíduos mostra que a maioria dos pontos segue uma linha reta com alguns desvios nas extremidades Isso sugere que a distribuição dos resíduos está próxima da normal mas pode haver uma leve cauda para valores extremos O Histograma dos Resíduos reforça essa análise com uma distribuição relativamente simétrica embora haja uma leve assimetria à direita As suposições de linearidade normalidade e homoscedasticidade são atendidas de maneira razoável embora haja pequenos indícios de heterocedasticidade nos extremos dos valores ajustados Isso pode ser considerado para ajustes futuros no modelo ou validações adicionais Conclusão Geral O presente estudo teve como objetivo investigar a relação entre os anos de experiência e o salário semestral de profissionais atuando em diferentes setores A partir da análise de regressão linear foi possível demonstrar que há uma forte relação positiva entre a experiência profissional e o aumento dos salários Além disso verificouse que o setor de atuação também exerce um papel significativo na determinação dos salários Com base nos resultados concluise que a experiência profissional e o setor de atuação são fatores determinantes no salário semestral dos indivíduos analisados A análise estatística forneceu evidências robustas de que o salário aumenta de forma previsível com a experiência e que o setor de atuação também contribui de maneira significativa para essa variação Referências Bibliográficas e PAcotes utilizados 1 Montgomery D C Peck E A Vining G G 2021 Introduction to Linear Regression Analysis John Wiley Sons Referência clássica que aborda todos os aspectos da regressão linear incluindo a verificação das suposições e o uso de análise de variância ANOVA 2 Kutner M H Nachtsheim C J Neter J Li W 2004 Applied Linear Statistical Models McGrawHill Livro que aborda em profundidade o modelo de regressão linear ANOVA e análise de resíduos 3 pandas Utilizado para manipulação e análise dos dados McKinney W 2011 pandas a foundational Python library for data analysis and statistics Python Software Foundation 4 statsmodels Utilizado para ajuste do modelo de regressão linear cálculos de ANOVA e geração de resumos estatísticos Seabold S Perktold J 2010 statsmodels Econometric and statistical modeling with Python Proceedings of the 9th Python in Science Conference 5 matplotlib e seaborn Usados para a criação de gráficos de dispersão histogramas e verificação das suposições Hunter J D 2007 Matplotlib A 2D graphics environment Computing in Science Engineering 93 9095 Waskom M L 2021 Seaborn statistical data visualization Journal of Open Source Software 660 3021

Sua Nova Sala de Aula

Sua Nova Sala de Aula

Empresa

Contato Blog

Legal

Termos de uso Política de privacidade Política de cookies Código de honra

Baixe o app

4,8
(35.000 avaliações)
© 2026 Meu Guru® • 42.269.770/0001-84