·
Engenharia Naval e Oceânica ·
Outros
Send your question to AI and receive an answer instantly
Preview text
Machine Learning Aula 4 Regressão supervisionada Sumário 1 Regressão linear com uma variável 2 Regressão linear multivariada 3 Support Vector Regressors SVR 4 Árvores de decisão 5 Random Forest 6 KNN 7Variância e Viés Regressão supervisionada Tem como objetivo encontrar uma hipótese realize o mapeamento dos dados de entrada para uma saída contínua Fonte Mathworks 3 Regressão linear com uma variável Área em ft2 x Preço em USD y 900 95000 1300 150000 1400 210000 4 A hipótese hx é uma função que mapeia a entrada x para uma determinada saída A hipótese também pode ser representada por y Regressão linear com uma variável 0 1 h x x 5 Função de custo Dada uma função de custo o objetivo é encontrar a combinação dos parâmetros que minimizem a função a qual quantifica o erro do modelo Para isso devese seguir os passos abaixo 1 Atribuir valores iniciais aos parâmetros de e 2 Variar iterativamente os valores de e com objetivo de achar o valor mínimo 0 1 0 1 J J J 0 1 min J 6 Gradiente descendente É uma técnica iterativa usada para encontrar os valores dos parâmetros que minimizam uma dada função de custo Gradiente descendente em lote são usadas todas as amostras de treinamento a cada iteração para o cálculo do vetor gradiente Isso pode implicar em alto custo computacional dependendo do conjunto de dados Gradiente descendente em mini lotes utiliza uma parte das amostras de treinamento a cada iteração para o cálculo do vetor gradiente Reduzindo assim o custo computacional 7 Pseudocódigo Gradiente descendente Repetir até atingir a convergência 0 0 0 1 0 J 1 1 0 1 1 J 0 valor 0 i 1 valor 1 i 8 Gradiente descendente com apenas um parâmetro J desejado inicial 9 Fonte Castro Escolha adequada da taxa de aprendizagem inicial J Taxa de aprendizagem alta inicial J Taxa de aprendizagem baixa 10 Fonte Castro Dificuldades do gradiente descendente em lote J Platô Mínimo local Mínimo global 11 Fonte Castro Gradiente Descendente com 2 parâmetros Se temos um vetor com dois parâmetros a complexidade se torna maior Existem inúmeras direções para se escolher a partir de um determinado ponto de partida Uma maneira de lidarmos com este problema é determinarmos a direção que corresponde a descida mais íngrime A direção de descida mais íngrime corresponde à direção do gradiente da função 12 Curvas de nível Nesta representação as cores mais quentes representam maiores valores da função de custo Já as cores mais frias representam valores mais baixos desta função 0 1 J Fonte Bezerra 13 Gráfico 1 GD com 2 parâmetros Fonte Mathworks 14 Gráfico 2 GD com 2 parâmetros Fonte André Ng 15 Exemplo de ajuste do regressor Fonte Bezerra 16 Iterações iniciais Exemplo de ajuste do regressor 17 Iteração intermediária Fonte Bezerra Exemplo de ajuste do regressor 18 Iteração final Fonte Bezerra Gradiente descente estocástico Utiliza apenas uma amostra de treinamento a cada iteração para o cálculo do vetor gradiente Diminuindo assim o custo computacional Apresenta maior probabilidade de encontrar o valor mínimo global em relação ao GD em lote J 0 1 FonteDorneles FonteCastro 19 Regressão linear multivariada Fonte Bezerra Área em ft2 x1 Qtd De quartos x2 Preço em USD y 900 3 95000 1300 2 150000 1400 6 210000 21 Uma hipótese é uma função que mapeia as entradas xi para saída hx também chamada de y Regressão linear multivariada 0 1 1 2 2 h x x x Para o caso geral temos 0 1 1 2 2 n n h x x x x 22 Notação iésimo exemplo de treinamento jésima característica do iésimo exemplo de treinamento quantidade de características i x i jx n 23 Representação da hipótese Vamos adotar Desta forma temos os seguintes vetores coluna Logo podemos a representar a hipótese através do produto escalar 0 1 i i x T h x x 24 Pseudocódigo Gradiente descendente múltiplas variáveis Inicialização aleatória de Repetir até atingir a convergência 0 0 0 1 0 n J 1 1 0 1 1 n J 0 1 n n n n J 25 Verificação da convergência do GD Para verificar se o Gradiente Descendente está convergindo é necessário monitorar o comportamento do erro no decorrer das iterações Fonte Matt 26 Taxa de aprendizagem O valor da taxa de aprendizado influencia na convergência do GD Fonte Brahim 27 Taxa de aprendizagem Não existe uma única forma em relação a escolha do valor de Devese tomar os seguintes cuidados Não escolher um valor de muito grande para evitar que o GD não convirja Por outro lado se for muito pequeno o GD demorará a convergir J J J Iterações Iterações Iterações Grande Pequeno Ideal 28 Support Vector Regressors SVR São fundamentadas na teoria de aprendizado estatístico São métodos cujas fronteiras de decisão são criadas levando em consideração um número limitado de amostras de treinamento Os vetores do espaço de suporte são pontos do conjunto de dados que possuem informação relevante para construção do modelo 30 SVR com margens rígidas Utiliza uma função de custo que não leva em consideração os erros que estão a uma determinada distância dos dados considerados válidos Considerando a função linear y wx b 31 SVR com margens rígidas Busca minimizar o valor sujeito a restrições Procurase então a função linear que aproxime de treinamento com uma precisão w i i x y 32 SVR com margens rígidas A minimização da expressão do slide anterior tem a finalidade de obter o tubo mais delgado possível Fonte Saed y ˆy 33 SVR com margens suaves O SVR com margens suaves é uma abordagem mais generalizada que leva em consideração as instâncias fora do tubo para construção da hipótese 34 Fonte Saed Função de custo Se uma instância está localizada dentro do tubo de raio a função de custo será igual a zero Se uma instância está localizada fora do tubo de raio a função de custo terá valor proporcional a distância euclidiana entre o ponto e o raio do tubo Custo 35 Fonte Saed Busca minimizar a expressão abaixo SVR com margens suaves C i i Constante de regularização Variável de folga superior Variável de folga inferior 36 Resolvendo o problema de otimização quadrática do slide anterior obtémse a seguinte hipótese SVR com margens suaves i i Multiplicadores de lagrange 0 i i C 37 Quando os dados não são lineares aplicase as funções Kernel O truque de kernel realiza uma transformação não linear no espaço de características de forma que o regressor SVR se ajuste melhor aos dados SVR para dados não lineares 38 Transformação de características por Truque de Kernel 39 Fonte Gosh 2008 SVR para dados não lineares Fonte Acosta 40 Importância da escolha da função Kernel FonteLeejiyoon 41 Hiperparâmetros do SVR Está relacionado com a quantidade de instâncias que serão usadas como vetores de suporte Determina a penalização em relação as instâncias que são maiores que o valor de Controla a flexibilidade da função Kernel Função Kernel C 42 Árvore de decisão De acordo com os valores de entrada fornecidos as respostas são divididas em um número 𝐽 regiões distintas que não se sobrepõem 43 Fonte Singh Árvore de decisão O objetivo é definir as regiões que minimizam os erros quadráticos 1 2 j R R R corresponde ao número de regiões iésima saída referente a uma dada instância de entrada i a saída média do conjunto de treinamento referente a região j iy ˆ Rj y J A quantidade de regiões folhas definem o tamanho da árvore de decisão que implicam na acurácia e robustez do modelo 44 Árvore de decisão ˆR1 y ˆR2 y ˆR3 y ˆR4 y ˆR5 y ˆR6 y Fonte Shin 45 Influência da profundidade árvore 46 Random Forest É um método em comitê formado por árvores de decisão O objetivo desta técnica é reduzir a variância o viés e o risco de overfitting inerentes as árvores de decisão A saída fornecida pelo método é fornecida pela média das predições das árvores Usa a técnica de amostragem do tipo bootstrap 47 Pseudocódigo Random Forest Fonte Hastie 48 Representação Random Forest FonteBock 49 Hiperparâmetros do Random Forest Nº de árvores Critério de partição das árvores Gini ou entropia Profundidade máxima das árvores 50 KNN É um regressor não paramétrico ou seja a saída do algoritmo não é dada por uma função que relacionada entradasaída A predição é obtida através do cálculo da distância do vetor da características da instância a ser predita em relação aos K mais próximos vetores de características dos dados de treinamento A predição é obtida através da média ponderada das K instâncias mais próximas da instância de teste avaliada 51 KNN 1 1 ˆ K i ij ij j i y w y w é o somatório de pesos associados a uma determinada instância é a quantidade de vizinhos é o peso de jésimo vizinho referente a instância i é o valor da saída do jésimo vizinho referente a instância i iw K ij w ijy 52 Hiperparâmetros do KNN Nº de vizinhos Tipo de distância Fonte Mathworks 53 VariânciaViés Variância corresponde à sensibilidade excessiva do modelo de pequenas variações no conjunto de treinamento Um modelo com muitos graus de liberdade possivelmente sofrerá sobreajuste Viés corresponde ao erro devido a escolha de hipóteses erradas Um modelo com viés elevado possivelmente sofrerá subajuste Viés corresponde ao erro devido a escolha de hipóteses erradas 55 VariânciaViés 56 Sobreajuste Subajuste Fonte Scott VariânciaViés 57 Complexidade do modelo Erro Viés Erro de generalização Complexidade ótima do modelo Fonte Burnham Anderson2004 Variância Sobreajuste Subajuste Modelo ajustado Fonte Mathworks ACOSTA S M AMOROSO A L SANTANNA A M O Modelagem de um processo produtivo utilizando regressão por vetores suporte XXXVI Encontro Nacional de Engenharia de Produção v 36 2016 Seção 2 GHOSH Shyamal ROY Atin CHAKRABORTY Subrata Support vector regression based metamodeling for seismic reliability analysis of structures Applied Mathematical Modelling v 64 p 584602 2018 Seções 221 e 222 BASSAM Ameen M et al Ship speed prediction based on machine learning for efficient shipping operation Ocean Engineering v 245 p 110449 2022 Seções 32 e 33 Referências bibliográficas 58 Referências bibliográficas SHATAEE Shaban et al Forest attribute imputation using machinelearning methods and ASTER data comparison of kNN SVR and random forest regression algorithms International journal of remote sensing v 33 n 19 p 62546280 2012 Seção 11 59
Send your question to AI and receive an answer instantly
Preview text
Machine Learning Aula 4 Regressão supervisionada Sumário 1 Regressão linear com uma variável 2 Regressão linear multivariada 3 Support Vector Regressors SVR 4 Árvores de decisão 5 Random Forest 6 KNN 7Variância e Viés Regressão supervisionada Tem como objetivo encontrar uma hipótese realize o mapeamento dos dados de entrada para uma saída contínua Fonte Mathworks 3 Regressão linear com uma variável Área em ft2 x Preço em USD y 900 95000 1300 150000 1400 210000 4 A hipótese hx é uma função que mapeia a entrada x para uma determinada saída A hipótese também pode ser representada por y Regressão linear com uma variável 0 1 h x x 5 Função de custo Dada uma função de custo o objetivo é encontrar a combinação dos parâmetros que minimizem a função a qual quantifica o erro do modelo Para isso devese seguir os passos abaixo 1 Atribuir valores iniciais aos parâmetros de e 2 Variar iterativamente os valores de e com objetivo de achar o valor mínimo 0 1 0 1 J J J 0 1 min J 6 Gradiente descendente É uma técnica iterativa usada para encontrar os valores dos parâmetros que minimizam uma dada função de custo Gradiente descendente em lote são usadas todas as amostras de treinamento a cada iteração para o cálculo do vetor gradiente Isso pode implicar em alto custo computacional dependendo do conjunto de dados Gradiente descendente em mini lotes utiliza uma parte das amostras de treinamento a cada iteração para o cálculo do vetor gradiente Reduzindo assim o custo computacional 7 Pseudocódigo Gradiente descendente Repetir até atingir a convergência 0 0 0 1 0 J 1 1 0 1 1 J 0 valor 0 i 1 valor 1 i 8 Gradiente descendente com apenas um parâmetro J desejado inicial 9 Fonte Castro Escolha adequada da taxa de aprendizagem inicial J Taxa de aprendizagem alta inicial J Taxa de aprendizagem baixa 10 Fonte Castro Dificuldades do gradiente descendente em lote J Platô Mínimo local Mínimo global 11 Fonte Castro Gradiente Descendente com 2 parâmetros Se temos um vetor com dois parâmetros a complexidade se torna maior Existem inúmeras direções para se escolher a partir de um determinado ponto de partida Uma maneira de lidarmos com este problema é determinarmos a direção que corresponde a descida mais íngrime A direção de descida mais íngrime corresponde à direção do gradiente da função 12 Curvas de nível Nesta representação as cores mais quentes representam maiores valores da função de custo Já as cores mais frias representam valores mais baixos desta função 0 1 J Fonte Bezerra 13 Gráfico 1 GD com 2 parâmetros Fonte Mathworks 14 Gráfico 2 GD com 2 parâmetros Fonte André Ng 15 Exemplo de ajuste do regressor Fonte Bezerra 16 Iterações iniciais Exemplo de ajuste do regressor 17 Iteração intermediária Fonte Bezerra Exemplo de ajuste do regressor 18 Iteração final Fonte Bezerra Gradiente descente estocástico Utiliza apenas uma amostra de treinamento a cada iteração para o cálculo do vetor gradiente Diminuindo assim o custo computacional Apresenta maior probabilidade de encontrar o valor mínimo global em relação ao GD em lote J 0 1 FonteDorneles FonteCastro 19 Regressão linear multivariada Fonte Bezerra Área em ft2 x1 Qtd De quartos x2 Preço em USD y 900 3 95000 1300 2 150000 1400 6 210000 21 Uma hipótese é uma função que mapeia as entradas xi para saída hx também chamada de y Regressão linear multivariada 0 1 1 2 2 h x x x Para o caso geral temos 0 1 1 2 2 n n h x x x x 22 Notação iésimo exemplo de treinamento jésima característica do iésimo exemplo de treinamento quantidade de características i x i jx n 23 Representação da hipótese Vamos adotar Desta forma temos os seguintes vetores coluna Logo podemos a representar a hipótese através do produto escalar 0 1 i i x T h x x 24 Pseudocódigo Gradiente descendente múltiplas variáveis Inicialização aleatória de Repetir até atingir a convergência 0 0 0 1 0 n J 1 1 0 1 1 n J 0 1 n n n n J 25 Verificação da convergência do GD Para verificar se o Gradiente Descendente está convergindo é necessário monitorar o comportamento do erro no decorrer das iterações Fonte Matt 26 Taxa de aprendizagem O valor da taxa de aprendizado influencia na convergência do GD Fonte Brahim 27 Taxa de aprendizagem Não existe uma única forma em relação a escolha do valor de Devese tomar os seguintes cuidados Não escolher um valor de muito grande para evitar que o GD não convirja Por outro lado se for muito pequeno o GD demorará a convergir J J J Iterações Iterações Iterações Grande Pequeno Ideal 28 Support Vector Regressors SVR São fundamentadas na teoria de aprendizado estatístico São métodos cujas fronteiras de decisão são criadas levando em consideração um número limitado de amostras de treinamento Os vetores do espaço de suporte são pontos do conjunto de dados que possuem informação relevante para construção do modelo 30 SVR com margens rígidas Utiliza uma função de custo que não leva em consideração os erros que estão a uma determinada distância dos dados considerados válidos Considerando a função linear y wx b 31 SVR com margens rígidas Busca minimizar o valor sujeito a restrições Procurase então a função linear que aproxime de treinamento com uma precisão w i i x y 32 SVR com margens rígidas A minimização da expressão do slide anterior tem a finalidade de obter o tubo mais delgado possível Fonte Saed y ˆy 33 SVR com margens suaves O SVR com margens suaves é uma abordagem mais generalizada que leva em consideração as instâncias fora do tubo para construção da hipótese 34 Fonte Saed Função de custo Se uma instância está localizada dentro do tubo de raio a função de custo será igual a zero Se uma instância está localizada fora do tubo de raio a função de custo terá valor proporcional a distância euclidiana entre o ponto e o raio do tubo Custo 35 Fonte Saed Busca minimizar a expressão abaixo SVR com margens suaves C i i Constante de regularização Variável de folga superior Variável de folga inferior 36 Resolvendo o problema de otimização quadrática do slide anterior obtémse a seguinte hipótese SVR com margens suaves i i Multiplicadores de lagrange 0 i i C 37 Quando os dados não são lineares aplicase as funções Kernel O truque de kernel realiza uma transformação não linear no espaço de características de forma que o regressor SVR se ajuste melhor aos dados SVR para dados não lineares 38 Transformação de características por Truque de Kernel 39 Fonte Gosh 2008 SVR para dados não lineares Fonte Acosta 40 Importância da escolha da função Kernel FonteLeejiyoon 41 Hiperparâmetros do SVR Está relacionado com a quantidade de instâncias que serão usadas como vetores de suporte Determina a penalização em relação as instâncias que são maiores que o valor de Controla a flexibilidade da função Kernel Função Kernel C 42 Árvore de decisão De acordo com os valores de entrada fornecidos as respostas são divididas em um número 𝐽 regiões distintas que não se sobrepõem 43 Fonte Singh Árvore de decisão O objetivo é definir as regiões que minimizam os erros quadráticos 1 2 j R R R corresponde ao número de regiões iésima saída referente a uma dada instância de entrada i a saída média do conjunto de treinamento referente a região j iy ˆ Rj y J A quantidade de regiões folhas definem o tamanho da árvore de decisão que implicam na acurácia e robustez do modelo 44 Árvore de decisão ˆR1 y ˆR2 y ˆR3 y ˆR4 y ˆR5 y ˆR6 y Fonte Shin 45 Influência da profundidade árvore 46 Random Forest É um método em comitê formado por árvores de decisão O objetivo desta técnica é reduzir a variância o viés e o risco de overfitting inerentes as árvores de decisão A saída fornecida pelo método é fornecida pela média das predições das árvores Usa a técnica de amostragem do tipo bootstrap 47 Pseudocódigo Random Forest Fonte Hastie 48 Representação Random Forest FonteBock 49 Hiperparâmetros do Random Forest Nº de árvores Critério de partição das árvores Gini ou entropia Profundidade máxima das árvores 50 KNN É um regressor não paramétrico ou seja a saída do algoritmo não é dada por uma função que relacionada entradasaída A predição é obtida através do cálculo da distância do vetor da características da instância a ser predita em relação aos K mais próximos vetores de características dos dados de treinamento A predição é obtida através da média ponderada das K instâncias mais próximas da instância de teste avaliada 51 KNN 1 1 ˆ K i ij ij j i y w y w é o somatório de pesos associados a uma determinada instância é a quantidade de vizinhos é o peso de jésimo vizinho referente a instância i é o valor da saída do jésimo vizinho referente a instância i iw K ij w ijy 52 Hiperparâmetros do KNN Nº de vizinhos Tipo de distância Fonte Mathworks 53 VariânciaViés Variância corresponde à sensibilidade excessiva do modelo de pequenas variações no conjunto de treinamento Um modelo com muitos graus de liberdade possivelmente sofrerá sobreajuste Viés corresponde ao erro devido a escolha de hipóteses erradas Um modelo com viés elevado possivelmente sofrerá subajuste Viés corresponde ao erro devido a escolha de hipóteses erradas 55 VariânciaViés 56 Sobreajuste Subajuste Fonte Scott VariânciaViés 57 Complexidade do modelo Erro Viés Erro de generalização Complexidade ótima do modelo Fonte Burnham Anderson2004 Variância Sobreajuste Subajuste Modelo ajustado Fonte Mathworks ACOSTA S M AMOROSO A L SANTANNA A M O Modelagem de um processo produtivo utilizando regressão por vetores suporte XXXVI Encontro Nacional de Engenharia de Produção v 36 2016 Seção 2 GHOSH Shyamal ROY Atin CHAKRABORTY Subrata Support vector regression based metamodeling for seismic reliability analysis of structures Applied Mathematical Modelling v 64 p 584602 2018 Seções 221 e 222 BASSAM Ameen M et al Ship speed prediction based on machine learning for efficient shipping operation Ocean Engineering v 245 p 110449 2022 Seções 32 e 33 Referências bibliográficas 58 Referências bibliográficas SHATAEE Shaban et al Forest attribute imputation using machinelearning methods and ASTER data comparison of kNN SVR and random forest regression algorithms International journal of remote sensing v 33 n 19 p 62546280 2012 Seção 11 59