Pré-processamento dos Dados: Como fazer em 3 passos

Entre para nossa lista e receba conteúdos exclusivos!

Pré-pro0cessamento de dados

Frequentemente, ouvimos falar muito sobre inteligência artificial, ciência dos dados e business intelligence. Por mais que esses termos signifiquem conceitos ligeiramente diferentes, todos eles têm algo em comum: Lidam com dados. Esses dados, na imensa e esmagadora das vezes, precisam passar por etapas de pré processamento. É sobre isso que vamos tratar hoje, de uma forma simplificada.

Pré-processamento dos Dados: Limpeza dos dados

Dados faltantes

Frequentemente, os datasets contém dados faltantes e ruidosos. Os dados faltantes são elementos do dataset em que algum atributo ficou faltando. Isso é bem comum, por exemplo, com conjunto de dados clínicos, que armazenam dados de interesse do paciente, como idade, sexo, e etc. Para lidar com a ausência desses dados faltantes, podemos fazer:

  • A remoção dos dados faltantes. Essa estratégia é útil quando temos poucas amostras com atributos faltantes. Desse modo, remover essas amostras não irá reduzir muito o número de amostras do dataset.
  • Preenchimento do valor faltante com a média do atributo. Essa estratégia é útil quando temos uma parcela significativa do conjunto de dados com valores faltantes. Logo, não é possível remover esses dados, e preenchê-los com a média pode ser uma estratégia interessante. Caso o atributo tenha natureza discreta, a média pode ser substituída pela mediana.
  • Preenchimento do valor faltante com o valor mais provável. Nós podemos preencher o valor faltante com o valor de maior probabilidade do conjunto de dados, ou seja, aquele que mais se repete. Essa estratégia é útil quando o atributo tem uma natureza discreta.

Dados ruidosos

Do mesmo modo, temos os dados ruidosos, por mais que não sejam nulos, não acrescentam informações novas para o seu conjunto de dados. Na verdade, eles atrapalham, e muito, suas análises. Geralmente, eles ocorrem devido a falha em sensores, máquinas, ou erros de digitação. Para lidar com eles, podemos fazer:   

  • Método Binning. É um método de suavização, ou seja, vai diminuir os valores que são muito altos ou muito baixos dos dados. Você pode aplicar essa técnica dividindo o seus dados em vários subconjuntos, e substituir esse subconjunto pela média dele. Essa técnica é útil quando temos valores ordenados, como séries temporais.
  • Regressão dos dados. Também é possível ajustar uma reta ou uma curva aos dados, pois os resíduos tendem a não influenciar tanto nas regressões.
  • Agrupamento dos dados. Também conhecido como Clustering, se trata de observar onde os dados mais se concentram e associar aquela região a esses dados.

 Pré-processamento dos Dados: Transformação dos dados

Muitas vezes, precisamos redimensionar os dados para intervalos específicos, ou mudar seus formatos. Vejamos algumas técnicas de transformação:

  • Normalização dos dados. Esse método consiste em redimensionar o intervalo dos dados para outro intervalo específico, como (0,1) ou (-1,1).
  • Adição de atributos. Consiste em adicionar atributos novos aos existentes. Você pode obter um novo atributo calculando o quadrado de um existente, ou o produto entre dois atributos existentes.
  • Discretização de atributos. Alguns modelos só operam com valores discretos. Dado atributo que pode assumir qualquer valor, podemos limitar esses valores dividindo em intervalos discretos.

Pré-processamento dos Dados: Redução dos dados

Geralmente, quando não estamos trabalhando com exemplos didáticos, lidamos com conjunto de dados gigantescos. O custo computacional para processar tamanha quantidade de dados muitas vezes é muito alto. Portanto, podemos fazer a redução do volume de dados das seguintes formas:

  • Redução do número de dados. É possível reduzir a quantidade de dados por um subconjunto representativo. Podemos fazer isso com as técnicas de agrupamento citadas anteriormente.
  • Seleção de atributos. Devemos sempre ter certeza que os atributos utilizados nos modelos estão agregando informação, ou apenas consumindo nossos suados computadores. Podemos ver se um atributo é útil através da matriz de covariância, onde será possível observar de forma direta quais atributos estão correlacionados com outros, ou seja, não agregam informação.

Conclusão

Em suma, conhecemos algumas técnicas de pré-processamento de dados bem simples e úteis. Se você quiser aplicar essas técnicas com python, pode ler sobre operações matriciais com python e visualizar os seus dados com guia de plotar gráficos para iniciantes, também escritos por mim. Até logo!

Referências

https://www.datageeks.com.br/pre-processamento-de-dados/

Análise ícones criados por berkahicon – Flaticon

Outros Artigos

biologia-o-que-mais-cai-no-enem.
Atualidades

Biologia o que mais cai no ENEM?

Biologia no Enem é um tema bastante amplo e possui um peso significativo na prova e merece total atenção. Descubra como gabaritar aqui!

Derivadas é a análise de taxas de variação. Quando calculamos a derivada de uma função em um ponto específico
Engenharias

Derivadas: Pontos críticos

Derivadas é a análise de taxas de variação. Quando calculamos a derivada de uma função em um ponto específico.

Legal

® 2021-2024 Meu Guru | 42.269.770/0001-84 • Todos os direitos reservados

Entre para nossa lista e receba conteúdos exclusivos!