Introdução à mineração de dados – Parte 2

O termo data mining pode causar um certo desconforto, dado a ampla gama de sentidos em que o mesmo pode ser usado. Por Fabio Vessoni

PROCESSO DE IMPLEMENTAÇÃO DE DM

Pode ser dito com relativa confiança que é fácil começar um projeto de data mining, a dificuldade está em finalizá-lo de acordo com as expectativas. As promessas geradas,  no início de um projeto, pela utilização de novas tecnologias que podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao avaliar as perspectivas de um novo projeto.

Dificuldades com extração dos dados, preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas para a execução do projeto.

As atividades de obtenção e limpeza dos dados normalmente consomem mais da metade do tempo dedicado ao projeto.

Para a execução de projetos de data mining e a correta alocação de recursos para os mesmos, foi desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes fases na implantação de um projeto. Esta metodologia foi chamada de CRISP-DM (Cross-Industry Standard Process for Data Mining), e pode ser obtida em http://www.crisp-dm.org .

Segundo a metodologia desenvolvida, a implementação de um sistema de data mining pode ser dividida seis fases interdependentes para que o mesmo atinja seus objetivos finais. São elas:

  1. Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para uma aplicação de data mining e um plano inicial de ataque ao problema.
  2. Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.
  3. Preparação dos dados: Criação de programas de extração, limpeza e transformação dos dados para uso pelos algorítmos de data mining.
  4. Modelagem: Seleção do(s) algorítmo(s) a serem utililizados e efetivo processamento do modelo. Alguns algorítmos necessitam dos dados em formatos específicos, o que acaba causando vários retornos à fase de preparação dos dados.
  5. Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar os modelos com a visão do negócio, se certificando que não existem falhas ou contradições com relação às regras do negócio.
  6. Publicação: A criação e validação do modelo permite avançarmos mais um passo, no sentido de tornar a informação gerada acessível. Isto pode ser feito de várias maneiras, desde a criação de um software específico para tal, até a publicação de um relatório para uso interno.

Revendo as Fases de um Mining

Análise do problema

O processo de análise inicia a partir de um objetivo de busca, seguindo um determinado conhecimento; o principal objetivo é a possibilidade de  selecionar os dados e definir as técnicas  utilizadas na análise.

Preparação dos Dados

A preparação consiste em fases internas de coletânea de dados, avaliação, consolidação e limpeza, seleção dos dados e transformação.

  • Coletânea de dados: Dados provindos de diversas fontes internas ou externas, como por exemplo de cartão de crédito;
  • Avaliação: Exame sobre os dados colhidos com o objetivo de identificar características do modelo da cada informação.
  • Consolidação e limpeza: Construção de base de dados a partir de correções de erros, remoção de registros e inserção de valores comuns em campos vazios.
  • Seleção de dados: É a seleção de dados específicos para cada modelo de dado, como a seleção de variáveis em colunas ou dependentes.
  • Transformação: Ferramenta escolhida para redirecionar a apresentação dos dados.

Modelagem

Definição de tarefas e técnicas utilizadas sobre a ação de cada algoritmo, etapa que gera um modelo a ser analisado posteriormente.

Análise e validação de resultados

Considerando que um modelo válido nem sempre é um modelo correto, visa detectar o que há de implícito num modelo, e o que nele é mais peculiar na precisão de uma informação.

Até a Próxima!!

Uma resposta to “Introdução à mineração de dados – Parte 2”

  1. Fabricio Carboni Says:

    Muito bom!

    A parte 2 ficou tão boa quanto a primeira!

    Abraço!

    Fabricio


Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: