Introdução à mineração de dados – Parte 1

O termo data mining pode causar um certo desconforto, dado a ampla gama de sentidos em que o mesmo pode ser usado. Por Fabio Vessoni

O termo data mining pode causar um certo desconforto, dado a ampla gama de sentidos em que o mesmo pode ser usado. Uma empresa de varejo interessada em oferecer a melhor oferta para seus consumidores regulares. A receita federal pesquisando transações fraudulentas em remessas de moeda estrangeira. A análise de crédito de um banco de varejo, decidindo quais clientes devem receber a próxima mala direta de um novo financiamento. A classificação de clientes de uma operadora de telefonia, sugerindo qual plano se adequa melhor a cada um deles. Estes são apenas alguns exemplos, dentre muitos, do que pode ser considerado data mining.

Com tantas atividades distintas, classificadas sob o mesmo teto,  existe uma grande margem para confusão. Como classificar um tópico tão abrangente?

Segundo Michael Berry (http://www.data-miners.com), uma alternativa para a classificação dos sistemas de data mining é separá-los em três dimensões:

  • Natureza da tarefa
  • Objetivo a ser buscado
  • Grau de estruturação dos dados

Classificando os sistemas em cada uma das três dimensões podemos agrupar sistemas parecidos, e aplicar algorítmos e procedimentos similares.

Explorando um pouco mais estas três dimensões:

Natureza da tarefa: podem ser divididas em quatro: classificação; predição; segmentação e descrição.

Uma tarefa de classificação consiste em associar um item a uma classe, de várias opções pré-definidas. A tarefa do analista passa a ser selecionar qual classe melhor representa um registro, por exemplo, ao se deparar com uma base de dados de veículos, em que cada registro contém os atributos de cor, peso, combustível, número de portas, cilindrada e número de marchas, classificar cada veículo em esporte, utilitário, ou passeio.

Predição pode ser definida como a tarefa de preencher um valor em um registro baseado em outros atributos. Como exemplo de modelo de predição, podemos construir um modelo para estimar a probabilidade de um cliente deixar de usar nossos serviços baseado em seu perfil de uso.

Segmentação pode ser comparada a uma tarefa de classificação sem classes pré-definidas. O objetivo de uma tarefa de segmentação consiste em agrupar registros semelhantes e separar registros diferentes. Ao se trabalhar com grandes bases de dados, é muito comum que padrões concorrentes se cancelem ao se observar tudo de uma só vez. Quebrar esta enorme base de dados em várias sub-bases pode dar ao analista a condição de ver estas diferenças e identificar novas oportunidades.

Data mining também pode ser utilizado para descrição dos dados. Técnicas de visualização podem trazer ao analista percepções diferentes das apresentadas em tabelas, ou relatórios.

Objetivo a ser buscado: existem dois tipos de objetivo, a produção de um modelo ou a produção de informação. Nas tarefas de predição, normalmente estaremos buscando um modelo que possa ser aplicado em dados não vistos anteriormente e que um “score” possa ser gerado. Em tarefas descritivas, buscamos informação que possa dar uma nova perspectiva ao se analisar os dados.

Grau de estruturação dos dados: dados estruturados são normalmente os arquivos de banco de dados, as tabelas, ou seja, estruturas fixas com conteúdo uniforme. Dados desestruturados são arquivos do tipo texto ou imagem, e podem ser usados em projetos que tem como objetivo a identificação de padrões ou formas.

Voltando ao nosso problema em caracterizar data mining, chegamos à seguinte definição:

É o processo de exploração e análise de grandes quantidades de dados, com o objetivo de descobrir padrões ou regras que permitam uma melhor compreensão da informação contida nos mesmos.

As ferramentas de data mining podem prever futuras tendências e comportamentos, permitindo às empresas um novo processo de tomada de decisão, baseado principalmente no conhecimento acumulado e, frequentemente desprezado, contido em seus próprios bancos de dados.

A mudança de paradigma, causada por uma conjunção de fatores, como a grande acumulação e coleta de dados, o relativo barateamento do processamento e dos computadores, e o surgimento de novas oportunidades, como o marketing um a um, trouxe um desenvolvimento impar às técnicas conhecidas como data mining.

Após a definição do termo data mining,  e o surgimento de um ambiente favorável à implementação do mesmo, seguem algumas questões: Como implementar projetos de data mining? Existe um processo ou metodologia específica para projetos deste tipo?

Os projetos de data mining podem ser implementados de várias formas: comprando software específico para data mining; contratando consultores externos que façam a coleta dos dados e a apresentação de um relatório pronto ao cliente final;  ou, processando os dados no próprio cliente, criando um ambiente em que o processo de data mining possa ser repetido e aprimorado sucessivas vezes.

Nossa recomendação normalmente segue na direção do modelo 2, para projetos específicos e do modelo 3 para objetivos mais duradouros e de longo prazo. Um processo híbrido, utilizando um processamento externo na primeira fase e a posterior criação de um ambiente de processamento e análise dentro da própria empresa é a solução mais adequada, a nosso ver.

Os projetos de data mining normalmente se beneficiam da criação de um ciclo, o chamado “ciclo virtuoso de data mining”, em que os algorítmos e a informação obtida se utilizam de processamentos anteriores do mesmo modelo, incorporando as respostas obtidas em futuros processamentos.

O alto potencial de retorno em projetos de data mining só pode ser alcançado quando o ciclo é corretamente implementado: identificação de oportunidades, elaboração de modelo para determinação das regras ou padrões, elaboração das ações que possam se beneficiar destas regras, medição dos resultados destas ações, que por sua vez, possibilitam a identificação de novas oportunidades e assim sucessivamente.

O processo de implementação de data mining (ou especificamente, a fase de transformação dos dados em ações no ciclo virtuoso), pode ser caracterizado pelo seguinte gráfico:

 

O sucesso de um projeto de data mining pode transformar o modo de atuação de uma empresa, passando de mero espectador a um ator no ambiente em que se encontra. A empresa passa a atuar proativamente, e não reativamente a situações de mercado.

Até a próxima!!!!

2 Respostas to “Introdução à mineração de dados – Parte 1”

  1. Fabricio Carboni Says:

    Oi Lito !!!

    Muito bom post !!!

    Aguardamos a parte 2!

    abraço


Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: