Lições da Fazenda – Administrando o Processo de Entrega de Dados

A maioria dos fazendeiros são muito organizados. Eles administram seus ambientes com grande cuidado e severa precisão… Claudia Imhoff, Ph.D.,é presidente e fundadora da consultoria Intelligent Solutions,líder no Mercado de CRM e BI.

A maioria dos fazendeiros são muito organizados. Eles administram seus ambientes com grande cuidado e severa precisão. Um campo de sujeira; As colheitas são colhidas e segregadas assim não são misturados. Isso maximiza o nível de qualidade e eficiência – ambas características obrigatórias para uma fazenda sobreviver hoje.

Um fazendeiro nem sequer pensaria sobre misturar, juntar suas sementes em um único saco e simplesmente jogá-las no campo recentemente preparado. O resultado seria um caos; Seu meio de sobrevivência e sustento estaria em jogo. Ele acabaria com um estoque de milho crescendo próximo a alfafa, que estaria crescendo próximo ao trigo, etc. A colheita se tornaria uma tarefa monumental em que culturas diferentes seriam colhidas em tempos diferentes e de forma manual! Penso que exista  uma lição aqui, e  que podemos aprender com estas pessoas organizadas e competentes.

Pense sobre a Fábrica de Informações Corporativas (Conceito de Inmon sobre DW – Corporative Information Factory – CIF) como um poço corrente na  fazenda. Aqueles que, como você,  estão familiarizados com esta arquitetura (Figura 1) estão cientes que pode, facilmente, ser dividido em duas metades (ou conjuntos de campos, se preferir) – cada com seus respectivos e grandes processos de armazenamento de dados.

Figure 1: A Fábrica de Informações Corporativas

Metade lida com a obtenção dos dados mantendo a consistência com os sistemas operacionais, o armazém de dados e/ou store de dados operacionais, e o complexo processo de aquisição de dados. Muito foi escrito sobre estes componentes, especialmente a parte de aquisição de dados conhecida como extração, transformação e carga (ETL). A parte fundamental do CIF, referente às entregas, é um repositório de dados com dimensões corporativas, para a tomada de decisão estratégica (Data Warehouse – DW)) ou tomada de decisão tática (Operacional Data Store – ODS). 

 A outra metade do CIF merece um pouco mais de atenção. Pode ser resumida como sendo o fornecimento das informações, e consiste em ‘cultivar informações para uma colheita específica’. As sementes para essa colheita são plantadas em intervalos precisos ao longo das filas do processo de entrega de dados à  variedade de mercados (Data Marts – dados e operações) disponíveis  para o uso da comunidade de negócios e para interfaces de suporte à decisão (DSI) ou tecnologias que acessam os mercados (Marts) e apresentam as consultas analíticas e relatórios especificos , necessários aos usuários de negócios.  O último entregável para esta metade do CIF é um ambiente de fácil uso e compreensão, que irá realizar as análises e as tomadas de decisão. A maior parte dos elogiados benefícios apresentados pela inteligência de negócios (BI) são derivados de informações consistententes, facilidade de acesso, limpas e coesas.

Porém, isto está, realmente, sendo alcançado? Eu não acho. Infelizmente, muitas empresas não têm seguido, da forma que deveriam, a arquitetura apresentada. As empresas têm criado um ambiente muito semelhante a um fazendeiro que coloca todas as suas sementes em uma bolsa e depois as espalham no campo. Vamos olhar para esta criação, com mais detalhes

A construção do armazém de dados está agora bem documentada e eliminou muito do caos referente à consistencia dos dados operacionais. Nós somos agora capazes de limpar os dados bem como melhorar significativamente a sua qualidade. Nós colocamos estes dados em tecnologias de banco de dados de fácil acessibilidade, usando os conceitos de Data Warehouse e/ou Data Marts, para uma fácil e rápida recuperação analítica das informações.

Talvez e infelizmente, nós não tenhamos dado, como deveríamos ter feito, a devida atenção para a criação dos mercados de Dados (Data marts). Com um armazém de dados bem elaborado, se torna muito fácil criar cubos, esquemas de estrela (Star Schema), dados com diferentes granularidades, etc, com um gerenciamento mínimo e fácil. A redundância e inconsistência proliferaram significativamente nesta metade da arquitetura, ameaçando os benefícios prometidos. A figura 2 mostra o que esta acontecendo aqui.

Figure 2: Caos na Entrega de Dados

 Muitas empresas têm mais de uma ferramenta de ETL usada para a entrega de dados nos mercados (cargas nos destinos). Alguns são usados para criar o armazém de dados (DW) e mercados (DM); Outros vêm com a ferramenta de DSI ou com o banco de dados escolhido. Nós também usamos codificações manuais (Scripts, Programas, PL/SQL, etc.) para realizar as cargas nas tabelas de destino, acessando o armazém de dados para a carga de dados ou para extração de dados com respectiva carga nos Data Marts. Por sí só, isto não seria um problema, desde que os processos fossem administrados com segurança. A dificuldade está em que, em muitas organizações, a disciplina necessária para o perfeito controle dos processos não esta disponível, fazendo com que a administração dos processos não seja eficiente. O que encontramos com mais frequencia no mercado, são as seguintes situações:

  • Data Marts duplicados sendo criados – cada um com funcionalidades virtualmente idênticas mas sob controle de grupos diferentes dentro do negócio. Existem muitas funcionalidades de BI que são necessários em mais de um departamento em mais de um grupo de usuários. Ineficiencia e não produtividade são os resultados desta duplicação.
  • Inconsistência em termos de tempo de extração para entrega de dados, levando a números que não combinam embora as funcionalidades pareçam semelhantes. Por exemplo, um mercado de rentabilidade de produto pode ser construído para finanças e outro mercado de rentabilidade de produto construido para vendas. Embora a funcionalidade possa ser idêntica, foi criado um processo diário para um e um processo mensal para o outro. Não existe nenhuma razão para geração de dois processos distintos para gerar números de rentabilidade idênticos.
  • Mercados que não estão mais sendo usados. Por não existir  nenhum processo de gerenciamento, muitas empresas estão criando Data Marts que não são mais necessários aos negócios. A proliferação, especialmente de tecnologia de cubo, tem contribuido significativamente para este infeliz problema.  A criação de um cubo pode ser extremamente fácil, e assim sendo, a criação de um cubo que não esta mais sendo útil simplesmente continua a ser feita, dia após dia, sem que ninguém se preocupe com um eventual disperdício de tempo e recursos!  

A situação resultante não é bonita: Multiplas ferramentas exigem multiplas habilidades, o reuso de códigos (scripts) de carga podem ser restritos ou limitados, o metadados fica disperso em várias ferramentas e não é compartilhado por essas ferramentas, inconsistência de dados passa a ser altamente provável e o ambiente global fica com sua manutenção e sustentabilidade muito mais cara.

Necessitamos de um novo paradigma, um retorno aos princípios da arquitetura, uma revisão em nossos conceitos de entrega de dados. Não pode ser um conjunto de processos que não permitam um gerenciamento ou coordenação, conforme apresentado na figura 2. Nós devemos criar um ambiente consistente, administrado e documentado que começa com um processo pedidos coordenados. A figura 3 demonstra uma função administrada no CIF.

Figure 3: Funcionamento da entrega de dados com um Coordenador de Pedido

O coordenador de pedido é como o fazendeiro que planeja sua próxima estação cuidadosamente, determinando quais sementes serão plantadas, que campo será semeado, onde será a escala de eficiência, valor de mercado e o tempo para colocar no mercado (horário da colheita).

No CIF, o coordenador de pedido primeiro captura as solicitações dos usuários de negócio, prioriza-os e então cria um perfil para o entendimento da solicitação. Os Metadados têm um papel importante neste passo: é usado para definir se um novo data mart será necessário ou se um já existente pode ser adequado e usado pela nova solicitação. Se um mercado de dados que pode satisfazer o pedido já existe, simplesmente dá-se aos novos usuários, a permissão de acesso ao Data Mart, talvez acrescentando alguns poucos dados novos, um novo relatório ou criando uma visão especificamente para aquele conjunto de usuários. Se não existir o mercado de dados, então o coordenador deve começar o processo de filtrar os dados certos do armazém, preparando-os para o formato tecnológico correto, entregando os dados para o novo mercado, no horário solicitado.

Pesquisando informações para este post, olhei para várias tecnologias que podiam ajudar com este problema de gerenciamento de entrega de dados. Certamente é possível  usar as atuais ferramentas de ETL existente ou até as muitas tecnologias de movimentação de grandes quantidades de dados (IBM, Microsoft, iWay e outras capacidades de EII). Porém, ainda necessitamos criar um  coordenador de pedido que administre os metadados associados com o processo de entrega de dados.

Encontramos, também, uma nova tecnologia oferecida pela Certive que não apenas administra a criação de Data Marts como também o metadados e as regras de negócio para cada Data Mart. Esta nova tecnologia é uma luz no fim do túnel, e merece nossa consideração.

Em todo caso, a recuperação do controle sobre o processo de entrega de dados exige um retorno à arquitetura existente; Porém, os benefícios deste retorno excedem em valor qualquer interrupção do processo atual.  Estes incluem a reutilização do código de scripts de entrega, gerenciamento de metadados e regras de negócios, uso potencial de mercados virtuais e diminuição dos custos de entrega de dados globais.

 

Até a Próxima!

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: