Uma Definição para Data Warehouse – Armazém de Dados

Mais uma definição interessante de Data Warehouse – Armazém de Dados!

O mercado de armazenagem de dados (Data Warehouse – DW) consiste em ferramentas, tecnologias, e metodologias que permitem à construção, uso, gerenciamento, e manutenção do hardware e software usados para um armazém de dados, como também os dados reais propriamente. As pesquisas indicam Armazenagem de Dados será o único maior IT iniciativa depois de conclusão de esforços de Y2K. O armazenagem de dados é atualmente um $28 Bilhão mercado (Fonte: Instituto de Armazenagem de dados) e nós estimamos 20% crescimento por ano até pelo menos 2002.Dois dos pioneiros no campo foram Bill Inmon  e Ralph Kimball. Biografias destes dois indivíduos estão apresentadas no final do Texto, uma vez que muitas das condições discutidas neste texto foram cunhadas em conceitos definidos por eles.

Em ordem de clarear algumas das confusões  que são excessivas no mercado, aqui estão algumas definições:🙂

Data Warehouse:

O termo Data Warehouse (Armazém de Dados) foi cunhado por Bill Inmon em 1990, que ele definiu do seguinte modo: “Um warehouse (armazém) é uma coleção de dados, orientado a um assunto, integrado, tempo-variante e não volátil, para suporte ao gerenciamento dos processos de tomada de decisão. Ele definiu os seguintes termos:

 Orientado a Assunto:

Os dados que dão informações sobre um assunto particular em vez de sobre operações contínuas da companhia.

 Integrado:

Os dados que são reunidos no armazém de dados (DW) a partir de uma variedade de origens e fundidos em um todo coerente.

 Tempo-variante:

Todos os dados no armazém de dados são identificados com um período de tempo particular.

 Não volátil

Os dados são estáveis em um armazém de dados (DW). Mais dados são adicionados, mas nunca removidos. Isto capacita ao gerenciamento, uma visão consistente dos negócios.

(Fonte: “What is a Data Warehouse?” W.H. Inmon, Prisma, Volume 1, Numero 1, 1995).

Esta definição permanece razoavelmente precisa até quase quinze anos mais tarde. Contudo, um armazém de dados de assunto único é tipicamente chamado de um mercado de dados (Data Mart – DM), enquanto armazéns de dados são geralmente de escopo geral da empresa. Armazéns de dados (DW) também podem ser voláteis. Devido à grande capacidade de armazenamento exigido para um armazém de dados, (armazéns de dados de vários terabytes não são incomuns), somente um certo número de períodos históricos podem ser mantidos no armazém. Por exemplo, se três anos de dados estão decididos e carregados no armazém, a cada mês o mês mais antigo será “expurgado” do banco de dados, e o mês mais recente será adicionado.

Ralph Kimball forneceu uma definição muito mais simples de um armazém de dados (DW). Como declarado em seu livro, “The Data Warehouse Toolkit”, na página 310, um armazém de dados é “uma cópia de dados de transação (dados transacionais dos sistemas de origem), especificamente estruturado para consulta e análise”. Esta definição fornece menos perspicácia e profundidade que a do Sr. Inmon, mas não é menos precisa.

O armazenagem de dados é, essencialmente o que se precisa fazer a fim de criar um armazém de dados (DW). É o processo de criar, povoar, e então, consultar um armazém de dados, e pode envolver várias tecnologias distintas como:

Identificação de Sistema de origem:

Identificação de Sistema de origem: A fim de construir o armazém de dados, os dados apropriados devem ser localizados. Tipicamente, este envolverá ambos o sistema OLTP atual (Processo de Transação On-line) onde o “dia-a-dia” das informações sobre os negócios reside, e dados históricos para os períodos anteriores, que podem estar contidos em forma de “sistemas legados”. Freqüentemente estes sistemas legados não são relacionais (bancos de dados), exigindo esforços apropriados para sua extração.

 Projeto de Armazém de dados e Criação:

Este descreve o processo de projetar o armazém, tomando os cuidados necessários para assegurar que o projeto suporte os tipos de perguntas para as quais o armazém será definido. Isto envolve um esforço que exige uma compreensão do esquema de banco de dados a ser criado, e muita interação com a comunidade de usuários. O projeto é freqüentemente um processo interativo e deve sofrer várias alterações durante o tempo de definição, antes do modelo poder ser estabilizado. Grande cuidado deve ser tomado nesta fase, porque uma vez que o modelo seja povoado com grandes quantidades de dados, sendo alguns desses dados muito difíceis de recriar, o modelo não poderá ser facilmente modificado.

 Aquisição de dados:  

Este é o processo que move os dados dos sistemas de origem da empresa para o Data Warehouse ou armazém de dados. É, freqüentemente, o esforço mais demorado e caro no projeto de armazenagem de dados, e é realizado com softwares conhecidos como Ferramentas de  ETL (Extração/Transformação e Carga). Existem atualmente mais de 50 FERRAMENTAS de ETL no mercado. A fase de aquisição de dados pode custar milhões de dólares e levar meses ou até anos para serem completados. A aquisição de dados é então, um processo contínuo, programado, que é executado para manter o armazém atualizado para um período predeterminado de tempo, (isto é o armazém é, usualmente, atualizado mensalmente).

 Captura de dados modificados:  

A atualização periódica do armazém a partir dos sistemas transacionais de origem, é complicada pela dificuldade de identificar que registro foi modificado na origem, desde a  última atualização. Este esforço é chamado de “captura de dados modificados”. Captura de dados modificados por sí só, é um desafio, e muitos produtos estão no mercado para tratar isto. Algumas das tecnologias que são usadas nesta área são servidores de Replicação, Publicação/Subscrição, Gatilhos e Procedures, e Análise de Log de Banco de dados.

 Limpando os Dados:  

É realizada, tipicamente, junto com aquisição de dados (pode ser parte do “T” em “ETL”). Um armazém de dados que contém dados incorretos não é só inútil, mas também muito perigoso. A idéia atrás de um armazém de dados é a de permitir tomada de decisão. Se uma decisão de alto nível é feita baseada em dados incorretos no armazém, a empresa pode sofrer conseqüências severas, ou até acabar em completo fracasso. Limpar os dados é um processo complicado que valida e, se necessário, corrige os dados antes de ser inserido no armazém. Por exemplo, a empresa pode ter três “Nomes de Cliente” em seus vários sistemas de origem, um como “IBM”, um como “I.B.M.”, e outro como “International Business Machine”. Obviamente, são todos o mesmo cliente. Alguém na organização deve tomar uma decisão sobre  qual deles é o correto, e então a ferramenta de limpeza de dados transformará os outros para combinar com a regra. Este processo também é chamado de “dados esfregados” (no sentido de limpeza – “data scrubbing”) ou “garantia de qualidade de dados” (Data Quality Assurance). Pode ser um processo extremamente complexo, especialmente se alguns dos arquivos de origem do armazém são de mainframes mais antigos (comumente chamado de “arquivos planos (Flat Files)” ou “arquivos seqüenciais”).

 Agregação de dados:

É o processo que está freqüentemente apresentado durante a fase  “T” de ETL, se estiver sendo usado. Os armazéns de dados podem ser projetados para armazenar dados no nível de detalhe (cada transação individual), no nível de agregado (dados sumariados), ou uma combinação de ambos. A vantagem de dados sumariados é que as consultas típicas ao DW são resolvidas de forma mais rápida. A desvantagem é que aquelas informações, que podem ser necessárias para responder uma consulta, são perdidas durante a agregação. A troca deve ser cuidadosamente pesada, porque a decisão não pode ser desfeita sem a reconstrução e uma nova carga no armazém. A decisão mais segura é para construir o armazém com um nível alto de detalhe, mas o custo em armazenamento pode ser extremo.

Agora que o armazém foi construído e populado, fica possível extrair informações significantes dele, o que será uma vantagem competitiva e um retorno do investimento. Isto é feito com ferramentas que caem dentro do conceito  geral de “Inteligência de Negócios” (BI).

 Inteligência de negócios (BI)

Um campo realmente muito amplo, que contém tecnologias como Sistemas de Suporte a Decisão (DSS), Sistemas de Informações Executivas (EIS), Processo Analítico On-line (OLAP), Relacional OLAP (ROLAP), OLAP MULTIDIMENSIONAL (MOLAP), OLAP HÍBRIDO (HOLAP, uma combinação de MOLAP e ROLAP), e mais. BI pode ser quebrado em quatro segmentos:

 Ferramentas de análise Multidimensionais:

Ferramentas que permitem ao usuário olhar para os dados de vários ângulos diferentes”. Estas ferramentas freqüentemente usam um banco de dados dimensional múltiplo chamado de um “cubo”.

 Ferramentas de Consulta:

As ferramentas que permitem ao usuário gerar de forma simples, SQL (Linguagem de Pergunta Estruturada) de consultas contra o armazém conseguindo uma resposta ágil e de baixo custo.

 Ferramentas de Mineração de dados:

Ferramentas que automaticamente procuram por padrões em dados. Estas ferramentas são, usualmente, dirigidas por complexas fórmulas estatísticas. O caminho mais fácil para distinguir mineração de dados das várias formas de OLAP, é que OLAP só pode responder perguntas que você ‘sabe como perguntar’, mineração de dados responde perguntas que você, não necessariamente,sabe como perguntar.

 Ferramentas de Visualização de dados:

As ferramentas que mostram representações gráficas de dados, inclusive visões de dados tridimensionais complexas. A teoria é que o usuário pode “ver” tendências mais eficazmente deste modo, do que olhando para estatísticas complexas. Alguns fornecedores estão fazendo progresso nesta área usando a Linguagem de Modelagem de Realidade Virtual (VRML).

Gerenciamento de Metadata

Ao longo do processo inteiro de identificação, aquisição, e consulta dos dados, acontece o Gerenciamento dos Metadados. Metadados é definido como “dados sobre dados”. Um exemplo é uma coluna em uma tabela. O datatype (por exemplo, um string ou inteiro) da coluna é um pedaço do metadados. O nome da coluna é outro. O valor real na coluna para uma linha particular não é metadados – é dado. Metadados é armazenado em um Repositório de Metadados e fornece informações extremamente úteis para todas as ferramentas mencionadas previamente. O gerenciamento de Metadados se desenvolveu em uma ciência exata, que pode fornecer retornos enormes a uma organização. Pode ajudar empresas em analisar o impacto de mudanças em tabelas de banco de dados, acompanhando os proprietários dos elementos de dados individuais (“mordomos de dados” do inglês “data stwards”), e muito mais. Também é requerido para construir o armazém, já que a ferramenta de ETL precisa saber os atributos de metadados das origens e destinos, a fim de “mapear” os dados corretamente. As ferramentas de BI precisam do metadados por razões semelhantes.

 Resumo:

O armazenamento de dados (DW) é um campo complexo, com muitos fornecedores vendedores olhando para as melhores práticas do mercado. A complexidade da tecnologia e as interações entre as várias ferramentas, e os preços altos para os produtos exigem que as empresas avaliem cuidadosamente a tecnologia antes de iniciar um projeto de armazenagem. Contudo, o enorme potencial do retorno de investimento e vantagens competitivas fazem a armazenagem de dados (DW) difícil de se ignorada.

 Informações biográficas

 Bill Inmon

Bill Inmon é mundialmente reconhecido como o “pai do armazém de dados (DW)”. Ele tem 26 anos de experiência em gerenciamento de tecnologia de banco de dados e perícia em projeto de armazém de dados, além de publicar 36 livros e mais de 350 artigos em importantes sites e jornais. Seus livros foram traduzidos para nove idiomas. Ele é conhecido globalmente por seus seminários em desenvolvimento de armazéns de dados e tem sido uma referência como conferencista para importantes empresas do mercado. Antes da fundação da Pine Cone Systems, Bill era o co-fundador da Prism Solutions Inc.

 Ralph Kimball 

Ralph Kimball foi o co-inventor da estação de trabalho Estrela da Xérox, o primeiro produto comercial a usar mouses, ícones, e janelas. Ele foi vice-presidente de aplicações na Metaphor Computer Systems, e fundador e CEO da Red Brick Systems. Ele tem um Ph.D. da Stanford em engenharia elétrica, especializando em sistemas homem-máquina. Ralph é um proponente principal da abordagem dimensional para grandes projetar armazéns de dados. Ele atualmente ensina a projetar armazenagem de dados para grupos de IT, e ajuda clientes seletos no desenho específico de projetos de armazém de dados. Ralph é um colunista da revista Intelligent Enterprise e tem um relacionamento com a Sagent Technology, Inc., um fornecedor de ferramenta de armazém de dados. Seu livro “The Data Warehouse Toolkit” está amplamente reconhecido como o trabalho seminal sobre o assunto.

Até o proximo texto!

5 Respostas to “Uma Definição para Data Warehouse – Armazém de Dados”

  1. Robson Castro Says:

    Olá Carlos!
    Ótimo artigo, muito útil pra mim que estou iniciando na Área de BI. Gostaria de te fazer uma pergunta, você acredita que é possível trabalhar com BI sendo um Home officer? Você tem visto pessoas trabalhando dessa forma?

    Abraços

    Robson Castro

    • Carlos Alberto Lorenzi Lima Says:

      Robson, tudo bem?

      Obrigao pelo interesse!

      Acredito que seja possível, sim. Eu mesmo já atuei em um projeto em Curitiba, desenvolvendo ETLs para uma empresa, via VPN.

      Mas, é claro que, para isso, foi necessária a aprovação da empresa e a autorização para acesso remoto, além de mantermos reuniões em Curitiba 3 vezes por mês.

      Vai depender muito do projeto e do cliente.

      Grande abraço.

      Lito

  2. Os números de 2010 « Blog do Lito – Data Warehouse / Business Intelligence Says:

    […] Uma Definição para Data Warehouse – Armazém de Dados janeiro, 2010 3 comentários […]


Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: