O que é Junk Dimension (dimensão lixo)?

Junk Dimension (dimensão lixo, dimensão sucata) é uma coleção de códigos aleatórios transacionais, indicadores (flags) e / ou atributos de texto que são alheios a qualquer dimensão. By Lito, consultando Ralph Kimball, Chuck Kelle e Les Barbusinski.

Em primeiro lugar, vamos rever os tipos de dimensões que se pode ter e depois vamos discutir onde a Junk Dimension se encaixa.

Existem dois tipos de dimensões: não-hierárquica e hierárquica, sendo as hierárquicas, de longe, as mais usadas.

O primeiro tipo de dimensão se relaciona com clientes, fornecedores e outras pessoas jurídicas (pessoas e organizações, unidades organizacionais e famílias). Estas dimensões contém dados que identificam a pessoa jurídica e, normalmente, outros dados que possam ser úteis para a segmentação.

Dimensões hierárquicas geralmente englobam uma série de relacionamentos um-para-muitos em uma única tabela dimensional. Portanto, são muitas vezes referidas como “hierarquias de vários níveis”. Esses relacionamentos um-para-muitos são geralmente tabelas normalizadas em um sistema de origem. Por exemplo, uma dimensão Geografia tem, geralmente, o País como a primeira coluna. Este é o nível mais alto na hierarquia. Um país pode conter muitos estados ou províncias, de modo que a segunda coluna seria, usualmente, o Estado/Província. Um estado ou província pode conter muitas cidades, então, usualmente, a terceira coluna seria a Cidade. Uma cidade pode conter muitos códigos postais, o que nos remete para a quarta coluna, que seria o CEP. Outras Dimensões Hierarquicas podem ser a de Produto e Vendedores.

Um subconjunto da dimensão hierárquica é a “hierarquia de nível único”. Uma hierarquia de nível único, tipicamente, contém uma chave primária, um código e uma descrição do código. A maioria das hierarquias de nível único são o equivalente a flags  do tipo sim / não. Exemplos de hierarquias único nível incluem Taxas das Transações, Empregados Promotores, etc.

O único problema com as hierarquias de nível único é que você pode ter um monte deles em qualquer modelo dimensional. O ideal, na minha opinião, é que a chave concatenada primária de uma tabela fato deva consistir de menos de 10 chaves estrangeiras. Às vezes, se todos os indicadores sim / não são representados como dimensões tipo único nível de hierarquia, podemos acabar com 30 ou mais. Claramente, este é um projeto muito complexo.

Uma técnica que permite a redução do número de chaves estrangeiras de uma tabela fato é a criação de Dimensões ‘lixo’ (Junk Dimensions). Estas são apenas “dimensões inventadas” onde podemos colocar várias dessas hierarquias de nível único. Isto reduz o número de chaves estrangeiras na tabela fato, de forma dramática.

Quanto ao número de indicadores antes de criar uma dimensão de lixo, se houver mais de 15 dimensões, onde cinco ou mais hierarquias são de nível único, devemos pensar seriamente em combiná-los em uma ou mais dimensões lixo. Eu não gosto de combinar indiscriminadamente 20 ou 30 ou 80 hierarquias de nível único. Eu prefiro organizar conjuntos de hierarquias único nível em dimensões lixo “temáticas”, com base em alguma forma comum classificá-las.

Revendo, então, uma Junk Dimension (dimensão lixo, dimensão sucata) é uma coleção de códigos aleatórios transacionais, indicadores (flags) e / ou atributos de texto que são alheios a qualquer dimensão. A dimensão ‘lixo’ é simplesmente uma estrutura que fornece um local conveniente para armazenar os atributos chamados de ‘lixo’ (junk) em uma modelagem dimensional. Um bom exemplo seria um ‘Fato Comercialização’ de uma empresa corretora de valores.

O fato poderia conter várias unidades de medida (valor do principal, valor líquido, o preço por ação, a comissão, valor de margem, etc) e estaria relacionada com várias dimensões, como conta, a data, o representante, agência de câmbio, etc Este fato também conterá vários códigos e flags que foram relacionados com a operação, e não com quais quer outras dessas dimensões, como o código de origem (que indica se o comércio foi iniciado com uma chamada de telefone ou via Web), um indicador (flag) de re-investimento (que indica se esse comércio foi o resultado do re-investimento de uma distribuição de dividendos) e um campo de comentário para armazenar instruções específicas do cliente.

Estes três atributos são normalmente removidos da tabela de fatos e armazenados em uma dimensão de lixo, talvez chamada de Dimensão Comercial. Desta forma, o número de índices na tabela de fatos seriam reduzidos e o desempenho (para não mencionar a facilidade de uso) seria reforçado.

Exemplo:

Até a Próxima!

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: