Data
Warehousing
Autor: Carlos Alberto
Sowek - GPT - Ramal 340
Na minha participação
no congresso, tive a oportunidade de assistir as palestras sobre
Data Warehousing (D. W.). Das anotações feitas, vou relatar uma
das três apresentações que assisti.
Em nenhum momento das
apresentações foi possível obter maiores informações sobre o assunto,
pois o tempo da palestra era de apenas 45 minutos. Ao final do mesmo
o palestrante era interrompido, deixando de apresentar a parte final
de sua palestra onde tinha os casos práticos do uso de D.W. Decisão
Passado Futuro Respostas Lentas Rápidas Foco Interno Externo (atender
melhor) Riscos Moderados Altos(novos produtos) Metas Controladas
Estratégicas(objetivos)
Neste artigo vou apresentar
a palestra, Data Warehousing (Flávio A. Badiejro - Gerente
de Produtos da Consist).
O palestrante fez uma
introdução colocando que o problema ao longo dos anos sempre foi
de disponibilizar o acesso às informações ao usuário final. Mostrou
como tem sido feito nos últimos anos.

No caso do EIS (Executive
Information System) ou DSS (Decision Support System), atinge só
o alto escalão da empresa (topo da pirâmide).

Uma tendência do mercado
de negócios e o corte em camadas, atingindo aos vários escalões
da empresa deste o baixo, médio e alto escalão.

O quadro a seguir mostra
questões de decisão usadas no passado e no futuro quanto ao uso
das informações e dos aplicativos.
| Desisão |
Passado |
Futuro |
| Respostas |
Lentas |
Rápidas |
| Foco |
Interno |
Externo
(atender melhor) |
| Riscos |
Moderados |
Altos
(novos produtos) |
| Metas |
Controladas |
Estratégicas
(objetivos0 |
Os desafios que as empresas
vão enfrentar nos próximos anos são:
- globalização;
- competição;
- complexidade;
- reengenharia.
Segundo Bill Gates, todo
mundo deve ter o poder na ponta dos dedos. Daí sugere-se que EIS
seja definido como:

O que é um Data Warehouse.
Segundo Willian H. Inmon (considerado o pai do D.W.), a definição
é:
Data Warehouse
is a :
-
- subject-oriented
- integrated
- nonvolatile
- time-variant
collection of data
en support of management´s decisions.
Segundo o palestrante
podemos considerar D.W. como orientado a assuntos. D.W. define um
novo conceito de modelagem dos dados, como verificamos no exemplo
a seguir:
Isto mostra que é necessário
integrar os dados que estão representados de maneiras diferentes
nos vários locais onde estão armazenados. Para a informação ser
confiável deve-se limpar os dados.

A seguir é mostrado o
dado no ponto de vista do Operacional e no uso de D.W.
| Operacional |
D. W. |
| Atualizado |
Somente para leitura |
| Bloqueio de registro |
Registro não bloqueado |
| Normalizado |
Desnormalizado |
| Relatórios estruturados |
Dados Surfing |
| Transação |
Informação |
| Atual |
Histórico |
Quando se fala em D.W.
se fala em Terabytes de dados, isto é algo a ser considerado.
As diferenças variam
com o tempo de sobrevida do dado.

D.W. é a distribuição
dos dados de forma completa em tempo hábil às pessoas que tomam
decisão. O cliente deve estar ciente de algumas questões: quais
os produtos mais vendidos; ciclo de vida do produto; retorno do
investimento. Ganha sempre o melhor e aquele que esta na frente
do concorrente.
O palestrante coloca
que D.W. é uma promessa bonita, pois mostra os dados com qualidade
e o usuário gerencia as suas consultas. Mas D.W. não é um produto,
deve ser construído empresa por empresa. Cada empresa trabalha de
forma diferente uma da outra. A chave do sucesso é o planejamento
e a metodologia utilizada.
Existem 3 visões para
o planejamento:
1) visão estratégica
2) conceitual tática
3) implementação incremental
1) Onde a empresa
quer chegar, qual o objetivo.
- aumentar a participação
no mercado;
- reduzir custo de mala
direta;
- valores, números para
qualificar, saber no final se o projeto deu certo.
2) Sabendo onde
a empresa quer chegar, definir ambiente e tecnologia a ser usada.
Determina a infra-estrutura de arquitetura.
- componentes tecnológicos
- staff (pessoas)
- avaliar as estratégicas
tecnológicas
- avaliar ferramentas
para entrada de dados, metadados, transformação, banco de dados,
ferramentas de acesso, consultas, OLAP, Data Mining, etc.
- hardware.
3) Começar pequeno
pensando grande. É difícil investir grande capital pois o retorno
é demorado. Usar a questão metodológica, de 3 em 3 meses mostrar
resultados parciais através de pequenos Data Mart´s (mercados de
dados para uso departamental).
- estimar os volumes;
- definir as ferramentas
de acesso;
- inicializar com piloto
(Data Mart) numa área dentro da empresa com melhor retorno;
- gerenciar expectativas
do usuário, não prometer coisas que não possa cumprir.
A seguir são feitas considerações
sobre algumas ferramentas a serem utilizadas para se construir um
ambiente de D.W.
1) Extração e carga de
dados
- pouco volume
- grande volume (tempo muito grande para processar)
produtos: |
Carleton Corporation
Prism
Platinum |
Passport
Prism Wrehouse Manager
InfoPump |
2) Transporte dos dados
- via FTP, via TCP/IP
- certa prioridade de alimentação
Produto: Source Point
(automatiza o transporte. Executa as tarefas em paralelo obtendo
com isto maior rapidez).
Comentou-se que para
limpeza dos dados, talvez exista um produto da Platinum, ou será
necessário fazer programas para isto.
3) Modelagem e analise
dos dados
Foram apresentadas duas
maneiras para executar a modelagem e análise dos dados, segundo
os autores:

William H. Inmon
Análise de estabilidade, análise de acessos, variantes de tempo,
tipo de bases de dados.
Vidette Poe, Ralph
Kimball
Star Schema & Snowflake

Quando usar uma técnica
ou outra, deve-se analisar:
- necessidades do usuário;
- performance;
- manutenção.
4) Acesso aos dados

EIS - ferramenta usada
para conjunto de queries fixas (com parâmetros)
OLAP - tem liberdade
de consulta maior Data Mining - descobrir informações que estão
escondidas na sua base de dados
Quem vai utilizar as
ferramentas:
- EIS - pouca sofisticação,
poucos usuários, alto escalão;
- OLAP - médio escalão;
- Data Mining - poucos
usuários, requer sofisticado nível técnico.
OLAP permite fazer análise
da informação por várias perspectivas, ex: limitando a pesquisa
por ano (quanto vendeu num determinado ano). Esta forma de acesso
apresenta ferramentas em três níveis:
- MOLAP - Multidimensionais(solução
proprietária)
- ROLAP - Relacionais
- LOLAP - Local (uso
em simulação)
MOLAP tem melhor performance,
mas tem limite, de acordo com a complexidade da consulta e o volume
de dados.
ROLAP é para grandes
volumes de dados, tem limite a nível de dimensões. É considerado
como tendência pelo Gartner Group.
Produtos: DSS Agent Decision
Suitte O palestrante encerrou a apresentação neste ponto, não pôde
apresentar os produtos que a Consist usa para fazer D.W. e nem apresentar
os casos práticos.
sowek@lepus.celepar.br

|