Antes de aprofundar conceitos técnicos relacionados com os datawarehouses (DW), interessa desmistificar a diferença entre um Enterprise Resource Planning (ERP) e um DW. Num âmbito geral, os ERPs são construídos para dar suporte ao negócio organizacional, sustentando as operações do dia a dia da organização. Contudo, a forma pela qual são normalizadamente desenhados, dificultam o acesso, a compreensão e a utilização por parte dos decisores de negócio.
Os estudos têm revelado que os utilizadores sentem enormes dificuldades para encontrar dados quando existem mais de 22 tabelas numa base de dados. Se tivermos em consideração que os ERPs, ou os sistemas transaccionais/operacionais têm centenas de tabelas, para eliminar a redundância dos dados, com nomes de campos dificilmente interpretáveis, com o objectivo de facilitar a actualização dos dados, deduz-se à partida que é difícil criar relatórios consistentes.
Ironicamente, armazenam informação cujo valor é inestimável, mas não permitem que os decisores da organização acedam, de uma forma rápida, intuitiva e sem depender de intermediários, aos dados que estão armazenados nesses sistemas.
Foi neste contexto que surgiu o conceito de DW nos finais dos anos 80. O princípio de concepção de um data warehouse era, e continua a ser, o de capturar a informação que se encontra dispersa pela organização e centralizá-la num repositório único de informação, que seja capaz de auxiliar na melhoria do conhecimento da própria organização, assim como no processo de tomada de decisão.
Por outras palavras, o DW é um repositório criado fundamentalmente para armazenar os dados provenientes dos ERPs. Uma organização, que utilize um datawarehouse consegue:
Um datawarehouse acarreta as vantagens supra mencionadas, não só pelo facto de a fonte de análise dos dados ser única, mas também pelas suas quatro características básicas: orientado por temas, integrado, variante no tempo e não volátil.
Organizado por temas
Um DW orientado por temas armazena informações sob a forma de assuntos diferentes entre si e que são considerados importantes para o negócio da empresa.
Integrado
A integração é a característica mais importante do datawarehouse. Com a integração dos dados, o datawarehouse adquire a perspectiva corporativa. Essencialmente, diz respeito à consistência dos valores contidos nas tabelas e outras padronizações aplicadas aos dados, no sentido de que estes sejam transformados até se encontrarem num estado uniforme e consistente. As questões relativas à integração dos dados afectam quase todos os aspectos do desenho do DW: consistência nos atributos físicos dos dados, o dilema das várias fontes a considerar, a inconsistência nas regras de nomenclatura e nos formatos das datas, etc.
Um exemplo clássico refere-se à variável sexo de um determinado indivíduo. Imagine o seguinte: numa determinada aplicação transaccional, a codificação do sexo de um indivíduo masculino poderá surgir como "M" e a codificação do sexo feminino como "F". Já noutra aplicação, poderá estar representado este item com "1" para masculino e "0" para feminino. Numa terceira aplicação, poderá constar o "H" para homens e o "M" para mulheres. Este último caso poderia conduzir a uma duplicidade dos dados, dado que "M" poderia representar mulheres ou o sexo masculino.
À medida que os dados são carregados no DW, é necessário convertê-los para um estado uniforme. Ou seja, codificar a variável sexo num formato único - por exemplo, "M" para masculino e "F" para feminino. A padronização ou integração serve para fornecer uma maior confiabilidade nas análises solicitadas pelos utilizadores ao datawarehouse.
Variante no tempo
Os dados contidos num DW são temporais. Ou seja, referem-se a períodos de tempo bem definidos que auxiliam na análise e na confirmação de acontecimentos sazonais dentro de uma determinada actividade ou ramo de negócio.
Não volátil
A quarta característica definida para um datawarehouse é a não volatilidade. Isto implica que não ocorrem actualizações de dados operacionais sobre a informação existente no datawarehouse, nem requer mecanismos de processamento de transacções, nem recuperação e controlo de concorrência aos dados. Requer apenas duas operações de acesso aos dados: carregamento inicial de dados e acesso a dados.
Cátia Rebelo, consultora em business intelligence.
Produzido em 2006