Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/56801
Título: | A pattern-based approach for ETL systems modelling and validation |
Outro(s) título(s): | Uma abordagem orientada a padrões para a modelação e validação de sistemas de ETL |
Autor(es): | Oliveira, Bruno Moisés Teixeira |
Orientador(es): | Belo, Orlando |
Palavras-chave: | Data Warehouse Extract-Transform-Load ETL conceptual and logical modelling ETL patterns Business Process Model and Language (BPMN) pattern configuration and instantiation domain-specific language and physical model’s generation Armazéns de dados Modelação conceptual e lógica de um processo de ETL padrões para ETL Business Process Model and Language (BPMN) linguagem de domínio para configuração e instanciação de padrões e geração de modelos físicos |
Data: | 21-Jun-2018 |
Resumo(s): | Usually, a data warehousing system stores data in an integrated and consistent way, making it an
ideal data repository to support decision-making processes. However, to keep this repository
properly updated it is necessary to access to a variety of information sources, transform the data
gathered according to the established decision-making requirements and load that data into the
Data Warehouse System data repository – the data warehouse. All these tasks are done by highly
sophisticated programs that together integrates what we use to define as the ETL system. The ETL
(Extract, Transform, Load) system is responsible to perform all those tasks, being considered a
very time-consuming, error-prone and complex process, involving several participants from
different knowledge domains. They are one of the most important components of a data
warehousing system, strongly influenced by the complexity of business requirements, their
changing, and evolution. These aspects influence not only the structure of a data warehouse itself
but also the information sources schemas involved with, since they must handle data with complex
data requirements and transformation routines. Moreover, ETL systems are data-oriented
processes composed of dozens of granular tasks arranged based on specific languages and
architectures, which results in technical and complex terms, difficult to understand and maintain.
Despite the efforts done by several researchers for the modelling and implementing them, a solid
and simpler approach providing the necessary bridges to create the conceptual and logical models,
and validate them before its final implementation is still lacking. However, a specific subset of
these tasks can be grouped on a collection together with their relationships to form abstract
constructs. Thus, to facilitate the planning and ETL implementation, this work aims to present a set
of constructs that represent meta-models (patterns) specially designed to map standard ETL
procedures, providing the necessary bridges to represent them at the conceptual level and provide
its mapping to execution primitives. Basically, these (ETL) patterns are comprised of a set of
abstract components that can be configured to enable its instantiation for specific application scenarios. With them, generic models can be built, simplifying process views and providing
methods for carrying out the acquired expertise to new applications based on well-proven practices
that can be used to describe general solutions based on specific skeletons configured and
instantiated according to a set of specific integration requirements. The ETL pattern-based
approach presented uses BPMN (Business Process Model and Notation) for modelling conceptual
ETL workflows, mapping them to real execution primitives using a domain-specific language that
allows for the generation of instances that can be executed in an ETL commercial tool. This work
demonstrates the feasibility and effectiveness of an ETL pattern-based approach, analysing a test
scenario for data integration based on the pattern framework proposed. Os sistemas de Data Warehousing suportam o armazenamento de grandes quantidades de dados de forma integrada e consistente, tornando-o num sistema ideal para o suporte de processos de tomada de decisão. De forma a manter os seus repositórios devidamente atualizados, os dados extraídos das fontes de informação utilizadas devem ser transformados de acordo com os requisitos de tomada de decisão para posterior povoamento do seu repositório de armazenamento – o Data Warehouse. Todas essas tarefas de gestão e transformação de dados são suportadas por processos de povoamento que com base em sofisticadas estratégias caracterizam o sistema de ETL. Os processos de ETL (Extract, Transform, Load) são processos bastante específicos, orientados a dados e com uma estrutura que requer a atenção de recursos humanos altamente especializados de diversos domínios. A sua composição é essencialmente baseada em operações muito detalhadas, baseadas em linguagens, metodologias e arquiteturas específicas que originam processos de grandes dimensões, difíceis de desenvolver e manter. Como resultado, o seu desenvolvimento e manutenção consume uma parte substancial dos recursos necessários para a implementação do sistema de Data Warehousing. Estas características são essencialmente afetadas pela mudança de requisitos que resulta de processos de negócio evolutivos que afetam não só a estrutura do Data Warehouse, mas também a estrutura das fontes de dados utilizadas. Nos últimos anos têm sido realizados desenvolvimentos significativos na área, no entanto, ainda não existe uma abordagem convincente e simples que com base na especificação conceptual e lógica de processos de ETL, proporcione um mapeamento em primitivas de execução tendo por base formalismos sólidos que garantam a noção de consistência do processo. Assim, no sentido de facilitar o seu processo de implementação, um conjunto de meta modelos (padrões) que representam tarefas de ETL tipicamente utilizadas e documentadas, são apresentados. Os padrões representam construtores de alto nível, que só por si permitem desenhar e validar uma primeira versão do sistema de povoamento antes de proceder à sua implementação, simplificando a representação de modelos mais abstratos (muito úteis para fases iniciais do desenvolvimento do projeto) e ao mesmo tempo disponibilizando os meios necessários para possibilitar o seu mapeamento para primitivas de execução. Desta forma, os recursos direcionados para suportar a fase de planeamento e desenho do projeto podem ser aproveitados em fases de desenvolvimento posteriores (essencialmente mais técnicas), proporcionando uma visão integradora e unificada do processo de desenvolvimento. Com esta abordagem, componentes abstratos podem ser configurados de forma a reorganizar as tarefas que os constituem para proporcionar a geração de instâncias geradas tendo em consideração casos muito particulares. Não só as diversas fases do desenvolvimento do projeto ficam simplificadas, como também é possível encapsular o conhecimento adquirido para outros projetos através da aplicação de práticas conhecidas e validadas, permitindo a construção de sistemas mais fiáveis associados a uma redução do tempo e recursos necessários para a sua implementação. A representação conceptual é suportada pela utilização de BPMN (Business Process Model and Notation), utilizando os construtores disponibilizados pela linguagem para o desenvolvimento de fluxos de trabalho bastante detalhados que descrevem os componentes utilizados e como estes se integram com os restantes componentes de ETL existentes. De seguida, os padrões identificados no modelo conceptual são enriquecidos com uma semântica específica, suportada por uma linguagem de domínio especialmente desenvolvida de acordo os requisitos de cada padrão. Estas primitivas lógicas podem ser mais tarde utilizadas para a geração de modelos físicos que podem ser executados utilizando uma ferramenta comercial já existente. Este trabalho apresenta a aplicação dos diversos padrões utilizando para isso um caso de estudo que exemplifica a aplicação de uma abordagem orientada a padrões para o desenvolvimento de sistemas de ETL. |
Tipo: | Tese de doutoramento |
Descrição: | Tese de Doutoramento em Informática |
URI: | https://hdl.handle.net/1822/56801 |
Acesso: | Acesso aberto |
Aparece nas coleções: | DI - Teses de doutoramento |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Bruno Moises Teixeira de Oliveira.pdf | 14,21 MB | Adobe PDF | Ver/Abrir |