Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/56801

TítuloA pattern-based approach for ETL systems modelling and validation
Outro(s) título(s)Uma abordagem orientada a padrões para a modelação e validação de sistemas de ETL
Autor(es)Oliveira, Bruno Moisés Teixeira
Orientador(es)Belo, Orlando
Palavras-chaveData Warehouse
Extract-Transform-Load
ETL conceptual and logical modelling
ETL patterns
Business Process Model and Language (BPMN)
pattern configuration and instantiation
domain-specific language and physical model’s generation
Armazéns de dados
Modelação conceptual e lógica de um processo de ETL
padrões para ETL
Business Process Model and Language (BPMN)
linguagem de domínio para configuração e instanciação de padrões e geração de modelos físicos
Data21-Jun-2018
Resumo(s)Usually, a data warehousing system stores data in an integrated and consistent way, making it an ideal data repository to support decision-making processes. However, to keep this repository properly updated it is necessary to access to a variety of information sources, transform the data gathered according to the established decision-making requirements and load that data into the Data Warehouse System data repository – the data warehouse. All these tasks are done by highly sophisticated programs that together integrates what we use to define as the ETL system. The ETL (Extract, Transform, Load) system is responsible to perform all those tasks, being considered a very time-consuming, error-prone and complex process, involving several participants from different knowledge domains. They are one of the most important components of a data warehousing system, strongly influenced by the complexity of business requirements, their changing, and evolution. These aspects influence not only the structure of a data warehouse itself but also the information sources schemas involved with, since they must handle data with complex data requirements and transformation routines. Moreover, ETL systems are data-oriented processes composed of dozens of granular tasks arranged based on specific languages and architectures, which results in technical and complex terms, difficult to understand and maintain. Despite the efforts done by several researchers for the modelling and implementing them, a solid and simpler approach providing the necessary bridges to create the conceptual and logical models, and validate them before its final implementation is still lacking. However, a specific subset of these tasks can be grouped on a collection together with their relationships to form abstract constructs. Thus, to facilitate the planning and ETL implementation, this work aims to present a set of constructs that represent meta-models (patterns) specially designed to map standard ETL procedures, providing the necessary bridges to represent them at the conceptual level and provide its mapping to execution primitives. Basically, these (ETL) patterns are comprised of a set of abstract components that can be configured to enable its instantiation for specific application scenarios. With them, generic models can be built, simplifying process views and providing methods for carrying out the acquired expertise to new applications based on well-proven practices that can be used to describe general solutions based on specific skeletons configured and instantiated according to a set of specific integration requirements. The ETL pattern-based approach presented uses BPMN (Business Process Model and Notation) for modelling conceptual ETL workflows, mapping them to real execution primitives using a domain-specific language that allows for the generation of instances that can be executed in an ETL commercial tool. This work demonstrates the feasibility and effectiveness of an ETL pattern-based approach, analysing a test scenario for data integration based on the pattern framework proposed.
Os sistemas de Data Warehousing suportam o armazenamento de grandes quantidades de dados de forma integrada e consistente, tornando-o num sistema ideal para o suporte de processos de tomada de decisão. De forma a manter os seus repositórios devidamente atualizados, os dados extraídos das fontes de informação utilizadas devem ser transformados de acordo com os requisitos de tomada de decisão para posterior povoamento do seu repositório de armazenamento – o Data Warehouse. Todas essas tarefas de gestão e transformação de dados são suportadas por processos de povoamento que com base em sofisticadas estratégias caracterizam o sistema de ETL. Os processos de ETL (Extract, Transform, Load) são processos bastante específicos, orientados a dados e com uma estrutura que requer a atenção de recursos humanos altamente especializados de diversos domínios. A sua composição é essencialmente baseada em operações muito detalhadas, baseadas em linguagens, metodologias e arquiteturas específicas que originam processos de grandes dimensões, difíceis de desenvolver e manter. Como resultado, o seu desenvolvimento e manutenção consume uma parte substancial dos recursos necessários para a implementação do sistema de Data Warehousing. Estas características são essencialmente afetadas pela mudança de requisitos que resulta de processos de negócio evolutivos que afetam não só a estrutura do Data Warehouse, mas também a estrutura das fontes de dados utilizadas. Nos últimos anos têm sido realizados desenvolvimentos significativos na área, no entanto, ainda não existe uma abordagem convincente e simples que com base na especificação conceptual e lógica de processos de ETL, proporcione um mapeamento em primitivas de execução tendo por base formalismos sólidos que garantam a noção de consistência do processo. Assim, no sentido de facilitar o seu processo de implementação, um conjunto de meta modelos (padrões) que representam tarefas de ETL tipicamente utilizadas e documentadas, são apresentados. Os padrões representam construtores de alto nível, que só por si permitem desenhar e validar uma primeira versão do sistema de povoamento antes de proceder à sua implementação, simplificando a representação de modelos mais abstratos (muito úteis para fases iniciais do desenvolvimento do projeto) e ao mesmo tempo disponibilizando os meios necessários para possibilitar o seu mapeamento para primitivas de execução. Desta forma, os recursos direcionados para suportar a fase de planeamento e desenho do projeto podem ser aproveitados em fases de desenvolvimento posteriores (essencialmente mais técnicas), proporcionando uma visão integradora e unificada do processo de desenvolvimento. Com esta abordagem, componentes abstratos podem ser configurados de forma a reorganizar as tarefas que os constituem para proporcionar a geração de instâncias geradas tendo em consideração casos muito particulares. Não só as diversas fases do desenvolvimento do projeto ficam simplificadas, como também é possível encapsular o conhecimento adquirido para outros projetos através da aplicação de práticas conhecidas e validadas, permitindo a construção de sistemas mais fiáveis associados a uma redução do tempo e recursos necessários para a sua implementação. A representação conceptual é suportada pela utilização de BPMN (Business Process Model and Notation), utilizando os construtores disponibilizados pela linguagem para o desenvolvimento de fluxos de trabalho bastante detalhados que descrevem os componentes utilizados e como estes se integram com os restantes componentes de ETL existentes. De seguida, os padrões identificados no modelo conceptual são enriquecidos com uma semântica específica, suportada por uma linguagem de domínio especialmente desenvolvida de acordo os requisitos de cada padrão. Estas primitivas lógicas podem ser mais tarde utilizadas para a geração de modelos físicos que podem ser executados utilizando uma ferramenta comercial já existente. Este trabalho apresenta a aplicação dos diversos padrões utilizando para isso um caso de estudo que exemplifica a aplicação de uma abordagem orientada a padrões para o desenvolvimento de sistemas de ETL.
TipoTese de doutoramento
DescriçãoTese de Doutoramento em Informática
URIhttps://hdl.handle.net/1822/56801
AcessoAcesso aberto
Aparece nas coleções:BUM - Teses de Doutoramento
DI - Teses de doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Bruno Moises Teixeira de Oliveira.pdf14,21 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID