Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/70162

TítuloAbordagem semântica para a integração de dados em Big Data Warehouses
Autor(es)Magalhães, José Fernando Pereira
Orientador(es)Santos, Maribel Yasmina
Palavras-chaveBig data warehouse
Data profiling
Governança de dados
Integração
Metadados
Data governance
Data profiling
Integration
Metadata
Data2019
Resumo(s)Big Data não é um domínio trivial, tanto ao nível de investigação, como de desenvolvimento. Atualmente, o volume de dados produzido tem aumentado exponencialmente devido à utilização de dispositivos como, por exemplo, smartphones, tablets, dispositivos inteligentes e sensores. Esta proliferação de dados que se apresentam em formatos estruturados, semiestruturados e não estruturados foi acompanhada pela popularidade do conceito de Big Data, que pode ser caracterizado como o volume, velocidade e variedade que os dados apresentam e que não conseguem ser processados, armazenados e analisados através de ferramentas e métodos tradicionais. As organizações, inseridas em ambientes altamente competitivos, visam a obtenção de vantagens competitivas perante os seus concorrentes, comprometendo-se a extrair o maior valor das tecnologias com o objetivo de melhorar a sua tomada de decisão. A título de exemplo, os Data Warehouses surgem como componentes centrais no armazenamento de dados, no entanto, estes repositórios de dados regem-se por modelos relacionais que os impossibilita de responder às exigências de Big Data. Consequentemente, surge a necessidade da adoção de novas tecnologias e modelos lógicos capazes de colmatar os desafios de Big Data, originando assim os Big Data Warehouses, que utilizados em tecnologias como Hadoop ou bases de dados NoSQL garantem uma maior flexibilidade e escalabilidade na manipulação de dados em contextos Big Data. A dimensão do Big Data Warehouse conduz a um acréscimo de complexidade nos domínios de Governança de Dados e Data Quality devido ao grande volume de dados que é continuamente armazenado. Contudo, inserido num domínio intrínseco a Data Quality, Data Profiling vem colmatar alguns destes desafios através da produção de metadados sobre os conjuntos de dados que chegam ao Big Data Warehouse, ganhando assim uma nova importância na integração entre as novas fontes de dados e os dados que já subsistem no Big Data Warehouse. Desta forma, o principal objetivo deste trabalho é propor, desenvolver e validar uma ferramenta de Data Profiling que permita inspecionar novas fontes de dados, derivando e armazenando informação relevante para a sua integração no Big Data Warehouse.
Big Data is not a trivial domain regarding the research and development topic. Currently, the amount of data produced has increased due to the use of gadgets such as smartphones, tablets, smart devices, and sensors. Bearing that in mind, the proliferation of data presented in structured, semi-structured and unstructured formats was accompanied by the popularity of the Big Data concept that can be characterized by volume, velocity, and variety of data which cannot be processed, stored and analyzed through traditional tools. The organizations inserted in highly competitive environments aim to obtain competitive advantages over their competitors, committing themselves to extract the highest value of the technologies in order to improve their decision making. For example, Data Warehouses appear as central components in data storage supported by rigid models. However, these data repositories can no longer answer the high demand of Big Data reality. Therefore, there is the need to adopt new technologies and logical models capable of solving Big Data challenges, giving the rise to Big Data Warehouses which are used in technologies such as Hadoop or NoSQL databases to ensure higher flexibility and scalability in data manipulation in Big Data contexts. The Big Data Warehouse size leads to an increase in the complexity concerning the domains of Data Governance and Data Quality, due to the high volume of data that is continuously stored. Nevertheless, embedded in the Data Quality domain, Data Profiling approach solves some of these challenges producing metadata about datasets which are being sent to the Big Data Warehouse, raising awareness to the relevance of the integration between new data sources and data which is already stored in the Big Data Warehouse. Considering all information exposed, the main purpose of this work is to propose, develop and validate a Data Profiling tool that allows inspecting new data sources, storing and deriving relevant information to its integration in Big Data Warehouse.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URIhttps://hdl.handle.net/1822/70162
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Dissertação José Fernando Pereira Magalhães.pdf6,44 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID