Big Data Warehousing em tempo real: da recolha ao processamento de dados

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/53679

Título:	Big Data Warehousing em tempo real: da recolha ao processamento de dados
Outro(s) título(s):	Real-time Big Data Warehousing: from collection to data processing
Autor(es):	Lima, Francisca Leitão Gonçalves do Vale
Orientador(es):	Santos, Maribel Yasmina
Palavras-chave:	Big data Big data warehouse Real-time Hadoop Hive
Data:	2017
Resumo(s):	A evolução tecnológica dos últimos anos tem captado o interesse das organizações na análise de dados, na extração de informação das grandes quantidades de dados geradas, surgindo o interesse em Business Intelligence e associado a este a componente de Big Data. Big Data veio assim revolucionar as tecnologias e técnicas tradicionais pela capacidade de lidar com o volume, velocidade e variedade dos dados. A utilização de Data Warehouses, em contexto de Big Data, os Big Data Warehouses, aumentam as perspetivas de obter os dados de forma rápida e atualizada, potenciando o acesso aos dados em tempo real. Assim, com a introdução de tecnologias em tempo real é possível capturar a mudança nos dados e obter uma análise com dados atualizados, cada vez mais importante na tomada de decisão. Nesta dissertação pretende-se compreender o papel dos diversos componentes e tecnologias na concretização de Big Data Warehouses, um conjunto de considerações para a implementação de Big Data Warehouses, pelo que são explorados os requisitos de tempo real para a concretização e avaliação de uma arquitetura para o processamento de dados. Vários trabalhos têm sido propostos na procura de soluções que permitam o fluxo de dados em tempo real, contudo esta dissertação distingue-se por permitir que a recolha, o processamento, o armazenamento e a análise de dados, tanto recolhidos em tempo real como armazenados numa componente histórica, possam ser feitos em poucos segundos recorrendo a um conjunto de tecnologias aqui testadas e validadas. Assim, neste trabalho é estudado o desempenho dos componentes que permitem a concretização do tempo real desejado, com dados em tempo real e históricos, os quais são concretizados num caso de demonstração que permite evidenciar as vantagens e desvantagens de cada tecnologia. Com dados do Twitter a fluir em tempo real, o comportamento das várias tecnologias em cenários distintos é avaliado de forma a estabelecer um conjunto de boas práticas que vão desde a recolha de dados com Kafka, o processamento de dados com Spark Streaming, ao armazenamento de dados com Hive e/ou Cassandra, sendo efetuadas consultas recorrendo ao Presto. O trabalho realizado permite analisar o comportamento do Kafka neste contexto, o desempenho do Spark Streaming com diferentes durações de pacotes de dados, o desempenho do Hive no armazenamento de dados em tempo real e no armazenamento de dados históricos, e do Cassandra no armazenamento de dados em tempo real. A análise dos resultados obtidos permite a uma organização compreender o papel de cada componente e tecnologia numa arquitetura para a concretização de Big Data Warehouses, sendo possível realizar consultas de dados que integram dados atuais, a fluir em tempo real, com dados históricos. The technological evolution of the last years has called the attention of organizations for the analysis of data, with the aim of extracting information from the large volumes of generated data, increasing the interest in Business Intelligence and, more specifically, in Big Data. Big Data has revolutionized the traditional technologies and techniques with the ability to handle the volume, velocity and variety of data. The use of Data Warehouses, in the context of Big Data, the Big Data Warehouses, increases the ability to get faster access to updated data, enhancing data analytics in real-time. Thus, the introduction of real-time technologies allows capturing changes in data and provides analyses with updated data, a factor that is increasingly important in decision making. In this dissertation, the role of the components and technologies is explored and a set of considerations is established for the implementation of Big Data Warehouses, thus exploring the real-time requirements for the concretization and evaluation of an architecture for data processing. Related works have been proposed mainly enhancing data flowing in real-time. However, this dissertation is innovative by allowing the collection, processing, storage and analysis of data, a workflow that can be done in only a few seconds using a set of technologies tested and validated in this work. Thus, in this work the performance of the components that allow the concretization of the aimed real-time, processing real-time and historical data, are studied. A demonstration case shows the advantages and disadvantages of each technology. With Twitter data flowing in real-time, the technologies performance in distinct scenarios is evaluated establishing a set of best practices that use data collection with Kafka, data processing with Spark Streaming, data storage with Hive and/or Cassandra, being data queried by Presto. The work carried out allows the analysis of the performance of Kafka in this context, the performance of Spark Streaming with different microbatches, the performance of Hive in real-time data storage and in historical data storage, and Cassandra in real-time data storage. The analysis of the results allows an organization to understand the role of each component and technology in an architecture for the implementation of Big Data Warehouses, being possible to perform data analytics that integrates current data, flowing in real-time, with historical data.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URI:	https://hdl.handle.net/1822/53679
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Francisca Leitão Gonçalves do Vale Lima.pdf		3,33 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas