Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/59130

TítuloProcessamento em streaming: avaliação de frameworks em contexto Big Data
Autor(es)Miranda, Cristiano José Ribeiro
Orientador(es)Santos, Maribel Yasmina
Palavras-chaveBig Data
Streaming
Real-time
Benchmark
Spark streaming
Flink
Stream
Data2018
Resumo(s)Nos dias de hoje, o vasto volume de dados produzido é um dos focos de atenção da comunidade científica de Sistemas de Informação. As ferramentas de gestão de dados tradicionais existentes não conseguem processar estes dados em tempo útil, sendo por isso necessário utilizar tecnologias mais adequadas de forma a possibilitar o processamento de um volume de dados mais elevado. Neste contexto, surge o termo Big Data, que descreve conjuntos de dados de grandes dimensões, de diferentes tipos e com diferentes graus de complexidade. Big Data tem um papel de extrema importância seja qual for a área de negócio, auxiliando a tomada de decisão e perceção das tendências futuras, alavancando a vantagem competitiva das organizações. Apesar das reconhecidas vantagens de Big Data e das tecnologias associadas, as aplicações que requerem processamento em tempo real de grandes fluxos de dados têm levado ao limite estas tecnologias. Para colmatar estas limitações surgiram novas ferramentas de processamento de dados em streaming. Estas ferramentas permitem a obtenção de resultados com tempos de espera reduzidos e resolvem o problema da elevada latência que os sistemas de processamento anteriores apresentavam. O objetivo desta dissertação é realizar um benchmark das principais frameworks de processamento em streaming no contexto Big Data. Para o sucesso da mesma realizou-se um enquadramento conceptual e tecnológico, onde foram levantados os principais conceitos associados ao termo Big Data, assim como das principais técnicas e ferramentas com especial destaque no streaming. Para a elaboração do benchmark, foi definida uma infraestrutura tecnológica no Google Cloud Platform e ainda os indicadores e métricas para posterior análise. Concluídos todos os testes definidos, foi possível perceber o comportamento de cada framework, as suas vantagens e desvantagens face ás diferentes necessidades no contexto de streaming.
Nowadays, the vast volume of data produced is one of the focus of attention of the scientific community of Information Systems. Existing traditional data management tools are unable to process these data in a timely manner, so it is necessary to use more appropriate technologies in order to allow the processing a higher volume of data. In this context, the term Big Data appears, which describes large dimensions datasets, of different types and with different degrees of complexity. Big Data plays an extremely important role in all business areas, helping to make decisions and perceive future trends, leveraging the competitive advantage of organizations. Despite the recognized advantages of Big Data and associated technologies, applications that require real-time processing of large data streams have pushed these technologies to the limit. To address these limitations, new tools for streaming data processing have emerged. These tools allow the obtaining of results with reduced waiting times and solve the problem of high latency that previous processing systems had. The objective of this dissertation is to perform a benchmark of the main processing streaming frameworks in the Big Data context. For his success was realized a conceptual and technological framework, where were raised the main concepts associated with the term Big Data, as well as of the main techniques and tools with special emphasis in streaming tools. For the elaboration of the benchmark, a technological infrastructure was defined in the Google Cloud Platform and all the indicators and metrics needed for later analysis. After all the tests were executed, it was possible to perceive the behavior of each framework, its advantages and disadvantages in relation to different needs in the context of streaming.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URIhttps://hdl.handle.net/1822/59130
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Dissertação_Cristiano_Miranda_56898.pdf1,85 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID