Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/56371

TítuloTowards a transactional and analytical data management system for Big Data
Outro(s) título(s)Rumo a sistemas de gestão de dados transacionais e analíticos para Big Data
Autor(es)Coelho, Fábio André Castanheira Luís
Orientador(es)Oliveira, Rui Carlos Mendes de
Pereira, José
Data26-Jul-2018
Resumo(s)Hybrid database systems are on the verge of making Big Data analytics a reality. This new class of database systems bypasses traditional methodologies considered to update data on the analytical processing engine, moving such processing to be computed directly on top of production data. Uncovering a unified database engine that can achieve scalable analytics while simultaneously keep a steady operational capacity, needs to overcome some of the current system hurdles, namely the Extract, Transform and Load (ETL) process. By eschewing such process, hybrid database engines are poised to reduce implementation, management and storage costs and ultimately, enabling real-time Big Data analytics. This dissertation addresses hybrid database systems, particularly tackling some of the inherent functional and non-functional challenges associated with the provision of real-time analytics. This was achieved by specializing in a particular class of analytical functions designated as Window Functions. We considered this class of analytical functions as a vehicle to understand and address the low-latency requirements in hybrid systems, by considering a highly scalable and cloud-based operational database as foundation. While we equipped it with the ability to compute analytical functions, new algorithms were developed to account for the highly distributed scenario. We devised a new metric and evaluation system specifically targeted to assess hybrid database systems, showing that the accomplished prototype is able to meet current requirements. Each one of these achievements is presented as a novel contribution that addresses the proposed challenges and unravels the path for a real-time analytics database.
As bases de dados híbridas estão prestes a tornar o processamento de dados analíticos em Big Data numa realidade. Esta nova classe de bases de dados evita as metodologias tipicamente consideradas para a atualização de dados nos motores de processamento analítico, movendo-o para ser computado diretamente sob a base de dados operacional. Alcançar uma base de dados híbrida, munida de um motor unificado que possibilite processamento analítico escalável e seja simultaneamente capaz de manter um nível de processamento operacional estável, terá necessariamente que ultrapassar alguns dos obstáculos hoje encontrados, nomeadamente o processo de transformação de dados, do Inglês (ETL). Ao evitar este processo, as bases de dados híbridas terão um papel ativo, reduzindo custos de implementação, gestão e armazenamento, o que em última análise promoverá o processamento analítico de Big Data em tempo-real. Esta dissertação centra-se em bases de dados híbridas. Em particular, aborda alguns dos desafios funcionais e não-funcionais associados ao aprovisionamento de uma capacidade de processamento analítico em tempo-real. Nomeadamente, recorreu-se a uma classe de funções analíticas designadas por Window Functions (Funções em Janela), considerado-as como veículo à percepção e adoção de requisitos inerentes ao processamento híbrido. Considerou-se desta forma uma base de dados operacional altamente escalável, fundada em tecnologias orientadas ao processamento na nuvem. Partiu-se para a adequação do referido motor de base de dados, por forma a equipa-lo com a capacidade de interpretação e execução desta classe específica de funções analíticas, enquanto novos algoritmos foram desenhados por forma a considerar o ambiente altamente distribuído em que esta base de dados se insere. Desenvolveu-se uma nova métrica e plataforma de avaliação, inovadora na forma como as distintas distribuições de pedidos (transacionais e analíticas) são combinadas numa única, capaz de avaliar sistemas de bases de dados híbridas. Esta métrica serviu posteriormente para demonstrar que o protótipo desenvolvido está capacitado para responder aos desafios propostos. A realização de cada um dos objetivos propostos está apresentado como uma nova contribuição científica, contribuindo para desbravar o caminho com vista a um sistema integrado e capacitado para o processamento em tempo-real de Big Data.
TipoTese de doutoramento
DescriçãoPrograma de Doutoramento em Informática (MAP-i)
URIhttps://hdl.handle.net/1822/56371
AcessoAcesso aberto
Aparece nas coleções:BUM - Teses de Doutoramento
HASLab - Teses de Doutoramento
DI/CCTC - Teses de Doutoramento (phd thesis)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Fabio Andre Castanheira Luis Coelho.pdfTese de Doutoramento3,84 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID