Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/77879

Título:	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
Outro(s) título(s):	Big genome warehouse: integrating heterogeneous biological data for personalized medicine
Autor(es):	Leite, André Francisco Oliveira
Orientador(es):	Santos, Maribel Yasmina Costa, Carlos Filipe Machado Silva
Palavras-chave:	Big data warehouse Genoma humano Hadoop Hive NoSQL Human genome
Data:	2020
Resumo(s):	Atualmente, com o avanço das tecnologias de sequenciação de DNA, a quantidade de dados produzida pela comunidade científica sobre genoma humano tem aumentado de forma exponencial tornando-se mais fácil e barata a sua produção do que o seu armazenamento. Isto revolucionou a forma como agora se compreende a biologia humana e melhorou o estudo sobre como mudanças (variações) no DNA estão envolvidas no risco de desenvolver certas doenças. Porém, para serem revelados novos conhecimentos sobre o genoma, os métodos de análise tradicional não são suficientes nem escaláveis. Esta explosão de dados genómicos é acompanhada com a ascensão do conceito Big Data, grandes volumes de dados disponíveis em vários níveis de complexidade, gerados a diferentes velocidades e muitas vezes sem estrutura e organização. Neste sentido, o processamento convencional de Big Data pode ser aplicado a este domínio genómico, a fim de resolver estes problemas relacionados à heterogeneidade, limpeza e integração de dados. Novas técnicas e tecnologias de processamento de dados surgiram para processar dados de múltiplos formatos e estruturas sem se preocuparem com as restrições associadas a sistemas de base de dados relacionais, destacando-se os sistemas de ficheiros distribuídos, tal como o Hadoop Distributed File System, paradigmas de processamento de dados distribuídos como Hadoop MapReduce e Spark e as base de dados NoSQL, como o MongoDB ou HBase. Para a integração de dados de múltiplas fontes, o Hive é usado como mecanismo de armazenamento distribuído fornecendo capacidade de data warehousing. Esta dissertação adotou técnicas e tecnologias Big Data para a integração de dados genómicos num Big Data Warehouse, designado por Big Genome Warehouse, assente num modelo de dados capaz de integrar diversas fontes de dados sobre o genoma. Com a implementação deste sistema Big Data procura-se responder a questões sobre doenças do foro cardíaco através da implementação de painéis analíticos capazes de ajudar investigadores ou profissionais de saúde na deteção de doenças do foro do miocárdio. A avaliação do trabalho realizado foi concretizada através da verificação do tipo de análises que tais painéis analíticos proporcionam, sendo capazes de dar resposta às questões colocadas pelos utilizadores deste domínio de aplicação. Currently, with the advancement of DNA sequencing technologies, the amount of data produced about the human genome by the scientific community has been increasing exponentially, making it easier and cheaper to produce this data than to store it. This has revolutionized the way how human biology is now understood and has improved the study about the changes (variations) in DNA are involved in the risk of developing certain diseases. However, to reveal new knowledge about the genome, traditional analysis methods are neither sufficient nor scalable. This explosion of genomic data is accompanied by the rise of the Big Data concept, large volumes of data available at varying levels of complexity, generated at different speeds and often without structure and organization. In this sense, conventional Big Data processing can be applied to this genomic domain in order to solve these problems related to heterogeneity, cleanliness and data integration. New data processing techniques and technologies have emerged to process data of multiple formats and structures without worrying about the constraints associated with relational database systems, standing out distributed file systems such as the Hadoop Distributed File System, distributed data processing paradigms like Hadoop MapReduce and Spark, and NoSQL databases such as MongoDB or HBase. For multi-source data integration, Hive is used as a distributed storage engine providing data warehousing capability. This dissertation seeks the adoption of Big Data techniques and technologies by integrating this genomic data into a Big Data Warehouse, called Big Genome Warehouse, based on a data model capable of integrating various genome data sources. The implementation of this Big Data system seeks to answer questions about heart diseases by implementing analytical panels capable of assisting researchers or health professionals in detecting cardiomyopathies. The evaluation of this work was carried out through the verification of the type of analysis that such analytical panels provide, able to answer the questions posed by the users of this application domain.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URI:	https://hdl.handle.net/1822/77879
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado