Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/77879

Registo completo
Campo DCValorIdioma
dc.contributor.advisorSantos, Maribel Yasminapor
dc.contributor.advisorCosta, Carlos Filipe Machado Silvapor
dc.contributor.authorLeite, André Francisco Oliveirapor
dc.date.accessioned2022-05-24T14:46:12Z-
dc.date.available2022-05-24T14:46:12Z-
dc.date.issued2020-
dc.date.submitted2020-
dc.identifier.urihttps://hdl.handle.net/1822/77879-
dc.descriptionDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informaçãopor
dc.description.abstractAtualmente, com o avanço das tecnologias de sequenciação de DNA, a quantidade de dados produzida pela comunidade científica sobre genoma humano tem aumentado de forma exponencial tornando-se mais fácil e barata a sua produção do que o seu armazenamento. Isto revolucionou a forma como agora se compreende a biologia humana e melhorou o estudo sobre como mudanças (variações) no DNA estão envolvidas no risco de desenvolver certas doenças. Porém, para serem revelados novos conhecimentos sobre o genoma, os métodos de análise tradicional não são suficientes nem escaláveis. Esta explosão de dados genómicos é acompanhada com a ascensão do conceito Big Data, grandes volumes de dados disponíveis em vários níveis de complexidade, gerados a diferentes velocidades e muitas vezes sem estrutura e organização. Neste sentido, o processamento convencional de Big Data pode ser aplicado a este domínio genómico, a fim de resolver estes problemas relacionados à heterogeneidade, limpeza e integração de dados. Novas técnicas e tecnologias de processamento de dados surgiram para processar dados de múltiplos formatos e estruturas sem se preocuparem com as restrições associadas a sistemas de base de dados relacionais, destacando-se os sistemas de ficheiros distribuídos, tal como o Hadoop Distributed File System, paradigmas de processamento de dados distribuídos como Hadoop MapReduce e Spark e as base de dados NoSQL, como o MongoDB ou HBase. Para a integração de dados de múltiplas fontes, o Hive é usado como mecanismo de armazenamento distribuído fornecendo capacidade de data warehousing. Esta dissertação adotou técnicas e tecnologias Big Data para a integração de dados genómicos num Big Data Warehouse, designado por Big Genome Warehouse, assente num modelo de dados capaz de integrar diversas fontes de dados sobre o genoma. Com a implementação deste sistema Big Data procura-se responder a questões sobre doenças do foro cardíaco através da implementação de painéis analíticos capazes de ajudar investigadores ou profissionais de saúde na deteção de doenças do foro do miocárdio. A avaliação do trabalho realizado foi concretizada através da verificação do tipo de análises que tais painéis analíticos proporcionam, sendo capazes de dar resposta às questões colocadas pelos utilizadores deste domínio de aplicação.por
dc.description.abstractCurrently, with the advancement of DNA sequencing technologies, the amount of data produced about the human genome by the scientific community has been increasing exponentially, making it easier and cheaper to produce this data than to store it. This has revolutionized the way how human biology is now understood and has improved the study about the changes (variations) in DNA are involved in the risk of developing certain diseases. However, to reveal new knowledge about the genome, traditional analysis methods are neither sufficient nor scalable. This explosion of genomic data is accompanied by the rise of the Big Data concept, large volumes of data available at varying levels of complexity, generated at different speeds and often without structure and organization. In this sense, conventional Big Data processing can be applied to this genomic domain in order to solve these problems related to heterogeneity, cleanliness and data integration. New data processing techniques and technologies have emerged to process data of multiple formats and structures without worrying about the constraints associated with relational database systems, standing out distributed file systems such as the Hadoop Distributed File System, distributed data processing paradigms like Hadoop MapReduce and Spark, and NoSQL databases such as MongoDB or HBase. For multi-source data integration, Hive is used as a distributed storage engine providing data warehousing capability. This dissertation seeks the adoption of Big Data techniques and technologies by integrating this genomic data into a Big Data Warehouse, called Big Genome Warehouse, based on a data model capable of integrating various genome data sources. The implementation of this Big Data system seeks to answer questions about heart diseases by implementing analytical panels capable of assisting researchers or health professionals in detecting cardiomyopathies. The evaluation of this work was carried out through the verification of the type of analysis that such analytical panels provide, able to answer the questions posed by the users of this application domain.por
dc.language.isoporpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/por
dc.subjectBig data warehousepor
dc.subjectGenoma humanopor
dc.subjectHadooppor
dc.subjectHivepor
dc.subjectNoSQLpor
dc.subjectHuman genomepor
dc.titleBig genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizadapor
dc.title.alternativeBig genome warehouse: integrating heterogeneous biological data for personalized medicinepor
dc.typemasterThesiseng
dc.identifier.tid202795349por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade19 valorespor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
Aparece nas coleções:BUM - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Dissertação_75306.pdf3,76 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID