Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/84102
Título: | Development of a tool based on deep learning able to classify biomedical literature |
Autor(es): | Alves, Nuno Miguel Caetano |
Orientador(es): | Rocha, Miguel |
Palavras-chave: | Deep learning Machine learning Document classification Text mining Aprendizagem máquina Classificação de documentos Mineração de texto |
Data: | 16-Nov-2020 |
Resumo(s): | In the last decades, the scientific community has produced huge amounts of publications about
the most varied biomedical topics, making the search for relevant information a really difficult
task for every researcher. Some approaches have been followed to develop tools that can
facilitate this process. For instance, PubMed implemented in 2017 a Machine Learning model to
sort documents by their relevance. Nevertheless, even the authors consider that their system
would benefit from the implementation of a Deep Learning model, which for now needs more
studies.
In this context, a package called BioTMPy1 was developed in this work, to perform document
classification of biomedical literature using the Python programming language. The package
is divided into different modules to provide to the user functions to read documents in different
formats, perform preprocessing and data analysis and to train, optimize and evaluate Machine
and Deep learning models. Our package also provides intuitive pipelines that can be easily
adapted for the user needs, illustrating how to implement complex deep learning models.
The developed package was applied to a dataset from a challenge of the BioCreative forum,
from 2019, about protein-protein interactions altered by mutations, an important topic for the
advances related to precision medicine. Using this dataset, it was possible to observe a slightly
better performance of BioWordVec pre-trained embeddings over GloVe, ”pubmed pmc” and
”pubmed ncbi” embeddings. Also, with the evaluation of the developed models on the test set,
we managed to overcome the challenge’s best submission, by using a model with BioBERT and
a bidirectional LSTM on top, resulting in a difference of 7.25% for average precision, 3.22% for
precision, 2.99% for recall and 3.15% for the f1-score.
Also, a web server was developed to provide access to the best Deep Learning model
trained in this work. The overall pipeline here developed can be applied to other case studies in
different topics, provided there is a set of documents annotated as relevant and non-relevant,
allowing to train the models. Nas últimas décadas, a comunidade científica tem produzido uma enorme quantidade de publicações sobre os mais variados tópicos biomédicos, tornando a procura de informação relevante num processo complicado para qualquer investigador. Alguma abordagem tem sido seguidas para desenvolver ferramentas que possam facilitar este processo. Por exemplo, o PubMed implementou em 2017 um modelo de aprendizagem máquina para ordenar documentos pela sua relevância. Contudo, os autores consideram que o seu sistema pode beneficiar com a implementação de um modelo de Deep Learning, o que para já necessita de mais estudos. Neste projeto, foi desenvolvida um package chamado BioTMPy para classificar documentos da literatura biomédica através da linguagem de programação Python. Este package é dividido em diferentes módulos para fornecer ao utilizador funções para ler documentos de formatos diferentes, realizar pré-processamento e análise de dados, e para treinar, otimizar e avaliar modelos de aprendizagem máquina. A plataforma também fornece pipelines intuitivas que podem ser facilmente adaptadas de acordo com as necessidades do utilizador, demonstrando como implementar modelos complexos de Deep Learning. O package desenvolvido foi aplicado a um conjunto de dados de um desafio do fórum BioCreative, de 2019, acerca de interações proteína-proteína alteradas por mutações, um tópico importante para a área da medicina de precisão. Usando este conjunto de dados, consegue-se observar um melhor desempenho dos BioWordVec embeddings pré-treinados em relação a embeddings como GloVe, ”pubmed pmc” e ”pubmed ncbi”. Com os modelos desenvolvidos, foi possível ultrapassar a melhor submissão do challenge, usando um modelo com BioBERT e uma LSTM bidirecional acima, obtendo-se diferenças de 7.25% na precisão média, 3.22% na precisão, 2.99% no recall e 3.15% para o f1 -score. Foi ainda desenvolvido um servidor web de forma a fornecer acesso ao nosso melhor modelo. A plataforma desenvolvida neste trabalho poderá ser aplicável a outros casos de estudo em diferentes tópicos, desde que exista um conjunto de documentos anotado como relevante ou não relevante, que permita treinar os modelos. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformatics |
URI: | https://hdl.handle.net/1822/84102 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Nuno Miguel Caetano Alves.pdf | 2,4 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons