Finding new genes and pathways involved in cancer development by analysing insertional mutagenesis data

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/47377

Título:	Finding new genes and pathways involved in cancer development by analysing insertional mutagenesis data
Autor(es):	Machado, Adrien Fernandes
Orientador(es):	Ridder, Jeroen de Rocha, Isabel Cristina Almeida Pereira
Palavras-chave:	Cancer Cancer genes Insertional mutagenesis Machine learning Aprendizagem de máquina Cancro Genes de cancro Mutagénese por inserção
Data:	2016
Resumo(s):	Cancer emerges froman uncontrollable division of the organism’s cells, creating a tumour. These tumours can emerge fromany part of the human body. The increase of cellular division and growth can be created by mutations in the genome. Several methodologies are approached, in the research, to finding new cancer genes. The insertional mutagenesis (IM) has been one of the most used, in which the mouse is infected by a retrovirus or a transposon, increasing the gene expression in the insertions’ vicinity. The data used in work essay are a collection of independent studies of IM inmice. After its processing, the data has 3,414 samples, having information of 7,751 genes. Each sample matches a type of cancer (colorectal, hematopoietic, hepatocellular carcinoma, lymphoma, malignant peripheral nerve sheath, medulloblastoma and pancreatic). The main goal of this project is to determine if there are specific genes for a particular type of cancer. And, if there are, which are the 15 most evolved genes for that type of cancer. Machine learning (ML) is a subject where its goal is to increase knowledge based on given experimental data, allowing it to execute predictions and accurate decisions. To answer our purpose, it is necessary the transform the data into a dissimilarity relation between samples. Different approaches were used: two of them are known from the literature (Hamming distance and Jaccard distance) and two new metrics were developed (Gene DependentMethod (GDM) and Gene IndependentMethod (GIM)).With these transformations, unsupervised learning methods (such as Principal Component Analysis (PCA) and t-distributed stochastic neighbor embedding (t-SNE)) and supervised learning approach, testing different classifiers by crossed validation, were used. The main results show that some genes may be specific to a particular type of cancer. Therefore, it is possible to create a ranking gene, according to its importance to a type of cancer. 105 genes are presented (15 genes of each type of cancer), of which 18 were not annotated yet and 19 have already been mentioned in the literature to be involved in the development of the selected cancer tissue. Afterwards it must be performed a proper in vitro and in vivo validation. O cancro surge da divisão incontrolável de células de um organismo, criando um tumor. Estes tumores podem surgir em qualquer parte do corpo do ser vivo. O aumento da divisão e crescimento celular pode dever-se a mutações no genoma. São várias as metodologias abordadas na investigação para a descoberta de novos genes de cancro. A mutação por inserção (IM) tem sido uma abordagem bastante utilizada, no qual o rato é infetado por um retrovírus ou um transposão, aumentando a expressão do gene que se encontra na vizinhança da inserção. Os dados usados neste trabalho correspondem a uma coleção de estudos independentes de IM em ratos. Após o seu processamento, os dados contêm 3,414 amostras, tendo informação de 7,751 genes. Cada umadas amostras corresponde a umtipo de cancro (colorectal, tecido hematopoiético, carcinoma hepatocelular, linfoma, tumor maligno de bainha nervosa, meduloblastoma e pâncreas). O objetivo principal deste projeto é determinar se existem genes específicos para um determinado tipo de cancro e, se sim, quais são os 15 genes mais envolvidos para o desenvolvimento do mesmo. A aprendizagem de máquina (ML) tem como objetivo ganhar conhecimento com base em dados experimentais fornecidos, permitindo que este possa realizar previsões e decisões precisas. Para se responder ao objetivo, é necessária a transformação dos dados numa relação de dissimilaridade entre amostras. Foram usadas quatro abordagens: duas delas são descritas na literatura (a distância de Hamming e a distância de Jaccard) e duas novas métricas foram desenvolvidas (o método de gene dependente (GDM) e o método de gene independente (GIM)). A partir destas transformações foram usadas metodologias de aprendizagem não supervisionada (a Análise de Componentes Principais (PCA) e o tdistributed stochastic neighbor embedding (t-SNE)), e a metodologia supervisionada, testando diferentes classificadores por validação cruzada. Os resultados principais mostram que existem genes que poderão ser específicos para umdado tipo de cancro. Assim sendo, é possível criar uma ordenação dos genes de acordo com a sua importância face a umtipo de cancro. São apresentados 105 genes (15 genes para cada tipo de cancro), dos quais 18 ainda não foram anotados e 19 já foram mencionados na literatura por estarem envolvidos no desenvolvimento do cancro do tecido selecionado. Posteriormente deverá ser realizada a devida validação in vitro e in vivo.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformática
URI:	https://hdl.handle.net/1822/47377
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Adrien Fernandes Machado.pdf		4,9 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas