Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/28122

Registo completo
Campo DCValorIdioma
dc.contributor.advisorAlmeida, J. J.-
dc.contributor.advisorLourenço, Anália Maria Garcia-
dc.contributor.authorSantos, André Fernandes-
dc.date.accessioned2014-02-24T17:34:10Z-
dc.date.available2014-02-24T17:34:10Z-
dc.date.issued2011-12-09-
dc.identifier.urihttps://hdl.handle.net/1822/28122-
dc.descriptionDissertação de mestrado em Engenharia de Informáticapor
dc.description.abstractOs corpora textuais são um recurso importante no processamento de linguagem natural e em áreas relacionadas, tais como a mineração de textos biomédicos, a linguística de corpus, aprendizagem máquina e recuperação de informação. A preparação de documentos para inclusão num corpus envolve vários passos distintos e uma rede complexa de dependências e condições, que resulta num fluxo difícil de gerir manualmente. Esta dissertação foca-se nos diversos desafios encontrados no processo de construção de corpora, e propõe métodos para ultrapassar essas questões. O primeiro problema abordado foi a limpeza de documentos de texto –remoção de resíduos estruturais, normalização de formatos e notações e deteção de delimitadores de secção– tornando os documentos passíveis de serem processados. Outra questão abordada foi a deteção de documentos duplicados e de pares de documentos candidatos a alinhamento, tendo sido introduzido e implementado um método para medição da similaridade entre documentos. Posteriormente, introduziu-se o conceito de sincronização de documentos, seguido da descrição de uma implementação baseada nos delimitadores de secção. Dois casos de estudo reais foram utilizados para guiar a implementação das ferramentas desenvolvidas: alinhamento multi-língua de documentos para inclusão em corpora paralelos alinhados e a construção de corpora de textos biomédicos para mineração de texto. Um protótipo de um sistema de gestão da construção de corpora foi desenvolvido – um sistema de corpora-flow. Este sistema incorpora mecanismos que facilitam a implementação do fluxo necessário para a construção de um corpus. Uma avaliação comparativa do conjunto de ferramentas desenvolvido foi realizada através do alinhamento de documentos com e sem a intervenção das ferramentas desenvolvidas. Um pequeno conjunto de ferramentas foi desenvolvido para avaliar os resultados de alinhamentos.por
dc.description.abstractText corpora are important resources on natural language processing and related areas such as biomedical text mining, corpus linguistics, machine learning and information extraction. Preparing documents to be included in a corpus involves several different steps and a complex network of dependencies and conditions, which results in a workflow difficult to manage manually. This dissertation focuses on different challenges which can be found when building corpora, and proposed methods to overcome such questions. cleaning of text documents – removing structural residues, normalizing encodings and notations and finding section delimiters – to make the documents suitable for further processing. Another question addressed was the detection of duplicated documents and candidate document pairs for alignment. A method for measuring the similarity between documents was introduced and implemented. Then, the concept of document synchronization was introduced, followed by the description of an implementation based on section delimiters. Two real-world scenarios were used to guide the implementation of the tools developed: multi-language document alignment for inclusion in parallel aligned corpora and building corpora of biomedical texts for text mining. A prototype of a corpora building management system was developed – a corpora-flow system. This system includes mechanisms which facilitate the implementation of the workflow needed to build a corpus. A comparative evaluation of the set of tools developed was performed by aligning documents with and without using the tools developed. A small set of auxiliary tools was created to evaluate the results of alignments.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.titleContributions for building a Corpora-Flow systemeng
dc.typemasterThesispor
dc.commentseeum_di_dissertacao_pg15973por
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
eeum_di_dissertacao_pg15973.pdf1,62 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID