Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/8181
Título: | Data mining via redes neuronais artificiais e máquinas de vectores de suporte |
Autor(es): | Cruz, Armando Jorge Ribeiro da |
Orientador(es): | Cortez, Paulo |
Data: | 13-Mar-2008 |
Resumo(s): | O interesse nas áreas da Descoberta de Conhecimento em Bases de Dados e Data
Mining emergiu devido ao rápido desenvolvimento das Tecnologias de Informação e
Comunicação, levando a que, hoje em dia, grandes quantidades de dados estejam
armazenados em computadores. Os peritos humanos são limitados, podendo falhar na
identificação de detalhes importantes. Em alternativa, podem utilizar-se ferramentas de
descoberta automática com vista à extracção de conhecimento de alto nível a partir de
dados em bruto. Dada esta necessidade, foram propostas diversas técnicas de Data
Mining.
Nesta dissertação, pretende-se esclarecer quais as vantagens e capacidades de dois
modelos de Data Mining com capacidade de aprendizagem não linear: as Redes
Neuronais Artificiais (RNAs) e as Máquinas de Vectores de Suporte (MVSs). Em
particular, pretende-se saber qual o desempenho destas técnicas quando aplicadas a
tarefas de classificação e regressão, comparando-as com outras técnicas, i.e. Árvores de
Decisão/Regressão. Assim, fez-se uma análise de ferramentas de software que
implementam os modelos referidos, tendo-se escolhido duas aplicações de utilização
livre (i.e. o ambiente de programação R e o Weka) para conduzir as experiências
efectuadas. Como casos de estudo, foram utilizados diversos problemas do mundo real,
retirados do repositório público UCI.
Os resultados obtidos revelam que as MVSs obtêm em geral um melhor desempenho
em previsão, sendo seguidas pelas RNAs. No entanto, tal melhoria é conseguida à custa
de um maior esforço computacional. The interest in the fields of Knowledge Discovery in Databases (KDD) and Data Mining emerged due to the rapid development of the Information and Communication Technologies, which made available vast amount of data to be stored in computers. Human experts have limitations and may fail in identifying important details. As an alternative, automatic discovery tools can be used in order to obtain high level knowledge from raw data. Considering this need, several Data Mining techniques have been proposed. This dissertation intends to infer about the advantages of two non-linear Data Mining models: Artificial Neural Networks (ANN) and Support Vector Machines (SVM). In particular, it pretends to measure their performance when applied to classification and regression tasks, being compared with other techniques, i.e. Decision/Regression Trees. Thus, an analysis was performed over a wide range of software tools that implement the referred models. From this set, two open-source applications (i.e. the R programming environment and the Weka) where selected to conduct the experiments. Several real world problems from the UCI public repository where used as benchmarks. The results show that in general the SVM achieves better forecasts, followed by the ANN. Nevertheless, this increase in performance is achieved with a higher computational effort. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de Mestrado em Sistemas de Informação |
URI: | https://hdl.handle.net/1822/8181 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DSI - Engenharia da Programação e dos Sistemas Informáticos |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tese de Mestrado.pdf | 1,03 MB | Adobe PDF | Ver/Abrir |