Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/27636

TítuloInput parameters self-tuning on the SNN algorithm (Shared Nearest Neighbour)
Autor(es)Moreira, José Guilherme da Cruz
Orientador(es)Santos, Maribel Yasmina
Palavras-chaveDensity-based clustering
SNN
Shared nearest neighbor
Input parameters tuning
Agrupamento baseado em densidade
Ajuste dos parâmetros de entrada
Data2013
Resumo(s)Recent technological developments have lead to a ever increasing rate in data collection. Organisations are facing several challenges when they try to analyse this vast amount of data with the aim of extracting useful information. This analytical capacity needs to be enhanced with tools capable of dealing with big data sets without making the analytical process a difficult task. Clustering is usually used, as this technique does not require any a priori knowledge about the data. However, clustering algorithms usually require one or more input parameters that influence the clustering process and the results that can be obtained. This work analyses the relation between the three input parameters of the SNN (Shared Nearest Neighbour) algorithm through extensive brute-force executions and finds some strong relations between them. These findings help to propose an heuristic suitable for the identification and suggestion of the SNN input parameters. The proposed heuristic is validated using different data sets that the ones used for the heuristic development. The solution is very useful because it allows the user to avoid a considerable time spent on trial and error executions. It suggests the user an initial quality clustering result, that while not definitive, it is a good starting point for the clustering analysis.
Os recentes avanços tecnológicos têm levado a um ritmo cada vez maior na recolha de dados. As organizações enfrentam diversos desafios quando tentam analisar essa imensa quantidade de dados, com o objetivo de extrair informação útil. Esta capacidade analítica precisa de ser melhorada com ferramentas capazes de lidar com grandes conjuntos de dados, sem que isto transforme o processo de análise, numa tarefa difícil. O agrupamento (clustering), é normalmente utilizado, tratando-se de uma técnica que não requer conhecimento, a priori, sobre os dados. No entanto, os algoritmos de agrupamento, normalmente requerem um ou mais parâmetros de entrada que influenciam o processo de agrupamento e os resultados que podem ser obtidos. ' Este trabalho, analisa a relação entre os três parâmetros de entrada do algoritmo SNN (Shared Nearest Neighbour) através de execuções de força-bruta e encontra algumas relações fortes entre eles. Estes resultados ajudam a propor uma heurística adequada para a identificação e sugestão dos parâmetros de entrada do algoritmo SNN. A heurística proposta é então validada utilizado conjuntos de dados diferentes daqueles que foram utilizados para o desenvolvimento da heurística. A solução encontrada é de grande utilidade, pois permite ao utilizador evitar consumir uma quantidade considerável de tempo em execuções recorrendo à tentativa e erro. A heurística sugere ao utilizador um resultado de agrupamento inicial com qualidade, que embora não definitivo, é um bom ponto de partida para a análise do agrupamento.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Engenharia e Gestão de Sistemas de Informação
URIhttps://hdl.handle.net/1822/27636
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Tese_José Guilherme da Cruz Moreira_2013.pdf7,41 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID