Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/65461

TítuloDeteção de fraude em telecomunicações através de machine learning
Outro(s) título(s)Telecommunication fraud detection through machine learning
Autor(es)Caldas, Luísa Lopes
Orientador(es)Pinto, Luís F.
Clain, Stéphane
Palavras-chaveFraude em telecomunicações
Deteção de outliers
Machine learning
PCA
Autoencoder
LSTM autoencoder
Telecommunications fraud
Outlier detection
Data2019
Resumo(s)A fraude nas telecomunicações é um problema que tem originado elevadas perdas financeiras por todo o mundo. As operadoras procuram combater a fraude de forma a não perderem tanto dinheiro. No entanto, sempre que é descoberta uma maneira de combater a fraude, os fraudsters descobrem novas formas de a conseguir realizar. Nos últimos tempos, com o fim do roaming europeu, houve grandes mudanças nas telecomunicações europeias, o que levou a um crescimento da fraude na Europa. O objetivo desta dissertação foi a procura de novas formas de combater a fraude em telecomunicações, com recurso a técnicas de machine learning. Em concreto, esta dissertação debruçou-se sobre uma base de dados de uma operadora, com informação sobre chamadas recebidas numa gateway, tendo por objetivo a identificação de fraudes do tipo bypass e wangiri. Em primeiro lugar, foi desenvolvida uma análise exploratória com base em análises estatísticas, para melhor conhecimento dos dados, tendo sido criados novos atributos para ajudarem os modelos. Um atributo que teve um papel fundamental nesta dissertação foi a Range, que se baseia no agrupamento de números telefónicos, tendo em conta a variação dos últimos dígitos dos números. Posteriormente, foram desenvolvidos modelos de machine learning sem supervisão: PCA, autoencoder e LSTM autoencoder. Uma das conclusões deste trabalho é a de que os bons resultados produzidos pelo modelo PCA, sugerem que a não fraude possa ser um problema linear, apesar de produzir uma percentagem elevada de outliers. Os modelos de autoencoder por si só não produziram tão bons resultados, mas após aplicação de filtros baseados em scores (de forma a tentar quantificar a não linearidade dos dados), observou-se uma acentuada melhoria nos resultados. Os resultados preliminares obtidos com os modelos LSTM autoencoders sugerem que a sua capacidade de guardar dados em memória pode vir a produzir muito bons resultados.
Telecommunication fraud is a problem that led to high financial losses around the world. Operators seek to combat fraud so they don’t lose so much money. However, whenever a way to combat fraud is discovered, fraudsters discover new ways to do it. In recent times, with the end of European roaming, there were big changes in European telecommunications, which has led to a rise in fraud in Europe. The aim of this dissertation was to search for new ways to combat telecommunication fraud, using machine learning techniques. Specifically, this dissertation focused on an operator’s database, with information about calls received in a gateway, aiming to identify frauds such as bypass and wangiri. Firstly, an exploratory analysis based on statistical analysis was developed to better understand the data and new attributes were created to help the models. One attribute that played a key role in this dissertation was the Range, which is based on the grouping of telephone numbers, taking into account the variation of the last digits of numbers. Subsequently, unsupervised machine learning models were developed: PCA, autoencoder, and LSTM autoencoder. One of the conclusions of this paper is that the good results produced by the PCA model suggest that non-fraud may be a linear problem, despite producing a high percentage of outliers. Autoencoder models by themselves did not produce such good results, but after applying filters based on scores (to try to quantify the nonlinearity of the data), there was a marked improvement in the results. Preliminary results from the LSTM autoencoders models suggest that their ability to store data in memory may produce very good results.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Matemática e Computação
URIhttps://hdl.handle.net/1822/65461
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DMA - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Dissertacao+35974.pdf1,33 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID