Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/92575
Título: | Towards a privacy-preserving distributed machine learning framework |
Outro(s) título(s): | Rumo a uma plataforma para aprendizagem máquina privada e distribuída |
Autor(es): | Brito, Cláudia Vanessa Martins |
Orientador(es): | Paulo, João Tiago Medeiros Ferreira, Pedro Gabriel Dias |
Palavras-chave: | Ambientes de Computação Confiáveis Aprendizagem Máquina Computação Distribuída Privacidade Privacidade Diferencial Differential Privacy Distributed Computing Machine Learning Privacy–preserving Secure Enclaves |
Data: | 3-Jul-2024 |
Resumo(s): | A Aprendizagem Máquina (AM) tornou–se uma técnica essencial para vários sectores (p.ex., saúde,
finanças) que pretendem extrair novas informações dos seus dados. No entanto, estes tendem a conter
informações sensíveis, levantando preocupações sobre a privacidade e segurança e levando ao desenvolvimento
de soluções de Aprendizagem Máquina com Preservação da Privacidade (AMPP). Isto é particularmente
relevante quando esses dados, assim como a computação feita sobre eles, precisam de ser
transferidos para infraestruturas de terceiros (i.e., computação em nuvem) ou diretamente processados
no dispositivo móvel do utilizador. Nesta tese, mostramos que as soluções atuais apresentam várias limitações,
sendo apenas aplicáveis a casos de uso específicos, exigem que os utilizadores reimplementem
os seus algoritmos de AM ou comprometem significativamente o desempenho das cargas de trabalho.
Para responder a estes desafios e melhorar a adoção prática de soluções AMPP, propomos três contribuições.
Primeiro, introduzimos o Soteria, um novo sistema que aproveita a escalabilidade e a fiabilidade
do Apache Spark e da sua biblioteca ML (MLlib). Este garante que as operações críticas são realizadas
exclusivamente em enclaves seguros fornecidos por Ambientes de Computação Confiáveis (ACC). Isto
significa que os dados sensíveis a ser processados só existem em claro dentro do enclave, estando cifrados
no resto do fluxo de dados (i.e., rede, armazenamento). Esta solução assegura a privacidade dos
dados durante o treino e inferência. Embora o Soteria se revele uma solução prática de AMPP para AM
genérica, este não suporta outros tipos de dados, como é o caso dos dados genómicos. Assim, propomos
o Gyosa, uma nova solução de computação distribuída para estudos de associação do genoma (GWAS)
com preservação da privacidade. Diferente de outras soluções, o Gyosa oferece uma diferenciação fina
entre informação sensível e não sensível processada por GWAS num ambiente distribuído. Finalmente,
o TAPUS, centra–se no compromisso entre precisão e privacidade para ambientes de AM distribuída
sem acesso a hardware especializado. Para tal, combinamos a Aprendizagem Federada e a Privacidade
Diferencial (PD) e avaliamos o impacto de diferentes algoritmos baseados em PD sobre o desafio de
compreender as preferências dos utilizadores em termos de modalidades de transporte.
Com estas contribuições, melhoramos o atual estado da arte dos sistemas de aprendizagem automática
distribuídos e com preservação da privacidade. Machine Learning (ML) has become an essential technique for several sectors (e.g., Healthcare, Finances) that wish to extract novel insights from their data. Nonetheless, such data tends to contain sensitive information, which raises concerns about privacy and security and leads to the development of privacy–preserving machine learning (PPML) solutions. This is particularly relevant when such data, along with the computation done over it, need to be outsourced to third–party infrastructures (i.e., cloud computing, HPC) or directly performed in the user’s mobile device. In this thesis, we show that the current state–of–the–art solutions still pose several limitations as these are only applicable to specific use cases, require users to reimplement their ML algorithms, or significantly compromise the performance of these workloads. To answer these challenges and improve the practical adoption of PPML solutions, we propose three main contributions. First, we introduce Soteria, a novel system that leverages the scalability and reliability of Apache Spark and its ML library (MLlib). It ensures that critical operations are exclusively performed in secure enclaves provided by Trusted Execution Environments (TEEs). This means the sensitive data being processed only exists in plaintext inside the enclave and is encrypted in the remainder of the dataflow (i.e., network, storage). This solution enables robust security guarantees, ensuring data privacy during ML training and inference. While Soteria proves to be a practical PPML solution for generic ML, it does not support other types of data or workloads that may benefit from privacy–preserving guarantees, which is the case of genomic data. Therefore, we propose Gyosa, a novel distributed computing solution for privacy–preserving genome–wide association studies. Different from other solutions, Gyosa offers a fine–grained differentiation between sensitive and nonsensitive information processed by GWAS in a distributed environment. Finally, TAPUS, focuses on the trade–offs between accuracy and privacy for distributed ML setups that do not have access to specialized hardware. This is done by combining federated learning and differential privacy and evaluating the impact of different DP–based algorithms over the challenge of understanding users’ transportation modality preferences. With these contributions, we improve the current state–of–the–art of privacy–preserving and distributed machine learning systems. |
Tipo: | Tese de doutoramento |
Descrição: | Tese de doutoramento em Informática |
URI: | https://hdl.handle.net/1822/92575 |
Acesso: | Acesso aberto |
Aparece nas coleções: | DI - Teses de doutoramento |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Claudia Vanessa Martins de Brito.pdf | Tese de doutoramento | 10,17 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons