Towards a privacy-preserving distributed machine learning framework

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92575

Título:	Towards a privacy-preserving distributed machine learning framework
Outro(s) título(s):	Rumo a uma plataforma para aprendizagem máquina privada e distribuída
Autor(es):	Brito, Cláudia Vanessa Martins
Orientador(es):	Paulo, João Tiago Medeiros Ferreira, Pedro Gabriel Dias
Palavras-chave:	Ambientes de Computação Confiáveis Aprendizagem Máquina Computação Distribuída Privacidade Privacidade Diferencial Differential Privacy Distributed Computing Machine Learning Privacy–preserving Secure Enclaves
Data:	3-Jul-2024
Resumo(s):	A Aprendizagem Máquina (AM) tornou–se uma técnica essencial para vários sectores (p.ex., saúde, finanças) que pretendem extrair novas informações dos seus dados. No entanto, estes tendem a conter informações sensíveis, levantando preocupações sobre a privacidade e segurança e levando ao desenvolvimento de soluções de Aprendizagem Máquina com Preservação da Privacidade (AMPP). Isto é particularmente relevante quando esses dados, assim como a computação feita sobre eles, precisam de ser transferidos para infraestruturas de terceiros (i.e., computação em nuvem) ou diretamente processados no dispositivo móvel do utilizador. Nesta tese, mostramos que as soluções atuais apresentam várias limitações, sendo apenas aplicáveis a casos de uso específicos, exigem que os utilizadores reimplementem os seus algoritmos de AM ou comprometem significativamente o desempenho das cargas de trabalho. Para responder a estes desafios e melhorar a adoção prática de soluções AMPP, propomos três contribuições. Primeiro, introduzimos o Soteria, um novo sistema que aproveita a escalabilidade e a fiabilidade do Apache Spark e da sua biblioteca ML (MLlib). Este garante que as operações críticas são realizadas exclusivamente em enclaves seguros fornecidos por Ambientes de Computação Confiáveis (ACC). Isto significa que os dados sensíveis a ser processados só existem em claro dentro do enclave, estando cifrados no resto do fluxo de dados (i.e., rede, armazenamento). Esta solução assegura a privacidade dos dados durante o treino e inferência. Embora o Soteria se revele uma solução prática de AMPP para AM genérica, este não suporta outros tipos de dados, como é o caso dos dados genómicos. Assim, propomos o Gyosa, uma nova solução de computação distribuída para estudos de associação do genoma (GWAS) com preservação da privacidade. Diferente de outras soluções, o Gyosa oferece uma diferenciação fina entre informação sensível e não sensível processada por GWAS num ambiente distribuído. Finalmente, o TAPUS, centra–se no compromisso entre precisão e privacidade para ambientes de AM distribuída sem acesso a hardware especializado. Para tal, combinamos a Aprendizagem Federada e a Privacidade Diferencial (PD) e avaliamos o impacto de diferentes algoritmos baseados em PD sobre o desafio de compreender as preferências dos utilizadores em termos de modalidades de transporte. Com estas contribuições, melhoramos o atual estado da arte dos sistemas de aprendizagem automática distribuídos e com preservação da privacidade. Machine Learning (ML) has become an essential technique for several sectors (e.g., Healthcare, Finances) that wish to extract novel insights from their data. Nonetheless, such data tends to contain sensitive information, which raises concerns about privacy and security and leads to the development of privacy–preserving machine learning (PPML) solutions. This is particularly relevant when such data, along with the computation done over it, need to be outsourced to third–party infrastructures (i.e., cloud computing, HPC) or directly performed in the user’s mobile device. In this thesis, we show that the current state–of–the–art solutions still pose several limitations as these are only applicable to specific use cases, require users to reimplement their ML algorithms, or significantly compromise the performance of these workloads. To answer these challenges and improve the practical adoption of PPML solutions, we propose three main contributions. First, we introduce Soteria, a novel system that leverages the scalability and reliability of Apache Spark and its ML library (MLlib). It ensures that critical operations are exclusively performed in secure enclaves provided by Trusted Execution Environments (TEEs). This means the sensitive data being processed only exists in plaintext inside the enclave and is encrypted in the remainder of the dataflow (i.e., network, storage). This solution enables robust security guarantees, ensuring data privacy during ML training and inference. While Soteria proves to be a practical PPML solution for generic ML, it does not support other types of data or workloads that may benefit from privacy–preserving guarantees, which is the case of genomic data. Therefore, we propose Gyosa, a novel distributed computing solution for privacy–preserving genome–wide association studies. Different from other solutions, Gyosa offers a fine–grained differentiation between sensitive and nonsensitive information processed by GWAS in a distributed environment. Finally, TAPUS, focuses on the trade–offs between accuracy and privacy for distributed ML setups that do not have access to specialized hardware. This is done by combining federated learning and differential privacy and evaluating the impact of different DP–based algorithms over the challenge of understanding users’ transportation modality preferences. With these contributions, we improve the current state–of–the–art of privacy–preserving and distributed machine learning systems.
Tipo:	Tese de doutoramento
Descrição:	Tese de doutoramento em Informática
URI:	https://hdl.handle.net/1822/92575
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Teses de Doutoramento HASLab - Teses de Doutoramento DI - Teses de doutoramento