Repositório Colecção:
https://hdl.handle.net/1822/56809
2024-03-29T12:27:15ZBig Data and real-time knowledge discovery in healthcare institutions
https://hdl.handle.net/1822/89214
Título: Big Data and real-time knowledge discovery in healthcare institutions
Autor: Sousa, Regina
Resumo: Nas instituições de saúde, a quantidade e complexidade dos dados gerados tornam a recolha, armazenamento, processamento e disponibilização de informações um processo desafiador. Com a crescente
adoção de tecnologias, como registos eletrónicos de saúde, as instituições de saúde têm acesso a vastas
quantidades de informações. Estes dados são provenientes de vários dispositivos que, por vezes, são
incapazes de trocar informação entre si o que eleva a complexidade dos sistemas de informação.
O uso de Big Data, Interoperabilidade e Cloud-Computing surgem como soluções promissoras para
melhorar a eficiência e a eficácia dos sistemas de informação na área da saúde. Ajudam a fornecer
informações em tempo real, melhorar a tomada de decisões clínicas e providenciar atendimento personalizado
aos pacientes. Contudo, a falta de recursos sentida de forma transversal, aliada à complexidade
do problema bem como da solução dificulta a aceitação e investimento por parte das instituições.
Esta tese pretende mostrar que, sistemas desenvolvidos na cloud podem providenciar acesso a recursos
computacionais poderosos e escaláveis sem a necessidade do assustador investimento inicial.
Mais ainda, mostra-se que, a combinação do paradigma cloud com ferramentas de Big Data possibilita a
informatização de sistemas a instituições de saúde de qualquer dimensão revelando um grande avanço
para a partilha de dados e interoperabilidade de dados.
O objetivo desta investigação é o desenvolvimento de um Software as a Service (SaaS) que, com a
implementação de padrões de dados conhecidos na área da saúde, consiga interoperar com as fontes de
dados das instituições de saúde. Este software deve ser adaptável aos novos modelos de trabalho (remoto
e/ou híbrido), possibilitando a diminuição significativa de gastos em recursos humanos e materiais. Os
resultados são extremamente promissores consistindo num software, adaptativo, escalável e modular que
permite a customização a qualquer instituição de saúde. Apesar dos casos de estudos se encontrarem
em diferentes estados de maturidade foram amplamente aceites pelos utilizadores.; In healthcare institutions, the amount and complexity of data generated makes it difficult to capture,
store, process, and distribute information. With the increasing adoption of digital technologies such as
electronic health records and other data sources, healthcare institutions have access to voluminous quantities
of data. This data originates from a variety of devices that are sometimes unable to communicate
with one another, thereby increasing the complexity of information systems.
Consequently, Big Data and Interoperability are emerging as promising solutions for enhancing the
efficacy and efficiency of healthcare information systems. They contribute to the provision of vital information
in real time, the improvement of clinical and managerial decision-making, and the delivery of
personalized, high-quality care to patients. However, the widespread lack of resources and the complexity
of the issue and its solution make it challenging for institutions to accept and invest in them.
This thesis aims to show that cloud-based systems can provide access to powerful and scalable
computing resources without the need for a daunting initial investment. Furthermore, it is shown that
the combination of the cloud paradigm with Big Data tools, such as Spark, enables the computerization
of systems for healthcare institutions of any size, revealing a significant advance in data sharing and
interoperability.
Thus, the main objective of this investigation is the development of a generic SaaS that, with the
implementation of widely known data standards in the healthcare field (Health Level Seven (HL7)), can
interoperate with any source of data from healthcare institutions. It is also intended that this software
be adaptable to new models of work (remote and/or hybrid), enabling a significant reduction in spending
on human and material resources. The results are extremely promising, consisting of a generic, adaptive,
scalable and modular software that allows adaptation to any healthcare institution, its professionals,
patients and equipment. Although the case studies are in different stages of maturity, they were widely
accepted by users.
Descrição: Programa doutoral em Biomedical Engineering
<b>Tipo</b>: doctoralThesis2024-03-01T15:55:48ZDynamic end-to-end reliable causal delivery middleware for geo-replicated services
https://hdl.handle.net/1822/86186
Título: Dynamic end-to-end reliable causal delivery middleware for geo-replicated services
Autor: Younes, Georges
Resumo: O crescimento da dependência de serviços baseados na Internet, durante as últimas duas décadas,
causou um aumento na adoção de sistemas geo-replicados. O desenho deste sistemas é enquadrado à
luz do teorema CAP. Neste contexto os modelos de coerência relaxada – Eventual Consistency – permitem
reduzir o tempo de resposta para com os utilizadores finais e, assim, aumentar a disponibilidade dos
sistemas e obter interações mais rápidas. O advento de novas técnicas de convergência como Conflictfree
Replicated Data Types, amplamente adotados na indústria de geo-replicação como seja no Facebook,
PayPal, Microsoft, SoundCloud, entre outros, permitiu também um maior enquadramento formal destas
técnicas. Em particular, o modelo de coerência causal, provou ser o modelo mais forte para sistemas
sempre disponíveis. Assim torna-se relevante revisitar as técnicas de comunicação causal em grupo,
e associado middleware de transmissão, pois sendo que muitos destes sistemas foram originalmente
construídas à perto de três décadas, precisam de ser adequados ao contexto actual de utilização. Esta
tese principia pela análise de novas abstrações para a garantia de propriedades end-to-end no registo e
entrega causal. Prossegue com a observação de anomalias e ineficiências resultantes de implementações
multi-threaded de entrega causal, e com a identificação de uma primeira abordagem para garantir
causalidade entres os dois extremos do sistema. Após a identificação de problemas na escalabilidade nas
implementações que se baseiam em vectores versão ou relógios lógicos, é proposta uma nova solução
baseada na manipulação de grafos de dependências e numa eficiente manutenção e simplificação dos
mesmos, recorrendo à observação de propriedades de estabilidade. É também proposta uma nova API
aos utilizadores do middleware de comunicação. A avaliação das soluções propostas foi feita com base
num sistema programado em Erlang e foi feita a sua avaliação de desempenho e aplicação a quatro casos
de estudo.; The reliance on Internet-based services during the past two decades caused a leap in geo-replicated
systems, as a means to target clients across the globe, in the light of the CAP theorem. Therefore,
relaxed consistency models got a lot of attention to reduce the response time to end users, and thus
boost the availability of the systems at the cost of delayed – Eventual Consistency–. Together with the
advent of new convergence techniques like Conflict-free Replicated Data Types—widely adopted in the georeplication
industry like Facebook, PayPal, Microsoft, SoundCloud, etc., this lead to the reliance on more
useful tradeoff consistency models like the causal consistency model, proven to be strongest model for
available systems. Intuitively, this suggested another visit to revise the causality techniques, broadcast
middleware, and abstractions, originally built three decades earlier for a different set of digital services,
i.e., applications, capabilities, and usage. The research in this thesis analyzes the end to end workflow of
causality-based services, leading to the identification of new problems and shortcoming in state of the art
causality techniques and abstractions, and proposing novel corresponding ones. First, this work discovers
that, given that many applications are today multi-threaded, handling causality while overlooking this fact
will lead into semantic pitfalls in some classes of applications. A corresponding technique is proposed
in this thesis to apply end-to-end time-stamping at the application level instead of the causal middleware.
Second, this thesis points out a scalability problem in state of the art causal broadcast middlewares
that rely on vector clocks for timestamping. This thesis proposes the first graph-based abstraction for
timestamping which is proven to be one order of magnitude more scalable and efficient than its state of
the art counterpart. Third, this work identifies existing redundancy in the time-stamping methods used
in both causal middleware and application logic, and thus proposes a slightly modified, but effective, API
that reduces the bandwidth metadata overhead by half. The API includes the notion of causal stability
that makes garbage collection fast and easy. Fourth, this thesis introduces the first technique for dynamic
causality middleware, crucial in elastic services, leading to guaranteed causal delivery under dynamic
membership. These contributions are then implemented in a comprehensive well-engineered codebase
in Erlang. To demonstrate its usefulness and feasibility, this work has been applied to four practical
use-cases and projects during the course of this thesis.
Descrição: Programa de doutoramento em Informática
<b>Tipo</b>: doctoralThesis2023-08-30T14:32:13ZUser-level software-defined storage data planes
https://hdl.handle.net/1822/82135
Título: User-level software-defined storage data planes
Autor: Macedo, Ricardo Gonçalves
Resumo: Os sistemas centrados em dados como bases de dados, sistemas de armazenamento chave-valor, e motores de aprendizagem automática, são hoje componentes fundamentais para as infraestruturas de computação modernas. De forma a atingir bom desempenho, estes sistemas implementam várias otimizações de armazenamento, como escalonamento de E/S, diferenciação, e caching. Esta disserta-ção argumenta que estas otimizações têm vindo a ser implementadas de forma subótima. Em primeiro lugar, as otimizações estão fortemente acopladas à implementação do sistema, e requerem um conhe-cimento extenso do mesmo por parte de quem as implementa, bem como mudanças significativas no seu código, dificultando a sua manutenção e portabilidade. Em segundo lugar, estas otimizações são maioritariamente implementadas de forma isolada e com visibilidade parcial da infraestrutura, levando-as a competir por recursos de E/S partilhados, a contenção no sistema, e variabilidade no desempenho. Esta dissertação resolve estes desafios redefinindo a forma como as otimizações de E/S são imple-mentadas. Em especifico, as otimizações devem (1) ser desacopladas do sistema; (2) tomar decisões coordenadas sobre os recursos de E/S de forma a garantir controlo holistico; e (3) serem programáveis e adaptáveis de acordo com os requisitos do sistema. Para atingir estes objetivos, defendemos que o paradigma de Armazenamento Definido por Software (ADS) fornece um desenho adequado, embora in-completo, para implementar estas otimizações. Assim, começamos por sistematizar o trabalho em ADS, identificando os princípios de desenho comuns entre sistemas, discutimos as caracteristicas que impulsi-onaram a aplicabilidade de cada solução, e identificamos as causas que impossibilitam a solução destes desafios por parte dos sistemas atuais. Como contribuição principal, introduzimos o sistema PAIO, um novo plano de dados de ADS que permite construir optimizações de E/S portáveis e genéricas no espaço do utilizador. Por fim, demonstramos o desempenho e a eficácia de otimizações implementadas com o PAIO construindo três planos de dados: o primeiro garante controlo da latência nos percentis altos em sistemas de armazenamento chave-valor, o segundo gere a largura de banda de aplicações num ambiente de armazenamento partilhado, e o terceiro garante controlo na qualidade de serviço das operações de metadados num sistema de ficheiros paralelo. Com estas contribuições, mostramos que é possível cons-truir otimizações de E/S desacopladas do sistema, que atuam com visibilidade global, e que garantem resultados equiparáveis ou melhores que otimizações implementadas de forma tradicional.; Data-centric systems such as databases, key-value stores (KVS), and machine learning engines have become an integral part of modern I/O infrastructures. Good performance for these systems often requires implementing multiple storage optimizations such as I/O scheduling, differentiation, and caching. This dissertation argues that such optimizations are implemented in a sub-optimal manner. First, optimizations are tightly coupled to the system implementation, and require a deep understanding of the system's internal operation model and profound code refactoring, limiting their maintainability and portability across other systems that would equally benefit from them. Second, optimizations are often implemented in isolation and with partial visibility of the infrastructure, competing for shared I/O resources, and generating I/O contention and performance variation. This dissertation addresses these challenges by redefining how I/O optimizations are implemented. Specifically, optimizations should (1) be decoupled from the targeted system; (2) perform coordinated decisions over I/O resources to ensure holistic control; and (3) be programmable and adaptable to the requirements of the targeted system. We advocate that the Software-Defined Storage (SDS) paradigm provides a compelling but incomplete design for implementing such optimizations. As such, we start by surveying and systematizing the current body of work on SDS, identifying common design features shared between existing systems, discussing the characteristics that have driven the design and applicability of each solution under a given storage scenario, and uncovering why existing systems do not successfully address these challenges. Then, as our main contribution, we introduce PAIO, a new SDS data plane framework that enables building user-level, portable, and generally applicable storage optimizations. Fi-nally, we demonstrate the performance and effectiveness of complex I/O optimizations implemented with PAIO by building three data plane stages. Namely, the first stage ensures tail latency control in Log-Structured Merge tree KVSs, the second achieves per-application bandwidth control in shared storage settings, and the third ensures QoS control of metadata operations in parallel file systems. With these contributions, this dissertation demonstrates that it is possible to build complex I/O optimizations that are decoupled from the targeted system and actuate with global infrastructure visibility, while achieving similar or better results than traditionally implemented ones.
Descrição: Programa doutoral em Informática das Universidades do Minho, Aveiro e Porto
<b>Tipo</b>: doctoralThesis2023-01-24T10:59:20ZPlanet-scale leaderless consensus
https://hdl.handle.net/1822/81307
Título: Planet-scale leaderless consensus
Autor: Duarte, Vitor Manuel Enes
Resumo: As aplicações de web modernas replicam os seus dados à escala planetária e exigem fortes garantias
na coerência dos seus dados mais críticos. Essas garantias são geralmente fornecidas por meio de replicação
de máquina de estados (RME). Avanços recentes em RME concentraram-se em protocolos sem
líder, pois estes melhoram o desempenho e a disponibilidade das soluções tradicionais baseadas em
Paxos. Embora os protocolos sem líder se tenham mostrado muito promissores, estes são ainda pouco
adequados para sistemas de escala planetária, pois utilizam grandes quóruns, oferecem um desempenho
imprevisível e têm mecanismos de recuperação complexos. Nesta tese propomos dois protocolos sem
líder, Atlas e Tempo, adaptados para sistemas de escala planetária. O Atlas minimiza o tamanho
dos seus quóruns fazendo uso da observação de que falhas simultâneas em centros de dados são raras.
Também processa uma percentagem elevada de comandos da aplicação em uma única round trip,
mesmo quando estes comandos conflituam. O Atlas consegue isto com um mecanismo de recuperação
que é significativamente mais simples do que os protocolos sem líder que o precederam. O Tempo
baseia-se no Atlas, mas atinge um rendimento superior e oferece um desempenho previsível mesmo
em cargas de trabalho com elevado nível de conflitos. Para obter estes benefícios, o Tempo marca cada
comando da aplicação com uma timestamp e executa-o somente após esta timestamp se tornar estável,
ou seja, quando todos os comandos com uma timestamp menor são conhecidos. Ambos os mecanismos
para gerar uma timestamp e detetar quando esta fica estável são totalmente descentralizados, evitando
assim a necessidade de um líder. Avaliámos o Atlas e o Tempo em ambientes geo-distribuídos reais e
simulados e demonstramos que eles superam as alternativas oferecidas pelo estado da arte.; Modern web applications replicate their data across the globe and require strong consistency guarantees
for their most critical data. These guarantees are usually provided via state-machine replication
(SMR). Recent advances in SMR have focused on leaderless protocols, which improve the performance and
availability of traditional Paxos-based solutions. Although leaderless protocols have shown great promise,
they are poorly suited to planet-scale systems as they leverage large quorums, offer unpredictable performance
and have complex recovery mechanisms. In this thesis we propose two leaderless protocols,
Atlas and Tempo, tailored to planet-scale systems. Atlas minimizes the size of its quorums by making
use of the observation that concurrent data center failures are rare. It also processes a high percentage
of accesses in a single round trip, even when these conflict. Atlas achieves this while having a recovery
mechanism that is significantly simpler than that of previous leaderless protocols. Tempo builds upon
Atlas, but achieves superior throughput and offers predictable performance even in contended workloads.
To achieve these benefits, Tempo timestamps each application command and executes it only
after the timestamp becomes stable, i.e., all commands with a lower timestamp are known. Both the
timestamping and stability detection mechanisms are fully decentralized, thus obviating the need for a
leader replica. We evaluate Atlas and Tempo in both real and simulated geo-distributed environments
and demonstrate that they outperform state-of-the-art alternatives.
Descrição: Programa de Doutoramento em Informática das Universidades do Minho, de Aveiro e do Porto
<b>Tipo</b>: doctoralThesis2022-12-20T16:01:45ZFoundations for quantum algorithms and complexity
https://hdl.handle.net/1822/78698
Título: Foundations for quantum algorithms and complexity
Autor: Tavares, Carlos Eduardo Teixeira
Resumo: Recently, quantum computation has been generating a lot of interesting from both industry and academia,
due to the first results on quantum supremacy, i.e. the first time quantum computers were able to perform
efficiently tasks deemed unfeasible to classical computers, made possible by the state-of-art qubit technology.
These achievements, despite the unusefulness of the tasks performed (quantum circuit sampling), provide
evidence that real world quantum computation is not only evolving, but also, that full-scale quantum
computers may be a reality in the mid-term future.
The benefits of quantum computation are well-known to be potentially ground-breaking, from making
of RSA cryptography unsecure, to the efficient simulation of quantum systems. On theoretical side, the
algorithm body of knowledge has evolved, and nowadays, there is already a huge number of algorithms
and techniques, scattered across a vast realm of applications, from solving certain linear equations to
optimization.
Nonetheless, the progress in the development of new algorithms with an exponential advantage, rather
than polynomial, has been quite slow and even the application of the most general quantum computational
techniques to new problems is far from a trivial task. The main motivation for this work was to contribute to
this problem, and doing so by following a foundational approach, i.e. by the understanding of the structures
behind quantum algorithms and the conception of formal methods to aid in their construction.
Such an approach has to deal with two somewhat orthogonal dimensions, which correspond to traditionally
mutual exclusive fields of study, complexity and semantics, and hence, the contribution of this work is also
two-fold: in one hand we try to identify and characterize the structures that carry the so-called quantum
advantage, and in the other hand by dealing with the correction of quantum algorithms, in this case a
dynamic logic for a particular class of quantum programs: the ones expressible on a fragment of the quantum
assembly programming language (QASM).
Furthermore, a relevant part of the contribution of this work is the use of the theoretical findings over
new fields of application of quantum algorithms. The first one is in the field of quantum biology, including
the simulation of the non-radiative effects of electronic transport through a molecular chain in a photosyn thesis system. The other one belongs to the field of quantum chemistry, namely, the calculation of the
ground state of the Hydrogen and Lithium-Hydride molecules, under the action of a strong electrical field
(the stationary Stark effect). Both applications were carried out in a real world quantum computer, the IBM Q; Recentemente, o interesse em computação quântica tem vindo a aumentar exponencialmente, devido
ao facto da meta da ”supremacia quântica”, momento em que os computadores quânticos são capazes
de realizar tarefas intratáveis para computadores clássicos, ter sido recentemente atingida por equipas
independentes, utilizando arquiteturas de qubits quânticos diferentes. Isto dá evidência da saudável
velocidade de evolução da área, e fortalece a ideia de que os computadores quânticos em grande escala,
podem vir a ser uma realidade no futuro.
Os benefícios, há muito conhecidos, podem ser realmente transformadores, em campos como a crip tografia, ao tornar a criptografia RSA obsoleta, assim como na simulação de sistemas quânticos. Nos
últimos anos, o campo das aplicações dos algoritmos quânticos tem vindo a crescer rapidamente, onde já
prontificam métodos para a resolução de equações, ou para a resolução de problemas de otimização.
Não obstante, o progresso no desenvolvimento de algoritmos quânticos que consigam, à semelhança do
algoritmo de Shor, tirar completo proveito da vantagem quântica, que se traduz numa vantagem exponencial,
tem sido lento e mesmo a aplicação das técnicas mais gerais a novos problemas, revela-se complexa.
A motivação deste trabalho é contribuir para a mitigação deste problema, através de uma abordagem
”fundacional” dos algoritmos e da sua complexidade, ou seja, através da análise e classificação das
estruturas que adicionam a vantagem quântica aos programas quânticos, e se possível, a concepção de
técnicas formais que permitam ajudar na engenharia de novos algoritmos.
Essas técnicas, oferecem o desafio de ter de gerir duas dimensões dos algoritmos quânticos, tradicional mente estudadas em separado: complexidade e semântica. Assim, a abordagem deste trabalho baseou-se
também nessas duas dimensões: por um lado, na caracterização dos algoritmos e das estruturas que
lhes permitem a chamada vantagem quântica, e por outro na concepção de uma lógica dinâmica para
uma classe específica de programas quânticos: aqueles que são exprimíveis num fragmento da linguagem
QASM.
Uma parte relevante deste trabalho é também a aplicação do conhecimento sobre algoritmos em novos
exemplos de aplicação, o que é feito em dois novos exemplos: no campo da biologia quântica, na simulação
do transporte electrónico sem recurso a radiação, e no campo da química quântica, no cálculo do estado fundamental da moléculas H2 e LiH, sob acção de um campo elétrico forte (efeito Stark), utilizando um computador quântico real, o IBM Q.
Descrição: The MAP-i Doctoral Programme in Computer Science, of the Universities of Minho, Aveiro e Porto
<b>Tipo</b>: doctoralThesis2022-07-11T13:23:27Z