Arquitetura de software para recuperaçao de falhas utilizando checkpointing quase-sincrono / Software architecture for fault-recovery using quasi-synchronous checkpointing
AUTOR(ES)
Ulisses Furquim Freire da Silva
DATA DE PUBLICAÇÃO
2005
RESUMO
Um sistema distribuído tolerante a falhas que utilize recuperação por retrocesso de estado deve selecionar os checkpoints dos seus processos que serão gravados. Além dessa seleção, definida por um protocolo de checkpointing, o sistema precisa realizar uma coleta de lixo, para eliminar os checkpoints que se tornam obsoletos à medida que a aplicação executa. Assim, na ocorrência de uma falha, a computação pode ser retrocedida para um estado consistente salvo anteriormente. Esta dissertação discute os aspectos teóricos e práticos de um sistema distribuído tolerante a falhas que utiliza protocolos de checkpointing quase-síncronos e algoritmos para a coleta de lixo e recuperação por retrocesso. Existem vários protocolos de checkpointing na literatura, e nesta dissertação foram estudados os protocolos de checkpointing quase-síncronos. Esses protocols enviam informações de controle juntamente com as mensagens da aplicação, e podem exigir a gravação de checkpoints forçados, mas não necessitam de sincronização ou troca de mensagens de controle entre os processos. Com base nesse estudo, um framework para protocolos de checkpointing quase-sincronos foi implementado numa biblioteca de troca de mensagens chamada LAM/MPI. Além disso, uma arquitetura de software para recuperação de falhas por retrocesso de estado chamada Curupira também foi estudada e implementada naquela biblioteca. O Curupira_e a primeira arquitetura de software que n~ao precisa de troca de mensagens de controle ou qualquer sincronização entre os processos na execução dos protocolos de checkpointing e de coleta de lixo
ASSUNTO(S)
algorithms tolerancia a falha (computação) fault-tolerant computing processamento distribuido distributed processing algoritmos
ACESSO AO ARTIGO
http://libdigi.unicamp.br/document/?code=vtls000383778Documentos Relacionados
- Bridging the gap between synchronous and quase-synchronous
- AFIDS : arquitetura para injeção de falhas em sistemas distribuídos
- UMA ARQUITETURA BASEADA EM AGENTES DE SOFTWARE PARA A AUTOMAÇÃO DE PROCESSOS DE GERÊNCIA DE FALHAS EM REDES DE TELECOMUNICAÇÕES
- A policy-based architecture for fault management in optical networks
- Validação de aplicações para ambientes móveis utilizando injeção de falhas