Questo lavoro affronta il problema di diagnosticare la propagazione degli errori nei sistemi di calcolo distribuiti con capacità di tolieranza ai guasti. Se i componenti interagiscono scambiando messaggi, l'errore prodotto da uno dei componenti si può diffondere nel sistema, a partire da un primo messaggio erroneo, attraverso lo scambio di messaggi prodotti come risultato di computazioni correttamente eseguite, ma basate su dati affetti da errore. Viene presentato un algoritmo di diagnosi il quale, nel momento in cui uno dei componenti del sistema rileva un errore nei messaggi che riceve, serve a valutare quale area del sistema (in termini di componenti) possa esser stata interessata dalle conseguenze di quell'errore. L'insieme dei componenti interessati alla ricerca viene limitato tenendo conto delle capacità dei singoli componenti del sistema di riconoscere e/o di assorbire senza conseguenze eventuali input erronei. Le informazioni così ottenute possono essere utilizzate per decidere per quali componenti sia necessario il recovery, provvedendo a ripristinare uno stato complessivo consistente del sistema, o almeno per segnalare ai componenti che ne avessero utilizzato gli output la possibilità di un errore.
Un algoritmo di diagnosi della diffusione degli errori in sistemi distribuiti
1992
Abstract
Questo lavoro affronta il problema di diagnosticare la propagazione degli errori nei sistemi di calcolo distribuiti con capacità di tolieranza ai guasti. Se i componenti interagiscono scambiando messaggi, l'errore prodotto da uno dei componenti si può diffondere nel sistema, a partire da un primo messaggio erroneo, attraverso lo scambio di messaggi prodotti come risultato di computazioni correttamente eseguite, ma basate su dati affetti da errore. Viene presentato un algoritmo di diagnosi il quale, nel momento in cui uno dei componenti del sistema rileva un errore nei messaggi che riceve, serve a valutare quale area del sistema (in termini di componenti) possa esser stata interessata dalle conseguenze di quell'errore. L'insieme dei componenti interessati alla ricerca viene limitato tenendo conto delle capacità dei singoli componenti del sistema di riconoscere e/o di assorbire senza conseguenze eventuali input erronei. Le informazioni così ottenute possono essere utilizzate per decidere per quali componenti sia necessario il recovery, provvedendo a ripristinare uno stato complessivo consistente del sistema, o almeno per segnalare ai componenti che ne avessero utilizzato gli output la possibilità di un errore.| File | Dimensione | Formato | |
|---|---|---|---|
|
prod_414836-doc_145987.pdf
accesso aperto
Descrizione: Un algoritmo di diagnosi della diffusione degli errori in sistemi distribuiti
Dimensione
4.26 MB
Formato
Adobe PDF
|
4.26 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


