Identifiant pérenne de la notice : 208271813
Notice de type
Notice de regroupement
Note publique d'information : Le problème de la tolérance aux fautes et du recouvrement d'erreur est abordé pour
le multiprocesseur parallèle "MaRS" (Machine à Réduction Symbolique). Ce système à
contrôle décentralisé utilise une communication asynchrone et différée entre des processus
coopérants fortement couplés. La machine, qui calcule une expression fonctionnelle
par des réécritures successives de son graphe-programme, est constituée de Processeurs
de Mémoire et de Processeurs de Réduction interconnectés par un réseau "Omega" de
Processeurs de Communication. On propose des mesures de détection de fautes des processeurs
et de confinement des erreurs résultantes. Ceci permet un recouvrement d'erreur par
reprise : on ramène à un état "non-réduit" les nœuds du graphe qui étaient "en réduction"
au moment de l'erreur détectée. En plus, on indique des techniques de masquage de
faute / erreur pour les cas où les erreurs sont détectables sans perte d'information.
Les fautes simples et multiples des processeurs de communication sont traitées par
des mécanismes de reroutage, applicables quand le réseau survivant conserve une Accessibilité
Dynamique Pleine. Les combinaisons possibles de mesures, mécanismes et autres techniques
définissent un certain nombre de configurations tolérantes aux fautes pour la machine,
parmi lesquelles on en choisit deux comme les plus représentatives. Finalement, on
propose des directives pour une évaluation des configurations choisies, faite en termes
de coût et performance rélatifs.