Union des Ingénieurs du Conservatoire national des arts et métiers

GROUPE D’EXPERTS QUALITE CNAM
292 rue Saint-Martin
75003 PARIS

tél : 01 42 72 64 40
Fax : 01 42 78 26 43
Courriel:


Retour au format normal


Grid Computing : fault tolerance

6 mai 2008


- Tolérance aux pannes

- RAPPORT DE RECHERCHE, EN INFORMATIQUE, NOVEMBRE 2006, BEZZINE Sébastien



< Les "PC de réserve", incorporés dans l’architecture logicielle en fonction des besoins (récupération de panne), représentés au bas de la figure 5.1 interviennent dans les mécanismes de tolérance aux pannes de PicsouGrid et seront introduits à la section 5.6. On peut prévoir un nombre de machines de réserve correspondant à 2 ou 3 pourcents de l’ensemble. En général les services informatiques stockent un certain nombre de machines pour des remplacements d’urgence.

...

Nous avons développé une interface graphique (voir figure 5.2) pour le Server de PicsouGrid qui permet de choisir le nombre de SubServers et de Workers à déployer (bouton "Déployer les Workers"). Un encadré "Messages" contient les informations données par la partie système de l’architecture. L’interface affiche des informations nous permettant de connaître l’état de PicsouGrid : nombre de noeuds déployés, nombre de machines de réserve, nombre de Workers associé à chaque SubServer, panne de Worker ou de SubServer, nombre de machines de réserve restantes suite à une panne. Un utilisateur peut aussi prévoir lors du développement de ses calculs d’envoyer d’autres informations. Par exemple, l’application utilisant PicsouGrid que nous avons développée envoie à l’interface de la figure 5.2 des informations concernant l’accès à la base de données et les temps de calculs. Il est aussi possible de détruire tous les noeuds de l’architecture, donc aussi les SubServers et les Workers (bouton "Détruire les Workers"). Ensuite on peut à nouveau déployer PicsouGrid avec un nombre identique ou différent de SubServers et de Workers.

Pour permettre à l’architecture ProActive de se déployer, un utilisateur doit fournir un fichier XML de déploiement. Ce fichier XML est assez simple à créer, le chapitre 3 analyse un exemple en détail. Grâce à ce fichier XML, des noeuds sont créés sur toutes les machines du cluster ou de la grille que veut utiliser l’utilisateur. Ensuite, les SubServers et les Workers sont créés sur chacun des noeuds en fonction du nombre indiqué sur l’interface graphique de déploiement de PicsouGrid. Si le nombre total de SubServers et de Workers est inférieur au nombre de noeuds créés, les noeuds ne contenant pas d’objets sont gardés pour compenser les pannes (machines de réserve). L’encadré "Messages" de l’interface de la figure 5.2 nous indique que 30 noeuds ont été déployés et qu’il reste 2 machines de réserve, car 28 noeuds sont occupés par des objets actifs : 2 SubServers et 26 Workers. Le fichier XML de déploiement doit préciser quel protocole de connexion est utilisé pour joindre les machines : rlogin, rsh ou ssh. Les machines du cluster de Supélec et de Grid’5000 fonctionnent avec le système d’exploitation Linux qui acceptent ses protocoles. Par contre, pour des machines fonctionnant avec le système d’exploitation Windows, il faut trouver (payant) et installer un serveur (démon) rsh ou ssh car il n’est pas inclus par défaut.

... >

- Source