Abstract


耐故障性を重視したRPCシステムNinf-Cの設計と実装に関して述べる。Ninf-Cは、全体として数日から数ヶ月を要する大規模なマスタ ワーカ型計算を安定して実行することを目的としたシステムで、ウィスコンシン大学で開発されたスケジューリングシステムCondorの提供する機能を利用 することで、マスタを含むシステム全体に耐故障性を持たせている。Ninf-CのRPCは、Condorのファイルステージ機能を用いて実現される。直接 ソケット通信を使用せずにファイル経由で通信を行うことで、マスタとワーカのチェックポイントをとることを可能とした。また、ファイルに残った通信記録を 用いてマスタの状態を復元する。さらに、Condor-Gを利用することで、Globusによって構築されたグリッド環境下での運用も可能である。 Ninf-Cの有効性を確認するため、クラスタ環境で簡単なマスタワーカ型プログラムを長時間実行した。この際、マスタおよびワーカを実行しているマシン をシャットダウンするといった人為的な外乱をあたえたが、プログラムは19時間かけて問題なく実行を終了し、Ninf-Cの耐故障性が実証された。