Abstract

我々はグリッドのアプリケーションにとって耐障害性が重要課題であることをふまえて，タスク並列アプリケーションをGridRPC システムの1 つであるNinf-G を用いて実装し，アジア太平洋地域のグリッドのテストベッド上で長時間にわたり実行した．その中で障害パターンを集めて，障害の検知や復旧にかかるコストを測定しながら耐障害性の機構を検討した．本研究により，グリッドが持つ不安定さに対応したアプリケーションやミドルウェアでは，障害検知や復旧の操作におけるタスク実行の性能低下に留意する必要があるとともに，性能低下を防ぐために，障害検知のためのタイムアウト値の最小化や復旧のバックグラウンド処理，障害を考慮したタスク割当てが必要であることが分かった．こうして，グリッドのアプリケーション開発者に対して開発や実行時の留意点を示すとともに，GridRPC の枠組みの上位に求められる耐障害に関する機構の設計への指針を示した．