MPIプログラムの自律チェックポインティング方式の実現

URI http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/5622
File
Title
MPIプログラムの自律チェックポインティング方式の実現
Title Alternative
Implementation of Self-Checkpointing for MPI Programs
Author
氏名 松岡 俊輔
ヨミ マツオカ シュンスケ
別名 MATSUOKA Shunsuke
氏名 前田 哲宏
ヨミ マエダ テツヒロ
別名 MAEDA Tetsuhiro
氏名 窪田 昌史
ヨミ クボタ アツシ
別名 KUBOTA Atsushi
氏名 北村 俊明
ヨミ キタムラ トシアキ
別名 KITAMURA Toshiaki
Abstract

大規模な並列計算機やPCクラスタ,グリッドなどのノード数が増加するにつれ,ノードやネットワークの故障に対処することが必要不可欠となってきている.MPIは,それらの並列処理環境上で事実上の標準並列ライブラリとして広く用いられている.そのため,同期チェックポインティングやメッセージロギングの機能を備えた耐故障性MPIが多数提案されているが,それらは大きなオーバヘッドをもたらすという問題がある.本稿ではオーバヘッドの低減を図るプログラム主導の自律チェックポイント方式を提案し,その有効性をNAS Parallel Benchmarksを用いて評価する. / With the increase of nodes in parallel computing platforms such as large-scale parallel machines, PC clusters and Grids, it has become necessary to handle frequent failures in node and network. On those platforms, MPI is widely used as a de-facto standard library for parallel computing. Many researches have focused on fault tolerant MPI and proposed fault tolerant message passing protocols based on coordinated checkpointing or message logging, which bring about large overhead in performance. In this report, we propose a program-initiated self-checkpointing which aims to reduce the overhead in performance. We evaluate the effectiveness of the proposed method using the NAS parallel benchmarks.

Journal Title
情報処理学会研究報告. [ハイパフォーマンスコンピューティング]
Volume
2007
Issue
80
Spage
61
Epage
66
Published Date
2007-08-01
Publisher
社団法人情報処理学会
ISSN
0919-6072
NCID
AN10463942
NAID
110006390197
Language
jpn
NIIType
Technical Report
Text Version
出版社版
Rights
ここに掲載した著作物の利用に関する注意:本著作物の著作権は(社)情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。 / The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) Information Processing Society of Japan.
Relation
isVersionOf:http://ci.nii.ac.jp/naid/110006390197
Relation URL
Old URI
Set
hiroshima-cu