現在位置: ホーム お知らせ ニュース 全てのニュース MPIプログラムがMPI_WATCHDOG_TIMERに関するエラーを出力して異常終了する不具合について

MPIプログラムがMPI_WATCHDOG_TIMERに関するエラーを出力して異常終了する不具合について

物性研システムBにおいて、MPI並列ジョブが以下のようなエラーを出力し、異常終了する不具合が発生しておりました。

物性研スーパコンピュータシステム共同利用
平成28年度研究代表者・共同研究者各位

物性研システムBにおいて、MPI並列ジョブが以下のようなエラーを出力し、異常終了する不具合が発生しておりました。

MPT ERROR: (ホスト名) has had continuous IB fabric problems for 600
        (MPI_WATCHDOG_TIMER) minutes trying to reach (ホスト名). If your
        application spends long periods of time between MPI or SHMEM calls
        you should consider increasing this timeout. Aborting.

この不具合は確率的に発生し、同じジョブを再度実行しても問題なく実行できる場合もあります。その後の調査により、SGIのMPIライブラリであるMPTの不具合が原因と判明いたしましたので、稼働当初より存在していた不具合と思われます。

5月度定期保守(5/13)にて、修正されたバージョンであるMPT2.13がデフォルトでロードされるようになり、本不具合は解消したものと思われます。

これまでに本不具合が原因でジョブが失敗したと思われる場合は、お手数ですがジョブIDをお知らせ下さい。ポイント返還等の措置を検討いたします。

ご不便をおかけして大変申し訳ありません。
以上、よろしくお願いいたします。

----
 物性研究所電子計算機室
 center@issp.u-tokyo.ac.jp

ドキュメントアクション

システムBをご利用中の方は以下もご確認ください。

稼働状況など
システム状況(B)
更新
メンテナンス情報
システムBメンテナンス情報

システムCをご利用中の方は以下もご確認ください。

稼働状況など
システム状況(C)
更新
メンテナンス情報
システムCメンテナンス情報