Lucky Life Manのブログ

日記の延長みたいなもの

みずほの障害、原因が判明しない訳

それゃー判明しないでしょう。通常、不具合が生じたら、おおよそのところにあたりを付けその箇所を重点的に調査します。その際、有効なのはプログラムがどのように動いているのかを知る手掛かりとなるログを仕込むというものです。プログラマーなどの人たちには基本中の基本の知識ですが、それ以外の人たちのために説明すると、プログラムがどのように動いているか、変数という値がどのような値になっているかなどなどが分かる仕組みです。そうやって、障害の原因を絞り込んでいくのです。ただ、このログ。ファイルとして外部記憶装置(HDDなど)に書き込むため、そのI/Oによりシステムの性能が落ちます。多少のログですとそれほどシステムの性能は落ちませんが、やたらと大きなサイズのデータを吐き出すログを仕込むなどすると、そのせいで、システムのレスポンスが悪化します。よって、このトレードオフをとってログを仕込まなければなりません。

話は長くなりましたが、富士通はあまりこれをやりません。行き当たりばったりで、障害が起きたら、怪しい個所を調べます。プログラマのスキルにもよりますし、たまーにコンパイルというものの不具合があったり、OSに不具合があったりと、机上でプログラムを追っても、判明しないときがあります。そこで、登場するのがログなんですけどねぇ。不思議な会社です。