Lucky Life Manのブログ

日記の延長みたいなもの

東証の障害

だんだん見えてきた

HDDの共有ディスクのフェールオーバーに関係のあるメモリの故障だったんですね。

取引直前に発生したと思われること、メモリ故障だが完全に故障とならずゾンビ状態だったことで故障が検知できなかったことやらでフェールオーダーできなかった。強烈に運がなかったですね。

100%稼働するシステムなんて存在しないので、今回はしょうがないと思う。

東証富士通に賠償を求めないと言っているのは正しいと思います。

テクノロジーが発達して、事故は減少しているが、永遠に0にはならないと思う。

そういう事態もあるということを頭において、生きていかねばならない。

人命にかかわる飛行機だって墜落することしょっちゅあるんだから。。。。

 

新聞には設定ミスと書いてるけど

今日10/6、富士通の社長が東証の障害について謝罪していた。バックアップがうまく働かない設定ミスと新聞では書いているが、実際、やはりハードウェア(メモリ)の障害が原因でバックアップに切り替わらない。メモリの障害によるバックアップの試験はやっていなかったという。

まあ、何をやってんだと言われても仕方がないが、実際、バックアップ切り替えの試験は相手のHWが生きているか、死んでいるか、の死活監視で行うもので、試験と言っても実際ハードウェアを壊すわけも行かず、ネットーワークケーブルを抜いたりといった試験しかやっていないのがほとんどだと思う。ということで、新聞の設定ミスという表現は適切ではないと思う。正しくは、設定はしていたが、メモリ故障による死活監視は想定していず、試験もやっていなかったが正しいと思う。

富士通をかばうわけではないが、システムを構築したことのある人は、まあそうだろうなぁ。と思ってくれるだろう。

これは、富士通だけではなく、IT関連すべての会社に当てはまるはずだ。

とはいえ、今後は、HWが故障した際に出すアラートを拾い、死活監視に生かし、このような単純ミスによる社会混乱が起こらないことを祈る。

他のシステムはやってるところもあると思うが。。。。

今後のシステムにおいて、フェールオーバー試験が厳しくなるのは必至だぁ。