kuroneko's blog

とりとめもなく気づいたことを書いていく

ファーストサーバの大規模障害のレポートを読んで

 最初に誤解のないように記載しておくと、今回のファーストサーバの大規模障害を擁護するわけではなく、戒めとして自分の仕事に活かすべきだなぁ、といった気持ちです。

 

 レポートを読んでいて、第1事故の部分にて担当者が独自のメンテナンスツールにてリリースした結果発生したという経緯を見て、どのIT企業でも起こりそうな事象だと思わざるをえない。

 プログラマーなりITエンジニアなり、それなりにプログラムが組もうとする人であれば、基本めんどくさがりなはずである(ごめんなさい)。同じ事をロボットのように繰り返したくないはずである。退屈な作業はできるだけ省き、楽をしたい人種であると思う。もっと喜びや楽しみのある部分にリソースを割きたい人種だと思う。

 リリース作業は、リリースマニュアルに沿って、淡々とコマンドを打つ。基本的に毎回同じ事をする。つまらない作業である。だって、決まりきったことをやるだけだし、結果もわかりきっているし、面白いはずがない(結果が違うと地獄を見る可能性があるが)。

また、こういった作業はできるだけ属人性を排除しつつ(だれでもできるように確認事項は一言一句違わないようにするとか)、効率化を求められる。属人性の排除とは、理解している人にとってはアタリマエのことを当然知らないこととしてたくさん書かなきゃならないということであり、効率化とはベクトルが逆だと思うし、なぜそこまで書かなきゃならないんだ!と思ってしまうんだと思う。よって、チェック部分をツールでやっちゃったり、全部を1クリックでしようとしたり、そっち方向に力を注いでしまう人もいたりする。

 

そんなところがある人種なんだと思います(勝手に思ってます)。

 

 

対処の部分を見ると、運用と開発を分けるとか、マニュアルの順守や整備だったり、ワークフローだったりと、そっち側に行ってしまっている。まぁ、よくある対処方法だが、これがまた、、、エンジニアにとっては興味のない方向なんだよなぁ。。。という気がする。

個人的には、こういった対処は結局IT化を否定するようにも見えてしまう(極端に言えばであるが)。エンジニアとしてどう取り組むべきか今後の課題としたい。

 

正直、商用の環境でよく独自に作ったツールなんて流せるな、と思う。担当者のその度胸(いままで問題なかったし、程度の気持ちだったのかもしれないが)とそれに目をつむっていた上司(うまく言ってます、って部下に言われたら。。。GO、って言ってしまう?)にはびっくりする限りだが、今後の行方を見守りたい。