テスト・品質管理

バグトラッキングツール

ディスク関連ツール

ネットワーク関連ツール

一般

  • 組織が運用SEのやる気を削ぐ 2009.10.19
    • このシステム子会社では「優秀な人材は開発担当に,そうでない人材は運用担当に」という周知のルールがあり,評価や処遇にも差があった。20代後半に運用部門に配属された山崎氏は,自信とやる気を失い,学習意欲もなくなった。これではスキルも向上せず,本来やるべき仕事もこなせない。
  • 「問題がない状態」=「普通の状態」って判断されることが、システムの悲劇の様な気がしたあの日。
    • 電気は流れているのが当たり前、水道は蛇口を捻れば流れ出すのが当たり前、電車は定刻通りに動いているのが当たり前であって、止まればそれは「異常事態」なのが日本と言う社会な訳だが、実際の所インフラをインフラとして運用するだけでも、コストはかかるし腕も要る。
    • システムなんぞ何をかいわんやで、元来「不安定な状態」がデフォルトかと思いたくなるくらいインフラとしては未成熟なのに、向けられる期待値は社会基盤のインフラに向けられるそれとあんまり変わらない様な気が、時折する。
    • 構図としては、「健康のありがたみ」がどうとかいう話に似ている気がする。健康であり続ける為にもコストはそれなりにかかるのだが、そのコストに気付く為には病気にかかる必要がある。
  • 安定稼動のシステムこそ危険 2008.4.7
    • 普段から障害ばかり起こすシステムと,数年にわたって1度の障害もなく安定稼働を続けているシステムでは,いざトラブルが起きると前者よりも後者のほうが大規模かつ悪質なケースが多い。
    • システム部門は札付きシステムや札付きプログラムを,たびたび障害を引き起こす“犯人”としてマークする。しかし,最も恐ろしい障害は,マークしていたシステムやプログラムではなく,意外とノーマークのシステムやプログラムによってもたらされるものだ。
    • すべての人間に強制的に検診を受けさせるのは難しいが,システムの場合は時間と体力をそれなりに費やす覚悟さえあれば,1年や2年に1度くらいの頻度でテストすることは可能だろう。札付きシステムはもちろん,優良システムであっても,定期的なチェックを欠かしてはならない。

DevOps

ファーストサーバ事故関連

  • ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認 2012.7.31
    • 「ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認 」 2012.8.1
      • おそらく問題認識が間違ってる.まるでドライバー一人で長距離バスを24時間連続運転させておきながら,ひとたび事故が起きれば「ドライバーの運転ミス/居眠り運転が原因です(キリッ)」と言うような感じ.その場合の事故の責任はドライバー以上に経営者にある.
      • 対策においても「バックアップディスクへの変更について,明確に禁止した条項がないことから追加し,バックアップディスクの更新禁止を明確化する」とか書いてる時点でダメダメ.禁止を条項に書いたらコマンドの打ち間違いによる人的ミスが無くなるとでも?そういうのは全部ツールを作って,削除の禁止をツールの中に作り込んで,そのツールを使う限りどんなバカでもハッカーでも削除できないようにしておくんだよ.そもそもバックアップディスクが普通に物理的に触れるような場所に接続されてること自体が問題だろうし.
  • ファーストサーバの事故から考えること 2012.6.25
    • 致命的ミスと言えるのは、待機系(スタンバイ)サーバと、バックアップを混同してしまっていたことだと考えられます。
    • 待機系サーバというのは、あるサーバが故障で動かなくなったさいに代わりに立ち上げるサーバであり、そのデータは常に本番環境と同じデータを保持している必要があります。そのため、本番環境で行われたオペミスなどは待機系サーバにも波及してしまいます。
    • それに対し、バックアップというのは、基本的には「ある時点のデータ」を保存して、オペミスを含むデータ損失事故を防ぐというものです。
    • これはIT技術者にとって基本的知識だと思われますが、その点の配慮が無かったことが最大の敗因でしょう。

運用支援ツール


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-11-29 (月) 22:04:41 (7d)