飛び起きた。画面を見て、状況を把握して、原因を特定して、直した。朝6時には復旧してた。
怖かったのは、この通知がなかった頃の話だ。
同じ障害が起きても、気づくのが朝9時。対応が午後。復旧が夕方。その間ずっと「動いてるはず」と思って寝てた。「動いてるはず」が一番の敵だった。

これ、あなたにも心当たりありませんか

夜中に自動化を動かして、朝まで結果を確認しない
エラーが出ても「エラーです」としか通知が来ない
プリンターや回線など「物理」を自動化の敵だと思っていない
毎日動いてるから大丈夫、と思って数字を見ていない

1つでもあてはまるなら、今夜も何かが静かに止まっているかもしれない。

監視 1 「0件=異常」を通知に変えた
最初にやったのは、めちゃくちゃシンプルなこと。
処理が終わったあと、結果が0件だったらスマホに通知を送る。「取得データ: 0件。確認してください」って1行送るだけ。
これだけで朝の対応が4時間早くなった。
以前:朝9時に気づく→対応開始→午後にやっと復旧
以後:深夜3時に通知→朝6時に対応→9時には完了
▶ じゃあどうすればよかったか
コードは5行で書ける。処理の最後に「結果が0件だったらLINEかメールに送る」だけ。難しい実装は要らない。最初の自動化が終わったその日に、これだけは必ず入れる。「何も起きてない」が一番怖いと体で覚えてから作るより、知識として先に入れておいた方がいい。

監視 2 エラーを「種類別」に分けたら、対応が10分になった
通知を入れたら次の問題が出た。「エラーが発生しました」だけの通知。開いても何も分からない。結局パソコンの前に座ってログを読む。夜中に。
エラーを分類した。

ネットワーク切断 → 5分待って自動リトライ
相手サイトのメンテ → 朝まで待つ
ログイン切れ → 手動でログインし直す
想定外のエラー → 即座に確認

通知にエラーの種類を書くようにしたら、スマホを見るだけで「今すぐ対応」か「朝でいい」か判断できるようになった。夜中に起きてパソコンを開く回数が月12回から月2回に減った。
▶ じゃあどうすればよかったか
通知文に「何が起きたか」と「今すぐ必要か」の2つを書く。「エラーです」だけの通知は通知じゃない。「ネットワーク切断。自動リトライ中。対応不要」まで書けば安心して寝られる。エラーの分類は最初から完璧にしなくていい。「即対応」と「朝でいい」の2種類だけでも全然違う。

監視 3 壊れたら「自動で直す」仕組みをもう1個作った
プリンターが夜中にオフラインになる問題があった。3週間調べた。配線、ドライバー、設定、全部確認した。
原因:パソコンが「反応遅いな」と判断して、親切心で勝手にオフにしてた。

3週間後の僕:「犯人、お前かよ」

5分ごとにプリンターの状態を確認して、オフラインだったら自動でオンに戻すスクリプトを作った。仕組みを見張る仕組み。これで深夜のプリンター障害がゼロになった。
▶ じゃあどうすればよかったか
物理の敵パターンは決まっている。PCがスリープ→スリープ無効に設定。Wi-Fiが切れる→有線LANに変更。プリンターがオフライン→5分ごとに自動復帰。ブラウザのセッション切れ→定期的に自動ログイン。この4つを最初に潰しておくだけで、夜中に叩き起こされることがほぼなくなる。

監視 4 週1回15分の「健康診断」で大事故を防いだ
毎日動いてるからOK、じゃなかった。
3ヶ月前から処理件数がじわじわ減ってることにある日気づいた。100件が80件になり、60件になっていた。毎日「動いてた」。でも「動いてる」と「正しく動いてる」は別物だった。
週1回、15分だけ数字を見る時間を作った。処理件数、エラー回数、処理時間の推移。先週と比べて減ってないか、それだけ確認する。
週15分の健康診断で、月1回の大事故を防いでる。
▶ じゃあどうすればよかったか
見る数字は3つだけでいい。処理件数・エラー回数・処理時間。これをスプレッドシートに毎日自動で記録して、週1回グラフを眺める。異常はたいてい「急に変わる」んじゃなくて「じわじわ変わる」。グラフにすれば一目で分かる。

結論
自動化の安心感は、仕組みが動いていることじゃない。
壊れたときに気づける仕組みがあること。
深夜3時の通知が怖かったのは最初だけだった。今は鳴らない夜の方が安心できる。鳴っても「種類」を見て判断できる。それだけで、眠れるようになった。
これから自動化を始めるなら、本体より先に監視を作ってください。順番が逆になると、僕みたいに3ヶ月間ずっと不安なまま朝を迎えることになる。
— 深夜3時のLINE通知が、僕の睡眠を守ってる。 —