不定期更新とバッチの化学反応は追跡困難な障害となる

保守の仕事をしながら、リハビリ?をかねてかどうか知らないが、
開発をしている。が、、ここ半年程は障害続きでそれどころではない。
帳票ミドルウェアの不具合で業務が止まったのを皮切りに、
ラクル様が毎月、バグでメモリ枯渇→メルトダウン→基幹システム崩壊と
洒落にならない状態が続いたし、
サポートに問い合わせても事象再発時にダンプ取れとか、
まずパッチあてろよとお話にならないぐらい超投げやり。
やっぱり大手メーカー、独占企業は、殿様商売で違うなあと思いつつ、
メモリを32G増強して、すべてオラクル様に提供したところご機嫌が直ったらしく、
自己崩壊の事象は今のところ起きていない*1


最近のオラクル様では、2つのテーブルをJoinしたものにLikeで引こうとすると
Likeの正規表現を無視して出てきたりと、
表領域の断片化を解消しようとしたらマスタの領域が壊れて
selectは効くけど、insertでcoreを吐いたりと、それでもご臨終状態*2


もうバグだらけで業務が回らねえので、
パッチ調査を今しているのだが、、パッチ未対応から最新の11.1.0.7.12にあてると
500近いバグが直ることが判明し、またため息。
パッチ当てたときの業務確認どうするんだろう??


そういえばstatspackをレベル7でとろうとするとこれにもバグがあり、
coreが不定期に吐かれるので週末のファイル消しは必須だ。
スケジューラも考えたが、本当のcoreもあるから一概にできないからまたいやらしい。


ともう保守なんて、というかオラクル触りたくない悶々とした気分
でこうやって愚痴っている訳ですが、、


今日また別件の障害が、、
客の苦情は「ファイルをアップしたのにアップされていない」というもの。
最初、?だったが、よくよく聞くと共有フォルダにファイルを置くと、
間隔起動でそのファイルを取りに来るバッチが起動して、
それがDBサーバにftpでファイルを置きつつ、自分のおなかにバックアップをおく仕組みらしい*3


どーせ、ファイルをアップしたつもりでアップしてないんじゃないの?
という結論にしたかったが、
Winサーバ側のイベントログ-セキュリティにはばっちしアクセスした記録があった*4
が、バッチがバックアップファイル作っていないし、DBサーバ側のログイン記録からftpの記録もない。


ここまで書くとそのバッチにバグがあって実は今まで一度も動いていないんじゃね?
と指摘を受けそうだが、その日以外は平日元気に動いていて、FTPでDBサーバに問題なく置いていた。


この日だけ今までと何かが違ったらしい。
結局ログが残っていないので推測に過ぎないのだが、
このバッチ君。実は3人で一組になっていて、バックアップ→FTP→削除という流れになっていて、
共有フォルダにファイルがないと左から空振り→空振り→空振りという動きになるのだが、
もしかして、、バッチがFTPを空振りしたタイミングで、共有フォルダにファイルが置かれると、削除のバッチは共有フォルダにファイルがあるからさーくーじょ!しちゃうんじゃないだろうか?


間隔起動でさらに2番目のバッチが動いているタイミングで、ファイルを置く*5という狙ってもできないことが起きたらしい。
というか、サーバ上のログでアクセスがあったのと、バックアップができていない、FTPのログもないという状況証拠からこのシチュエーションが起きたとしか考えられない。。


・・。もう保守なんて、、というかいつまで尻拭いをしなきゃならないのだろうか(泣)
ははは。どーせ直すのは私なんだろう?はははーは。

*1:安堵

*2:と思っている

*3:EDIの処理らしく直に触れないルール

*4:ちっ

*5:勿論ファイルを置くのは手動