スカイプで2日間サービス停止–原因のバグは修正:ニュース – CNET Japan
「世界中で、Skypeユーザーのコンピュータの多くが、ごく短時間のうちに再起動された」
「これにより接続要求が殺到した。PtoPネットワークのリソース不足とあいまって連鎖反応が起こり、深刻な影響をおよぼした」
原因は WindowsUpdate による短時間での同時認証要求にシステムが答えられなかった為だそうで。
こういう認証系システム、ISP 的な所からでは RADIUS や DIAMETER 、また LDAP や SIP も似たようなものですが、全加入者の同時認証要求に応えるのは当然無理です。事象が発生する可能性が皆無だから予算が下りないし、降りたとしても現在のコンピュータの処理能力じゃ無理という世界に入ってしまいますから。
じゃぁ、何%のユーザの同時切断・再認証要求に応えられるようにしようというのが設計の肝であり、勘所なのですが、それすらも予想外の要因で設計値以上の同時認証要求が着てしまったのが今回のような(半ば人為的な)ケースなのでしょう。
認証システムが状態遷移に移る前に認証リクエスト自体を蹴落として(UDP や TCP/SYN の early-discard) するような仕組みになっていればシステムの堅牢性は維持できたかもしれませんが、そのような実装になっている認証システムは果たしてどれくらいあるのでしょうか。
原因はバグと書かれているが、本当にバグなのだろうか。リソースの遅延確保をするように変更したとか、パラメータチューニングしたとかはバグ対応とは言わないと思うのだけど、今回の件は本当にバグなのかしら。
それにしてもマイクロソフト、どこの国でもジャスト AM3:00 にリブートするようにし向けてるのかしら。±15分くらい random でずれるような実装になってればよいのに。ネットワークに優しい利用方法を。
Related posts:


:





No user commented in " スカイプで2日間サービス停止–原因のバグは修正:ニュース – CNET Japan "
コメントをフィードする comment rss / トラックバックするコメントする