2023.02.22
NEWS
1月29日に発生したF!nelifeの通信障害について
2023年1月29日に発生したF!nelifeの通信障害につきまして、ご不便をおかけいたしました。
今回の障害の詳しい経緯や再発防止策について、ご報告させていただきます。
障害発生期間:
2023年1月29日3時50分から2023年1月30日14時00分 約34時間
障害内容:
Finelifeサービスにおいて遠隔操作が使用不可状態となりました。
障害範囲:
Cube型ゲートウェイをご利用の全てのお客様
障害詳細:
1月29日3:50
新規接続時に使用するサーバーに異常が発生、異常を自動検知し再起動するプログラムが動作しませんでした。
この時点では新規接続のみが出来ない状況でした。
1月30日0:45
新規接続に失敗した場合再接続を繰り返す仕様のため、再接続を繰り返す端末が増えてしまい、サーバーの負荷オーバーによりサービス用サーバーが再起動してしまいました。
この再起動によりCube型ゲートウェイをご利用の全端末の接続が切断されてしまいました。
対応経緯:
1月30日9:00
障害認識、調査開始
1月30日11:26
新規接続用サーバーに異常を確認、再起動
新規接続用サーバーの復旧は確認できましたがサービス用サーバーとの接続が不安定な状態が続いていました。
1月30日13:45
サービス用サーバーの再起動
サーバー間の接続が不安定な状況が解消され、サービス回復いたしました。
1月30日14:00
サービス復旧
問題点と再発防止策:
・障害発生から認識までに時間がかかってしまった
メーカーにて障害発生を監視し、通知する仕組みを作成いたしました。
これにより専門スタッフが常駐していない時間帯であっても迅速な対応が出来るようになりました。
・サーバー異常時に自動再起動するプログラムが作動しなかった
このプログラムが動作しなかった事により、通常時には十分に足りているサーバーの処理能力が限界を超えてしまい、他のサーバーのサービスにまで影響を及ぼす結果となってしまいました。現在このプログラムは修正され、正常に作動するようになっております。
・新規接続に失敗した場合再接続を繰り返してしまう
現状の仕様では接続に失敗する端末が増える度にサーバーへの負荷も増え続けてしまうため、新規接続用サーバーへのアクセス頻度を調整し負荷を減らすアップデートを予定しております。アップデートの際には別途お知らせいたします。アップデートまでの期間に関しましては、通常運用時には十分な処理能力がありますので、他の対策と合わせて安心してご利用頂ける内容になっております
以上、3点の対策を持ちまして今後同様の障害が発生しないよう再発防止に努めて参ります。
この度はご不便ご迷惑をおかけいたしまして、誠に申し訳ございませんでした。
深くお詫び申し上げます。