*¹ ATOS:Autonomous Decentralized Transport Operation ControlSystem
JR東日本×日立:【第1回】首都圏の列車の安定運行へ、2社の知見が融合>
エスカレーションによる時間のロス
——1997年にATOSが稼働を開始し、安定的な輸送サービスが実現する一方で、システムが大規模かつ複雑であるがための課題も浮上したそうですね。
小澤 護(おざわ まもる)氏
東日本旅客鉄道株式会社
鉄道事業本部 モビリティサービス部門 次世代輸送システムサービスセンター(ATOS) マネージャー
小澤氏
はい。1999年に中央線のとある駅でネットワーク機器が故障したのですが、これが中央線全線にわたり列車の遅延を発生させてしまう大きな輸送障害に発展したことがありました。
故障はネットワーク機器たった1つなのですが、その機器につながる線区各駅のさまざまな装置に影響が及び、その結果運行管理が不可能となり、中央線全ての列車を止めざるを得ない、という状況に陥りました。もちろん指令員は早期復旧をめざすのですが、ATOSの監視端末には影響を受けた装置から発せられたアラートが大量に表示され、原因の特定は困難を極めました。
当時も私はATOSに関わっていたのですが、障害発生時の混乱をよく覚えています。ATOSの稼働開始当初は、このような一つの障害が連鎖するようなトラブルが度々発生することがあり、大規模システムの保守の難しさを学びました。
鈴木 久志(すずき ひさし)氏
東日本旅客鉄道株式会社
首都圏本部 鉄道事業部 電気ユニット(システム/システム管理)
鈴木氏
こうしたトラブルを教訓に、ATOS専門の保守チームが設立されました。実は当初、そうした専門部署はありませんでした。保守チームはATOSに障害が発生すると、復旧に向けて事態に対応するとともに、その都度、対応実績を記録し、いま四半世紀以上にわたるデータが蓄積されています。そして現在の保守業務は、この大量の障害対応履歴によって支えられています。
障害が発生すると指令室のATOSの監視端末にアラートが表示され、指令員は、そのメッセージに基づいて障害対応履歴から類似事例を検索し、すぐに対処します。1999年に起きたような複数の機器をまたがる複雑な障害も、多くはすぐに解決することが可能になっています。
しかし指令員はシステムの専門家ではないので、やはり判断が難しい場合もあり、その時は保守チームに調査を依頼します。保守チームは障害対応履歴のほか、装置マニュアルやシステム仕様書を活用して対応に当たりますが、システムのより深い部分、設計やアーキテクチャーに関する調査などについては、日立のエンジニアに協力を依頼します。
渡辺 和昭(わたなべ かずあき)氏
東日本旅客鉄道株式会社
電気システムインテグレーションオフィス プロジェクト推進部 輸送システムユニット 輸送システム変革グループリーダー マネージャー
渡辺氏
トラブルを学びに変えて、保守対応は進化し続けてきましたが、現状、課題となっているのが、指令員が判断できないケースにおける復旧の遅延です。
日中ならば、保守チームも、日立のエンジニアも迅速に対応できますが、夜間や年末年始などはどうしても時間がかかる場合があります。保守チームのメンバーにとって、連絡を受けて深夜にタクシーで会社に急行することもありますし、私も数年前の大みそかに、帰省していた実家から新幹線で指令室に駆け付けたことがありました。その時は、日立の森さんに対応をお願いしましたね。
森 太郎(もり たろう)
株式会社 日立製作所
鉄道ビジネスユニット 国内営業統括本部 JR部 部長代理
森
はい、覚えています。私は問い合わせを受けて、すぐに障害対応できる担当者に展開しました。ただ、ATOSは多くのサブシステムで構成されていて、比較的大きなサブシステムなら関係者が多数いるので対応者を探すのは容易ですが、小さなシステムだと、人を探すのが難しい場合があります。日立の中でも、現在の多層的な体制は迅速性を欠くことがあり、改善の必要があると考えていました。それにワークライフバランスの面でも、こうした負荷の高い働き方は、そろそろ次世代のために日立もJR東日本も改めるべきだと、日頃から皆さんと話していました。
属人化しているノウハウ
渡辺氏
熟練者が持つ保守ノウハウの継承も、復旧時間短縮のための重要な課題だと考えています。私たちは障害対応の実績を継続的に記録していますが、熟練者の感覚的な判断や、常識だから書く必要がないと判断された情報は記録されないことが少なからずあります。こうした、いわゆる暗黙知が熟練者に属人化している現状がある中で、ATOSの開発初期メンバーが退職を迎えつつあります。
加えて現在ATOSの信頼性は格段に向上していて障害自体が減っており、障害が起きても熟練者がパッと対応してしまうため、若い人財が経験を積むことが難しくなっています。属人化された保守ノウハウの継承は、今後ATOSが継続的に安定稼働するうえで喫緊の課題となっています。
田村 尚隆(たむら ひさたか)
株式会社 日立製作所
AI & ソフトウェアサービスビジネスユニット AI CoE Generative AIセンタ ワンストップサポートサービス 主任技師
田村
日立の中でもJR東日本と同様のことが起きています。日立の熟練エンジニアの皆さんは、ATOSの知見を障害対応マニュアルや障害報告書などに残していますが、ATOSが大規模システムであるぶん、記載できない暗黙知も大量に存在しています。そしてやはりATOSを知り尽くした日立の開発初期メンバーも一線を退きつつあります。
日立の熟練者が持つATOSのノウハウを次世代に残し、そしてJR東日本と共有する——その手法を確立することも日立のタスクだと考えています。
膨らむ保守コスト
鈴木氏
保守コストの削減も、これからのATOSを考えるうえで重要な課題です。現在日立には、強固な支援体制を敷いてもらっていますが、一方でATOSの保守コストは膨らみ続けており、システムとしての持続可能性が課題となっています。
現在JR東日本では、これまで日立にお願いしていた専門的な保守業務の一部を自社でも行えるよう、保守担当者の教育を進めている最中ですが、田村さんのお話にあったJR東日本と日立の保守ノウハウの共有が実現すれば、こうした取り組みもさらに加速するでしょう。
田村
ATOSに関して、JR東日本と日立は多くの面で課題を共有しています。今回の共同検証で開発をめざすAIエージェントは、両社にとって高い付加価値をもたらすものになるはずです。
——ここまで、現在ATOSが抱えるさまざまな課題について聞いてきましたが、次回からはいよいよ、共同検証でJR東日本と日立が実現をめざすAIエージェントの全容を詳らかにしていきます。
JR東日本×日立:【第3回】めざすのは、人と一緒に事象を解析するAIエージェントはこちら>