通信インフラを支えるAIデータ分析技術
オンラインでの仕事や学習、ソーシャルメディアの利用、動画配信サービスの視聴などの他、様々な活動においてデータ通信が行われ、そのデータ量は指数関数的に増加し続けています。このような変化の激しい状況の下で、常に安定した通信環境を維持するためには通信トラフィック予測が非常に重要であり、将来的な帯域輻輳による障害回避やキャパシティプランニングにも有用となります。
トラフィック予測とは
「トラフィック」は一般的には「交通」や「交通量」という意味で使われることが多く、道路上のある地点や区間を往来する車の量を表します。この場合のトラフィック予測といえば、正月やお盆時期における高速道路の渋滞予測が身近な例です。
電気通信(以下、単に「通信」)の分野でも同じ「トラフィック」という言葉が使われますが、こちらは通信ネットワーク内を流れる「データ」や「データ量」のことです。道路=ネットワーク、車=データと置き換えてみるとわかりやすいと思います。
通信ネットワークではデータを送ったり受け取ったりというやり取りが発生しています。自宅や会社からのPC操作はもちろん、最近ではスマホやタブレットなどの端末が広く普及しているため、人が移動する際にも様々な通信が行われます。通信サービスとして利用率の高いSNSではデータ量の少ないテキストの他、写真や動画の投稿も増え、さらに動画配信やオンラインゲームのように一度に多くのデータがやり取りされるような通信も多くなっています。
道路に車が集まりすぎると渋滞するように、通信サービスでも通信トラフィックの集中による渋滞が起こります。通信速度が極端に遅くなったり、場合によっては停止したりします。このような状態では、ライブ配信などの即時性が重要視されるサービスは成立しませんし、オンライントレーディングなどの金融取引の場では大損失につながりかねません。
どのような時にでも安定した通信が行えるようにするため、いつ、どのような場合に混雑するのかを予測し、その時のための対策(十分な帯域の確保、迂回経路の確保など)を準備しておく、ということは、通信環境や通信サービスの提供者においては必須です。
通信トラフィックの予測を始める前に
通信トラフィックにおいて、過去から現在にかけてどのような変化がみられるのかを知ることから始めます。
例えば、総務省が毎年発表している情報通信白書では、インターネットトラフィックの経年変化が示されています。増加傾向であることのほか、その増加率も急激に変わる場合があることも見て取れます。モバイル端末の浸透、本格化した動画配信サービスや高解像度なオンラインゲーム、大容量で高速なネットワークなど、通信に関わる環境は大きく変わり、それに伴い通信トラフィックは増大し続けています。また、コロナ禍をきっかけに非接触・非対面での活動・サービスとして、テレワークやオンライン授業も一般化しており、さらに通信トラフィックは急増しました。
このように通信トラフィックは様々な要因に影響を受けて変化します。そのほかにもワールドカップのような大規模なイベントや、自然災害の発生時には、通常とは全く異なる突発的な変動を示すこともあります。
適切な通信トラフィック予測のためには、まず何を前提に、いつの時点の、どのようなトラフィックを予測するかを詳細に検討し、そのうえで必要な情報(データ)を集めて分析を行う、といった十分な準備が重要なのです。
予測(目的の設定から結果評価まで)
準備となる検討から予測実施に向けて、以下のように5つのステップを踏みながら進めていきます。
(1) 目的を明確にし、予測対象を決める
(2) いつの時点を予測するかを決める
1年後にはどのくらいになるだろう、という単純な興味で予測してみる場合は、当たりはずれにそれほどシビアにならなくてもよいかもしれません。一方、通信サービスを提供する立場の場合は、もう少し差し迫った目的があるはずです。オフィスの通信環境を管理する情報システム部門なら、「できるだけ限られた予算内で社員全員がストレスなく業務を行うことができるような環境を構築維持したい」、その目的のために「今後どのように社内ネットワーク上のトラフィックが変化していくか」を予測し、備える必要があります。
(3) 必要なデータを集めて分析する
(4) 予測手法を検討する
予測対象やその時期が決まったら、過去から現在にかけての測定データや、直接的間接的に影響すると思われる各種データを集めて変化傾向や影響度などを分析し、どのような手法を用いるとよいかを検討します。外挿や回帰など比較的単純な統計的手法から、様々な要因が複雑に絡んで変化を引き起こされるようなときは、機械学習、AIなども選択肢に入ってきます。
前述したように、通信トラフィックは年々増加傾向ですが、観測単位を季節や週、日、と細かくしていくと周期変動が見られます。その他最近の例として、大きな変化を生むきっかけとなったコロナ禍においては、通信トラフィックはそれまでとは全く異なる変動を示しました。特にコロナ禍が始まった直後の2020年春の増加率は大きく跳ね上がり、社会生活への変化とその影響が顕著に表れたことがわかります。
このように様々な変化を示す通信トラフィックを予測するうえでは、周期変動等の基本となるトレンドと、突発的に発生するイベントによる影響度合いを把握し、反映しなければなりません。
基本となるトレンドの把握には、最も大きい周期変動である季節変動を考慮するため、予測時点から遡って過去1年間の分析は必要ですし、経年変化であれば2年以上が必須です。一方、イベントの場合は発生頻度にも依りますが、少なくとも1年間はみておきたいところです。
ここ数年、目覚ましい発展を遂げている機械学習、AIには、時系列予測に利用できるアルゴリズムがあり、決定木の勾配ブースティングをベースにした「XGBoost(Extreme Gradient Boosting)」や[LightGBM(Light Gradient Boosting Machine)]の他、時系列予測に特化した「Prophet」などが挙げられます。「XGBoost」「LightGBM」は、予測対象の特徴量を基に様々な分岐を組合せたツリーモデルを作成し、その分岐に従い結果を予測します。一方、「Prophet」は非周期性の変化(トレンド)、季節性の周期性変化、休日などのイベントによる変化、を足し合わせるような加法モデルで予測を行います。まさに通信トラフィック予測に適した手法です。
(5) 予測し、結果を評価する
最終ステップでは、選定した手法を用いて予測モデルを作成し、予測を行います。機械学習、AI手法の場合、教師データとして利用する学習期間を決定する必要があります。(3)で述べたように、少なくとも1年間の過去データを利用して、トレンドやイベントの影響を学習することが推奨されます。ここで、注意しなければならないのは、コロナ禍のように発生頻度は高くないが影響が大きすぎるイベントが含まれる場合です。特にコロナ禍開始直後の激変する期間を学習して作成した予測モデルで、コロナ禍収束後を予測するのは適切でないことは容易に想像できます。
さて、学習期間を適切に設定し作成した予測モデルを用いて、予測結果を出力できました。ただし、予測して終わり、ではありません。予測結果が当たっているのかどうかを確認し、ここまで実施してきた予測方法がどの程度正しいのかを評価します。予測精度が低ければ、ステップ(3)や(4)に戻って見直しが必要です。
機械学習、AIの手法ではパラメータの見直しや、色々な手法による比較をしてみてもよいかもしれません。
予測精度をあげるために
多種多様なビッグデータを集め、機械学習やAIなどの高度な手法を使って予測をしても精度が良くならない、そのような場合もありえます。予測対象(目的変数)の要因となるトレンドやイベントが教師データ(説明変数)に含まれていなければ、予測精度はなかなか上がらない、ということになります。そのためには要因について様々な視点から考えてみることが重要です。
交通の例では、お盆という季節的なイベントの時期には、帰省や旅行など、車で移動する人が集中します。その結果として高速道路の渋滞が起こるのです。
通信トラフィックも同様に、人が発生させるものです。その人の行動によって変化が起こるという視点から要因を考えてみるのも一つです。
スマホを使うのはどのような時か、動画を見るのは1日のうちのどの時間帯が多いか、など、多くの人の通信行動が集中しやすい場面を想定してみます。
そしてそこを起点に様々なデータを集めて、適切な手法を用いることができれば、結果的に予測精度を高めていくことができるのです。
さいごに
このように様々な観点から予測対象に何が影響を与えるかを分析することを軸に通信トラフィック予測を説明しましたが、実は予測の骨格となる考え方は通信トラフィックに限ったものではありません。何度も例として挙げている道路交通量もそうですし、商品の売上や使用電力量なども、利用するデータは異なりますが、考え方は同じです。
私たちは通信トラフィックの予測を検討してきた経験を活かして通信領域以外へも対象を広げており、さらにその精度を高めるため、日々様々なビジネス領域で予測手法活用の研鑽に努めています。
執筆者
デジタルAI事業本部 アドバンスデータアナリシスビジネスユニット
武田清香(たけだきよか)
入社以来、通信ネットワーク、通信トラフィックに関する制御方式検討評価、帯域設計・予測、各種データ分析業務に携わる。
AIデータ分析コラム
このコラムは、NTT-ATのデータサイエンティストが、独自の視点で、AIデータ分析の技術、市場、時事解説等を記事にしたものです。
※本コラムの著作権は執筆担当者名の表示の有無にかかわらず当社に帰属しております。
AIデータ分析シリーズ
- ソリューション
- パッケージ(Spotfire、TIBCO製品)
※DeAnoSは日本電信電話株式会社の登録商標です。
※当社とNTTコム オンライン・マーケティング・ソリューション(株)は、Spotfireの販売契約を締結しています。
※TIBCO、Spotfireは、Cloud Software Group, Inc.の商標または登録商標です。