情報が足りない中でのデータ分析の難しさ-若手体験記-
昨今、Kaggleを筆頭にAIや機械学習の腕を競い合うコンペティションが数多くあります。弊社では、若手中心の有志によりこういったコンペティションに参加し、技術力の向上を目指しています。先日も、野菜の価格を予測するコンペティションに弊社から4チームが参加し、上位に食い込むなど、日々切磋琢磨している成果を発揮することができました。今回は、このコンペティションを題材に、データ分析の難しさや面白さについてご紹介します。
今回のコンペティションは気象データから野菜の価格を予測し、その誤差により順位を決めるものでした。エントリーすると、複数の野菜について、過去数年分の日次の価格、取引量、産地などのデータと全国各地の気象データが提示されます。参加チームは、それらデータを分析し、各野菜の未来の価格を予測しました。
コンペティションにおいて、弊社データ分析ソリューションをご提供する際と同じ以下の手順で進めました。今回のコラムでは、主に2)と3)についてご紹介します。
1)課題の理解
2)データの把握やドメイン知識の収集
3)仮説の設定
4)機械学習モデルの作成
5)結果の確認と改善策の検討
6)精度向上検討(3~5の繰り返し)
7)振り返り・情報共有(実案件ではお客様運用状況の検証)
畑作農業の知識を収集し、仮説をたてる
1)の課題の理解は、何を目標にどのような方針で分析を行うのかということを分析者として正しく把握することを意味しますが、コンペティションでは通常予め整理され与えられます。今回の課題は気象データから野菜の価格を予測することです。続いて2)ですが、正しくデータを把握するために、テーマに関連するドメイン知識(分析対象に関する業務知識のこと。今回であれば畑作農業における知識)を収集し、理解しながらデータ把握を進めます。このデータ把握が適切に行えれば、3)での仮説設定はより適切なものとなり、結果として精度のよい機械学習モデル(AIモデル)を作成することができます。
野菜の価格は収穫量とその時の需要、社会情勢、物価動向などの要因が重なり決まると想定されますが、まずは、気象データから野菜の価格を予測していきます。気象データと価格の関係は、気象情報→収穫量(供給量)→価格と繋がっていると予想できます。この繋がりをデータの中から見つけていくことが課題となります。
一般に、何かしらの価格が決まる際には需要と供給のバランスが関係します。しかし、今回野菜の需要量などのデータは与えられていないので、供給側のデータのみから予測する必要がありました。価格の変動を、果たして供給側のデータのみで予測できるかはチャレンジでした。
先ほど確認したように、野菜の価格には、野菜の収穫量が関係することは容易に想像できます。野菜の収穫量には当然天気が影響しているはずです。手元のデータはどのような構造で、目的に対し何に着目する必要があるかを抽出することが、最初の目標です。
手元には、日々の気象データがありますが、一方で野菜の収穫を考えると、種まきから収穫までの長期間の気象により収穫量が左右されると考えます。そこで、野菜の収穫までのスケジュールを調べていきます。例えば、にんじんでは種まきから収穫までに約3か月かかりますが、きゅうりはもっと長くなります。つまり野菜ごとにデータのまとめかたやモデルの作り方が変わることがわかります。今回の場合は予測したい日付から遡り3か月、6か月、9か月の気象データの平均などをとり価格との関係を分析してみました。実際に今回のコンペティションでも、にんじんの価格は過去3か月間の気象との関係が強いが、きゅうりは6か月や9か月間の気象との関わりが強いことが確認できました。
さらに、気象情報には、気温の他に、降水量や日照条件などがあります。野菜の種類によって、生育期の寒暖差が重要だったり、降水量が効いてきたり、収穫量に影響を与える気象情報は異なると考えられます。これらの違いは、野菜ごとの価格を予測する際に、重視すべき気象情報が違う可能性があることを意味します。この観点でデータを分析し、野菜ごとに価格の予測モデルを立てる際に、気温を使う、降水量は使わないなどの条件を決めます。
このようにデータ分析では、手元のデータのみを見るのではなく、調査したドメイン知識とデータの傾向を照らし合わせながら、仮説をたて分析シナリオを決めていく必要があります。
AIモデルを作り改善する
このようにして得られた関係を使い、一度4)機械学習モデルの作成、5)結果の確認と改善策の検討を行います。
手元のデータを使った予測結果を確認すると、正確に予測できている部分と、大きく乖離している部分が確認できました。詳細に見ていくと、年ごとに予測のずれの傾向が違うことがわかりました。したがって、年ごとの傾向を見つけ出すことを目標に3)仮説の検討をし直しました。
年ごとの傾向の差には、例えば物価の影響、トレンドの影響、社会情勢などが関わってきます。今回は気象データのみで、このような情報が提示されていませんでした。そこで、年ごとに価格の値の扱い方を変え、物価変動の影響を一旦無くして予測する方法を考えました。気象情報と価格の本質的な関係を捉えます。再度4)5)を繰り返すと、ある程度の精度で未来の価格を予測することができるようになりました。しかし、「細かい価格の変動」や「急な高騰・下落」が説明できませんでした。この部分を説明するためには、「消費者側の需要」や「社会情勢」「経済状況」についての情報が効いてくると考えられました。しかし、我々のチームではこういった情報をデータの中から見つけることができませんでした。
ある事象(今回は野菜の価格)を説明するために必要な情報というものがあります。今回でいうと気象データから説明できる供給の情報と、説明できない需要の情報です。このような必要な“情報”が“データ”として含まれていないと、どんなに頑張っても“情報”を取り出すことはできません。つまり、手元にあるデータでは説明できない情報はそもそもモデルに組み込むことは不可能です。今回の場合は需要の情報はデータに含まれていないので、この部分をモデルに組み込むことはできません。実際の場面でも、すべてを説明するために必要な情報がそろわない場合も多くあります。このような場合、分析者は何が説明できていて、何が説明できていないかを把握することが必要となります。このような取り組みをすることにより、現在のモデルのリスクがわかり、より納得感のあるデータ分析を行うことができます。
ビジネス価値を導くデータ分析に向けて
今回のようなコンペティションでは直接のお客様がいらっしゃらないため、自分たちだけでドメイン知識(分析対象の業務知識)を調べていく必要があります。弊社データ分析ソリューションをご提供する際は、弊社アナリストがお客様のドメイン知識を引き出しながら、データやAIを操り、AIモデルに組み込みながらブラッシュアップし、お客様の条件を最大限加味したデータ分析を行います。「データはあるけど何ができるかわからない」、「データを使って色々やってはいるけど、なぜ今のような結果になっているかわからない」、「結果が感覚と違い納得いっていない」などなど、様々な問題をお抱えのお客様がいらっしゃると思います。お客様のビジネス課題に我々のデータ分析チームと一緒に取り組んでみませんか?弊社ではデータ分析やシステム化をトータルでご支援しております。どんなことでも結構ですので、是非ご相談ください。
関連する商材
AIデータ分析コンサルティングサービス執筆者
デジタルAI事業本部 アドバンスデータアナリシスビジネスユニット
AIデータ分析コラム
このコラムは、NTT-ATのデータサイエンティストが、独自の視点で、AIデータ分析の技術、市場、時事解説等を記事にしたものです。
※本コラムの著作権は執筆担当者名の表示の有無にかかわらず当社に帰属しております。
前のコラム コラム一覧に戻る 次のコラム
AIデータ分析シリーズ
- ソリューション
- パッケージ(Spotfire、TIBCO製品)
※DeAnoSは日本電信電話株式会社の登録商標です。
※当社とNTTコム オンライン・マーケティング・ソリューション(株)は、Spotfireの販売契約を締結しています。
※TIBCO、Spotfireは、Cloud Software Group, Inc.の商標または登録商標です。