【第22回】データ分析のプロマネのノウハウ
はじめに
現在、あらゆるものがデータ化されています。また企業は顧客情報、売上データ、生産データなど膨大なデータを保有しています。これらデータを有効に活用することで、顧客満足度の向上、販売目標の達成、生産性の向上等、ビジネスに役立てる事ができます。ただし単にデータを収集、集計するだけでは効果的な結果を得ることはできません。有効なデータ分析とするには、課題解決に繋がり、具体的にどのようなアクションをとればよいか促すような結果を示す必要があります。そのためには目的を明確にし、質の高いデータに基づき、適切な分析を行い、ビジネスに繋げていく事が重要となります。
私自身、いまデータ分析を主とした業務を実施していますが、以前はソフトウェア開発業務を行っていました。
データ分析もソフトウェア開発も、まず目的・目標をしっかり決め、スケジュール、品質を考慮しながらプロジェクトを進めていくことになりますのでデータ分析業務もソフトウェア開発業務もプロジェクトマネジメントという観点でみますと基本的な考え方は同じと言えます。
データ分析における工程はソフトウェア開発の工程をなぞると以下のように考える事ができます。
データ分析の工程 | ソフトウェア開発の工程 | |
---|---|---|
1 | 目的設定 | 要件定義 |
2 | 分析の設計 | 設計工程相当 |
3 | 分析の実施 | 製造工程相当 |
4 | 分析結果検証 | 試験工程相当 |
5 | 分析結果の活用 | ー |
それぞれの工程について、考慮することを述べていきます。
1.目的設定
データ分析の目的を設定します。
データ分析によって何を達成し、明らかにしたいのかを明確にしてデータ分析の目的を設定します。目的を明確にし分析の方向性を定めることにより、必要なデータ、分析手法、最終的に得たい成果が定まり、効果的な分析が可能となります。
2.分析の設計
目的設定で定めた目的に向けデータ分析の設計をします。
使用するデータの決定
分析に使用するデータの品質が、分析結果の信頼性に直結しますのでデータの収集元が信頼できるかを確認し、データが何を示しているかを明確に定義します。例えば、いつ・どこで・どのような条件で収集されたものか、収集したデータが特定の条件下で取得したものに偏ってないかなど考慮する事が必要です。
また扱うデータが個人情報や機密情報を含む場合は、プライバシーや機密情報保護についても考慮する必要があります。
分析の目的を達成するための指標の設定
データ分析の結果を測るための具体的な指標を設定します。
指標設定のポイントとしては、 目的達成に貢献でき、定量的に測定可能であること。例えば、異常検知が目的であれば、異常検知率、誤検知率などが指標として考えられます。また、ある程度達成可能な値を指標として設定します。高すぎる指標を設定するとモチベーションが低下する可能性があります。
また、複数の視点で指標を設定することで、多角的な分析が可能になります。
プロジェクトメンバの選定
データサイエンティスト、エンジニアなど、分析に必要なスキルを持ったメンバーを適切に選定します。
3.分析の実施
分析の設計で設定した指標を得るため分析を実施します。
実施する上での注意点として、以下のような事があげられます。
データ収集、クリーニング、加工の過程
収集ミス、データの取違い等発生しないよう、データの品質管理に注意を払います。
加工の段階で欠損値や、外れ値の処理を行います。
欠損値はデータ入力ミスや収集エラーで発生します。欠損値を含むデータは削除してしまうという方法もありますが、場合によっては利用できるデータが大幅に減少することもあります。そのような場合、欠損値の補完を行ってデータを利用できるようにします。欠損値処理はデータ分析の精度に影響を及ぼしますので適切に取り扱う必要があります。
外れ値は、測定機器の誤動作や、通常とは異なる異常な事象、またデータ入力ミス等から発生しますが、必ずしも全ての外れ値を除去するのが正しいとは限りません。データの性質や分析目的を考慮して適切な手法を選択します。
使用するツールの選定
データ分析で使用するツールの選定は分析の目的、データの量や種類などを考慮して選定する必要があります。最適なツールを選ぶことで分析の効率化と精度向上を図ることができます。
分析目的の観点からは、何を分析したいのか、例えば顧客行動の分析なのか売上予測なのか、結果からどのような結論を導き出したいのかを具体的に考え、最適なツールを選択します。
分析データの観点からは、扱うデータの種類(数値データ、テキストデータ、画像データ)やデータの構造(構造化データ、非構造化データ)により適したツールを検討します。
分析データ量の観点からは、分析ツールや計算機に必要な処理能力を検討します。場合によっては大量のディスク容量、高性能なGPUが必要となる事も考えられます。
分析ツールの機能の観点からは、必要な前処理機能(クリーニング、変換、集計等の機能)、分析機能(統計分析、機械学習、可視化機能)、他ツールとの連携、データ量に対するスケーラビリティなどを考慮する必要があります。またツールの操作性(直感的に操作できるか)、ツールを使いこなすための学習コストや、実施する分析者のスキルレベルにマッチしているか、使用コスト(有償、無償、ライセンス形態)、サポート体制、コミュニティの有無や活性度なども考慮します。
ひとつのツールで目的が達成できない場合は、複数のツールを組み合わせることも検討します。
ツールによっては無償試用期間が設定されているものもあるため、試用期間を利用して実際にツールを試してみるのも良いでしょう。
代表的なデータ分析ツールとしては以下のようなものがあります。
- Python (Pandas, NumPy, Scikit-learnなど):高度な分析、カスタマイズ性が高い。
- R:統計分析に特化。
- Excel:基本的な分析、データの可視化に便利。
- Spotfire®:データの可視化に特化。
4.分析結果検証
分析結果の検証を行います。
データ分析プロジェクトにおいて非常に重要なステップです。検証を適切に行うことで分析結果の信頼性を高めて、結果をより良い意思決定へ繋げることができます。
データ分析の結果自体は、そのままではデータ分析の目的となる意思決定の判断材料として活用できません。得られた結果の妥当性や信頼性を検証して、設定した目的へと繋げていく必要があります。
分析結果の検証で実施する事として以下があげられます。
- 結果の信頼性確認:データ入力ミス、計算ミスなど分析過程における誤りが無いか確認します。
- 結果の再現性確認:分析結果が偶然ではなく、再現性があることを確認します。また分析結果が特定のデータや期間にのみ当てはまるものではないかを確認します。
- 解釈の妥当性確認、分析結果の解釈が適切かどうかを確認します。分析結果にバイアスがかかっていないか、過去のデータや傾向と整合性があるか、一般的な常識と矛盾しないかを確認します。また、統計学やデータサイエンスの専門家によるレビューを受けることで、客観的な評価を得ます。
5.分析結果の活用
データ分析は単なる分析結果報告でなく、目的となる課題解決や意思決定に繋がることにより初めてその価値を発揮します。そのためには複数の視点・観点から分析結果を検証し、関係者に分かりやすく伝わるようにし、ビジネスに活かす事ができるようにする事が重要です。
一例として、弊社では大量のNW装置のログをAIツール@DeAnoSを用いてデータ分析をし、NW装置故障や故障予兆などのリスクの検出、NW需要の変化を検知して、NWの事前の制御、故障の早期復旧を行う事を可能としました。
(NTT-ATのソリューション:AI異常予兆検知ソリューション @DeAnoS)
おわりに
皆様もデータ分析をビジネスに取り入れて、新たな価値想像に取り組んでいきましょう。
執筆者
アプリケーション・ビジネス本部 DXビジネス部門
安藤 景太(あんどう けいた)
略歴
ソフトウェア開発業務を経て、現職のデータ分析業務を担当。
AIデータ分析コラム
このコラムは、NTT-ATのデータサイエンティストが、独自の視点で、AIデータ分析の技術、市場、時事解説等を記事にしたものです。
※本コラムの著作権は執筆担当者名の表示の有無にかかわらず当社に帰属しております。
AIデータ分析シリーズ
- ソリューション
- パッケージ(Spotfire、TIBCO製品)
※DeAnoSは日本電信電話株式会社の登録商標です。
※当社とNTTコム オンライン・マーケティング・ソリューション(株)は、Spotfireの販売契約を締結しています。
※TIBCO、Spotfireは、Cloud Software Group, Inc.の商標または登録商標です。