AIデータ分析コラム【12】画像認識AIの先進事例　～生活に浸透する画像認識技術～

AIの適用が進んでいる技術分野の一つに画像認識AI技術があります。画像認識は、画像や映像データからパターンを認識し、ある対象を特定する技術です。計算機の処理能力の向上やビッグデータ処理技術の進化とともに、ニューラルネットワークを用いた画像からの特徴抽出精度が大きく向上したこと、実用的な時間で処理可能になったことなどが要因となり、さまざまな業界・業種で画像認識技術の導入が進んでいます。

本コラムでは、画像認識AIの先進事例とその効果に焦点を当て、私たちの生活にどのように利用されているのかについて紹介するとともに、今後の展望について説明します。

画像認識技術と身近な事例

画像認識は先述の通り、”対象となる画像や映像データの特徴を、学習を通して認識し、ある被写体を特定・抽出する技術”です。特定・抽出された結果は、画像分類や物体検知・検出などといった機械学習のタスクに用いることもできます。画像分類は”抽出結果を特徴に応じて分類分けする技術”であり、物体検知・検出は”抽出結果から検知された物体がどこに写っているかまで特定する技術”になります。

例えば、パン屋のセルフレジでは、物体検知・検出でベーカリートレー上の購入商品を抽出し、画像分類で購入商品を特定し、その価格と個数からレジ精算を効率化・自動化することに活用されています。とある工場では、画像認識で製造ラインを流れる製品の色、形、大きさ、傷など多面的に判定し、人より遥かに早く正しく不良品を摘出しています。製鉄所などでは、条件によって立入禁止エリアが変化する中、作業者が侵入してしまった場合に監視カメラ映像から人物検知により、自動的にラインを停止させるシステムを実現しています。

このように、身近なところで、すでに画像認識AIの活用が大きく広がっています。

画像認識の先進事例とその効果

ここでは、画像認識AIの3つの先進事例とその効果について、紹介します。

(1)　トレーニング画像やリハビリ画像から人の姿勢を3Dで推定！

まずは、スポーツ選手のパフォーマンス改善やリハビリなど、「人の動きを追跡できる」技術、姿勢推定の紹介です。
姿勢推定とは、人物の写った画像や映像から3D空間である人物の姿勢に関する情報を特定する技術です。この技術を用いることで、従来は「センス」で片づけられていた身体の細かい位置や角度などを定量的に捉えることができます。2Dの画像や映像から体の関節や骨の位置と方向などの人の姿勢を３Dで推定するタスクとして3D Human Pose Estimationがあります。従来、このタスクを実行する場合は3D空間上で人の関節点をタグ付けするモーションキャプチャが必要になり、その作成には時間と労力がかかってしまい学習データの作成が困難となる問題がありました。

このような問題に対し、正解データとなる3D姿勢データを与えない「教師なし」と呼ばれる手法で3D Human Pose Estimationにチャレンジし、2Dの姿勢推定結果から3Dの姿勢をカメラの高度から予測し推定するElePoseという手法が提案されています[1]。モーションキャプチャが無くても3Dの人間姿勢推定を行うことに成功しています。

この姿勢推定技術を活用することで、スポーツ選手やダンサーの姿勢を自動的に解析し、技術の向上・改善に役立てたり、リハビリ中の患者の姿勢を解析し、フィードバックに活かしたりすることができます。また、VRやARといった仮想現実や拡張現実を用いて、一流選手や熟練労働者の体の動かし方の体験など、様々な用途への展開が期待できます。

(2) 宇宙から撮影！衛星画像を用いた車両検出

次に、通常見ることができない視点からの画像認識の事例を紹介します。人工衛星から撮影された画像の事例です。
近年、打ち上げられた衛星の数も増え、衛星画像も増加しています。並行して、大量の衛星画像と機械学習を用いた画像認識を活用する動きが活発化しています。その中で、本コラムでは、衛星画像を用いた車両検出の論文事例を紹介します。

衛星画像を用いた車両検出は、都市計画や道路建設、交通管理など、多くのリモートセンシングで重要な役割・効果があります。しかし、衛星画像に写る車両の解像度は小さく、駐車場などの車両が密集する場所では車両1台ごとの分離が困難という問題がありました。この問題に対し、物体検出で車両が存在しそうな領域を提案するニューラルネットワークの構築と、密集車両での曖昧なラベル付けを修正し検出精度を向上させようとする手法が提案されています[2]。
実験結果として、提案手法が他の手法よりも高い検出精度を達成したことが示されており、車両が密集する場所でも車両1台ごとの検出に成功しています。この技術を活用し、リモートセンシングでは広範囲の地域で車両の位置を追跡し、交通量の分析を行い、都市交通流の改善や交通渋滞の緩和に貢献できると考えます。

画像生成AIのStable Diffusionを用いたデータ拡張方法もある！
衛星画像では、天候や時刻に左右され、雲が多めの画像となったり、夜に観測できず取得できなかったり、そもそも対象物が写っていなかったりなど、画像が大量に取得できないことがあります。
この課題に取り組むべく、Stable Diffusionのカスタム安定拡散モデルと呼ばれる、テキスト入力からリアルな画像を生成するAIモデルを用いて、リアルな船舶画像を作成することに成功し、画像生成AIで画像データの拡張を実現しています[3]。
より多くの画像を入力画像として扱うことが可能になり、深層学習での予測精度も向上すると考えられます。

(3) 複数視点の画像から、存在しない新しい視点を作成！

最後に、面白い技術を紹介します。さまざまな角度から撮影した複数の画像から、新しい自由視点の画像を生成するNeRF（Neural Radiance Fields）という技術が提案されています[4]。この論文は、2020年8月に開催されたヨーロッパの研究会議（ECCV）において最優秀賞を受賞しています。

この技術では、3次元位置情報(x, y, z)と視線方向(θ, φ)を入力とし、各座標の色と密度を出力する、ボリュームレンダリングと呼ばれるレンダリング法とニューラルネットワークを用いて、未知の視点からのレンダリングを可能としています。ボリュームレンダリングによって得られたレンダリング画像が実際の画像とどう異なるのかを比較し、モデルを学習していきます。また、3次元位置情報と視線方向をより高次元の特徴ベクトルにマッピングするPositional Encodingという技術も活用され、ニューラルネットワークではより正確に各座標の色と密度を予測できるようにしています。

NeRF技術を活用して、画像のみで自由視点の映像を実現したミュージックビデオを作成した事例もあります。今後は、室内や屋外で撮影された画像から360度映像の実現が可能になると考えます。

今後の展望

画像認識AI技術は、初期のパターン認識からディープラーニングによる高度な分析へと急速に進化してきました。新しいアルゴリズムやハードウェアの進展により、リアルタイムでの高精度な画像解析が可能になり、今後、医療やセキュリティといったミッションクリティカルな分野でも活用されることが予想されます。また、画像認識AIにより人の行動データや時系列データの分析を行い、デジタルツインの実現に貢献できると想定できます。さらに、トレンドである画像生成AIと画像認識AIが相互に補完し合い、先進事例の(2)で紹介したStable Diffusionのように、最新の画像生成AIを有効活用したサービスなども生まれてくると考えられます。

一方で、生成系AIで既に問題となっているように、技術の進歩に伴い、プライバシーや倫理、説明責任や法的制約などの問題に対しても、適切な対処が求められるようになります。これらの問題に対処しつつ、正しくAIを活用し、今以上により良く生活に浸透していければ良いと感じています。

弊社では、このような文字や数値のデータ分析のみでなく、画像認識AIなど、画像・映像・音声などのメディア処理を伴うAI開発のご相談もAIデータ分析コンサルティングサービスにて、承っております。何なりとご相談ください。

参考文献
[1]Bastian Wandt, James J. Little, and Helge Rhodin. "Elepose: Unsupervised 3d human pose estimation by predicting cam-era elevation and learning normalizing flows on 2d poses." (2021), doi:10.48550/arXiv.2112.07088, In Computer Vision and Pattern Recognition(CVPR)(2022.1)
[2]Xianghui Kong, Yan Zhang, Shangtan Tu, Chang Xu, Wen Yang. "Vehicle Detection in High-Resolution Aerial Images with Parallel RPN and Density-Assigner." (2023.3), doi:10.3390/rs15061659
[3]treehacks-2023. ShipSense.ai. Github. 2023, https://github.com/SohamGovande/treehacks-2023/blob/main/README.md, （accessed 2023-11-29）
[4]B. Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." (2020.8), doi:10.48550/arXiv.2003.08934

次のAIデータ分析コラムを読む前のAIデータ分析コラムを読む