ディープラーニングを用いて、道路上の障害物検出に画像解析がどう活用されるのか

人工知能(AI)

2023.03.10

はじめに

「コンピュータービジョン」とは、撮影した画像や動画などをコンピューターに処理させ、視覚的な情報が理解できるように学習させて、そこから情報を導き出し新しい価値提供を可能にするという、人工知能(AI)の研究分野の一つです。人間と変わらない程度の視覚的な感覚・能力を身につけさせて、さまざまな分野に応用可能にするには、まだまだ多くの課題があります。

画像におけるAI 技術の一つに、「物体検出(物体検知)」があります。これはAIが画像の中にある物体やその位置情報などを検出する技術です。近年、AI を用いた画像処理技術を活用して、道路上に落ちている障害物等を識別・検出する高度な取り組みが行われています。本コラムでは、道路上の障害物に画像解析がどう活用されているのか、その概要と課題解決に向けた高度な技術を紹介します。

AIによる画像解析と道路上の障害物検出における概要

物体検出は、コンピュータービジョンにおける最も重要な課題の一つです。意味合いとしては、あるユースケースに適した画像から、意味のあるオブジェクト(物体)を特定することを含みます。物体検出は、「物体の認識」と「位置の特定」という2つで構成されています。「セマンティックセグメンテーション」「インスタンスセグメンテーション」「分類」など、関連する他の課題解決手段とは異なります。オブジェクトのローカライズは、バウンディングボックスに基づく方法を含むさまざまな方法で行うことができます。

物体検出は、コンピュータービジョンの歴史を通じて活発な分野であり、継続的にはディープラーニングアルゴリズムに基づく最新のアプローチおいてもそうです。
画像の注釈、歩行者の検出、顔の検出など、さまざまな監視目的等の課題解決に役立ちます。

道路上で起こりそうなさまざまな作業や行為の中には、交通の混乱を引き起こす可能性があるものや、「障害物」として検知される可能性があるものも存在します。例えば、道路工事、橋梁工事、モニュメントの建設および補修工事、土木機械による工事などが含まれます。こうした作業は、事故や周囲の交通への影響を避けるために常に監視する必要があり、予期せずさまざまな大きさの障害物が道路に放置される可能性もあります。たとえば、図1と図2は、それぞれトラフィックコーンと標識が「障害物」であるとして示されています。

このように、道路上の障害物の検出は、交通安全上の観点や、交通安全を担う各省庁等の業務への一助になるという点でも、非常に重要且つ有用な処理です。

図1:トラフィックコーン
図1:トラフィックコーン

図2:交通標識
図2:交通標識

将来、自動運転車やドローンなど、無人で自律的に動く乗り物の時代が到来します。AI 技術の進歩により、このようなシステムにはさまざまなセンサーが搭載されており、混雑した交通や不慣れな状況でも、より良い判断と操縦ができるようになっています。カメラや光学記録装置を含むこのようなセンサーは、道路工事に関わる物体を検出するのに役立ちます。

こうしたセンサーが、警察や国土交通省のいわゆる「目」となり、意思決定や管理面においてもインサイトを提供してくれます。自動運転車は、大規模プロジェクトの実行に役立ち、大規模なセンシングを可能にします。そのため、処理能力の向上とセンサーデータの可用性の向上に伴って、こうした大規模プロジェクトの実行を可能にする、より優れた検出・処理アルゴリズムの必要性が高まっています。

物体検出は、画像だけでなく動画にも活用されています。動画とは、特定のフレームレートで記録・再生される、いわば連続した画像の集合体です。ただし、動画の処理には、1秒あたりのフレーム数(fps)の要件があるため、多くの課題があります。動画ベースでの物体検出では、検出ロジックが現在の技術の平均的なビデオフレームレートよりも高速であることが要求されます。判断軸などの効果が最大限発揮されるためには、リアルタイムで検出を行う必要性が高まっているのです。従来の画像ベースの検出アルゴリズムでは、動画に対して必要な速度で実行することはできません。

道路上の障害物検出に使用される技術

物体検出のアーキテクチャは、リアルタイム処理が必要であるというニーズを満たすため、継続的に改善されてきました。物体検出に使用されるバックボーンネットワークは、一般に、ResNet[1]、ResNeXT[2]、Xception[3]などの標準ネットワークですが、1つの重要な変更があり、検出目的に合わせて最後の完全接続層が削除されています。通常、物体検出の性能は、mAP (mean Average Precision) を使用して測定されます。これらの研究テーマの目的は、検出ロジックを高速化し、最新のビデオフレームレートを満たすために可能な限りリアルタイムに近づけることです。

物体検出に関連するいくつかのランドマークシステムには、R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]、Yolov3[7]があります。R-CNN は、selective search (SS)(選択的検索)アルゴリズムを使用して、領域提案(画像内で関心のあるオブジェクトが存在しそうな領域)を生成しました。2,000 近くの領域提案を生成し、すべての領域提案を調べて関心のあるオブジェクトを探す必要があったため、性能が低下しました。

Fast R-CNN ネットワークは、convolution(畳み込み)演算を使用して領域提案を生成しましたが、SS アルゴリズムを使用していたため、処理速度が低下していました。より高速な Faster R-CNN は、領域提案を生成するために別のネットワークを組み込みました。Yolov3(シングルステージ検出器)は、ビデオのフレーム レートという点で最高の性能を発揮します。R-CNN、Fast R-CNN、Faster R-CNN システムは、領域提案と物体検出を段階的に実行するため、2ステージ方式と呼ばれていました。YOLO 型のアーキテクチャは、シングルステージで両方の機能を実行する1ステージ型であり、従来よりも高速に動作します。Yolov3 は、最新の GPU マシンとクラウドスペースで学習可能なバックボーンアーキテクチャとして「darkent」を採用しています。SSD (Single Shot MultiBox Detector) アーキテクチャも、このようなワンショット検出システムの 一つです。

最近の物体検出の進歩には、AlexNet[8]、VGG、GoogLeNet[9]、ResNet、DenseNet[10]、SENet などの高度なエンジンの使用があります。物体検出は、オブジェクトの「認識」と「領域」で構成されており、画像表現に不変性と等変量性があることが望ましく、これは特徴統合(CNN モデルからの浅い特徴と深い特徴の統合)を用いて達成することができます。物体検出の進歩には、課題を部分領域検索として見るものと、キーポイントの領域として見るものがあります。また、スケールやローテーションに関して堅牢な検出ロジックを作成することも重要な研究課題です。GAN などのネットワークを使用した敵対的学習も、近年有望な結果として注目されています。

障害物検出には、データセットの入手が困難であるという課題があります。ILSVRC (ImageNet Large Scale Visual Recognition Challenge)、Pascal VOC (Visual Object Classes)、MS COCO (Microsoft Common Objects in Context) などの標準的な物体検出データセットは、この課題には適していません。

交通整理を担う「物体」は道路上の障害物とみなされる可能性があるものの、交通標識や信号機の検出には、照明の変化、モーションブラー、悪天候、リアルタイムでの物体検出など、特有の課題が伴います。こうした課題の解決に向け調査し、以下のようにいくつか重要な方向性が指し示されました。

  • 1.高速化とメモリの制約があるモバイル機器での利用のため、軽量の物体検出が求められている。
  • 2.AutoML は、ニューラルアーキテクチャ検索を通じて検出ロジックを構築する際の人間の必要性を減らすことが可能。
  • 3.アノテーションはコストがかかり、非効率的であるため、弱教師ありの物体検出方法が必要。
  • 4.広いシーンにある小さなオブジェクトを検出することは長らく課題である。

上記のように手ごわい課題が存在するため、 リアルタイムの性能が要求される物体検出の課題を解決するために、さまざまな技術を使用しています。まずオンラインでは、自由に利用できるトラフィックコーンや交通標識のデータセットを使用して、簡単な障害物検出プロジェクトを実現しました。この実現のために、バックボーンアーキテクチャとして densenet を備えた Yolo v3 を使用しました。上記の図1と2は、このタスクに使用されたデータセットの結果の例で、上記のような課題にも見舞われています。

参考文献

  • [1]He, Kaiming, et al. “Deep residual learning for image recognition.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
  • [2]https://towardsdatascience.com/review-resnext-1st-runner-up-of-ilsvrc-2016-image-classification-15d7f17b42ac
  • [3]Chollet, François. “Xception: Deep learning with depth wise separable convolutions.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
  • [4]Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2 Include a high-quality image in your story to make it more inviting to readers.
  • [5]Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE international conference on computer vision. 2015.
  • [6]Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” IEEE transactions on pattern analysis and machine intelligence 39.6 (2016): 1137–1149.
  • [7]Redmon, Joseph, and Ali Farhadi. “Yolov3: An incremental improvement.” arXiv preprint arXiv:1804.02767 (2018).
  • [8]Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. “Imagenet classification with deep convolutional neural networks.” Communications of the ACM 60.6 (2017): 84–90.
  • [9]Szegedy, Christian, et al. “Going deeper with convolutions.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
  • [10]Huang, Gao, et al. “Densely connected convolutional networks.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
  • 執筆協力(敬称略):Algo Analytics Pvt. Ltd. (Pune), Anand Deshpande, Amit Joshi
  • 文章中の商品名、会社名、団体名は、各社の商標または登録商標です。

ディープラーニングを用いて、道路上の障害物検出に画像解析がどう活用されるのか