AIを使って画像・動画から小さな物体（オブジェクト）を検出する

人工知能（AI）

2023.03.28

はじめに

物体（オブジェクト）検出は、コンピュータービジョンや画像処理に関連する技術で、デジタル画像や映像の中から特定のクラス（人間、建物、車など）の物体（セマンティックオブジェクト）のインスタンス検出を扱うものです。物体検出は、コンピュータービジョンにおける最も基本的で困難な課題の1つとして、近年大きな注目を集めています。物体検出の研究領域には、顔検出と歩行者検出などがあります。物体検出は、画像検索やビデオ監視など、コンピュータービジョンの多くの分野で応用されています。また、サッカーの試合中のボールの追跡、クリケットのバットの動きの追跡、ビデオ内の人物の追跡など、物体の追跡にも利用されています。

前回の記事では、物体検出の自動運転車への応用として、道路上の障害物や標識の検出について説明しました。一般的な物体検出器は、中型や大型の物体に対して優れた性能を発揮しますが、小さな物体を認識するというタスクに対しては、全体的にあまりよい性能を発揮しません。

小さな物体の例としては、図1のような衛星画像に写った船舶や、ドローンによる遠方からの撮影に写った交通標識などが挙げられます。小さな物体の検出は、解像度と情報が限られているため、コンピュータービジョンでは困難なタスクです。この記事では、小さな物体検出のためのFeature Pyramid Networksと、データ補強・性能向上のための超解像度 GAN について説明します。

Feature Pyramid Networks

図1：Feature Pyramid Networks

Feature Pyramid^[2]は、さまざまなスケールで物体（オブジェクト）を検出する認識システムの基本的な構成要素です。しかし、最近のディープラーニング物体検出器は、計算とメモリを大量に消費することもあり、ピラミッド表現を避けてきました。そこで、あらゆるスケールで高レベルのセマンティック機能マップを構築するために、横方向の接続を備えたトップダウンアーキテクチャが開発されました。

Feature Pyramid Network（FPN）と呼ばれるこのアーキテクチャは、図1に示すように、いくつかのアプリケーションにおいて、汎用的な特徴抽出器として大幅に改善されています。海洋における船舶の衛星画像を集めたAirbus shipデータセット^[3]に実装した場合、0.954 の再現率と 0.911 の mAP が達成されました。サンプル結果を図2、図3に示します。

図2：FPNが検出した小型物体（船舶）

図3：FPNが検出した小型物体（船舶）

Super Resolution（超解像）

Super Resolution（超解像）とは、特定の低解像度（LR）画像から高解像度（HR）画像を復元するプロセスです。画像は、空間解像度（サイズ）が小さい、あるいは劣化の結果（ぼやけなど）により、「低解像度」となることがあります。

SR は、コンピュータービジョンの研究コミュニティから大きな注目を集めており、幅広い用途に利用されています。小さなオブジェクトの検出に関する主な課題の1つは、適切な画像の鮮明度と解像度の欠如であるため、画像に対して超解像を施すことが有効であると考えられていました。

このために、SRGAN^[5]が使用されました。学習時に、高解像度画像（HR）を低解像度画像（LR）にダウンサンプリングされます。GAN ジェネレーターは、LR 画像を超解像画像（SR）にアップサンプリングします。図4に示すように、識別器を使用して HR 画像を識別し、GAN 損失を逆伝播してディスクリミネーターとジェネレーターを学習させます。SRGAN は、VGG-19 ネットワークによって抽出された特徴の MSE を測定する知覚損失を使用します。VGG-19 内の特定の層については、それらの機能を一致させる必要があります（機能の最小 MSE）。

図4：基本的な SRGAN アーキテクチャ

ただし、Airbus データセットでは、超解像を使用しても性能の向上はみられませんでした。これは、前述のデータセットでは画質が問題ではなかったためと思われます。比較表を図5に示します。

図5：比較表

小さな物体（オブジェクト）の検出は、コンピュータービジョンにおける困難な課題です。ここで紹介するのは、私たちが引き続き取り組むことができる多くの方法の1つです。 Feature Pyramid Networks は、YOLOv3 などの一般的な物体検出方法よりも大幅に改善されているため、小さな物体検出の分野で有望です。防衛、軍事、輸送、産業などで幅広く適用されています。自動運転車では、遠距離にある道路標識や歩行者を認識し、事故を回避するために広く利用されています。また、製造業での応用も大きく、組立時に小さな不具合を早期に発見することで、後期に不具合が発見された場合よりも、修理や交換に必要な費用を節約することができます。

SRGAN は、Airbusデータセットの性能向上には役立たなかったかもしれませんが、低品質の画像の中の小さなオブジェクトを検出する作業を行っている場合は無視すべきではありません。
我々は、Feature Pyramid Networks を使用した衛星画像における小さな物体検出に革新的な技術を使用し、そのデモを作成しました。

参考文献

※執筆協力（敬称略）：Algo Analytics Pvt. Ltd. (Pune), Anand Deshpande, Amit Joshi
※文章中の商品名、会社名、団体名は、各社の商標または登録商標です。

AIを使って画像・動画から小さな物体（オブジェクト）を検出する