襖からキリン

読んだ論文まとめ。

衛星画像を用いた地物分類の課題整理

こんにちは、スマートシティや公共インフラに関するAIが好きな一面もある@ottamm_190 です。

衛星画像の地物分類のサーベイ A Review of Landcover Classification with Very-High Resolution Remotely Sensed Optical Images—Analysis Unit, Model Scalability and Transferabilityを読んで、学んだことをまとめます。

この論文は、2022年2月時点で、高解像度な衛星画像の地物分類問題を、3つの観点で課題と解決手法をまとめています。

対象者:これから何かしらの社会課題を解決するときに、衛星画像を使いそうな人

数分で読めます。

高解像な衛星画像の定義

この論文では、高解像な衛星画像 (Very-High Resolution Remotely Sensed images) は、1ピクセルが地表の2m 以下としてます。

地物分類(Landcover Classification)タスク分類

  • scene classification:画像パッチを入力とし、シーンタイプを分類
  • semantic segmentation :画像パッチを入力とし、画像パッチ内の各ピクセルについて地物タイプを分類
  • object detection:画像パッチを入力とし、物体の種類を検出し、検出した物体ごとにバウンディングボックスを生成
  • instance detection: 物体検出で行ったバウンディングボックスを提供するだけでなく、バウンディングボックス内の物体の境界を定義
    f:id:masamasa59:20220212115935p:plain
    地物分類のタスク分類。Hoeserら[2] から引用

地物分類の3つの課題

チャレンジングな課題として以下3つを挙げていました。

  1. 分類精度に影響を与えるクラス内変動とクラス間類似性
  2. 学習データの不均衡、不整合、不足
  3. 異なるシーンや地域間で大きなドメインギャップの発生

(1) 分類精度に影響を与えるクラス内変動とクラス間類似性

地物分類は、クラス内変動が大きく、クラス間類似性が高い。 したがって、クラス間の違いを学習するのも難しく、各クラスにおいても、そのクラスたらしめる特徴を学習するのも難しいタスクです。

クラス内変動が大きい例

クラス内変動が大きい例を3種類(スケールの違い、オブジェクトの多様性、エリア:複数オブジェクトで定義されるクラス)示してました。

スケールの違い:大きさが撮影角度、高さにより種類が多い。

f:id:masamasa59:20220212114353p:plain
スケールの違い。Chengら[3]から引用
オブジェクトの多様性:駅のホームや教会など地域に依存することが多い。
f:id:masamasa59:20220212115249p:plain
オブジェクトの多様性。Chengら[3]から引用
エリア:商業、製造工場など、複数のオブジェクトをまとめると、多様性が増す。
f:id:masamasa59:20220212115557p:plain
複数オブジェクトで定義されるクラス。Chengら[3]から引用

クラス間類似性が高い例

道路と屋根、芝生と森などがクラス間で似ている。

f:id:masamasa59:20220212114319p:plain
陸橋と橋クラスが似ている。Chengら[3]から引用

(2) 学習データの不均衡、不整合、不足

データ収集やデータセット作成時に生まれる課題。

不均衡 クラスごとの学習サンプルの数は必ずしも同じとは限らず、シーンに依存することもあるため、学習サンプルのバランスが悪い。

不整合 クラウドソーシングデータセットや公開されたベンチマークデータセットは、クラス定義や詳細レベルに一貫性がない。 あるデータセットでは、広く都市エリアと定義し、別データセットでは、建物や道路と細かく定義している。

f:id:masamasa59:20220212120840p:plain
左図の方がクラスの粒度が荒い。Qinら[1]から引用
f:id:masamasa59:20220212121100p:plain
右図の方がクラスの粒度が荒い。Qinら[1]から引用

品質の欠陥

  • Incomplete Samples:テスト集合の分布をカバーできていない訓練集合。

  ex) 高解像度による詳細化にのため、データ不足・バイアス

  • Inexact Samples:訓練集合がテスト集合の不一致。

  ex) ラベルの解像度や詳細が運用時で異なるなど。

  • Inaccurate Samples:訓練集合、特にラベルが信頼できない。

  ex) クラウドソーシングによるアノテーションミス

(3) 異なるシーンや地域間で大きなドメインギャップの発生

地物分類の抱える時系列性、空間依存性による課題。特定のタスクで学習した分類モデルの汎用性が低い。

一般的な地表から撮影した画像

  • 下部が地面、左右が建物、画像の上部はほとんど空というシーンの構造が多い。

衛生画像

  • 画像の各部分に映り込むもの、その角度が大きく変化し、全く構造化されていない。
  • 大気の影響により物体の見え方が大きく変化する。
  • 地域によって土地柄が大きく異なる(都市と郊外、熱帯地方と寒帯地方など)。

実際に、訓練集合とテスト集合の特徴量のずれを以下で示していました。

f:id:masamasa59:20220212125423p:plain
左図:特徴量のクラス周辺分布のずれ、右図:各クラスの特徴量の分布のずれ。Qinら[1]から引用
結果を見ると、GrassやWaterクラスの特徴がソースとターゲットで大きくずれていることがわかります。 ずれが大きいほど、ターゲットタスクで分類が間違う可能性が高いです。 この結果からは、buildingは重なっていますが、都会や田舎、国の違いで大きくずれることが想定されます。

機械学習アプローチによる解決策

課題に対して、それぞれ解決策がまとまっていました。 記事のボリュームが増すので、アプローチだけ載せて、割愛します。

(1) 分類精度に影響を与えるクラス内変動とクラス間類似性

特徴量設計と、深層モデルのアーキテクチャ改善。

(2) 質の高い学習データの不均衡、不整合、不足の解決策

  • 弱・半教師あり学習
  • Open StreetMap、低解像度画像、部分的なラベル付けされたデータを使用
  • LiDAR、夜間光、SARデータなど multi-modality や multi-view dataの統合

(3) 異なるシーンや地域間で大きなドメインギャップの発生

ドメイン適応・転移学習

感想

高解像度な衛星画像の地物分類の課題感が大きくわかった。 特に、衛星画像のデータセット作成と別課題にデータセットの転用は以下の観点で難しいと感じました。

  • 分類手法がピクセルかボックスレベルかの違いによって、アノテーション方法が異なる。
  • 地物分類から解決したい課題によって、分類粒度のクラス定義が異なる。

また、高解像度されるほど、アノテーションコストが高く、自己教師あり学習と半教師あり学習の期待は高まると思いました。

参考文献

[1] Qin, R.; Liu, T. A Review of Landcover Classification with Very-High Resolution Remotely Sensed Optical Images—Analysis Unit, Model Scalability and Transferability. Remote Sens. 2022, 14, 646. https://doi.org/10.3390/rs14030646

[2] Hoeser, T.; Kuenzer, C. Object Detection and Image Segmentation with Deep Learning on Earth Observation Data: A Review-Part I: Evolution and Recent Trends. Remote Sens. 2020, 12, 1667. https://doi.org/10.3390/rs12101667

[3] Cheng, Gong, et al. "Remote sensing image scene classification meets deep learning: Challenges, methods, benchmarks, and opportunities." IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 13 (2020): 3735-3756.