衛星画像を用いた地物分類の課題整理

こんにちは、スマートシティや公共インフラに関するAIが好きな一面もある@ottamm_190 です。

衛星画像の地物分類のサーベイ A Review of Landcover Classification with Very-High Resolution Remotely Sensed Optical Images—Analysis Unit, Model Scalability and Transferabilityを読んで、学んだことをまとめます。

この論文は、2022年2月時点で、高解像度な衛星画像の地物分類問題を、3つの観点で課題と解決手法をまとめています。

対象者：これから何かしらの社会課題を解決するときに、衛星画像を使いそうな人

数分で読めます。

高解像な衛星画像の定義
地物分類（Landcover Classification）タスク分類
地物分類の3つの課題
機械学習アプローチによる解決策
感想
参考文献

高解像な衛星画像の定義

この論文では、高解像な衛星画像 (Very-High Resolution Remotely Sensed images) は、1ピクセルが地表の2m 以下としてます。

地物分類（Landcover Classification）タスク分類

scene classification：画像パッチを入力とし、シーンタイプを分類
semantic segmentation ：画像パッチを入力とし、画像パッチ内の各ピクセルについて地物タイプを分類
object detection：画像パッチを入力とし、物体の種類を検出し、検出した物体ごとにバウンディングボックスを生成
instance detection：物体検出で行ったバウンディングボックスを提供するだけでなく、バウンディングボックス内の物体の境界を定義
地物分類のタスク分類。Hoeserら[2] から引用

地物分類の3つの課題

チャレンジングな課題として以下3つを挙げていました。

分類精度に影響を与えるクラス内変動とクラス間類似性
学習データの不均衡、不整合、不足
異なるシーンや地域間で大きなドメインギャップの発生

(1) 分類精度に影響を与えるクラス内変動とクラス間類似性

地物分類は、クラス内変動が大きく、クラス間類似性が高い。したがって、クラス間の違いを学習するのも難しく、各クラスにおいても、そのクラスたらしめる特徴を学習するのも難しいタスクです。

クラス内変動が大きい例

クラス内変動が大きい例を3種類（スケールの違い、オブジェクトの多様性、エリア：複数オブジェクトで定義されるクラス）示してました。

スケールの違い：大きさが撮影角度、高さにより種類が多い。

f:id:masamasa59:20220212114353p:plain — スケールの違い。Chengら[3]から引用

オブジェクトの多様性：駅のホームや教会など地域に依存することが多い。

f:id:masamasa59:20220212115249p:plain — オブジェクトの多様性。Chengら[3]から引用

エリア：商業、製造工場など、複数のオブジェクトをまとめると、多様性が増す。

f:id:masamasa59:20220212115557p:plain — 複数オブジェクトで定義されるクラス。Chengら[3]から引用

クラス間類似性が高い例

道路と屋根、芝生と森などがクラス間で似ている。

f:id:masamasa59:20220212114319p:plain — 陸橋と橋クラスが似ている。Chengら[3]から引用

(2) 学習データの不均衡、不整合、不足

データ収集やデータセット作成時に生まれる課題。

不均衡 クラスごとの学習サンプルの数は必ずしも同じとは限らず、シーンに依存することもあるため、学習サンプルのバランスが悪い。

不整合 クラウドソーシングデータセットや公開されたベンチマークデータセットは、クラス定義や詳細レベルに一貫性がない。あるデータセットでは、広く都市エリアと定義し、別データセットでは、建物や道路と細かく定義している。

f:id:masamasa59:20220212120840p:plain — 左図の方がクラスの粒度が荒い。Qinら[1]から引用

f:id:masamasa59:20220212121100p:plain — 右図の方がクラスの粒度が荒い。Qinら[1]から引用

品質の欠陥

Incomplete Samples：テスト集合の分布をカバーできていない訓練集合。

　　ex) 高解像度による詳細化にのため、データ不足・バイアス

Inexact Samples：訓練集合がテスト集合の不一致。

　　ex) ラベルの解像度や詳細が運用時で異なるなど。

Inaccurate Samples：訓練集合、特にラベルが信頼できない。

　　ex) クラウドソーシングによるアノテーションミス

(3) 異なるシーンや地域間で大きなドメインギャップの発生

地物分類の抱える時系列性、空間依存性による課題。特定のタスクで学習した分類モデルの汎用性が低い。

一般的な地表から撮影した画像

下部が地面、左右が建物、画像の上部はほとんど空というシーンの構造が多い。

衛生画像

画像の各部分に映り込むもの、その角度が大きく変化し、全く構造化されていない。
大気の影響により物体の見え方が大きく変化する。
地域によって土地柄が大きく異なる（都市と郊外、熱帯地方と寒帯地方など）。

実際に、訓練集合とテスト集合の特徴量のずれを以下で示していました。

f:id:masamasa59:20220212125423p:plain — 左図：特徴量のクラス周辺分布のずれ、右図：各クラスの特徴量の分布のずれ。Qinら[1]から引用

結果を見ると、GrassやWaterクラスの特徴がソースとターゲットで大きくずれていることがわかります。ずれが大きいほど、ターゲットタスクで分類が間違う可能性が高いです。この結果からは、buildingは重なっていますが、都会や田舎、国の違いで大きくずれることが想定されます。

機械学習アプローチによる解決策

課題に対して、それぞれ解決策がまとまっていました。記事のボリュームが増すので、アプローチだけ載せて、割愛します。

(1) 分類精度に影響を与えるクラス内変動とクラス間類似性

特徴量設計と、深層モデルのアーキテクチャ改善。

(2) 質の高い学習データの不均衡、不整合、不足の解決策

弱・半教師あり学習
Open StreetMap、低解像度画像、部分的なラベル付けされたデータを使用
LiDAR、夜間光、SARデータなど multi-modality や multi-view dataの統合

(3) 異なるシーンや地域間で大きなドメインギャップの発生

ドメイン適応・転移学習

感想

高解像度な衛星画像の地物分類の課題感が大きくわかった。特に、衛星画像のデータセット作成と別課題にデータセットの転用は以下の観点で難しいと感じました。

分類手法がピクセルかボックスレベルかの違いによって、アノテーション方法が異なる。
地物分類から解決したい課題によって、分類粒度のクラス定義が異なる。

また、高解像度されるほど、アノテーションコストが高く、自己教師あり学習と半教師あり学習の期待は高まると思いました。

参考文献

[1] Qin, R.; Liu, T. A Review of Landcover Classification with Very-High Resolution Remotely Sensed Optical Images—Analysis Unit, Model Scalability and Transferability. Remote Sens. 2022, 14, 646. https://doi.org/10.3390/rs14030646

[2] Hoeser, T.; Kuenzer, C. Object Detection and Image Segmentation with Deep Learning on Earth Observation Data: A Review-Part I: Evolution and Recent Trends. Remote Sens. 2020, 12, 1667. https://doi.org/10.3390/rs12101667

[3] Cheng, Gong, et al. "Remote sensing image scene classification meets deep learning: Challenges, methods, benchmarks, and opportunities." IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 13 (2020): 3735-3756.

襖からキリン

読んだ論文まとめ。

衛星画像を用いた地物分類の課題整理

高解像な衛星画像の定義

地物分類（Landcover Classification）タスク分類

地物分類の3つの課題

(1) 分類精度に影響を与えるクラス内変動とクラス間類似性

(2) 学習データの不均衡、不整合、不足

(3) 異なるシーンや地域間で大きなドメインギャップの発生

機械学習アプローチによる解決策

感想

参考文献