Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Towards Ghost-free Shadow Removal via Dual Hierarchical Aggregation Network and Shadow Matting GAN #13

Open
IsHYuhi opened this issue May 19, 2021 · 0 comments

Comments

@IsHYuhi
Copy link
Owner

IsHYuhi commented May 19, 2021

INFO

author

Xiaodong Cun,1 Chi-Man Pun,1∗ Cheng Shi1,2

affiliation

1 Department of Computer and Information Science, University of Macau, Macau, China
2 School of Computer Science, Xi’an University of Technology, Xi’an, China

conference or year

AAAI2020

link

arXiv
実装

概要

影の除去は, シーン理解のために必要不可欠なタスクである. (例えば, 物体の検出や追跡など, 多くのコンピュータビジョンタスクの性能を低下させる可能性がある. )多くの研究では, 画像内容のマッチングのみを考慮しているため, 影の領域での色の不一致や, 影の境界でのartifactsなどの二種類のghostが発生することが多い.
この研究では以下の2つの方法でこれらの課題に取り組んでいる.

  • Dual hierarchically aggregation network(DHAN)と名付けられたネットワークを提案
  • shadow maskとshadow-freeな画像からリアルなshadow mattingを合成するshadow matting GAN(SMGAN)を提案
    実験により提案手法が実際のデータセットと、合成されたデータセットにおいて既存のSoTAモデルお大きく上回ったことを示した.
    image

既存の深層学習に基づく手法において、大きく2つの欠点がある.

  • 既存のネットワーク構造は, shadow removalのために注意深く設計されていない
    shadow removalのgoalは影の画像から色を復元することであるが, 影の境界もvisual qualityにおいて重要な役割を持つ.
    • DeShadowNetにおいて事前学習済みのVGG19を用いて、マルチコンテキスト特徴から影のmattingのみを学習していて, 境界にartifactgでる.
    • DSCにおいては方向性を考慮したattentionモデルを用いて学習していて, 方向性の詳細をよく捉えているが, これもまた影の境界を多く保持している.
  • 既存のデータセットはユニークな背景画像が 限られていて, 高品質なデータセットが不足している. このように限られたシーンしか存在しないことがshadow imageとshadow-free間の色の生合成に大きな影響を与えている.

提案手法

shadow imageとshadow-free imageは同じsemantic情報を共有しているため, 影の除去においてshadow imageだけを学習するだけで良いという観察に基づいて新たなネットワークを提案.
context aggregation network(CAN)[Chen, Xu, and Koltun2017]をベースにしている. このネットワーク構造はnonlocal dehazingやL0スムージングなどに適していることがわかっている. このネットワーク構造では, ダウンサンプリングを行わないため, 低レベルの詳細部が保存される. shadow removalは低レベルのタスクに似ているが影の領域を学習する必要があるので, Partial convやGated convを使うという解決策が可能性としてあるが, これらはinpaintingのために設計されている. なので影を特別に学習し, 低レベルの詳細部を保持するために, 階層的なレイヤーを集約するように, 複数前のレイヤーから特徴をagregationしてattention module を構築した. 特徴をツリー状の構造に統合. 図はかなり簡略化されているので式(1), (2)を参照した方が理解しやすい.
image

Squeeze-and-excitation block (Hu, Shen, and Sun 2018) to re-weight the importance of each feature channel.
image

loss functions

perceptual loss

image

BCE loss

image

GAN loss

image

Shadow Matting

既存のデータセットは100以上の異なるシーンと10以上のユニークな影の種類しか含まれていない. また, 環境光は非常に早く変化するので, フラッシュでも同じ光の状態で影がある/影のないペアを撮影することは不可能である. shadow/shadow-free image間で変換される光の不確実性は, ネットワークの精度に影響を与える. これらの影響より, 限られたシーンでの訓練はshadow/shadow-freeの領域で色の不一致が発生する. そこでGANを介してshadow-freeな画像を合成し, データセットを作成.

pix2pixと同じようにペア画像として訓練, SMGANの構造はCycleGANを同じ. 実験の結果このような設定は, 影の除去と検出のタスクに十分であることがわかった.
image

検証

Removal

定性評価

image
ISTD, ISTDの合成画像で学習させ, SRDで評価. 合成画像を含めた方がうまくいっている.
image

定量評価

(S) は影の領域における評価, (NS)はnon-shadowの領域における評価
image

Ablation Study

image
image

Detection

定性評価

影の検出だけで学習させた場合.
image

定量評価

back-boneで良いのを試せば精度が上がる可能性がある.
image

影の合成の評価

image

Attention

image

新規性

  • Dual Hierarchical Aggregation Network (DHAN)の提案. 提案されたネットワークは、拡張されたマルチコンテキストの特徴と注目度をそれぞれ階層的に集約する.
  • 現在のペアの影のデータセットを用いて, Shadow Matting GANを提案し, 新しいデータセットを提案, 拡張されたデータセットを用いて学習.
  • 実験によって既存のSoTAモデルと比較して優れた性能が示された.

議論,展望

Comment

既存手法だと新たにBlenderなど使って新しい影を合成したデータセットを用いるなどはよく見かけた.
影を合成してデータセットを作成することを考えた際に, そもそものデータに依存してしまうのでは.. と思っていたがどうやら有効らしい. GANでのaugmentationが有効な例と考えることができる (?)

実際Colabでコードを動かしてみたが, やはりデータセットのドメイン外だとうまくいかないことが多そう. ドメインギャップにどう対応するかが今後の課題になりそう. 他にも, 例として階段などに影が落ちている場合などの影の除去は難しそう.

ゲーム内での合成を確認してみる. ↓
Sidorov (2019), Conditional gans for multi-illuminant color constancy: Revolution or yet another approach?

date

May 19th, 2021

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant