通過利用已有數據的方式,遷移學習的方法能夠在一定程度上減少深度學習算法對目標域數據的搜集標注工作。域適應方法是眾多遷移學習方法的一種,其假設源域和目標域的數據特征空間、類別空間一致,僅在特征分布上存在差異。當前域適應目標檢測方法可分為對抗特征學習、圖像翻譯、領域隨機化和偽標簽自訓練等類型(Oza 等, 2021)。
下面分別介紹這些方法的基本原理和研究現(xiàn)狀。
(1)基于對抗特征學習的遷移學習目標檢測方法
在眾多類型的域適應目標檢測方法中,當前最為流行的是對抗特征學習方法,其優(yōu)勢在于泛化性能最好。對抗特征學習通過在目標檢測器中插入領域判別器的方式強迫檢測器學習跨域的公共特征,具體來說,使用梯度反轉層(Gradient Reversal Layer,GRL)(Ganin 等, 2017)使得領域鑒別器盡可能地區(qū)分樣本來自哪個領域,而檢測器則盡可能混淆兩域的特征。(Chen 等, 2018)將對抗特征域適應方法首先引入到目標檢測任務中,在圖像特征層面和實例特征層面分別插入域鑒別器;隨后,(Saito 等, 2019)提出在局部特征上加入域鑒別器,并在全局特征的域鑒別器中參考 Focal Loss(Lin 等, 2018)思想對不同區(qū)分難度的樣本賦予不同權重,以避免強制對齊深層語義特征造成負遷移現(xiàn)象;(Chen 等, 2020)探討了對抗特征對齊中的特征可區(qū)分性和可遷移性的矛盾,利用香農熵計算出空間權重對局部和全局的特征進行加權;(Xu 等, 2020) 在對齊兩域的特征分布時重點關注前景區(qū)域,使用區(qū)域建議網絡計算出各個區(qū)域的注意力作為對抗損失的空間權重。由于對抗學習的不穩(wěn)定性,對抗特征對齊需要利用正則化來穩(wěn)定訓練過程。
(2)基于圖像翻譯的遷移學習目標檢測方法
基于圖像翻譯的方法嘗試將源域圖像通過無監(jiān)督的方式翻譯為具有目標域圖像風格的樣本,這種方法在像素層面縮小了兩域的分布差異。(Arruda 等, 2019)將白天的圖像無監(jiān)督地翻譯到夜晚圖像,并將對應目標的邊界框標簽賦予翻譯后的圖像再訓練目標檢測模型,實現(xiàn)了夜間車輛檢測。(Guo 等, 2019)將包含行人的可見光圖像翻譯到近紅外圖像,綜合使用可見光翻譯前后的圖像訓練檢測模型,緩解了近紅外域標簽缺乏的問題。圖像翻譯的方法可解釋性強,但是域適應目標檢測模型性能依賴于圖像翻譯模塊的效果,由于這不是端到端的過程,在期望優(yōu)化目標檢測效果時缺少調節(jié)圖像翻譯模塊的有效指導。
(3)基于域隨機化的遷移學習目標檢測方法
域隨機化的方法旨在強迫模型不依賴于源域的風格偏差,通過隨機地生成多種風格的源域圖像使得模型不依賴于任何一種風格,因此在目標域也能很好地泛化。由于域隨機化的方法在訓練過程中需要產生大量的隨機風格數據不便于實際使用,域隨機化往往與其他遷移學習方法結合使用。如(Kim T 等, 2019)利用生成對抗網絡了在源域和目標域之間生成了大量的中間域圖像,并將二分類的域別器拓展為多類別。類似地,(Rodriguez, 2019)利用(Huang & Belongie, 2017)提出的自適應實例歸一化(Adaptive Instance Normalization,AdaIN)實現(xiàn)源域到目標域的隨機風格化,并結合偽標簽自訓練應用于 SSD 的跨域目標檢測。
(4)基于偽標簽自訓練的遷移學習目標檢測方法
偽標簽自訓練的基本思想是先利用有標簽的源域數據訓練出初始目標檢測模型,然后利用該模型對無標簽的目標域數據進行預測,由于兩域的分布不同,因此預測的標簽往往具有很大的噪聲,所以需要篩選置信度高的目標域數據加入訓練集中,再繼續(xù)訓練模型,直到模型符合要求(RoyChowdhury 等, 2019)。該方法簡潔有效,其中最為關鍵的步驟在于設計篩選高置信度標簽的規(guī)則。
(5)遙感影像的遷移學習目標檢測方法
與自然影像目標檢測相比,遙感影像目標檢測具有目標尺度差異大、小目標分布密集、光譜特征復雜、前景與背景相似性較高等特點。當前針對遙感影像的域適應目標檢測相關研究還較少。(Koga 等, 2020)在跨域車輛檢測中使用協(xié)方差對齊和對抗特征對齊取得了較好的效果。(Chen 等, 2021)在圖像級特征和實例級特征層面使用對抗特征對齊證實了在正常光照遙感圖像到低光照遙感圖像域適應目標檢測上的有效性。然而(Li X 等, 2020)評估了利用(Zhu 等, 2017)提出的循環(huán)一致對抗生成網絡(Cycle-Consistent Adversarial Networks,CycleGAN)進行圖像翻譯在變化檢測和目標檢測中的效果時,發(fā)現(xiàn)基于對抗生成網絡的圖像翻譯方法未能提高航空影像到衛(wèi)星影像建筑物檢測的效果。