基于深度學習的工業(yè)缺陷檢測方法可以降低傳統(tǒng)人工質(zhì)檢的成本, 提升檢測的準確性與效率, 因而在智能制造中扮演重要角色, 并逐漸成為計算機視覺領(lǐng)域新興的研究熱點之一. 其被廣泛地應(yīng)用 于無人質(zhì)檢、智能巡檢、質(zhì)量控制等各種生產(chǎn)與運維場景中. 本綜述旨在對工業(yè)缺陷檢測的任務(wù)定義、 難點、挑戰(zhàn)、主流方法、公共數(shù)據(jù)集及評價指標等進行全面歸納, 以幫助研究人員快速了解該領(lǐng)域. 具 體而言, 本文首先介紹工業(yè)缺陷檢測的背景與特點. 接著, 按照實際數(shù)據(jù)標注情況, 劃分出缺陷模式已 知、缺陷模式未知與少量缺陷標注 3 種研究任務(wù)設(shè)置, 并根據(jù)方法類型作進一步歸納與分析, 探討了 各方法的性能優(yōu)劣與適用場景, 闡明了方法與實際應(yīng)用需求的關(guān)聯(lián)性. 此外, 本文還歸納了方法部署 中的關(guān)鍵輔助技術(shù), 總結(jié)了現(xiàn)有方法在實際產(chǎn)業(yè)落地中存在的局限性. 最后, 本文對該領(lǐng)域未來的發(fā) 展趨勢和潛在研究方向進行了展望.
引言
大到飛機機翼, 小到芯片晶粒, 工業(yè)制品在現(xiàn)代社會中無處不在. 工業(yè)缺陷檢測, 旨在發(fā)現(xiàn)各種工 業(yè)制品的外觀瑕疵, 是保障產(chǎn)品質(zhì)量、維持生產(chǎn)穩(wěn)定的重要技術(shù)之一. 以往的缺陷檢測需要人工篩查, 成本高、效率低, 難以覆蓋大規(guī)模的質(zhì)檢需求. 近年來, 隨著工業(yè)成像、計算機視覺和深度學習等領(lǐng)域 的新技術(shù)層出不窮, 基于視覺的工業(yè)缺陷檢測技術(shù)得到了長足的發(fā)展, 成為了針對產(chǎn)品外觀質(zhì)檢的一 種有效的解決方案, 引發(fā)了學術(shù)界和工業(yè)界的強烈關(guān)注. 工業(yè)缺陷檢測不僅可以用于檢測各種工業(yè)制 品, 如金屬、紡織物、半導(dǎo)體等, 而且具有優(yōu)秀的檢測精度與效率, 還能提供簡便、安全的操作環(huán)境. 因 此, 工業(yè)缺陷檢測已成為智能制造領(lǐng)域重要的基礎(chǔ)研究與技術(shù)之一, 并被廣泛應(yīng)用于無人質(zhì)檢、智能巡檢、生產(chǎn)控制和異常溯源等場景. 《中國制造 2025》行動綱領(lǐng)指出, 建設(shè)制造強國任務(wù)艱巨而緊迫, 需要加速推進信息化與工業(yè)化的深度融合, 推進生產(chǎn)過程的智能化. 因此, 基于視覺的工業(yè)缺陷檢測 不僅具有非常重要的研究價值, 同時也擁有廣闊的應(yīng)用前景. 然而, 相比于一般的目標檢測任務(wù), 工業(yè) 缺陷檢測面臨著諸多難點, 如, 缺陷樣本匱乏、缺陷的可視性低、形狀不規(guī)則、類型未知等, 導(dǎo)致許多 現(xiàn)有方法難以同時滿足高精度、高速度的任務(wù)需求, 因此在實現(xiàn)落地應(yīng)用的道路上依然存在大量問題 亟待解決.
由于工業(yè)缺陷可以視為工業(yè)產(chǎn)品的外觀 “異!, 因此也有部分工業(yè)缺陷檢測方法采用了異常檢 測的思路. 然而異常檢測的定義與工業(yè)缺陷檢測也有所區(qū)別. 具體而言, 異常檢測的概念更加廣泛與 抽象, 其中圖像異常檢測主要關(guān)注輸入圖像是否為異常實例, 而工業(yè)缺陷檢測更關(guān)注像素層面的檢出 任務(wù). 在像素層面上, 異常與正常模式的差別更加細微, 檢測難度也大幅增加. 因此直接使用異常檢測 方法難以滿足工業(yè)缺陷檢測的任務(wù)需求.
近年來, 深度學習方法因其在處理背景復(fù)雜、缺陷微弱的工業(yè)圖像時展現(xiàn)出卓越的性能優(yōu)勢, 逐 漸在該領(lǐng)域占據(jù)主導(dǎo)地位. 鑒于此, 本文對基于深度學習的工業(yè)缺陷檢測方法進行綜述, 旨在幫助研 究人員快速對該領(lǐng)域的任務(wù)設(shè)置、主流方法、評價體系等方面有系統(tǒng)性的了解. 由于該任務(wù)具有較強 的應(yīng)用驅(qū)動性, 本文按照實際情況中數(shù)據(jù)樣本的標注與使用情況, 劃分出 3 種任務(wù)設(shè)置: 缺陷模式已 知、缺陷模式未知和少量缺陷標注. 特別地, 本文還歸納了促進方法落地的關(guān)鍵輔助技術(shù), 其有助于提 升方法的實用性. 本文關(guān)注各方法間的共性與不同, 按照問題導(dǎo)向逐步剖析其發(fā)展脈絡(luò), 并結(jié)合領(lǐng)域 研究現(xiàn)狀對未來發(fā)展趨勢進行展望, 希望幫助研究者們開拓思路.
目前國內(nèi)外的綜述 [1∼5] 大多探討廣義的異常檢測領(lǐng)域的方法, 試圖涵蓋圖像、視頻、表格和序列 等各種數(shù)據(jù)形式. 文獻 [2, 3] 對基于深度學習的異常檢測方法進行了綜合性的歸納與分析, 但缺乏針 對工業(yè)場景的探討. 文獻 [6, 7] 雖然以工業(yè)生產(chǎn)為背景來綜述, 但主要著眼于傳統(tǒng)方法與系統(tǒng)控制. 文 獻 對基于深度學習的表面缺陷檢測方法進行了系統(tǒng)性的歸納, 但主要梳理有監(jiān)督方法. 而近期, 基 于無監(jiān)督、半監(jiān)督等設(shè)置的研究同樣涌現(xiàn)出許多新的成果, 但目前尚無相應(yīng)針對工業(yè)缺陷檢測領(lǐng)域的 全面而細致的綜述文獻. 因此, 本綜述希望填補這一空缺, 并著重對此類新方法進行介紹與總結(jié). 本文后續(xù)內(nèi)容的組織如下: 第 2 節(jié)介紹工業(yè)缺陷檢測問題的定義, 分析研究難點與挑戰(zhàn); 第 3 節(jié) 基于 3 種任務(wù)設(shè)置介紹近年主流的工業(yè)缺陷檢測方法, 并按照方法的設(shè)計原理進一步歸納與分析; 第 4 節(jié)梳理針對實際部署的關(guān)鍵輔助技術(shù); 第 5 節(jié)介紹常用的公開數(shù)據(jù)集與評價指標, 并比較典型方法 的性能; 最后, 第 6 節(jié)總結(jié)了當前研究的狀況與局限性, 并對未來發(fā)展趨勢與潛在研究方向進行展望.
2 問題定義與研究現(xiàn)狀
2.1 問題定義
基于視覺的工業(yè)缺陷檢測旨在發(fā)現(xiàn)織物、芯片、藥品乃至基建材料等各種工業(yè)制品的外觀可見缺 陷. 這些缺陷雖然微小, 卻可能嚴重危害產(chǎn)品的正常功能. 它們可能發(fā)生在工業(yè)產(chǎn)品的生命周期中任何 時期, 如產(chǎn)品的生產(chǎn)、運輸與使用過程等. 缺陷 (defect) 的概念可類比到異常 (anomaly). 異常指超出預(yù)期模式范圍的數(shù)據(jù) , 目前已有大量 工作對其進行定義與歸類 [1∼5, 9, 10] . 通常學者根據(jù)數(shù)據(jù)之間是否存在上下文關(guān)系, 將異常分為點異常、 上下文異常和集群異常 [1, 5, 10] . 如圖 1(a) 所示, 點異常又稱為離群值 (outliers) , 描述數(shù)值上偏離正 常樣本的獨立數(shù)據(jù); 上下文異常同樣描述數(shù)據(jù)點, 其數(shù)值屬于正常范圍, 但不符合局部上下文規(guī)律; 集群異常描述一系列相關(guān)數(shù)據(jù)的集合, 集合中的每一個實例的數(shù)值在單獨考察時都處于正常值域, 但集 合整體的相關(guān)性特征不服從正常模式. 具體到圖像數(shù)據(jù), 文獻 根據(jù)異常是否存在明顯的語義性將 圖像異常分為低級紋理異常和高級語義異常. 與異常相近的概念還包括新穎點 (novelty) 和分布外數(shù) 據(jù) (out-of-distribution, OOD) . 在圖 1(b) 所示的圖像分類任務(wù)中, 基于白貓樣本定義貓類. 白狗即 使顏色相近, 但因語義類別不同而屬于離群值; 黑貓屬于貓類, 語義類別相同, 但其顏色屬性未在訓練 集中出現(xiàn)過, 而屬于新穎點; OOD 則關(guān)注數(shù)據(jù)集合的分布差異, 文本數(shù)據(jù)集與自然場景中貓的數(shù)據(jù)集 的分布呈現(xiàn)出明顯差異. 類似地, 如圖 1(c) 所示, 工業(yè)缺陷檢測中, 正常樣本包括多類產(chǎn)品, 缺陷可被 視為其外觀上的 “異!. 不同的是, 工業(yè)缺陷往往出現(xiàn)在圖像中的小部分區(qū)域, 顯著程度更低, 且語義 概念模糊. 因而, 一般的圖像異常檢測往往僅需區(qū)分正常與異常樣本, 而工業(yè)缺陷檢測更關(guān)注于檢測 圖像中的異常像素. 在實際工業(yè)場景中, 缺陷的定義更加主觀, 因而學者們試圖尋求其與異常檢測的 關(guān)聯(lián). 考慮到上述幾種任務(wù)的相似性, 在部分缺陷檢測方法中也采用了異常檢測、新穎點檢測與 OOD 檢測的思路. 例如, 單獨考慮缺陷的像素值, 可類比為新穎點或離群值; 考慮像素間的關(guān)聯(lián)時, 又可將 其類比上下文異;蚣寒惓.
雖然缺陷通常屬于未知模式, 但仍然可以從已有的缺陷樣本中發(fā)現(xiàn)一定的共性, 因此總結(jié)缺陷與 背景的類型有助于針對性地設(shè)計檢測方法. 如圖 2 所示, 依據(jù)缺陷出現(xiàn)的位置與表現(xiàn)形式, 本文將工 業(yè)缺陷分為表面缺陷與結(jié)構(gòu)缺陷. 表面缺陷主要出現(xiàn)在產(chǎn)品表面的局部位置, 通常表現(xiàn)在紋理突變、 異狀區(qū)域、反規(guī)律模式或錯誤的圖案. 例如, 表面裂紋、色塊、織物的稀織以及商標文字的印刷錯誤 等. 根據(jù)缺陷區(qū)域的像素值與周圍背景的差異性可將其類比為離群值或集群異常: 離群值型缺陷的像 素值通常與正常圖像具有明顯差異; 集群異常型缺陷的像素值與周圍正常區(qū)域?qū)儆谕环秶? 因而更 難被發(fā)現(xiàn). 結(jié)構(gòu)缺陷主要是由產(chǎn)品整體的結(jié)構(gòu)錯誤所致, 包括形變、錯位、缺損與污染. 例如鐵絲的彎 曲、二極管的邊緣缺損或處于錯誤的位置等. 相應(yīng)地, 根據(jù)是否包含產(chǎn)品整體結(jié)構(gòu), 背景可分為紋理類 與物體類. 紋理類聚焦產(chǎn)品的局部表面, 按照復(fù)雜程度依次劃分為簡單紋理、規(guī)則紋理與無規(guī)則紋理. 物體類包含產(chǎn)品整體, 結(jié)構(gòu)更加復(fù)雜, 且存在產(chǎn)品之外的背景干擾. 此時, 不僅需要考慮表面缺陷, 也 要考慮結(jié)構(gòu)缺陷. 可見, 在不同的背景上, 不同種類的缺陷微弱程度不同. 即使是同種缺陷的不同實例 之間, 可視性也可能有較大差異.
根據(jù)輸出結(jié)果粒度的不同, 工業(yè)視覺缺陷檢測任務(wù)一般包括分類和定位. 如圖 3 所示, 對于一個 待測圖像實例, 分類任務(wù)首先將其二分類為正常樣本或缺陷樣本; 當缺陷類型已知時, 還可進一步對缺陷類型進行判別, 例如, 織物上可能存在穿線、異色等多種缺陷. 定位任務(wù)的目標是找到缺陷在圖像 中的具體區(qū)域, 根據(jù)缺陷區(qū)域的描述方式可分為檢測 (檢測框) 與分割 (像素級). 事實上, 上述任務(wù)有 時是可以同時進行的, 例如, 在分類模型上利用可視化方法 [11∼13] 可實現(xiàn)像素級的定位, 分割結(jié)果同 樣可以用來判斷整圖的分類. 由于工業(yè)缺陷的形狀不規(guī)則、尺寸變化較大, 檢測框難以精確表示缺陷 的位置, 而且容易引入較多無關(guān)的背景信息, 對缺陷檢測性能的評估造成麻煩. 因而, 在實際的缺陷定 位任務(wù)中, 研究者們更關(guān)注缺陷分割方法. 鑒于此, 本文將重點論述分類與分割任務(wù)的工作。
2.2 研究概述
工業(yè)缺陷檢測長期以來都是工業(yè)視覺領(lǐng)域最重要的研究之一. 近年來, 隨著深度學習在計算機視 覺任務(wù)中的普及, 基于深度學習的工業(yè)缺陷檢測方法也得到了飛速發(fā)展, 并逐漸占據(jù)主流. 得益于卷 積神經(jīng)網(wǎng)絡(luò) (convolutional neural network, CNN) 強大的特征提取能力與對高維數(shù)據(jù)的表征能力, 基 于深度學習的方法可以自動學習人工難以設(shè)計的特征, 不僅節(jié)約了手工設(shè)計特征的成本, 還令檢測精 度大幅提高. 相比基于圖像處理與統(tǒng)計學習的傳統(tǒng)方法, 它更擅長處理復(fù)雜的工業(yè)圖像數(shù)據(jù). 本文將 近年國內(nèi)外工業(yè)缺陷檢測領(lǐng)域的熱點研究進展組織為圖 4 所示的結(jié)構(gòu). 檢測算法依據(jù)實際工業(yè)場景 中數(shù)據(jù)情況的不同, 被分為缺陷模式已知、缺陷模式未知與少量缺陷標注 3 種設(shè)置. 缺陷模式已知時, 一般采用有監(jiān)督深度學習方法, 需要充足而精確的樣本標注, 可以從分類、檢測與分割 3 種角度進行 方法設(shè)計. 缺陷模式未知時, 一般采用無監(jiān)督深度學習方法構(gòu)造比較對象. 根據(jù)比較對象維度的不同, 可分為在圖像維度與在特征維度比較相似度, 并基于方法的原理進一步細分. 少量缺陷標注的場景貼 近實際工業(yè)情況, 訓練集中包含比例不均衡正負樣本, 且只有少量的缺陷樣本具有精確或不精確的標注. 此時, 根據(jù)具體的數(shù)據(jù)標注情況, 分別采用小樣本、半監(jiān)督和弱監(jiān)督等新興方法來處理, 近年來這 些方法也逐漸得到學術(shù)界與工業(yè)界的高度重視. 自監(jiān)督學習屬于無監(jiān)督學習的一種, 其從無標注數(shù)據(jù) 中挖掘自身的監(jiān)督信息, 最近也在工業(yè)缺陷檢測領(lǐng)域得到了廣泛的應(yīng)用. 因此, 本文從構(gòu)建監(jiān)督信息 的角度對自監(jiān)督方法予以歸納. 輔助技術(shù)主要用于提升檢測方法的實用性, 本文主要從 3 個角度討論. 數(shù)據(jù)增強與合成為數(shù)據(jù)貪婪的檢測模型提供足夠的訓練集; 模型壓縮與加速技術(shù)面向落地使用中的低 存儲開銷與實時性需求; 閾值設(shè)置旨在找到推理階段最合適的分類邊界.
3 檢測算法
3.1 缺陷模式已知
在許多實際工業(yè)場景中, 大部分缺陷的類型已事先經(jīng)過專業(yè)的統(tǒng)計與歸納, 因而在方法設(shè)計時可 以利用缺陷的特征直接檢測, 或者利用先驗知識搜集、標注數(shù)據(jù)集來訓練模型. 基于有監(jiān)督設(shè)置的深度學習方法已經(jīng)在許多視覺任務(wù)上取得了較為成熟的發(fā)展與應(yīng)用. 當缺陷種 類已知且具有充足的標注樣本, 或者需要解決缺陷種類的多分類問題時, 工業(yè)缺陷檢測往往采用有監(jiān) 督方法. 這些方法大多是將已有的通用目標的分類、檢測、分割模型應(yīng)用于工業(yè)場景, 并根據(jù)實際情 況中缺陷的微弱性與模型的速度需求進行微調(diào).有監(jiān)督的方法可以解決缺陷多分類的問題, 適合于大部分缺陷的類型已知或缺陷特點鮮明的情況. 盡管需要高昂的標注成本, 但是此類方法在樣本充足的情況下具有優(yōu)良的性能, 并已在部分實際應(yīng)用 中檢驗了方法的有效性. 現(xiàn)有方法在簡單規(guī)則的工業(yè)場景中已較為成熟, 而對于復(fù)雜背景及無規(guī)則微 弱缺陷的檢測仍有發(fā)展空間. 然而, 面對樣本匱乏、缺陷模式未知的情況時, 有監(jiān)督方法本身依然存在 不足.
3.2 缺陷模式未知
在實際情況中, 含有缺陷的樣本極難獲取. 面對缺陷的未知性與無規(guī)則性, 基于缺陷先驗知識的 方法存在較大的局限性. 因此, 無監(jiān)督的設(shè)置已經(jīng)引起了廣泛重視. 此類方法大多借鑒異常檢測的思 路, 對易于獲取與描述的正常樣本進行建模. 缺陷被定義為正常范圍之外的模式. 無監(jiān)督設(shè)置下的任 務(wù)目標通常是判斷待測樣本是否包含缺陷, 或?qū)θ毕輩^(qū)域進行定位, 此時定位結(jié)果的輸出一般是像素 級的分割結(jié)果;跓o監(jiān)督設(shè)置的深度學習方法僅需要易于獲取的正常樣本用于模型訓練, 無需使用真實缺陷樣 本. 其不僅能解決有監(jiān)督深度學習方法無法發(fā)現(xiàn)未知缺陷的問題, 而且擁有比傳統(tǒng)方法更強的對圖像 特征的表達能力, 因而成為了當今的研究熱點. 此類方法的核心思想是構(gòu)建出一個與待測樣本最相近 的 “模板” 與之比較, 根據(jù)像素或特征的差異性實現(xiàn)缺陷的檢出與定位. 根據(jù)比較維度的不同, 本文將 方法劃分為基于圖像相似度的方法與基于特征相似度的方法.
3.3 少量缺陷標注
實際工業(yè)場景的情況往往介于上述兩種設(shè)置之間. 不僅可以獲得相對充分的正常樣本, 還可以事 先收集少量缺陷樣本, 并進行標注. 即使缺陷樣本只有粗粒度的標注也能為檢測性能帶來提升, 因此 純粹的有監(jiān)督與無監(jiān)督方法均難以充分利用提供的數(shù)據(jù), 而不是最佳的解決方案. 此時, 面對樣本稀 少、數(shù)據(jù)不均衡、標注不精確等問題, 研究者們嘗試基于小樣本、半監(jiān)督和弱監(jiān)督的設(shè)置來設(shè)計更加合理的方法.
4 輔助技術(shù)
檢測方法設(shè)計不僅要考慮方法本身的檢測精度, 還需要根據(jù)實際情況, 利用一些輔助技術(shù)幫助其 投入產(chǎn)業(yè)使用. 對此, 本文主要綜述 3 種關(guān)鍵的輔助技術(shù): 數(shù)據(jù)擴增旨在利用合成等手段增加樣本的 多樣性, 以提升有監(jiān)督和自監(jiān)督方法的性能; 輕量化技術(shù)關(guān)注模型在實際部署時的時間與空間復(fù)雜度, 幫助模型在低功耗設(shè)備上達到實時檢測的水平; 閾值設(shè)置是區(qū)分正常與異常樣本的關(guān)鍵, 合適而可控 的閾值設(shè)置有助于方法實現(xiàn)較高的實際性能。
5 數(shù)據(jù)集與性能評估
5.1 常用數(shù)據(jù)集
當前常被用于工業(yè)缺陷檢測研究的數(shù)據(jù)集如表 3 [19, 30, 39, 173∼182]1)所示. 本文具體介紹近年提出的契合不同任務(wù)設(shè)置的典型數(shù)據(jù)集.
5.2 評價指標
由于分類與分割通常在工業(yè)缺陷檢測中具有較大的實用價值, 本文主要介紹這兩類任務(wù)的評價 指標. 分類的性能通常采用準確率 (accuracy)、精確率 (precision) 和召回率 (recall) 進行評估. 準確率指所有預(yù)測正確的類占全部的比重; 精確率也被稱查準率, 指預(yù)測為缺陷的樣本中正確預(yù)測所占的比例; 召回率也被稱為查全率、真陽性 率 (true positive rate, TPR), 指所有缺陷中被正確檢出的比例. 在實際應(yīng)用中, 往往還會關(guān)注誤檢率 (false drop rate, FPR) 與漏檢率 (false negatives rate, FNR), 它們衡量模型的不足之處。像素級缺陷定位的任務(wù)可視為前景與背景的兩類分割問題. 當輸出的異常分數(shù)圖是表示對應(yīng)像素 為缺陷概率的熱力圖時, 需要對其設(shè)定相應(yīng)閾值獲得二值化分割結(jié)果. 因此, 分割指標也可分為固定 閾值的指標和與閾值無關(guān)的指標。
6 總結(jié)與展望
6.1 總結(jié)
作為工業(yè)視覺的核心技術(shù), 基于視覺的工業(yè)缺陷檢測因其廣泛而重要的應(yīng)用價值, 逐漸成為炙手 可熱的新興研究問題之一. 近年來已經(jīng)涌現(xiàn)出大量的新理論和新方法, 并已逐漸投入實際產(chǎn)業(yè). 本文對 該領(lǐng)域的任務(wù)定義、研究難點、檢測方法、輔助技術(shù)、常用公開數(shù)據(jù)集、評價指標與典型方法性能等 進行了綜合梳理, 重點綜述了深度學習方法的重要進展然而, 盡管目前工業(yè)缺陷檢測方法已在部分工業(yè)數(shù)據(jù)上表現(xiàn)出較高的性能, 但現(xiàn)有研究依然存在 很大的局限性, 限制了相關(guān)方法的進一步研究與落地.
6.1.1 更貼近實際的任務(wù)設(shè)置
基于有監(jiān)督的缺陷檢測方法已逐漸趨于成熟, 展現(xiàn)出了優(yōu)越的性能. 但是有監(jiān)督方法依賴于大規(guī) 模帶有精確標注數(shù)據(jù)的支持, 而數(shù)據(jù)的搜集與標注過程成本高昂, 使之無法與實際工業(yè)場景完全吻合. 同時, 有監(jiān)督方法無法處理新類別缺陷的檢測問題. 無監(jiān)督方法雖然大大降低了數(shù)據(jù)標注的需求, 也 能檢測未知型缺陷, 但是在定位性能與可解釋性方面仍然無法替代有監(jiān)督方法. 在實際生產(chǎn)環(huán)境中, 少量缺陷標注的情況更加常見. 用戶不僅可以提供大量的正常樣本, 同時也 能提供少量具有精確或粗糙標注的缺陷樣本. 相比于上述兩種設(shè)置, 小樣本、半監(jiān)督和弱監(jiān)督的方法 更加貼合工業(yè)場景, 可以更加充分地利用資源, 因而其關(guān)注度迅速增加. 目前, 這些方法仍然處于發(fā)展 的初期, 仍有待進一步的研究與發(fā)展.
6.1.2 缺乏完備的數(shù)據(jù)集
數(shù)據(jù)集是深度學習方法研究的基礎(chǔ). 目前常用于工業(yè)缺陷檢測任務(wù)的數(shù)據(jù)集主要存在著背景類型 單一、缺陷種類單一等不足, 無法模擬現(xiàn)實中復(fù)雜的檢測場景. 在實際工業(yè)生產(chǎn)過程中, 所拍攝的產(chǎn)品 圖像也可能來源于不同的成像條件、不同的拍攝角度或者不同制程, 在同一產(chǎn)品上也會出現(xiàn)不同類型 的缺陷. 構(gòu)建更貼近實際工業(yè)場景與任務(wù)設(shè)置的數(shù)據(jù)集不僅有助于更加實用的算法的開發(fā), 也有助于 算法實際部署. 例如, 多重成像的數(shù)據(jù)集可以將在一種成像條件下難以被發(fā)現(xiàn)的缺陷在另一成像中凸 顯, 從而給缺陷發(fā)現(xiàn)帶來了便利. 工業(yè)缺陷檢測方法在無人巡檢、異常溯源等延伸性工作的性能也需 要經(jīng)過相應(yīng)數(shù)據(jù)集的檢驗. 因此, 新數(shù)據(jù)集的建立與完善也非常重要, 只有構(gòu)造出合適的數(shù)據(jù)集, 才能 支撐各種新場景、新任務(wù)和新設(shè)置下方法的發(fā)展.
6.2 展望
除了上述總結(jié)的目前研究中的不足, 該領(lǐng)域還有許多極具潛力的研究方向有待進一步探索.
6.2.1 神經(jīng)架構(gòu)搜索
現(xiàn)有的基于深度學習的方法大多依靠手工設(shè)計深度神經(jīng)網(wǎng)絡(luò), 依照經(jīng)驗設(shè)置超參數(shù). 因此, 現(xiàn)有 的模型結(jié)構(gòu)可能并非面向工業(yè)缺陷檢測的最優(yōu)解. Rippel 等 [132] 比較了多種基礎(chǔ)網(wǎng)絡(luò)對模型性能的 影響, 其中基于自動機器學習 (automated machine learning, AutoML) 獲得的 EfficientNet [187] 的性能 優(yōu)于人工設(shè)計的 ResNet [188] . EfficientNet 高效的網(wǎng)絡(luò)結(jié)構(gòu)與 Swish 激活函數(shù)被認為是提升性能的主 要原因. 相比于其他通用的視覺檢測任務(wù), 大部分工業(yè)視覺的使用場景更加具體, 利用神經(jīng)架構(gòu)搜索 (neural architecture search, NAS) 的方法自動搜索針對特定任務(wù)場景的最優(yōu)模型是一種可行的解決方 案, 不僅有助于彌補人工經(jīng)驗設(shè)置的不足, 還能提升模型的效率. AutoOD [189] 基于 NAS 搜索 AE 架 構(gòu)的模型參數(shù), 實現(xiàn)了優(yōu)于手工模型的檢測性能. 然而, 目前 NAS 在無監(jiān)督與半監(jiān)督設(shè)置中的應(yīng)用尚 少, 未來可能在工業(yè)視覺領(lǐng)域的相關(guān)任務(wù)上得到發(fā)展.
6.2.2 Transformer 的應(yīng)用
近年來, Transformer 模型 [190] 被引入到計算機視覺領(lǐng)域, 并在多種視覺任務(wù)上展現(xiàn)出優(yōu)越的性 能[191∼195] . 相比于 CNN 關(guān)注局部特征關(guān)系, 視覺 Transformer 利用注意力機制, 可以建模圖像中的長 距離關(guān)系. Xie 等 [196] 將高效的 Swin Transformer[194] 改進后用于有監(jiān)督的太陽能電池板的缺陷檢測.其增加窗間注意力來增強全局語義特征的提取, 用多尺度聚合模塊結(jié)合不同層級的特征, 實現(xiàn)了較高 的分類性能. 然而, Transformer 模型的性能優(yōu)勢通常需要足夠的訓練數(shù)據(jù)支撐, 而大部分工業(yè)缺陷檢 測場景難以獲取充足的缺陷數(shù)據(jù). 因此, 研究者們嘗試在無監(jiān)督設(shè)置下引入 Transformer, 一般將其用 于基于圖像相似度的方法. Mishra 等 [180] 將基于圖像重建模型的編碼器改為 Transformer 結(jié)構(gòu), 以增 強全局特征的提取能力. 同時, 用 GMM 對 Transformer 的編碼結(jié)果進行密度估計. 在測試階段, 根據(jù) GMM 對圖像塊的密度估計結(jié)果進行缺陷定位, 同時結(jié)合重建誤差實現(xiàn)圖像級分類. Pirnay 等 [157] 認 為在基于圖像復(fù)原任務(wù)的缺陷檢測方法 [114] 中, 長距離信息有利于高質(zhì)量的圖像復(fù)原, 從而提升缺陷 分割能力, 因而將 CNN 替換為 Transformer, 根據(jù)周圍信息來復(fù)原圖像塊, 最終根據(jù)重建誤差進行缺陷 分割. Pinaya 等 [197] 首先訓練 VQ-VAE [198] 對圖像進行離散編碼, 然后利用多個高效的 Transformer 模型 Performer [195] 對不同順序的離散編碼進行自回歸建模. 最終基于重建誤差和隱空間編碼的似然 進行異常分割, 從而減少誤檢. Transformer 具有全局關(guān)系建模的能力, 且具有更好的可解釋性 [199] . 但是其對計算資源的需求也 相應(yīng)增大, 對工業(yè)場景的低開銷需求提出挑戰(zhàn). 目前也有相關(guān)工作繼續(xù)在高效 Transformer 模型[194, 195] 與小數(shù)據(jù)集 [199] 的應(yīng)用上進行探索. 盡管目前 Transformer 在工業(yè)缺陷檢測領(lǐng)域的實用性還尚未得到 充分探索, 但現(xiàn)有研究已經(jīng)指出了 Transformer 的潛力.
6.2.3 多重成像與多模態(tài)
早期的工業(yè)缺陷檢測方法利用光學方法提升缺陷的顯著性, 從而使其易于被檢出. 事實上, 工業(yè) 缺陷的種類千差萬別, 可能存在各自適合的成像方式, 因此, 利用不同成像條件的差異產(chǎn)生區(qū)分力是 一個具有潛力的方案. 在實際場景下, 紅外線、X 射線等其他成像方式可能適合特定產(chǎn)品的質(zhì)檢任務(wù); 結(jié)構(gòu)光、激光等方式獲得的 3D 信息還能進一步提升產(chǎn)品結(jié)構(gòu)性缺陷的表達能力. 目前大部分的方法 僅關(guān)注于單一的 RGB、灰度圖像或其他成像形式的輸入. 為了綜合不同成像條件的感知能力, 模型可 以進一步考慮融合多模態(tài)數(shù)據(jù)的特征來增強檢測性能, 以應(yīng)對更復(fù)雜的場景.
6.2.4 更具可解釋性的方法
盡管深度學習極大地促進了工業(yè)缺陷檢測的發(fā)展, 新興的方法擁有卓越的檢測性能, 但是不少方 法仍缺乏完備的可解釋性. 許多基于無監(jiān)督的方法還依賴大量的經(jīng)驗性假設(shè). 對模型解釋性的研究不 僅有助于人們理解模型工作機制, 還能促進新型方法的研發(fā). 從輔助人工檢測的角度而言, 建立人機 互信在實際應(yīng)用落地的推進中至關(guān)重要. 因此, 置信度預(yù)測 [200] 和模型可視化等模型理解的研究不只 在工業(yè)缺陷檢測領(lǐng)域, 也在整個人工智能領(lǐng)域極具意義.
6.2.5 在線學習與聯(lián)邦學習
現(xiàn)有方法大多采用離線學習的方法, 即預(yù)先根據(jù)對應(yīng)所給數(shù)據(jù)集訓練模型, 然后部署到產(chǎn)線中. 但 由于訓練初期通常缺乏有標簽的缺陷樣本, 部署時模型的實際性能難達最佳. 在實際應(yīng)用中, 產(chǎn)線可 以不斷地提供新樣本, 也可能發(fā)現(xiàn)新的缺陷類型. 因此, 運用在線學習的方法對模型進行快速實時的 調(diào)整也將成為后續(xù)研究與應(yīng)用的重點之一. 由于某些產(chǎn)品及其缺陷存在一定的共性特征, 結(jié)合不同生 產(chǎn)線上的樣本有助于充分訓練與調(diào)整模型. 考慮到工業(yè)數(shù)據(jù)往往容易涉及隱私問題, 引入聯(lián)邦學習的 框架有助于在保障各個合作者隱私安全的前提下, 有效地結(jié)合各方的樣本數(shù)據(jù).