根據(jù)亞馬遜官方的說法, Amazon Go是技術(shù)創(chuàng)新的成果,無人便利店內(nèi)應(yīng)用了計算機視覺、深度學(xué)習(xí)算法,無線射頻識別、圖像分析和感測融合等多種技術(shù),原理類似于無人駕駛。
那么下邊就介紹一下計算機視覺與圖像處理、模式識別、機器學(xué)習(xí)之間的關(guān)系。
要實現(xiàn)計算機視覺必須有圖像處理的幫助,而圖像處理倚仗與模式識別的有效運用,而模式識別是人工智能領(lǐng)域的一個重要分支,人工智能與機器學(xué)習(xí)密不可分?v觀一切關(guān)系,發(fā)現(xiàn)計算機視覺的應(yīng)用服務(wù)于機器學(xué)習(xí),各個環(huán)節(jié)缺一不可,相輔相成。
計算機視覺
計算機視覺(computer vision):用計算機來模擬人的視覺機理獲取和處理信息的能力。就是指用攝影機和電腦代替人眼對目標(biāo)進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。
計算機視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取'信息'的人工智能系統(tǒng)。計算機視覺的挑戰(zhàn)是要為計算機和機器人開發(fā)具有與人類水平相當(dāng)?shù)囊曈X能力。
機器視覺需要圖象信號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個有能力的視覺系統(tǒng)應(yīng)該把所有這些處理都緊密地集成在一起。
圖像處理
圖像處理(image processing):用計算機對圖像進行分析,以達到所需結(jié)果的技術(shù)。又稱影像處理。
圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用數(shù)字?jǐn)z像機、掃描儀等設(shè)備經(jīng)過采樣和數(shù)字化得到的一個大的二維數(shù)組,該數(shù)組的元素稱為像素,其值為一整數(shù),稱為灰度值。
圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮,增強和復(fù)原,匹配、描述和識別3個部分。常見的處理有圖像數(shù)字化、圖像編碼、圖像增強、圖像復(fù)原、圖像分割和圖像分析等。
模式識別
模式識別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進行處理和分析,以對事物或現(xiàn)象進行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。
模式識別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識別分為有監(jiān)督的分類(Supervised Classification)和無監(jiān)督的分類(Unsupervised Classification)兩種。模式還可分成抽象的和具體的兩種形式。前者如意識、思想、議論等,屬于概念識別研究的范疇,是人工智能的另一研究分支。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物傳感器等對象的具體模式進行辨識和分類。
模式識別研究主要集中在兩方面:
一是研究生物體(包括人)是如何感知對象的,屬于認(rèn)識科學(xué)的范疇;
二是在給定的任務(wù)下,如何用計算機實現(xiàn)模式識別的理論和方法
應(yīng)用計算機對一組事件或過程進行辨識和分類,所識別的事件或過程可以是文字、聲音、圖像等具體對象,也可以是狀態(tài)、程度等抽象對象。這些對象與數(shù)字形式的信息相區(qū)別,稱為模式信息。
模式識別與統(tǒng)計學(xué)、心理學(xué)、語言學(xué)、計算機科學(xué)、生物學(xué)、控制論等都有關(guān)系。它與人工智能、圖像處理的研究有交叉關(guān)系。
機器學(xué)習(xí)
機器學(xué)習(xí)(Machine Learning)是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。
機器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。一個不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機器學(xué)習(xí)逐漸成為人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領(lǐng)域。
機器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對人類學(xué)習(xí)機理的了解,建立人類學(xué)習(xí)過程的計算模型或認(rèn)識模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響相互促進。
人類研究計算機的目的,是為了提高社會生產(chǎn)力水平,提高生活質(zhì)量,把人從單調(diào)復(fù)雜甚至危險的工作中解救出來。今天的計算機在計算速度上已經(jīng)遠遠超過了人,然而在很多方面,特別是在人類智能活動有關(guān)的方面例如在視覺功能、聽覺功能、嗅覺功能、自然語言理解能力功能等等方面,還不如人。
這種現(xiàn)狀無法滿足一些高級應(yīng)用的要求。例如,我們希望計算機能夠及早地發(fā)現(xiàn)路上的可疑情況并提醒汽車駕駛員以避免發(fā)生事故,我們更希望計算機能幫助我們進行自動駕駛,目前的技術(shù)還不足以滿足諸如此類高級應(yīng)用的要求,還需要更多的人工智能研究成果和系統(tǒng)實現(xiàn)的經(jīng)驗。
人工智能
人工智能,是由人類設(shè)計并在計算機環(huán)境下實現(xiàn)的模擬或再現(xiàn)某些人智能行為的技術(shù)。一般認(rèn)為,人類智能活動可以分為兩類:感知行為與思維活動。模擬感知行為的人工智能研究的一些例子包括語音識別、話者識別等與人類的聽覺功能有關(guān)的"計算機聽覺",物體三維表現(xiàn)的形狀知識、距離、速度感知等與人類視覺有關(guān)的"計算機視覺",等等。模擬思維活動的人工智能研究的例子包括符號推理、模糊推理、定理證明等與人類思維有關(guān)的"計算機思維",等等。
從圖像處理和模式識別發(fā)展起來的計算機視覺研究對象之一是如何利用二維投影圖像恢復(fù)三維景物世界。計算機視覺使用的理論方法主要是基于幾何、概率和運動學(xué)計算與三維重構(gòu)的視覺計算理論,它的基礎(chǔ)包括射影幾何學(xué)、剛體運動力學(xué)、概率論與隨機過程、圖像處理、人工智能等理論。
計算機視覺要達到的基本目的有以下幾個:
(1) 根據(jù)一幅或多幅二維投影圖像計算出觀察點到目標(biāo)物體的距離;
(2) 根據(jù)一幅或多幅二維投影圖像計算出目標(biāo)物體的運動參數(shù);
(3) 根據(jù)一幅或多幅二維投影圖像計算出目標(biāo)物體的表面物理特性;
(4) 根據(jù)多幅二維投影圖像恢復(fù)出更大空間區(qū)域的投影圖像。
計算機視覺要達到的最終目的是實現(xiàn)利用計算機對于三維景物世界的理解,即實現(xiàn)人的視覺系統(tǒng)的某些功能。
在計算機視覺領(lǐng)域里,醫(yī)學(xué)圖像分析、光學(xué)文字識別對模式識別的要求需要提到一定高度。又如模式識別中的預(yù)處理和特征抽取環(huán)節(jié)應(yīng)用圖像處理的技術(shù);圖像處理中的圖像分析也應(yīng)用模式識別的技術(shù)。在計算機視覺的大多數(shù)實際應(yīng)用當(dāng)中,計算機被預(yù)設(shè)為解決特定的任務(wù),然而基于機器學(xué)習(xí)的方法正日漸普及,一旦機器學(xué)習(xí)的研究進一步發(fā)展,未來"泛用型"的電腦視覺應(yīng)用或許可以成真。
人工智能所研究的一個主要問題是:如何讓系統(tǒng)具備"計劃"和"決策能力"?從而使之完成特定的技術(shù)動作(例如:移動一個機器人通過某種特定環(huán)境)。這一問題便與計算機視覺問題息息相關(guān)。在這里,計算機視覺系統(tǒng)作為一個感知器,為決策提供信息。另外一些研究方向包括模式識別和機器學(xué)習(xí)(這也隸屬于人工智能領(lǐng)域,但與計算機視覺有著重要聯(lián)系),也由此,計算機視覺時常被看作人工智能與計算機科學(xué)的一個分支。
機器學(xué)習(xí)是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演譯。
為了達到計算機視覺的目的,有兩種技術(shù)途徑可以考慮。
第一種是仿生學(xué)方法,即從分析人類視覺的過程入手,利用大自然提供給我們的最好參考系--人類視覺系統(tǒng),建立起視覺過程的計算模型,然后用計算機系統(tǒng)實現(xiàn)之。
第二種是工程方法,即脫離人類視覺系統(tǒng)框框的約束,利用一切可行和實用的技術(shù)手段實現(xiàn)視覺功能。此方法的一般做法是,將人類視覺系統(tǒng)作為一個黑盒子對待,實現(xiàn)時只關(guān)心對于某種輸入,視覺系統(tǒng)將給出何種輸出。
這兩種方法理論上都是可以使用的,但面臨的困難是,人類視覺系統(tǒng)對應(yīng)某種輸入的輸出到底是什么,這是無法直接測得的。而且由于人的智能活動是一個多功能系統(tǒng)綜合作用的結(jié)果,即使是得到了一個輸入輸出對,也很難肯定它是僅由當(dāng)前的輸入視覺刺激所產(chǎn)生的響應(yīng),而不是一個與歷史狀態(tài)綜合作用的結(jié)果。
不難理解,計算機視覺的研究具有雙重意義。
其一,是為了滿足人工智能應(yīng)用的需要,即用計算機實現(xiàn)人工的視覺系統(tǒng)的需要。這些成果可以安裝在計算機和各種機器上,使計算機和機器人能夠具有"看"的能力。
其二,視覺計算模型的研究結(jié)果反過來對于我們進一步認(rèn)識和研究人類視覺系統(tǒng)本身的機理,甚至人腦的機理,也同樣具有相當(dāng)大的參考意義。