現階段比較受歡迎的圖像識別基礎算法為深度學習法,深度學習模型屬于神經網絡,而神經網絡的歷史可追溯至上世紀四十年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的激勵,解決各種機器學習的問題。1986年Rumelhart、Hinton和Williams在《自然》發表了著名的反向傳播算法用于訓練神經網絡,直到今天仍被廣泛應用。
但是后來由于種種原因,大多數學者在相當長的一段時間內放棄了神經網絡,轉而采用諸如支持向量機、Boosting、最近鄰等分類器。這些分類器可以用具有一個或兩個隱含層的神經網絡模擬,因此被稱作淺層機器學習模型。它們不再模擬大腦的認知機理;相反,針對不同的任務設計不同的系統,并采用不同的手工設計的特征,例如語音識別采用高斯混合模型和隱馬爾可夫模型,物體識別采用SIFT特征,人臉識別采用LBP特征,行人檢測采用HOG特征。
深度學習在計算機視覺領域最具影響力的突破發生在2012年,Hinton的研究小組采用深度學習贏得了ImageNet圖像分類的比賽。ImageNet是當今計算機視覺領域最具影響力的比賽之一,它的訓練和測試樣本都來自于互聯網圖片,訓練樣本超過百萬,任務是將測試樣本分成1000類。自2009年,包括工業界在內的很多計算機視覺小組都參加了每年一度的比賽,各個小組的方法逐漸趨同;2012年,排名2到4位的小組都采用的傳統模擬識別方法,他們準確率的差別不超過1%,而首次參賽的Hinton研究小組采用的是深度學習的方法,且準確率超出第二名10%以上。這個結果在計算機視覺領域產生了極大的震動,掀起了深度學習的熱潮。
與傳統模式識別相比,深度學習最大的不同在于它是從大數據中自動學習特征,而非采用手工設計的特征模型。在過去幾十年模式識別的各種應用中,手工設計的特征處于統治地位,它主要依靠設計者的經驗知識,很難利用大數據的優勢;由于依賴手工調整參數,特征的設計中只允許出現少量參數。深度學習的優勢則顯而易見——大數據中可以包含成千上萬的參數,用來訓練深度學習的數據越多,深度學習算法的魯棒性、泛化能力就越強。
目前,深度學習算法的訓練數據普遍都是幾十萬、上百萬級,像一些互聯網行業的IT巨頭們,他們的訓練數據會是上千萬、甚至上億級別,這也是國外如Google、Facebook、Microsoft等,國內如百度、騰訊等IT巨頭在深度學習算法的應用效果上有著一定優勢的原因。但IT企業與安防企業所用的訓練數據不同,IT巨頭擁有的是互聯網,安防企業擁有的則是安防大數據。二者圖像識別技術的關注點也有不同,IT巨頭的人臉識別技術是服務于他們的商業目標,比如圖像檢索、身份認證、無人駕駛等,而安防企業主要關注的是人臉識別技術在公共安全領域的應用。
-
圖像識別
+關注
關注
9文章
526瀏覽量
39018 -
深度學習
+關注
關注
73文章
5557瀏覽量
122664
原文標題:【技術知識】深度學習在圖像識別中的應用
文章出處:【微信號:jingzhenglizixun,微信公眾號:機器人博覽】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
深度學習進軍太空領域——衛星實時圖像識別
深度學習圖像識別解釋方法的概述

評論