引言
配方煙絲是葉絲、梗絲、膨脹絲、薄片絲等組分按配方比例均勻摻配后得到的產品。梗絲、膨脹絲、薄片絲的摻配,對降低卷煙成本、降焦減害、改善感官質量有重要意義。因此,快速準確地測定各組分在產品中的比例,對于保持產品質量、考查各組分的配方設計目標值、穩定煙絲混合工藝質量及同質化生產具有重大意義。目前,有關各組分比例測定的研究已有較多報道,林慧等利用膨脹絲在無水乙酮中的漂浮率遠高于其他組分,提出一種基于乙酮比重法的膨脹絲組分比例測定方法;李斌等通過建立煙絲梗絲含量與熱解曲線突變溫度區間的擬合模型,實現了煙絲中梗絲含量的預測;胡立中等利用近紅外光譜技術,建立了梗絲、薄片絲在煙絲中比例的預測模型。但這些技術都存在對測試樣品具有破壞性、測試周期長、時效性差等不足。因此,研究一種快速、無損、準確的配方煙絲組分判別方法極其重要。
高光譜成像技術(HSI)結合了傳統計算機視覺與光譜分析技術的特點,將傳統二維成像技術和光譜技術有機結合,可以同時獲取樣品的詳細光譜信息和圖像信息。目前近紅外高光譜技術在食品安全和質量無損檢測領域的研究逐年增多。趙冬娥等利用主成分分析法提取3種類別垃圾的參考光譜,使用光譜角度填圖法和Fisher判別方法,實現了紙質、塑料、木質垃圾的準確分類,分類準確度可達99%。馮朝麗等通過提取全波段感興趣區域的玉米平均相對反射光強作為分類特征,結合偏最小二乘判別(PLS-DA)分類模型實現了玉米品種的分類。李江波等基于高光譜成像技術,結合主成分分析法和波段比算法對潰瘍果進行分類識別,準確率可達95.4%。
本研究擬通過近紅外高光譜成像技術進行配方煙絲組分判別的可行性考察,探索建立面對像素的配方煙絲4種組分的支持向量機判別模型及結果可視化,并建立面對樣本的配方煙絲4種組分支持向量機和K近鄰定性判別模型,以期為后續利用判別結果進行組分比例測定提供支撐。
實驗部分
2.1 實驗材料與檢測系統
實驗研究對象為某品牌某一批次產品的配方煙絲組分(葉絲、梗絲、薄片絲、膨脹絲),于摻配生產線上獲取。在進行高光譜數據采集前,將煙絲樣品平攤放置于托盤內,置于70%環境濕度,25℃環境溫度的恒溫恒濕室內平衡48h,以降低水分對近紅外光譜的影響。
(1)面對像素的煙絲組分判別實驗:每次取樣40g,作為1個樣本,均勻平鋪在35cm×20cm內徑的托盤內,厚度大于5mm。建模集樣品A1~D1分別為40g的葉絲、梗絲、薄片絲和膨脹絲。預測集樣品A2:32g葉絲8g梗絲,樣品B2:32g葉絲8g薄片絲,樣品C2:32g葉絲8g膨脹絲。分別于光譜通道的首、中、尾部選取一通道合成紅綠藍三通道合成圖(Red-green-blue,RGB),因以第1、第100、第204通道(分別代表1000.07、1541.55、2178.77nm)合成的RGB圖對4種組分有很好的辨識力,所以選取此三通道合成的RGB圖展示樣品。圖1為建模樣品的RGB圖。
圖1 建模樣本的RGB圖
(2)面對樣本的煙絲組分判別實驗:每次取樣10g,作為1個樣本,置于120mm內徑的培養皿內,厚度大于5mm。每種組分樣本數均為100,共計400個樣品。圖2給出了4種組分樣品的RGB圖。按照3∶1的比例劃分建模集和測試集,建模集和預測集的樣本數分別為300個和100個。
圖2 4種配方煙絲組分的RGB圖
本實驗的高光譜數據由圖3所示的高光譜成像系統獲取。整個系統由成像鏡頭、高光譜相機、電動載物臺、4個50W的鹵素燈和計算機等組件構成。
2.2 數據采集及預處理
2.2.1 圖像采集與校正
將樣品放置在電動載物臺上,使電動載物臺以1.2cm/s的速度帶動樣本經過相機視場進行線陣掃描,完成整個煙絲樣本的數據采集。選定的載物臺移動速度應保證提供橫軸和縱軸相等的空間分辨率,并避免圖像尺寸失真且需適合設定的相機曝光時間。圖像采集過程由系統配有的SpecView軟件控制。為了校正來自相機暗電流的原始圖像I,提高信噪比,在與樣品圖像采集相同的系統參數下,首先掃描反射率為99%的標準白色校正板得到全白的標定圖像W;然后通過內置的黑板得到全黑的標定圖像B。最后根據公式(1)計算得到校正后的圖像R。
2.2.2 感興趣區的選取及光譜數據的提取
主成分分析(PCA)是高光譜數據常用的一種高維數據降維方法,可將高維數據線性變換到一個新的坐標系統,以增強信息含量、降低噪聲。基于此,對獲取的校正后圖像進行PCA,選取第一主成分圖像作為感興趣區選取對象,再通過直方圖閾值的方式選取感興趣區(ROI)。
提取樣本ROI所有像素點光譜數據作為面對像素的組分判別研究數據,以興趣區內所有點的像素平均光譜作為面對光譜的組分判別研究數據。獲取的光譜波長范圍為1000~2500nm,對此區域光譜數據的穩定性進行分析,其中2200nm之后的數據噪聲較大,先行剔除。選取1000~2200nm范圍內的數據進行后續分析,獲取的數據有217個光譜維度。研究中所有的高光譜數據采集、校正均基于SpecView軟件平臺,感興趣區的選取、光譜數據的提取及后續的數據預處理、特征波長選擇、分類模型的建立均基于Python3.7軟件。
2.3 特征波長提取方法
連續投影算法(SPA)是一種有效的前向循環特征波長提取方法,在光譜分析領域得到了廣泛應用。SPA能夠從光譜信息中充分尋找含有最低限度冗余信息的波長組合,以代表樣品最大信息量。
二階導數法(SD)通過數學模擬,計算不同波段下的二階導數值。由于二階導數光譜具有更加尖銳、明顯的波峰和波谷,而波峰波谷往往對應著某類化學物質,且不同物質在此位置的差異也會更明顯,因此通過對二階導數光譜的波形進行分析,能迅速確定光譜變化明顯的波長位置,選擇的特征波長具有很好的可解釋性。
3、結果與討論
3.1 面對像素的分析及分類
為了可視化配方煙絲4種組分間的差異性,對4種組分建模集樣品A1、B1、C1、D1(分別代表葉絲、梗絲、薄片絲、膨脹絲)的點光譜數據進行主成分分析。從4個樣品中共提取402,368個點光譜數據,對其進行二階導數和11點0階薩維茨基-戈萊平滑(SG)濾波處理,將得到的數據作為后續分析光譜數據。主成分分析得到的分數通常可顯示樣品的內在信息,獲取的前5個主成分(PCs)的累積方差貢獻率達95.21%,解釋了大多數的光譜變量。圖4A為4種組分樣品點光譜數據在前3個主成分下的3D主成分得分分布圖。由圖可知,盡管不同組分間的得分分布相互重疊,但同一組分內的分布更加集中,形成不同的區域。因此,雖然可以獲得較為直觀的分類結果,但建立面對像素的4種組分的同時判別模型較難實現,需要進行更深入的研究。為簡化模型,考察了實際應用中最常見的葉絲中摻配某一組分的情況,即葉絲與梗絲、葉絲與薄片絲、葉絲與膨脹絲的判別,其光譜數據得分圖見圖4B~D。由得分分布可知,葉絲與梗絲、葉絲與薄片絲面對像素的判別可行性很高,葉絲與膨脹絲則可行性較低。
圖4 面對像素數據在主成分上的3D主成分得分圖
基于以上研究,以建模集樣品的點光譜數據建立葉絲與梗絲、葉絲與膨脹絲、葉絲與薄片絲的支持向量機(SVM)判別模型,并用建立的模型來判別預測樣本A2、B2、C2中的煙絲分布情況。圖5為實際分布與分類結果圖,對比可知,葉絲與梗絲(圖A1、A2)、葉絲與薄片絲(圖B1、B2)雖然在葉絲的邊緣區域存在少量誤分情況,但整體上很好地完成了葉絲與梗絲、葉絲與薄片絲的判別任務。而葉絲與膨脹絲的實際分布圖(圖C1)和分類分布圖(圖C2)顯示:兩者的誤分情況較前兩種判別結果明顯增多,建立的SVM模型判別率較低。綜上可知,建立的葉絲與梗絲、葉絲與薄片絲的SVM分類模型很好地完成了組分判別任務,葉絲與膨脹絲的SVM分類效果不佳,該結果也驗證了基于3D主成分得分分布圖得出的結論,即基于點像素數據進行葉絲與梗絲、葉絲與薄片絲的組分判別較易實現,通過后續的模型優化,可以得到更加可靠穩健的判別模型;而基于點像素數據進行葉絲與膨脹絲的組分判別較難實現,需要深入的研究。
圖5 預測樣本中的實際分布(A1、B1、C1)與分類結果(A2、B2、C2)的對比圖
3.2 面對樣品的分析及分類
在面對樣本的研究中,分析及分類的數據為樣品的平均光譜。
3.2.1 不同配方煙絲組分的原始光譜及二階導數光譜特征
圖6為不同配方煙絲組分的平均光譜圖,不同組分的煙絲樣品有著相似的光譜模式,在1190、1470、1940nm處均存在明顯吸收峰;不同組分的煙絲樣品在某些波段上的反射率存在著較為明顯的差異,證實了基于近紅外高光譜技術進行組分判別的可行性。
圖6 梗絲、葉絲、薄片絲、膨脹絲樣本的平均光譜曲線
雖然4種組分的平均原始光譜數據呈現出較好的可分性,但因樣品不均勻及光譜數據基線偏移帶來的誤差,導致建立的模型不穩定。本研究擬通過結合濾波的二階導數對光譜數據進行預處理。該方法能在一定程度上消除樣品表面不均勻及光譜數據基線偏移帶來的影響,同時可將原始光譜的擴展最大值分解為許多尖銳而不重疊的峰,獲得更多隱藏在原始光譜中的重要光譜細節和光譜特征主要變化的定位點,從而使得光譜的解釋比原始光譜更容易。圖7為4種組分預處理后得到的二階導數光譜。由圖可知,相對于原始光譜,二階導數光譜具有更加尖銳、明顯的吸收峰和吸收谷,便于確定吸收峰和吸收谷位置對應的波長。二階導數光譜的對應波峰和波谷位置與原始光譜不完全一致,而是分布在原始光譜波峰波谷所在區間內,說明二階導數光譜可以揭示隱藏在原始光譜內的光譜細節,從而更準確地提取對配方煙絲的組分判別最有效的特征波長。
3.2.2 不同方法提取特征波長比較
采用特征波長可降低高光譜數據的高維性,并使分類的判別模型更加可靠。分別通過連續投影算法和二階導數法獲取特征波長。
(1)連續投影算法在連續投影算法中,將數據分為建模集和驗證集,通過建模集選取特征波長建立多元回歸模型,計算預測集的均方根誤差(RMSE),選取含最小RMSE的特征波長組合。本研究中,設定的波段數目范圍為4~10,當選取的波長數為6時,達到最小的RMSE(0.07261)。選取的6個特征波長為1408、1608、1658、2013、2084、2151nm。
(2)二階導數法選取二階導數光譜上對煙絲組分分類有較強判別力的波峰波谷(1391、1441、1880、1913nm)位置作為特征波長。
圖7梗絲、葉絲、薄片絲、膨脹絲樣本的平均二階導數光譜曲線
3.2.3 配方煙絲4種組分的判別模型
基于二階導數光譜全波段數據及不同特征提取方法提取的特征波長,建立K近鄰(KNN)和SVM模型,其組分判別模型結果如表1所示。以訓練集十折內部交叉驗證得到的平均判別正確率和測試集判別正確率對判別模型進行評估。基于二階導數光譜全波段數據建立的兩種判別模型的訓練集和測試集的正確判別率均為100%,表明利用二階導數光譜可以很好地執行配方煙絲中4種組分的判別任務;以SPA算法選出的特征波長建立的KNN和SVM判別模型,測試集準確率達到90%,訓練集準確率達到100%。以二階導數法選取的特征波長建立的KNN和SVM模型,訓練集準確率達到95%以上,測試集準確率達到86.97%。建立的模型都較好地完成了組分判別的任務,且降低了模型的復雜度和工業應用成本;SVM模型可以避免KNN模型的過擬合現象,后續選取SVM模型作為本研究的最佳分類器。
表1基于二階導數光譜數據及特征波長對配方煙絲4種組分的判別結果
3.2.4 最佳波段選擇
在上述研究中,利用特征波長提取算法篩選出了對配方煙絲4種組分具有較高判別力的特征波長組合,應用中可采用多光譜儀器進行數據的獲取。為了進一步探究降低工業應用成本的可行性,嘗試在上述選取的特征波長組合中挑選出具有高判別力的特征波長,建立單波長的判別模型。將二階導數法和SPA法提取出的各特征波長結合SVM建立單變量模型,每個單波長在測試集上的準確率如圖8所示。可以看出,大部分特征波長的判別效果較好,其中1441、1608、1658、1880、2151nm的組分判別準確率均達到90%以上,證實了基于單波長進行面對樣本的配方煙絲組分判別的可行性,同時也為配方煙絲4種組分檢測儀器的開發提供了理論支持。
圖8 基于單一特征波長的組分判別率
4、結論
本研究利用近紅外高光譜成像技術開展了面對像素、面對樣本的配方煙絲4種組分(葉絲、梗絲、薄片絲、膨脹絲)的判別研究,采用二階導數法結合薩維茨基-戈萊平滑濾波對光譜數據進行預處理。在面對像素的組分判別研究中,通過點像素的主成分分析,證實了基于此技術對葉絲與梗絲、葉絲與薄片絲進行組分判別的可行性,以前5主成分數據建立的支持向量機判別模型的可視化結果證明了這一點。在面對樣本的組分判別研究中,通過二階導數光譜建立的支持向量機和K近鄰模型都達到了100%的組分判別率,為降低工業應用成本,通過二階導數法和連續投影算法篩選出特征波長,建立的特征波長組合和單波長的支持向量機模型的判別正確率達86.97%。
歡迎關注公眾號:萊森光學,了解更多光譜知識。
萊森光學(深圳)有限公司是一家提供光機電一體化集成解決方案的高科技公司,我們專注于光譜傳感和光電應用系統的研發、生產和銷售。
審核編輯黃宇
-
成像技術
+關注
關注
4文章
303瀏覽量
31776 -
高光譜
+關注
關注
0文章
411瀏覽量
10249
發布評論請先 登錄
高光譜成像儀的成像技術原理
高光譜成像技術的發展趨勢與展望方向
高光譜成像技術在茶葉中的應用與展望

評論