電話:86-0755-23229824
手機:18948346937 / 13510373651
地址:深圳市寶安區沙井街道后亭茅洲山工業園工業大廈全至科技創新園科創大廈11層C
微信:
微信客服號:
抖音官方號:
1、引言
紅景天為景天科紅景天屬多年生草本植物,中國為紅景天屬植物的分布中心,有73種2亞種7變種。紅景天藥用歷史悠久,能抗疲勞、抗病毒、抗抑郁、增強免疫力、抗輻射、抗炎、抗缺氧和抗衰老等。由于紅景天需求量的急劇增加,導致市場上出現大量的偽品及近緣品種混用的現象,嚴重影響了紅景天使用的安全性和有效性。目前,紅景天的品種鑒別和質量控制已有性狀鑒別、顯微鑒別、紫外可見分光光度法、薄層色譜法、高效液相色譜法、核磁共振光譜法、近紅外光譜法、DNA鑒別法等。但這些方法常存在主觀性過強、耗時過長、損壞樣品、操作復雜和化學試劑污染等缺點。高光譜成像是一門將光譜技術和圖像技術相結合的新型“圖譜二合一”的快速、無損的檢測技術,近幾年已被廣泛應用于農副產品和中藥的質量控制。現利用高光譜成像技術采集紅景天高光譜圖像,采用支持向量機算法建立基于近紅外高光譜鑒別大花紅景天和四裂紅景天的判別模型,實現對紅景天的快速、準確和無損鑒別,為紅景天的品質評價和質量控制提供新思路和新方法。
2、儀器與試藥
iSpecHyper系列高光譜成像系統、紅景天采集于四川省阿壩藏族羌族自治州、甘孜藏族自治州和西藏,經鑒定為景天科紅景天屬植物大花紅景和四裂紅景天。
3、方法與結果
3.1 樣品的制備
取大花紅景天和四裂紅景天藥材的根及根莖,干燥、粉碎、過80目篩,粉末干燥至恒重,每種藥材粉末各取10批,分裝于干凈、干燥的1.5mLEP管中,密封備用。
3.2 高光譜圖像的采集和黑白校正
用藥匙分別取適量大花紅景天和四裂紅景天的干燥藥材粉末,置高光譜成像系統的移動平臺上,采用推掃式的數據采集。調整相機的視場角、曝光時間間隔、成像速度、樣品和鏡頭的間距等參數的匹配,以保證數據圖像的質量。整個系統置于暗箱中,可有效避免圖像采集中環境雜散光的干擾,并對高光譜圖像進行黑白校正。
3.3 高光譜平均反射率光譜和光譜數據的獲取
堆放在移動平臺上的紅景天粉末大小、形狀不規則,邊緣不整齊,會影響到后續的光譜預處理、數據降維和建模的精確性。通過ENVI5.3軟件手動標定感興趣區域(ROI),去除零散邊緣和背景,取每批粉末中心部位的4個大小相近的矩形作為ROI,提取ROI內所有像素的平均反射率光譜值作為大花紅景天和四裂紅景天樣本的平均光譜數據,共得到80個平均光譜數據。為提高信噪比,去除光譜數據起始和結尾噪聲較大的部分,選取有效波長為952.9~1702.2nm的214個波段,建立了大花紅景天和四裂紅景天的最終平均反射率光譜。由圖1A可知:大花紅景天和四裂紅景天的高光譜曲線走勢大致相同,呈現相似的光譜特征。但在相同波長處,大花紅景天的光譜反射率要高于四裂紅景天,在955~1400nm時,大花紅景天的反射率明顯高于四裂紅景天,而在1400~1700nm時,兩者的差距逐漸縮小并趨于一致。光譜曲線在1200、1465nm處有兩個明顯的吸收峰,1200nm處的吸收峰主要由紅景天藥材中相關物質C-H(甲基、亞甲基)伸縮的第二泛音產生,1450nm處的強吸收峰主要與O-H鍵伸縮的第一泛音有關。僅從平均反射率光譜上看,特征峰的個數極少,很難通過尋找特征峰進行鑒別。因此,需要運用化學計量學方法,處理原始反射率光譜,并對高光譜的多維數據進行降維處理,提取或選擇特征部分進行建模判別分析。
(A)
(B)
圖 1 平均反射率光譜(A)和 SNV 預處理后的平均反射率光譜(B)
3.4 光譜的預處理
雖然紅景天樣品經過粉碎、過80目篩,但并不能保證所有樣品粉末的粒徑大小和均勻度完全一致。顆粒不均、樣品表面粗糙易造成光散射效應,影響后續分析。光譜預處理通??捎脕碓鰪娀瘜W差異和去除光譜偽影,減小如散射、探測器噪聲、光學效應和樣品粗糙表面等的影響。選用標準正態變換(SNV)進行光譜預處理。圖1B為大花紅景天和四裂紅景天經過SNV預處理之后的平均反射率光譜。與原始反射率圖譜比較,預處理后的高光譜圖峰形更尖銳,圖形特征也更明顯。
3.5 光譜數據的劃分
樣本光譜數據的有效劃分可提高判別模型的精度和魯棒性。Kennard-Stone(K-S)是一種有效的、廣泛應用的選取訓練集和測試集的方法,采用K-S算法,將80個預處理后的光譜數據按照3:1的比例劃分為60個訓練集和20個測試集。
3.6 特征的選擇
高光譜數據維度和波段間的相關性較高,具有較高的冗余性。這些冗雜信息可能會影響到建模的精度和穩定性,另外,全波段數據信息處理時間相對緩慢。選用常用的競爭性自適應重加權算法(CARS)和連續投影算法(SPA)兩種特征波長選擇方法對數據圖像進行降維處理?;?/span>MATLABR2017b軟件運行代碼實現相關函數,完成對全光譜樣本數據的CARS特征選擇。CARS算法提取特征變量的過程見圖2A,圖2A1~A3依次表示隨蒙特卡洛采樣次數的增加,變量數、交叉驗證預測均方根誤差(RM-SECV)和每個變量回歸系數的變化。由圖2A1可知:由于指數遞減函數的作用,在采樣初期,變量數目隨采樣次數的增加急劇減少;采樣后期,變量數目變化不再明顯。表明在CARS算法的執行中,包含“粗選”和“細選”兩個進程?;诘?/span>26次采樣中獲得的變量子集所建立的PLS回歸模型的RMSECV值達到最小,因此,選定該子集作為特征變量子集,共包含20個變量。圖2B為CARS算法最終選擇的特征變量編號,依次為65、88、99、102、110、111、117、132、135、136、166、180、182、190、195、196、199、205、213、214,對應的波長依次為1175.4、1255.9、1294.5、1305.1、1333.2、1336.7、1357.9、1410.8、1421.4、1424.9、1531.2、1581、1588.1、1616.6、1634.4、1638、1648.7、1670.1、1698.8、1702.3nm。
(A)
(B)
圖 2 CARS 特征波長的篩選過程圖(A)和 CARS 選擇的特征波長(B)
SPA具有快速降維的特點,是一種使矢量空間共線性最小化的前向變量選擇算法,根據PRESS準則對候選子集進行評估,采用MLR的分析程序計算候選子集的關聯指數,并按照相關性遞減的順序對所選變量進行排序。圖3A為SPA選擇過程中,均方根誤差(RMSE)隨選擇的變量數目變化的趨勢折線圖。RMSE是衡量預測值和真實值之間偏差程度的一個標準,RMSE值越小,表明偏差越小,此時預測值和真實值最接近,模型的精度最高,選擇的變量數目最適合建立鑒別模型。當變量數為0~27時,RMSE值整體呈現急劇下降的趨勢,在變量數為27時,RMSE值達到局部最低,為0.1。當變量數為27~30時,雖然RMSE值也有下降,但變化不大,考慮到所選擇的變量數目越多,所建模型的運行時間將會相對延長。最終系統選定特征變量數為27。圖3B為SPA算法在214個波段中按照相關性逐漸遞減的原則篩選的27個特征波段,編號為143、205、180、145、147、212、67、149、87、80、79、136、108、57、214、129、68、134、64、152、66、76、69、77、142、139、141,對應的波長依次為1449.7、1670.1、1581、1456.8、1463.8、1695.2、1182.4、1470.9、1252.4、1227.9、1224.4、1424.9、1326.2、1147.4、1702.3、1400.2、1185.9、1417.9、1171.9、1481.6、1178.9、1213.9、1189.4、1217.4、1446.1、1435.5、1442.6nm。從經過SNV預處理之后的訓練集和測試集中,將SPA選擇的特征波段數據挑選出來用以進行后續分析。
(A)
(B)
圖 3 SPA 選擇過程中 RMSE 的變化趨勢折線圖(A)和 SPA 選擇的特征波長(B)
3.7 判別模型的建立與模型評價
SVM包含支持向量機的分類算法(SVC)和支持向量機的回歸算法(SVR),本試驗選用SVC為建模方法。在SVC建模過程中,核函數及其參數的選取對預測模型的精度有直接影響。核函數在建立分類邊界方面是SVM的一個優勢,能在有效提升分類模型鑒別性能的同時,降低模型的復雜程度。目前常用的核函數有3類,分別是多項式、S形核函數和徑向基核函數(RBF)。多項式核函數屬于全局核函數,參數多,當多項式的階數d比較高的時候,學習復雜性也隨之升高,易出現“過擬合”現象,核矩陣的元素值將趨于無窮大或者無窮小,計算復雜度會大到無法計算。當采用S形核函數時,SVM模型將會變成一種多層感知器神經網絡。與前兩者比較,RBF是一種局部性較強的核函數,參數較少,同時對數據中存在的噪聲有著較好的抗干擾能力,無論樣本的大小都能有很好的性能。因此,選用RBF作為核函數,以全波段(FS)數據為例,采用布谷鳥搜索(CS)、螢火蟲算法(FA)、粒子群算法(PSO)3種參數尋優方法,選擇最佳懲罰參數C和核函數參數g后,進行SVM網格訓練和預測,以測試集的分類準確率和運行時間為衡量指標,選擇最佳的參數優化方法和最適參數。3種參數尋優方法所建立的FS-SVC模型測試集的分類準確率都達到了100%,但在選擇的參數值和運行時間上有差別。
表1 參數尋優的結果
由表1可知:懲罰參數C控制對錯分樣本的懲罰程度,在樣本偏差和機器泛化性能之間進行權衡;C值過大或過小容易造成過擬合或欠擬合;g值隱含地決定了數據映射到新的特征空間后的分布,g值大小與影響訓練和預測速度的支持向量個數呈正相關。綜合比較來看,FA算法選擇的C值適中,且運行時間較其他兩種大大縮短。因此,選擇FA算法為最佳參數優化方法。對80個平均光譜數據進行SNV預處理后,采用K-S算法劃分為60個訓練集和20個測試集樣本。將RBF核函數作為SVC算法的核函數,綜合評價CS、FA、PSO3種參數優化方法后,選用FA算法選擇最佳懲罰參數C和核函數參數g。
FA算法是一種基于智能群的優化算法,主要利用螢火蟲發光的特點進行隨機優化。利用螢火蟲個體模擬問題的可行解,目標函數值表示螢火蟲的亮度。較亮的螢火蟲會吸引其他個體向此方向進行位置移動,他們之間的吸引力與距離成反比。如果某個螢火蟲周圍沒有更亮的個體,它選擇不移動或者隨機變換位置。FA算法的運行參數設置為螢火蟲數量20,最大迭代次數50,步長因子0.5,吸引度0.2,光強吸收系數1。輸出的最優參數值為C=39.2,g=0.01,利用此數值建立SVC分類判別模型。RMSE和平方相關系數是用來衡量模型的預測值和實測值之間偏差大小的標準。優秀的分類判別模型應同時具備高的分類準確率和平方相關系數以及低的均方根誤差。由表2可知:經過FA算法優化的模型在準確率和運行時間上都較未經參數優化的模型大大提高,3種分類鑒別模型都達到了很好的分類鑒別效果,除SPA-FA-SVC模型外的其他兩種判別模型的分類準確率均達到了100%,且CARS-FA-SVC模型的運行時間最短??紤]到在實際應用中要對大規模紅景天樣本進行分類鑒別,為節約時間成本,判別模型在具備優秀的判別性能的同時也應盡量縮短運行時間。因此,最終選定CARS-FA-SVC為最佳判別模型。
表2 支持向量機判別模型的性能
4、討論
文中競爭性自適應重加權算法 (CARS) 和連續投影算法 (SPA) 能有效降低高光譜多維幾雜信息的影響,縮短模型的運行時間,是一種有效的特征變量選擇方法。經過FA算法優化的支持向量機 (SVM) 判別模型整體性能均高于未經參數優化的同類模型,其中以CARS-FA-SVC判別模型的表現最好,測試集分類的準確率達到了100%,均方根誤差為0,且平方相關系數達到了1,運行時間也為6個判別模型中最短的。FA算法能顯著提高判別模型的預測精度,并縮短運行時間,為一個較好的參數尋優方式。
推薦:
便攜式高光譜成像系統 iSpecHyper-VS1000
專門用于公安刑偵、物證鑒定、醫學醫療、精準農業、礦物地質勘探等領域的最新產品,主要優勢具有體積小、幀率高、高光譜分辨率高、高像質等性價比特點采用了透射光柵內推掃原理高光譜成像,系統集成高性能數據采集與分析處理系統,高速USB3.0接口傳輸,全靶面高成像質量光學設計,物鏡接口為標準C-Mount,可根據用戶需求更換物鏡。