厭氧消化是一個包含多個生物轉化和物理化學轉化的復雜過程,特別是產甲烷菌對環境條件要求比較苛刻.為了消除厭氧消化過程中多種干擾的影響及保持厭氧消化過程穩定、高效的進行,就需要對厭氧消化過程進行合適的監測和控制,而大量大型沼氣工程的建立更是加劇了這種需求.針對傳統物化參數(pH值、溫度、產氣量和氧化還原電位等)已有成熟的在線測量設備,而對厭氧消化過程有重要影響的物化參數,如揮發性脂肪酸(VFA,Volatile Fatty Acids)和生理參數(如生物量)卻難以實現在線測量.
VFA是厭氧消化的中間產物也是產甲烷的主要底物,與pH值、堿度、產氣量和氣體組分等常規指標相比,VFA更能快速可靠地指示厭氧消化系統的狀態.在工業厭氧消化產甲烷反應器運行中,經常發生因為未及時發現VFA的積累使pH下降至3~5而導致的“酸敗”.“酸敗”的發生對厭氧反應器往往是災難性的,反應器一旦發生“酸敗”,很難在短時間內恢復或者根本難以恢復反應器內產甲烷微生物的活性,因此,對VFA濃度的檢測方法一直受到高度的重視.目前,VFA濃度離線測定的方法主要有蒸餾法、滴定法、色譜法、比色法等,然而離線分析耗時、滯后,不能滿足快速變化的高負荷厭氧消化系統的在線監測需求.為了實現VFA的在線監測,研究人員也進行了大量研究.例如,Feitkenhauer等(2002)設計了一個基于滴定計的VFA在線測量系統,其主要特點是設備簡單成本低,缺點是檢測的只是總揮發酸;Zhang等(2002)研究的紅外光譜能針對乙酸、丙酸等進行測量,但其準確性和靈敏度欠佳;Diamantis等(2006)和Boe等(2007)分別設計了帶自動取樣器的毛細管氣相色譜、頂空氣相色譜,其與反應器的連接實現了VFA的在線精確測量,但氣相色譜昂貴,難以實現工業化應用;趙全保(2008)設計的在線測定VFA和堿度的自動滴定系統只是實現了滴定過程的自動化,并未將計算模型與計算機集成,所構建的6點滴定法滴定準確,但操作繁瑣、計算復雜.可靠又便宜的VFA在線監測設備已經成為制約厭氧消化技術應用與發展的瓶頸,而上述VFA在線監測技術仍然處于實驗室階段,并未應用到實際工業中,因此,有必要進一步研究VFA的在線監測技術.
一般解決工業過程的測量問題有兩條途徑:一是沿襲傳統的檢測技術思路,以硬件形式實現過程參數的直接在線測量(如上所述);另一種就是采用間接測量的思路,利用容易獲取的其他測量信息,通過計算來實現對被測變量的估計.近年來,在過程控制和檢測領域涌現出的軟測量的技術就是這一思想的集中體現.軟測量理論根源是20世紀70年代Brosilow提出的推斷控制,所謂軟測量就是根據可測、易測的過程變量(即輔助變量)與難以直接獲取的待測變量(即主導變量)的數學關系,按照某種最優準則,采用各種計算方法,用軟件手段實現對待測變量的測量或估計.因此,軟測量技術又稱為軟儀表技術,目前己經在過程控制與優化中得到了廣泛的應用.
軟測量技術一般來說主要包含:輔助變量選取、數據預處理、軟測量建模和模型校正4個部分.輔助變量的選擇一般沒有通用性的指導方法,常根據具體對象通過理論和經驗分析,選取與主導變量相關的變量作為輔助變量.輔助變量選取過多會使后續建模較為復雜,而減少輔助變量可能丟失部分信息降低模型精度.主成分分析是統計學中用于降低高維數樣本最直接的手段之一,同時還盡最大的可能保持原有樣本的所有信息,從而被廣泛應用.軟測量技術的主體和核心是建立軟測量模型,建立模型的常規方法主要有:機理建模法、回歸分析法、神經網絡法和支持向量機方法等.其中,神經網絡和SVM這兩種同屬黑箱建模方法,不要求對象的確定內部機理,因此,比較適合復雜的污水處理過程,應用亦最為廣泛.Dixon等(2007a)在一篇數據挖掘的文章中用神經網絡以進水流速、厭氧反應器內pH值、沼氣產量、甲烷產量和二氧化碳產量等5個變量為輸入變量對出水VFA進行預測,結果表明,神經網絡模型能夠較好的預測出水VFA值,但神經網絡是一種局部最優算法,易過擬合且對于神經網絡隱含層數和隱含層節點數的選擇并無理論上的指導.姚崇齡等(2006)提出了一種基于減法聚類的神經模糊網絡軟測量建模方法來預測VFA的值,仿真結果表明,該方法具有很好的擬合精度和預測精度,但模糊神經網絡需要大量的數據來確定模型參數,對于數據量較少的樣本并不適用.SVM是近年來在機器學習領域中受到關注較多的一種基于統計學原理的新技術,相比神經網絡的啟發式學習機制,SVM的經驗成分甚少,具有更為嚴格的數學論證.同時,SVM對于所提供的樣本數據的依賴性較少,且泛化能力較強,局部最優解一定是全局最優解,避免了產生維數災難.在SVM基礎上Suykens提出了最小二乘法支持向量機,主要是將最小二乘線性系統引入到SVM中,用訓練誤差的二次平方項e2代替優化目標中的松弛變量,并用等式約束代替不等式約束,最終將問題歸結為求解一線性方程組,大大減少了運行時間,提高了訓練的速度.針對厭氧廢水處理系統出水VFA難以在線監測的問題,本文提出一種基于PCA-LSSVM的軟測量建模方法,通過 Matlab2013a 軟件平臺建立模型,以期為厭氧出水VFA的在線監控和厭氧廢水處理系統優化控制提供指導.
2 材料與方法(Materials and methods) 2.1 輔助變量的初步確定
出水VFA濃度能反映厭氧反應器內VFA的積累狀況,而VFA在厭氧反應器內的積累能反映出產甲烷菌的不活躍狀態或反應器操作條件的惡化,因此,出水VFA是厭氧反應器運行狀態的重要指標.影響厭氧反應器運行狀態的因素一般也會影響出水VFA濃度,廢水的厭氧生物處理受到許多因素的影響,常分為環境因素和工藝操作條件兩大類.環境因素是影響厭氧廢水生物處理過程的根本條件,主要包括溫度、pH值、氧化還原電位、堿度及包括生物可降解性、營養元素、微量元素和毒性等在內的廢水水質特征等.工藝操作條件主要包括厭氧反應器類型、預處理方式、水力停留時間、有機負荷和污泥負荷等.實驗采用IC厭氧反應器處理人工葡萄糖配水,故不需考慮廢水水質特征、厭氧反應器類型、預處理方式的影響.有機負荷和污泥負荷會隨著水力停留時間的改變而改變,所以三者僅考慮水力停留時間.沼氣是厭氧消化的氣相產物,主要包括CH4、CO2和少量H2.沼氣產量及其組分分布直接反映了厭氧反應器的運行狀況和反應器內的微生物活性,因此,沼氣產量及其組分分布與出水VFA濃度有一定相關性.
根據傳感器的可用性、可靠性和價格,Dixon將用來測量厭氧消化過程的傳感器分為4個級別.根據Dixon的分級,本文對厭氧消化過程的傳感器的種類進行擴充,擴充后的維恩圖如圖 1所示.在這些傳感器中級別越低的越可靠且越便宜,從圖中可以看出,VFA傳感器屬于第3個級別.軟測量應使用較低級別或者同級別的傳感器來預測該級別傳感器的變量,否則軟測量就失去了實際意義.綜合以上兩方面,輔助變量初步選擇為溫度、HRT、pH、ORP、沼氣流量(Qgas)、CH4、CO2、H2含量等8個變量.

圖 1 厭氧消化過程傳感器級別的維恩圖
2.2 實驗裝置
實驗裝置為實驗室搭建的厭氧廢水處理系統,實驗裝置示意圖如圖 2所示.實驗所用的IC厭氧反應器為有機玻璃制作,高1272 mm,內徑200 mm,有效容積25.1 L,第一反應區與第二反應區的體積比為4 ∶ 1.通過BT600-2J型蠕動泵控制廢水和飽和NaHCO3的進水流量,從而控制廢水停留時間和反應器內的pH值.在線監測系統由在線監測儀表、數據傳輸轉換模塊(ADAM4017+、ADAM4024、ADAM4520)、工控機(TPC1521H)及其監控組態軟件(通用版MCGS 6.2)組成,其中,在線監測儀表包括在線pH儀表(美國哈希公司,GLI MODEL33)、在線ORP儀表(GOLDTO TP560)、PT100溫度傳感器(u2p-010)和電遠傳濕式氣體流量計(LML-1型).

圖 2 實驗裝置示意圖
2.3 實驗方法
實驗用水為人工有機廢水,用葡萄糖、尿素、磷酸二氫鉀按COD ∶ N ∶ P=200 ∶ 5 ∶ 1 的比例配制COD為3000 mg · L-1左右的廢水,同時加入1.8 mg · L-1 CaCl2·2H2O、0.5 mg · L-1 MgSO4、0.25 mg · L-1 CuSO4·5H2O、0.248 mg · L-1 CoCl2·6H2O、0.24 mg · L-1 FeCl3·5H2O、0.205 mg · L-1 ZnCl2、0.19 mg · L-1 NiCl2·6H2O、0.014 mg · L-1 H3BO4和0.009 mg · L-1 NH4MoO4·4H2O,以保證厭氧微生物微量元素所需.IC厭氧反應器的接種污泥取自廣州南沙某造紙廠的IC厭氧反應器,接種污泥的VSS濃度為23.78 g · L-1,TSS濃度為35.56 g · L-1.污泥接種前先進行篩洗處理,再用COD為3000 mg · L-1的葡萄糖廢水持續48 h漂洗和活化.IC厭氧反應器外有保溫泡沫但無加熱裝置,整個運行過程在室溫下進行. 啟動前期維持HRT為24 h,相應容積負荷為3 kg · m-3 · d-1(以COD計),當COD去除率達80%且產氣穩定時,通過提高進水流量控制HRT為15.36、12.29、9.83 h,通過調節飽和NaHCO3溶液的流量控制反應器內的pH值在6.5~7.2之間.在每個水力停留時間運行穩定后開始采集穩定運行數據,干擾數據則通過降低進水堿度使反應器酸化來獲取.實驗期間,pH值、 ORP、溫度和沼氣流量采用上述儀表在線監測;出水COD采用重鉻酸鉀滴定法測量,每日1次;沼氣氣體組分采用氣相色譜(A90氣相色譜儀)校正因子歸一法測量,每8 h 1次;出水VFA濃度采用氣相色譜(A90氣相色譜儀)外標法測定,每8 h取樣測量1次.
2.4 PCA原理步驟
1)首先通過公式(1)計算原始數據矩陣 X m×n的均值和方差,然后利用公式(2)對 X m×n進行零均值標準化處理得到標準化矩陣Z m×n:

2)利用公式(3)和(4)求標準化矩陣 Z m×n的協方差矩陣 R n×n:

3)根據公式(5)解出 R 的n個特征值λj(j=1,2,…,n),并按從大到小的順序排列,λ1≥λ2≥…≥λn≥0,根據公式(6)求解相應特征值的單位特征向量 b j(j=1,2,…,n),b j=(b1j,b2j,…,bnj):

4)按公式(7)計算累計方差貢獻率,確定主成分個數k,累計方差貢獻率≥85%的前k個主成分包含了絕大部分信息,后面的其他成分可以舍棄:

5)利用公式(8)將標準化矩陣 Z 在k維上投影,組成k個主元的新的數據樣本矩陣 U,U1稱為第一主成分,U2稱為第二主成分…Uk稱為第k主成分,這樣原始數據樣本實現了從n維到k維:
2.5 LSSVM
對于給定樣本集 D {(xi,yi),i=1,2,…,l},其中,xi∈ R n為n維輸入向量,yi∈ R 為目標輸出,LSSVM可描述為如下優化問題:

引入Lagrange函數:
式中,αi是Lagrange乘子,利用Karush-Kuhn-Tucker′s(KKT)最優化條件對上式進行優化,對ω、b、ξ、α求偏導可得:

消除ω、ξ,優化的問題就可以轉化為下面的線性方程求解問題:

式中,定義K(xi,xj)為核函數,常用的核函數有線性核函數、多項式核函數、徑向基核函數(RBF)和Sigmoid核函數.文中采用徑向基核函數RBF建立軟測量模型,該核函數形式為:

式中,σ為核寬度,令Ω= Ωij|i,j=1,2,…,l ,I= 1,1,…,1 T,α= α1,α2,…,αlT,y= y1,y2,…,yl T,則上式可以化簡為:

利用最小二乘法解上述線性方程組可求得α與b的估計,則估計所得的軟測量模型為:

3 PCA-LSSVM在線軟測量模型的建立(Online soft-sensing model based on PCA-LSSVM)
整個PCA-LSSVM軟測量流程如圖 3所示.

圖 3 PCA-LSSVM軟測量流程圖
3.1 原始數據采集及預處理
采用顆粒污泥接種,厭氧反應器可以快速啟動.厭氧廢水處理系統穩定運行后開始采集數據,按照實驗方法連續運行120 d.穩態采集到的數據人工剔除明顯異常值后利用拉依達準則剔除離群值,然后從中選取90組數據作為穩態數據,其中,前70組作為訓練數據,后20組作為測試數據.為了驗證模型對厭氧反應器酸化條件的預測性能及LSSVM模型的抗干擾和泛化能力,降低進水堿度使反應器酸化并采集酸化條件下的非穩態數據,并從中選取30組加入穩態數據組成穩態干擾數據,前85組作訓練數據,后35組作預測數據.數據選擇好以后,分別對穩態數據和穩態干擾數據進行歸一化處理以消除量綱影響.穩態干擾數據的任意兩個參數的二維圖如圖 4所示,可以從整體上看出數據的特點,如ORP 多數集中在-500~-400 mV之間,溫度集中在20~30 ℃之間,產氣量在0~2 L · h-1之間等,并且在某些散點圖中更容易識別數據尖峰.

圖 4 穩態干擾數據多變量二維散點圖
3.2 主成分分析
為了去除冗余信息及減少LSSVM的計算量,對預處理后的數據使用MATLAB 2013a軟件進行PCA分析各個變量的相關性同時降低輸入數據維數.圖 5為穩態數據和穩態干擾數據的2-D雙標圖,雙標圖顯示了輔助變量與樣本點之間的多元關系.對于穩態數據,第一主成分的方差貢獻率為46.22%,第二主成分的方差貢獻率為15.03%,合起來總貢獻率為61.25%,屬于中等稍偏好的擬合度水平. 前兩個主成分的IR值均大于1(表 1,分別為3.24和1.05),表明穩態數據的2-D雙標圖可以很好地表現數據中的規律.對于穩態干擾數據,第一主成分的方差貢獻率為49.11%,第二主成分的方差貢獻率為22.19%,合起來總貢獻率為71.30%,也屬于中等稍偏好的擬合度水平.穩態干擾數據的前兩個主成分的IR值分別為3.43和1.55,均大于1,因此,穩態干擾數據的2-D雙標圖也可以很好地表現數據中的規律.

圖 5 穩態數據(a)和穩態干擾數據(b)的雙標圖
表 1 各主成分方差貢獻率、累計方差貢獻率及信息比
雙標圖中連接原點和各變量的直線稱為“向量”,向量在某一主成分上的投影表明該變量對該主成分的重要程度,同時也體現了該主成分對該變量的解釋程度.兩變量向量間夾角近似表明了兩個變量的相關關系,夾角小于90°表示正相關,大于90°表示負相關,接近90°表示不相關.圖中的點代表原始數據在第一主成分和第二主成分的量化觀測值.從變量之間的夾角來看,無論是穩態干擾數據還是穩態數據CO2含量與HRT、CH4含量和產氣量Qgas,以及pH值與H2含量和ORP都呈顯著負相關,但負相關程度有所變化,如穩態數據的CO2含量與CH4含量和Qgas夾角接近180°,而穩態干擾數據CO2含量與CH4含量和產氣量Qgas夾角減小,與HRT的夾角接近180°.對于pH值與溫度的相關性,穩態數據與穩態干擾數據卻呈現截然相反的相關性,即穩態數據pH值與溫度正相關.而穩態干擾數據pH值與溫度是負相關,這可能是因為穩態干擾數據中包含了部分酸化數據,盡管此時溫度可能較高但由于酸化pH值仍然較小.從變量的矢量長度來看,CH4含量、CO2含量、H2含量與HRT都是重要的影響變量,溫度和產氣量Qgas都是不太重要的變量.在穩態數據中ORP較pH值重要,但在穩態干擾數據中pH值比ORP更為重要,這可能是因為穩態干擾數據中pH值的變化比ORP更明顯.
從表 1可以看出,對于穩態數據,前4個主成分的累計方差貢獻率為85.13%,前5個主成分的累計方差貢獻率達91.69%;對于穩態干擾數據,前3個主成分的累計方差貢獻率為85.59%,前4個主成分的累計方差貢獻率則達到93.55%.綜合考慮,對于穩態數據選擇前5個主成分作為LSSVM模型的輸入變量,對于穩態干擾數據選擇前4個主成分作為LSSVM模型的輸入變量.
建模時,為了得到較好的性能,需要選擇合適的核函數、核參數 sig2和正則化參數 gam.本文選取徑向基函數(RBF)作為 LSSVM 的核函數,應用Matlab2013a軟件,使用LSSVM工具箱并編寫程序,采用網格搜索法確定核參數sig2和gam最優范圍,然后用10倍交叉驗證法最終選出穩態數據LSSVM模型最優 sig2 =0.04187,gam =41.475,穩態干擾數據LSSVM模型的sig2 =0.30875,gam =162.206.
模型預測性能指標包括以下幾個:①相對誤差(Relative Error,RE),RE 表示絕對誤差值與被測量值的真實值之比,相對誤差更能反映預測的可靠程度;②平均絕對百分比誤差(Mean Absolute Percent Error,MAPE),MAPE是所有相對誤差的絕對值求和的平均值,能從整體上更好地反映預測值的實際情況;③均方根誤差(Root Mean Square Error,RMSE),RMSE主要是為了說明樣本的離散程度.RMSE的值越小,說明預測模型描述實驗數據具有更好的精確程度,反之,模型預測精度較差;④相關系數(correlation coefficient,r),r反映了預測值與實際值線性關系的強弱,r越接近于1則預測值與實際值越接近.各指標具體計算公式如下:


式中, 為實際值均值,yp 為預測值均值,m為樣本數目.
4 結果與討論(Results and discussion) 4.1 穩態LSSVM模型仿真結果
穩態LSSVM的仿真結果見圖 6~8及表 2.由圖 6~8及表 2可知,在訓練過程中穩態LSSVM模型的最大相對誤差為7.67%,平均相對百分比誤差為1.75%,均方根誤差為1.36;在測試數據中模型的最大相對誤差為4.72%,平均相對百分比誤差為1.61%,均方根誤差為1.08,整體預測數據與實際數據的相關系數達0.9996.由上可以看出,穩態LSSVM模型對穩態條件下厭氧廢水處理系統出水VFA具有很好的仿真預測能力.

圖 6 穩態LSSVM模型對VFA預測結果

圖 7 穩態LSSVM模型的訓練和測試相對誤差

圖 8 穩態LSSVM模型的相關系數
表 2 穩態模型與穩態干擾模型LSSVM的預測性能
4.2 穩態干擾LSSVM模型仿真結果
穩態干擾LSSVM的仿真結果見圖 9~11及表 2.由圖 9來看,穩態干擾LSSVM模型基本上可以預測系統的穩態干擾變化.具體來看模型的性能指標可以發現,在訓練過程中穩態干擾LSSVM模型的最大相對誤差為104.93%,在測試過程中模型的最大相對誤差為105.28%,二者與穩態下的模型性能相比可以說大了1個數量級,這在很大程度上是因為穩態干擾數據中添加了部分厭氧廢水處理系統酸化條件下的數據.酸化條件下的數據相對于穩態下的數據來說可以算是異常數據,這使得穩態干擾數據中VFA的最大值也幾乎提升了1個數量級.穩態干擾LSSVM模型的訓練過程與測試過程平均相對百分比誤差分別為11.78%和15.83%,相對于穩態LSSVM模型相對誤差百分比來說偏大,但考慮到數據變化幅度的增大,這一點還是可以接受的.與平均相對誤差百分比相似,穩態干擾模型的均方根誤差也相應幅度的變大,訓練和測試的均方根誤差分別為11.02和15.45.與上述3個性能指標不同,模型的預測值與實際值仍然具有較高的相關系數(0.9984),這也在一定程度上說明上述3個性能指標的下降可能是少量酸化數據造成的.從最大相對誤差、平均相對百分比誤差和均方根誤差的角度來看,穩態干擾LSSVM模型性能有大幅度下降不足以預測穩態干擾變化下厭氧系統出水VFA的濃度,但考慮到數據幅度的變化及模型整體預測性能,穩態干擾LSSVM模型還是能夠預測出水VFA濃度波動的,因此,僅用一個指標來評價模型的性能是不合適的,若要更為精確地預測出水VFA濃度波動,可能需要更多酸化數據來訓練模型.

圖 9 穩態干擾LSSVM模型對的VFA預測結果

圖 10 穩態干擾LSSVM模型的訓練和測試相對誤差

圖 11 穩態干擾LSSVM模型的相關系數
5 結論(Conclusions)
1)PCA可以分析各變量與樣本點之間的多元關系,同時有效實現輸入變量降維,通過PCA處理穩態數據輸入變量可以由8個降到5個,穩態干擾數據輸入變量由8個降到4個,這有利于降低后續建模的復雜度,提高模型的計算速度.
具體參見污水寶商城資料或http://www.bnynw.com更多相關技術文檔。2)利用穩態數據建立的穩態LSSVM模型,對穩態條件下厭氧廢水處理系統出水VFA具有很好的仿真預測能力,測試樣本的最大相對誤差為4.72%,平均相對百分比誤差為1.61%,均方根誤差為1.08,整體預測數據與實際數據的相關系數達0.9996.
3)利用穩態干擾數據建立的穩態干擾LSSVM模型,由于數據幅度變大,模型對厭氧廢水處理系統出水VFA的仿真預測精度有所降低,測試過程中模型的最大相對誤差達105.28%,平均相對百分比誤差為15.83%,均方根誤差為15.45,但整體上模型的預測值與實際值的相關系數仍然高達0.9984,這說明穩態干擾LSSVM模型對大幅度波動的厭氧廢水處理系統仍然具有較好的預測能力.




