主元分析與偏最小二乘法

主元分析與偏最小二乘法

《主元分析與偏最小二乘法》是2012年出版的一本圖書,作者王桂增、葉昊。本書從系統自變數的相關性、系統特性的非線性和時變性等實際問題出發,介紹線性與非線性主元分析方法、線性主元回歸及其遞推算法、線性與非線性偏最小二乘法及其遞推算法、核主元分析與核偏最小二乘法等; 最後還介紹了主元分析和偏最小二乘法在數據處理、軟測量建模和過程監控等方面的套用案例。

圖書簡介

主元分析與偏最小二乘法能較好地解決自變數之間存在的相關性問題,最大限度地概括自變數空間的數據變化信息與自變數對因變數的解釋作用,因而被廣泛用於解決科學計算、工業控制和信號處理中的特徵提取、數據擬合、系統辨識和參數估計等問題。

本書可作為高等學校自動化類專業的高年級本科生和研究生的教學參考書,所述內容對從事統計數據處理、軟測量建模與過程監控的科研人員和工程技術人員也具有參考價值。

前言

最小二乘(least squares,LS)方法最早是由Karl Gauss為進行行星軌跡預測的研究而提出來的一種數據處理方法[1]。隨著計算機的普遍使用,最小二乘算法被廣泛用於解決科學計算、工業控制和信號處理中的特徵提取、數據擬合、系統辨識和參數估計等問題,成為數據擬合、系統建模和過程監控的一個重要數學工具。

在實際套用中,用於參數估計的自變數之間往往存在一定程度的相關性(線性相關性也稱為共線性),採用普通最小二乘方法估計參數將會出現病態解。1901年,K.Pearson首先提出了主元分析(principal component analysis,PCA)和主元回歸(principal component regression,PCR)方法[2],其基本思想是先對存在相關性的自變數進行主元分析,提取自變數空間中相互正交的主元,然後建立因變數和主元之間的回歸模型(稱為主元回歸模型),較好地解決了共線性的問題。

但在主元回歸中,主元的選取以最大限度地概括自變數空間數據的變化信息為準則,並沒有考慮主元對於因變數的解釋作用,而未被選取的次要主元有可能包含對回歸有益的信息,已被選取的主元也有可能包含對於回歸無益的噪聲。針對這一問題,H. Wold於20世紀60年代提出了偏最小二乘 (partial least squares,PLS)方法[3],並套用於計量經濟學。20世紀70年代,H.Wold的兒子S. Wold和挪威化學計量學家H. Martens將偏最小二乘法套用於化學計量學和化工領域。

PLS方法綜合考慮如何最大限度地概括自變數空間的數據變化信息和自變數對應變數的解釋作用,將具有線性相關的數據從高維空間投影到低維特徵空間,得到正交的特徵向量,再建立特徵向量間的線性回歸關係。與主元回歸相比,PLS不僅有效地克服了普通最小二乘回歸的共線性問題,同時將多元回歸問題轉化為若干個一元回歸問題,適用於樣本數較少而變數數較多的過程建模,具有較好的魯棒性和預測穩定性,廣泛地用於過程建模和過程監控領域。

實際系統往往具有非線性的特性,為適應非線性系統的建模和過程監控的需求,Hastie等於1989年提出了基於主元曲線的非線性主元分析方法[32]。主元曲線是一條通過數據團的平滑曲線,它使所有數據點到主元曲線的距離之和最小,這些數據點在主元曲線上的投影則稱為非線性主元。1991年和1995年Kramer和Tan等分別提出了基於自相關神經元網路和基於輸入訓練神經元網路的非線性主元分析方法[59,60]。1989

年S.Wold等提出非線性PLS方法[9]。非線性PLS方法的基本思路有兩種,一種方法是用回歸模型中的原始變數的非線性項對輸入矩陣進行擴展,然後對擴展的輸入矩陣和因變數數據矩陣實施線性PLS回歸; 另一種方法是保留PLS方法的線性外部模型,而採用非線性內部模型來描述自變數

與因變數數據的特徵向量之間的非線性關係[33]。

Scholkopf B[29]和Rosipal R[30]分別於1998年和2003年提出了核主元分析(kernel principal component analysis,KPCA)和核偏最小二乘 (kernel partial least squares,KPLS) 方法,統稱核分析方法[29,30]。核分析方法是一種新的非線性特徵提取方法,它通過非線性映射將自變數映射到高維特徵空間,並在高維特徵空間中進行基於線性運算的特徵提取。由於實際系統的非線性映射函式往往未知,因而無法得到自變數在高維空間中的映射及提取特徵所需的協方差陣。核分析方法在映射空間構造映射數據的內積函式和以內積函式為元素的內積矩陣,並用原始自變數空間的核函式去代替內積函式,這樣的內積矩陣稱為核矩陣。在高維空間對核矩陣進行主元提取,稱為核主元分析。而以最大化自變數映射與因變數的互相關為目標,對應變數數據矩陣和核矩陣進行綜合分析,稱為核偏最小二乘方法。

為使模型適應系統的時變特性,以及為了適應線上建模的需要,要求建模的算法能進行遞推計算。Weihua Li等提出了PCA的遞推算法[48],Martens H.,Helland K.和Qin S.J.提出了PLS遞推算法[4,5,6]。文獻[4]首先構建一個相對於原來的數據集合小得多的集合,利用PLS方法建立模型,然後用所得到的結果和新數據對PLS模型進行更新。文獻[5]利用原模型中的自變數、因變數數據的負荷向量矩陣及回歸因子矩陣,與新的數據塊組合,構成線上訓練的數據矩陣。這類處理方法以壓縮的形式保留舊數據的信息,避免在學習新數據的過程中對舊數據重複建模,提高了PLS模型的線上更新速度。文獻[6]在Helland的基礎上提出了一種塊式遞推偏最小二乘算法。

鑒於標準PLS算法需要對原始自變數數據矩陣進行縮減,以求取相應的權值矩陣和得分矩陣,而權值矩陣很難從概念上將得分矩陣與原始自變數數據矩陣之間的關係描述清楚,S.de.Jong提出了一種直接由原始自變數數據矩陣計算得分矩陣的算法 [69]。

由於原始自變數數據矩陣中包含一些與因變數數據矩陣無關的信息,Trygg等提出O?PLS(orthogonal PLS)算法,該算法首先對原始自變數數據矩陣進行正交預處理,然後建立PLS模型[80]。

本書從系統自變數的相關性、系統特性的非線性和時變性等實際系統的特點出發,介紹線性與非線性主元分析方法、線性主元回歸及其遞推算法、線性與非線性偏最小二乘法及其遞推算法、核主元分析與核偏最小二乘法等; 最後還介紹了主元分析和偏最小二乘法在數據處理、軟測量建模和過程監控等方面的套用案例。

本書可作為高等學校自動化類專業的高年級本科生和研究生的教學參考書,所述內容對從事統計數據處理、軟測量建模與過程監控的科研人員和工程技術人員也具有參考價值。

圖書目錄

第1章隨機過程的基本知識

1.1基本概念

1.1.1事物變化過程的分類

1.1.2隨機過程的樣本與狀態

1.1.3集合(總體)平均

1.1.4時間平均

1.2隨機過程的數字特徵

1.2.1數學期望

1.2.2方差

1.2.3相關函式

1.2.4功率譜密度函式

1.3隨機過程的分類

1.3.1連續型隨機過程和離散型隨機過程

1.3.2連續時間參數隨機過程和離散時間參數隨機過程

1.3.3平穩隨機過程與非平穩隨機過程

1.3.4爾格過程(各態遍歷性過程)

1.3.5獨立隨機過程

1.4白噪聲過程及其性質

第2章最小二乘法及其遞推算法

2.1最小二乘算法及其基本性質

2.1.1最小二乘法

2.1.2最小二乘法估計的基本性質

2.2遞推最小二乘算法

2.2.1基本算法

2.2.2初值a^(0)和P(0)的選擇

第3章主元分析與主元回歸

3.1主元分析

3.1.1主元分析的基本思想

3.1.2主元的性質

3.2主元計算

3.2.1通過求特徵值和特徵向量計算主元

3.2.2通過奇異值分解計算主元

3.2.3通過疊代算法計算主元

3.3主元回歸

第4章主元分析的遞推算法

4.1數據協方差矩陣的遞推計算

4.1.1規範化數據矩陣的遞推計算

4.1.2自協方差矩陣的遞推計算

4.2基於矩陣的秩1修正的遞推主元分析

4.2.1矩陣的秩1修正

4.2.2基於矩陣的秩1修正的主元遞推計算

4.3基於子空間跟蹤的遞推主元分析

4.3.1子空間跟蹤方法

4.3.2基於子空間跟蹤的主元遞推計算

4.4主元回歸的遞推算法

4.4.1互協方差矩陣的遞推計算

4.4.2主元回歸的遞推計算流程

第5章線性偏最小二乘法

5.1引言

5.2基於目標最佳化的偏最小二乘模型的計算

5.2.1偏最小二乘法建模的準則函式

5.2.2偏最小二乘的基本算法

5.2.3偏最小二乘的簡化算法

5.3基於矩陣奇異值分解的偏最小二乘模型的計算

5.3.1矩陣的奇異值分解

5.3.2基於奇異值分解的模型計算

5.3.3矩陣奇異值的不等式性質

5.4基於疊代算法的偏最小二乘模型的計算

5.4.1偏最小二乘疊代算法

5.4.2偏最小二乘疊代算法的數值計算性質

5.5偏最小二乘算法的正交性

5.5.1wi與ti的正交性質

5.5.2p與w的相互關係

5.6偏最小二乘特徵向量選取的幾何意義

5.6.1X和Y的正交旋轉變換

5.6.2正交變換陣OX和OY的選擇

5.7偏最小二乘回歸模型

5.7.1偏最小二乘回歸方法

5.7.2基於得分矩陣的模型輸出Y^=TB的計算

5.7.3基於X的模型輸出Y^=XBPLS的計算

5.8偏最小二乘法與普通最小二乘法的比較

5.9正交信號修正的偏最小二乘法

5.9.1正交信號的提取

5.9.2帶正交信號修正的偏最小二乘法

第6章線性偏最小二乘的遞推算法

6.1引言

6.2偏最小二乘的遞推算法

6.2.1兩個預備定理

6.2.2遞推算法

6.2.3塊式遞推算法

第7章非線性主元分析

7.1主元曲線與主元曲面

7.2自相關神經元網路

7.3輸入訓練神經元網路

第8章非線性偏最小二乘法

8.1引言

8.2線性外部模型與非線性內部模型相結合的NLPLS?I模型

8.2.1基於二次多項式的非線性PLS模型

8.2.2基於神經元網路的非線性PLS模型

8.3基於擴展輸入矩陣的NLPLS?Ⅱ模型

8.3.1RBFPLS的基本思路

8.3.2RBFPLS的遞推算法

8.4基於非線性成分提取的NLPLS?Ⅲ模型

8.4.1非線性成分的提取

8.4.2自變數和因變數數據的非線性重構

8.4.3計算步驟

第9章核主元分析與核主元回歸

9.1引言

9.2核函式介紹

9.3核主元分析方法

9.3.1協方差陣與內積矩陣的特徵向量間的關係

9.3.2基於特徵分解的核主元分析

9.3.3核主元分析的疊代算法

9.4核主元回歸

9.5主元分析與核主元分析的比較

9.5.1主元與核主元方向對比

9.5.2模型效果比較

第10章核偏最小二乘法

10.1引言

10.2核偏最小二乘算法

10.2.1核偏最小二乘法的實現準則

10.2.2KΦ和F的縮減與相應的疊代算法

10.2.3KΦ和KY的縮減與相應的疊代算法

10.3基於新準則函式的核偏最小二乘算法

10.3.1一種新的核偏最小二乘法實現準則

10.3.2兩種準則函式等價

10.4核偏最小二乘回歸模型

第11章套用案例

11.1在統計數據分析中的套用

11.2在軟測量建模中的套用

11.2.1引言

11.2.2基於偏最小二乘法的聚丙烯熔融指數的軟測量建模

11.3在統計質量控制中的套用

11.3.1引言

11.3.2基於主元分析的統計過程監控

附錄A英漢名詞對照

參考文獻

相關詞條

熱門詞條

聯絡我們