一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

主成分分析PCA理論講解與程序?qū)崿F(xiàn)指南

 張春強(qiáng)2022 2018-05-03



主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為較少的綜合指標(biāo)。轉(zhuǎn)化生成的綜合指標(biāo)即稱為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分互不相關(guān)。Stata對(duì)主成分分析的主要內(nèi)容包括:主成分估計(jì)、主成分分析的恰當(dāng)性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏相關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復(fù)相關(guān)系數(shù)、共同度等指標(biāo)測(cè)度)、主成分的旋轉(zhuǎn)、預(yù)測(cè)、各種檢驗(yàn)、碎石圖、得分圖、載荷圖等。    

主成分的模型表達(dá)式為:


其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對(duì)相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特征值分析。


Stata中可以通過(guò)負(fù)偏相關(guān)系數(shù)矩陣、負(fù)相關(guān)系數(shù)平方和KMO值對(duì)主成分分析的恰當(dāng)性進(jìn)行分析。負(fù)偏相關(guān)系數(shù)矩陣即變量之間兩兩偏相關(guān)系數(shù)的負(fù)數(shù)。非對(duì)角線元素則為負(fù)的偏相關(guān)系數(shù)。如果變量之間存在較強(qiáng)的共性,則偏相關(guān)系數(shù)比較低。因此,如果矩陣中偏相關(guān)系數(shù)較高的個(gè)數(shù)比較多,說(shuō)明某一些變量與另外一些變量的相關(guān)性比較低,主成分模型可能不適用。這時(shí),主成分分析不能得到很好的數(shù)據(jù)約化效果。


Kaiser-Meyer-Olkin抽樣充分性測(cè)度也是用于測(cè)量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過(guò)比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對(duì)于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。


SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。


成分載荷、KMO、SMC等指標(biāo)都可以通過(guò)extat命令進(jìn)行分析。

多元方差分析是方差分析在多元中的擴(kuò)展,即模型含有多個(gè)響應(yīng)變量。本章介紹多元(協(xié))方差分析以及霍特林(Hotelling)均值向量T檢驗(yàn)。


12.1 主成分估計(jì)

Stata可以通過(guò)變量進(jìn)行主成分分析,也可以直接通過(guò)相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。

1sysuse auto,clear

pca trunk weight length headroom

pca trunk weight length headroom, comp(2) covariance

 

2webuse bg2,clear

pca bg2cost*, vce(normal)

 

12.2 Estat

estat給出了幾個(gè)非常有用的工具,包括KMO、SMC等指標(biāo)。

webuse bg2,clear

pca bg2cost*, vce(normal)

estat anti

estat kmo

estat loadings

estat residuals

estat smc

estat summarize


12.3 預(yù)測(cè)

Stata可以通過(guò)predict預(yù)測(cè)變量得分、擬合值和殘差等。

webuse bg2,clear

pca bg2cost*, vce(normal)

predict score fit residual q   (備注:q代表殘差的平方和)


12.4 碎石圖

碎石圖是判斷保留多少個(gè)主成分的重要方法。命令為screeplot。

webuse bg2,clear

pca bg2cost*, vce(normal)

screeplot


12.5 得分圖、載荷圖

得分圖即不同主成分得分的散點(diǎn)圖。命令為scoreplot。

webuse bg2,clear

pca bg2cost*, vce(normal)

scoreplot


載荷圖即不同主成分載荷的散點(diǎn)圖。命令為loadingplot。

webuse bg2,clear

pca bg2cost*, vce(normal)

loadingplot


12.6 旋轉(zhuǎn)

對(duì)載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotate。

webuse bg2,clear

pca bg2cost*, vce(normal)

rotate

 

:對(duì)中國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)主成分分析,原始數(shù)據(jù)如下表:

省份

GDP   (億元)

居民消費(fèi)水平(元)       

固定資產(chǎn)投資(億元)  

職工平均工資(元)

貨物周轉(zhuǎn)量 (億噸公里)    

居民消費(fèi)價(jià)格指數(shù) (上年100)  

商品零售價(jià)格指數(shù)  (上年100)    

工業(yè)總產(chǎn)值   (億元)

area

x1

x2

x3

x4

x5

x6

x7

x8

 北  京

10488.03

20346

3814.7

56328

758.9

105.1

104.4

10413

 天  津

6354.38

14000

3389.8

41748

2703.4

105.4

105.1

12503

 河  北

16188.61

6570

8866.6

24756

5925.5

106.2

106.7

23031

 山  西

6938.73

6187

3531.2

25828

2562.2

107.2

107.2

10024

 內(nèi)蒙古

7761.8

8108

5475.4

26114

3658.7

105.7

104.7

8740.2

 遼  寧

13461.57

9625

10019.1

27729

7033.9

104.6

105.3

24769

 吉  林

6424.06

7591

5038.9

23486

1157.8

105.1

106.2

8406.9

 黑龍江

8310

7039

3656

23046

1690.9

105.6

105.8

7624.5

 上  海

13698.15

27343

4823.1

56565

16029.8

105.8

105.3

25121

 江  蘇

30312.61

11013

15300.6

31667

4300.9

105.4

104.9

67799

 浙  江

21486.92

13893

9323

34146

4974.9

105

106.3

40832

 安  徽

8874.17

6377

6747

26363

5843.2

106.2

106.3

11162

 福  建

10823.11

10361

5207.7

25702

2396.2

104.6

105.7

15213

 江  西

6480.33

5753

4745.4

21000

2285.5

106

106.1

8499.6

 山  東

31072.06

9573

15435.9

26404

10107.8

105.3

104.9

62959

 河  南

18407.78

5877

10490.6

24816

5165.1

107

107.5

26028

 湖  北

11330.38

7406

5647

22739

2526.4

106.3

106.3

13455

 湖  南

11156.64

7145

5534

24870

2349.8

106

105.6

11553

 廣  東

35696.46

14390

10868.7

33110

4428.4

105.6

106

65425

 廣  西

7171.58

6103

3756.4

25660

2079

107.8

107.6

6072

 海  南

1459.23

6550

705.4

21864

597.7

106.9

106.7

1103.1

 重  慶

5096.66

9835

3979.6

26985

1490.3

105.6

105

5755.9

 四  川

12506.25

6072

7127.8

25038

1578.7

105.1

105.3

14762

 貴  州

3333.4

4426

1864.5

24602

805.3

107.6

107.2

3111.1

 云  南

5700.1

4553

3435.9

24030

821.3

105.7

106.1

5144.6

 西  藏

395.91

3504

309.9

47280

35.5

105.7

103.9

48.19

 陜  西

6851.32

6290

4614.4

25942

2027

106.4

106.9

7480.8

 甘  肅

3176.11

4869

1712.8

24017

1594.9

108.2

107.9

3667.5

 青  海

961.53

5830

583.2

30983

335.7

110.1

110.6

1103.1

 寧  夏

1098.51

7193

828.9

30719

703.6

108.5

108.5

1366.5

 新  疆

4203.41

5542

2260

24687

1273

108.1

108.5

4276.1

數(shù)據(jù) :來(lái)源于2009年《中國(guó)統(tǒng)計(jì)年鑒》

 

程序

clear

*定義變量的標(biāo)簽

label var area  省份

label var x1  'GDP   (億元)'

label var x2  '居民消費(fèi)水平(元)'

label var x3  '固定資產(chǎn)投資(億元)'

label var x4  '職工平均工資(元)'

label var x5  '貨物周轉(zhuǎn)量 (億噸公里)'

label var x6  '居民消費(fèi)價(jià)格指數(shù) (上年100)'  

label var x7  '商品零售價(jià)格指數(shù)  (上年100)'

label var x8  '工業(yè)總產(chǎn)值   (億元)'

describe

pca x1-x8 /*主成分估計(jì)*/

estat kmo /*KMO檢驗(yàn),越高越好*/

estat smc /*SMC檢驗(yàn),值越高越好*/

screeplot  /* 碎石圖(特征值等于1處的水平線標(biāo)示保留主成分的分界點(diǎn))*/

predict score fit residual q /*預(yù)測(cè)變量得分、擬合值和殘差以及殘差的平方和*/

predict f1 f2 f3

predict q1 q2 q3

scoreplot,mlabel(area) yline(0) xline(0) /*得分圖1*/

scoreplot,xtitle('經(jīng)濟(jì)社會(huì)總量') ytitle('人民生活水平') ///

mlabel(area) yline(0) xline(0) /*得分圖*/

scatter f2 f3,xtitle('人民生活水平') ytitle('物價(jià)水平') ///

mlabel(area) yline(0) xline(0)  /*得分圖*/

scoreplot, factors(3) mlabel(area)  /*得分圖*/

scoreplot,combined factors(3) mlabel(area) yline(0) xline(0)  /*得分圖*/

loadingplot , yline(0) xline(0)/*載荷圖 */

loadingplot , combined factors(3) yline(0) xline(0)/*載荷圖 */

rotate  /*旋轉(zhuǎn)*/

  

分析:

先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,接著進(jìn)行主成分分析,可以得到:

表:R的特征值和特征向量

主成分

特征值

方差貢獻(xiàn)率

累計(jì)貢獻(xiàn)率

1

4.25488

2.50258

0.5319

2

1.75229

.537538

0.7509

3

1.21475

.760916

0.9027

4

.453839

.260701

0.9595

5

.193137

.124141

0.9836

6

.0689962

.0273464

0.9922

7

.0416498

.0211945

0.9974

8

.0204553

.

1.0000 


從表中看到,前3個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá)90.27%,說(shuō)明前3個(gè)主成分基本包含了全部指標(biāo)具有的信息,我們?nèi)∏?個(gè)特征值。通過(guò)對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn),可得到相應(yīng)的特征向量,見(jiàn)下表:


第一、第二、第三特征值向量


第一特征向量

第二特征向量

第三特征向量

x1_s

0.4249

0.3064

0.1079

x2_s

0.3217

-0.4467

0.3101

x3_s

0.4057

0.3855

-0.0181

x4_s

0.1856

-0.6100

0.2536

x5_s

0.3520

-0.0510

0.3714

x6_s

-0.3444

0.1427

0.5784

x7_s

-0.3118

0.2767

0.5769

x8_s

0.4209

0.2938

0.1495


因而前三個(gè)主成分為:

第一主成分:   F10.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s

+0.3520x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s

第二主成分:   F20.3064x1-0.4467x2_s+0.3855x3_s-0.6100x4_s

-0.0510x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s

第三主成分:   F30.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s

+0.3714x5_s-0.5784x6_s+0.5769x7_s+0.1495x8_s


在第一主成分的表達(dá)式中第一、第三、第八項(xiàng)指標(biāo)的系數(shù)較大,這三項(xiàng)指標(biāo)起主要作用,我們可以把第一主成分看成是由國(guó)內(nèi)生產(chǎn)總值、固定資產(chǎn)投資、工業(yè)總產(chǎn)值所刻劃的反映經(jīng)濟(jì)社會(huì)總量的綜合指標(biāo);


在第二主成分中,第二、第三、第四項(xiàng)指標(biāo)的影響大,且第二、第四項(xiàng)的影響較大,因此可以把第二主成分看成是由居民消費(fèi)水平、職工平均工資表示的反映人民生活水平的綜合指標(biāo);


在第三主成分中,第六、第七項(xiàng)指標(biāo)大于其余的指標(biāo),可看成是受居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)的影響,反映物價(jià)水平的綜合指標(biāo)。

 

在這次的主成分分析里面,我們可以進(jìn)行些檢驗(yàn)以驗(yàn)證我們分析的效果,通過(guò)KMO檢驗(yàn)和SMC檢驗(yàn),得到了下面的檢驗(yàn)值:


變量的KMO、SMC值表

變量

KMO值

SMC值

x1_s

0.7423

0.9656

x2_s

0.5361

0.8366

x3_s

0.7706

0.9276

x4_s

0.4737

0.7647

x5_s

0.6794

0.6515

x6_s

0.5467

0.8837

x7_s

0.5482

0.8627

x8_s

0.7692

0.9591

合計(jì)

0.6447

---


Kaiser-Meyer-Olkin抽樣充分性測(cè)度也是用于測(cè)量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過(guò)比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對(duì)于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。


SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。


根據(jù)KMO越高,表明變量的共性越強(qiáng)和SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。從上表可以看出,在該例中,各變量基本符合要求。

 

通過(guò)碎石圖,我們可以很直觀的看出各個(gè)特征值的大小。在該圖中,特征值等于1處的水平線標(biāo)示了保留主成分分析的分界點(diǎn),同時(shí)再次強(qiáng)調(diào)了本例中的成分4到8并不重要。

碎石圖

 

通過(guò)predict我們可以得出各個(gè)觀察變量的所對(duì)應(yīng)的各個(gè)主成分的線性組合(即得分)。


在得分圖里,我們可以看到不同地區(qū)在第一、第二主成分里各自的得分情況。


得分圖


通過(guò)載荷圖,我們可以直觀看出各個(gè)變量對(duì)主成分影響的大小。


載荷圖


運(yùn)行rotate進(jìn)行旋轉(zhuǎn)后,我們將旋轉(zhuǎn)后的結(jié)果和旋轉(zhuǎn)前的結(jié)果進(jìn)行比較,可以發(fā)現(xiàn)每一個(gè)觀察變量獨(dú)自構(gòu)成一個(gè)主成分,方差貢獻(xiàn)相等,都為12%。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日本淫片一区二区三区| 国产精品久久精品国产| 国产精品推荐在线一区| 美国欧洲日本韩国二本道| 色丁香之五月婷婷开心| 欧美日韩国产精品黄片| 亚洲成人免费天堂诱惑| 老鸭窝精彩从这里蔓延| 日本高清二区视频久二区| 老司机激情五月天在线不卡| 色狠狠一区二区三区香蕉蜜桃| 91久久国产福利自产拍| 欧美日韩一区二区综合| 中文字幕精品一区二区年下载| 偷拍洗澡一区二区三区| 97人妻精品一区二区三区免| 亚洲天堂精品1024| 日韩午夜老司机免费视频| 国产精品欧美一区二区三区不卡| 日韩一区二区三区四区乱码视频| 日韩精品一级片免费看| 色婷婷在线精品国自产拍| 国产对白老熟女正在播放| 成年人视频日本大香蕉久久| 91欧美日韩国产在线观看| 亚洲熟妇熟女久久精品 | 国产精品免费不卡视频| 美女被后入福利在线观看| 真实偷拍一区二区免费视频| 国产成人精品资源在线观看| 欧美日韩一区二区三区色拉拉| 国产日产欧美精品视频| 亚洲a码一区二区三区| 日本99精品在线观看| 扒开腿狂躁女人爽出白浆av| 五月激情综合在线视频| 午夜福利网午夜福利网| 日韩精品视频高清在线观看| 国产成人av在线免播放观看av| 熟女一区二区三区国产| 色综合久久超碰色婷婷|