【原】用R語言做數(shù)據(jù)分析——假設(shè)檢驗(yàn)基本概論

新用戶26922hFh 2022-01-13

展開全文

　　之前在統(tǒng)計(jì)學(xué)的學(xué)習(xí)中，已經(jīng)初步認(rèn)識了假設(shè)檢驗(yàn)，接下來結(jié)合R語言進(jìn)一步深入了解假設(shè)檢驗(yàn)。

　　假設(shè)檢驗(yàn)是指利用搜索到的數(shù)據(jù)對某個(gè)事先作出的統(tǒng)計(jì)假設(shè)按照設(shè)計(jì)好的方法進(jìn)行檢驗(yàn)，判斷此假設(shè)是否正確。在統(tǒng)計(jì)推斷的過程中，需要對參數(shù)提出一定的假設(shè)，然后對提出的假設(shè)進(jìn)行假設(shè)檢驗(yàn)。用一個(gè)例子說明假設(shè)檢驗(yàn)的基本概念。

　　例子：設(shè)某工廠生產(chǎn)的一批產(chǎn)品，其次品率p是未知的，按照規(guī)定，若p<=0.01，則這批產(chǎn)品為可接受的，否則為不可接受的。這里的“p<=0.01”便是一個(gè)需要的假設(shè)，記為H。假定從這批量很大的產(chǎn)品中隨機(jī)抽取100件樣品，發(fā)現(xiàn)其中有3件次品，這一抽樣結(jié)果便成為判斷假設(shè)H是否成立的依據(jù)。很顯然，樣品中次品個(gè)數(shù)越多對假設(shè)H越不利，反之則對H有利。記樣品中次品個(gè)數(shù)為X，問題是：X大到什么程度時(shí)就應(yīng)該拒絕H？

　　我們來分析一下：由于否定了H就等于否定了一大批產(chǎn)品，因此必須要用數(shù)據(jù)事實(shí)慎重對待。統(tǒng)計(jì)學(xué)常用的作法是：先假定H成立，來計(jì)算X>=3的概率有多大？由于X分布為B(n,p)，其中n=100,容易計(jì)算出Pp=0.01{X>=3}≈0.08。顯然，對p<0.01,這概率值還要小。也就是說：當(dāng)假設(shè)H(p<=0.01)成立時(shí)，100個(gè)樣品中有3個(gè)或3個(gè)以上次品的概率不超過0.08。這可以看作一個(gè)“小概率”事件。而在一次實(shí)驗(yàn)中就發(fā)生了一個(gè)小概率事件的不大可能的。因此，事先作出的假設(shè)“p<=0.01”是非常可疑的，在需要作出最終判決時(shí)，就應(yīng)該否定這個(gè)假設(shè)，而認(rèn)定這批產(chǎn)品不可接受（即認(rèn)為p>=0.01）。

　　上述例子包含了假設(shè)檢驗(yàn)的一些重要的基本概念。一般，設(shè)θ為用以確定總體分布的一個(gè)未知參數(shù)，其一切可能只的集合記為⊙，則關(guān)于θ的任一假設(shè)可用“θ ∈⊙' ”來表示，其中⊙'為⊙的一個(gè)真子集。在統(tǒng)計(jì)假設(shè)檢驗(yàn)中，首先要有一個(gè)作為檢驗(yàn)的對象的假設(shè)，常稱為不原假設(shè)或零假設(shè)。與之相對應(yīng)，為使問題表述更加明確，還常提出一個(gè)與相反的假設(shè)，稱為備擇假設(shè)。原假設(shè)和備擇假設(shè)常表示為：

　　用R語言做數(shù)據(jù)分析——假設(shè)檢驗(yàn)基本概論

　　其中⊙0和⊙1為⊙的兩個(gè)不相交的真子集，H0表示原假設(shè)，H1表示備擇假設(shè)。

　　關(guān)于θ的假設(shè)常有以下三種形式（其中θ 0為給定值）：

　　用R語言做數(shù)據(jù)分析——假設(shè)檢驗(yàn)基本概論

　　假設(shè)檢驗(yàn)的依據(jù)是樣本，樣本的某些取值可能對原假設(shè)H0有利，而另一些取值可能對H0不利。因此可以根據(jù)某種公認(rèn)的合理準(zhǔn)則將樣本空間分成兩部分，一部分為拒絕域，當(dāng)樣本落入拒絕域時(shí)，便拒絕H0；另一部分可稱為接受域，當(dāng)樣本落入它時(shí)不拒絕H0。

　　構(gòu)造拒絕域的常用方法是尋找一個(gè)統(tǒng)計(jì)量g（如樣品中次品的件數(shù)X），g的大小可以反映出對原假設(shè)H0有利或者不利，因此，確定拒絕域W的問題轉(zhuǎn)化為確定統(tǒng)計(jì)量g的一個(gè)取之于C的問題。

　　例子：對假設(shè)檢驗(yàn)問題，設(shè)X1,X2,...,Xn為樣本，W為樣本空間中的一個(gè)子集，對于給定的α∈(0,1)，若W滿足：

　　用R語言做數(shù)據(jù)分析——假設(shè)檢驗(yàn)基本概論

　　則稱由W構(gòu)成拒絕域的檢驗(yàn)方法為顯著性水平α的檢驗(yàn)。

　　顯著性水平α常用的取值為0.1、0.05和0.01等。對一個(gè)顯著性水平α的檢驗(yàn)，假定原假設(shè)H0成立，而樣本落入拒絕域W中，就意味著一個(gè)小概率發(fā)生了，而一次實(shí)驗(yàn)中發(fā)生一個(gè)小概率事件是可疑的，結(jié)果就導(dǎo)致了對原假設(shè)H0的否定。

　　在第一個(gè)例子中，如果事先給定α=0.1，而Pp=0.01{X>=3}=0.08，因此當(dāng)p<0.01時(shí)，這個(gè)概率還要小，根據(jù)定義W={X>=3}便給出了假設(shè)檢驗(yàn)H0：p<=p0=0.01的顯著性水平α=0.01的拒絕域，由X=3便可拒絕H0。但如果事先給定的顯著性水平α=0.05，這時(shí)，相應(yīng)的顯著性水平α的檢驗(yàn)的拒絕域W={X>=4}，這時(shí)X=3就不能拒絕H0。由此可見，顯著性水平α越小，則拒絕原假設(shè)越困難。換一句話說：顯著性水平α越小，則當(dāng)樣本落入拒絕域因而拒絕H0就越加可信。

　　通常，作假設(shè)者對原假設(shè)H0往往事先有一定的信任度，或者一旦否定了H0就意味著作出一個(gè)重大的決策，需謹(jǐn)慎從事，因此把檢驗(yàn)的顯著性水平α取得比較小其中體現(xiàn)了一種“保護(hù)原假設(shè)”的思想。