之前在統(tǒng)計(jì)學(xué)的學(xué)習(xí)中,已經(jīng)初步認(rèn)識了假設(shè)檢驗(yàn),接下來結(jié)合R語言進(jìn)一步深入了解假設(shè)檢驗(yàn)。 假設(shè)檢驗(yàn)是指利用搜索到的數(shù)據(jù)對某個(gè)事先作出的統(tǒng)計(jì)假設(shè)按照設(shè)計(jì)好的方法進(jìn)行檢驗(yàn),判斷此假設(shè)是否正確。在統(tǒng)計(jì)推斷的過程中,需要對參數(shù)提出一定的假設(shè),然后對提出的假設(shè)進(jìn)行假設(shè)檢驗(yàn)。用一個(gè)例子說明假設(shè)檢驗(yàn)的基本概念。 例子:設(shè)某工廠生產(chǎn)的一批產(chǎn)品,其次品率p是未知的,按照規(guī)定,若p<=0.01,則這批產(chǎn)品為可接受的,否則為不可接受的。這里的“p<=0.01”便是一個(gè)需要的假設(shè),記為H。假定從這批量很大的產(chǎn)品中隨機(jī)抽取100件樣品,發(fā)現(xiàn)其中有3件次品,這一抽樣結(jié)果便成為判斷假設(shè)H是否成立的依據(jù)。很顯然,樣品中次品個(gè)數(shù)越多對假設(shè)H越不利,反之則對H有利。記樣品中次品個(gè)數(shù)為X,問題是:X大到什么程度時(shí)就應(yīng)該拒絕H? 我們來分析一下:由于否定了H就等于否定了一大批產(chǎn)品,因此必須要用數(shù)據(jù)事實(shí)慎重對待。統(tǒng)計(jì)學(xué)常用的作法是:先假定H成立,來計(jì)算X>=3的概率有多大?由于X分布為B(n,p),其中n=100,容易計(jì)算出Pp=0.01{X>=3}≈0.08。顯然,對p<0.01,這概率值還要小。也就是說:當(dāng)假設(shè)H(p<=0.01)成立時(shí),100個(gè)樣品中有3個(gè)或3個(gè)以上次品的概率不超過0.08。這可以看作一個(gè)“小概率”事件。而在一次實(shí)驗(yàn)中就發(fā)生了一個(gè)小概率事件的不大可能的。因此,事先作出的假設(shè)“p<=0.01”是非常可疑的,在需要作出最終判決時(shí),就應(yīng)該否定這個(gè)假設(shè),而認(rèn)定這批產(chǎn)品不可接受(即認(rèn)為p>=0.01)。 上述例子包含了假設(shè)檢驗(yàn)的一些重要的基本概念。一般,設(shè)θ為用以確定總體分布的一個(gè)未知參數(shù),其一切可能只的集合記為⊙,則關(guān)于θ的任一假設(shè)可用“θ ∈⊙' ”來表示,其中⊙'為⊙的一個(gè)真子集。在統(tǒng)計(jì)假設(shè)檢驗(yàn)中,首先要有一個(gè)作為檢驗(yàn)的對象的假設(shè),常稱為不原假設(shè)或零假設(shè)。與之相對應(yīng),為使問題表述更加明確,還常提出一個(gè)與相反的假設(shè),稱為備擇假設(shè)。原假設(shè)和備擇假設(shè)常表示為:
其中⊙0和⊙1為⊙的兩個(gè)不相交的真子集,H0表示原假設(shè),H1表示備擇假設(shè)。 關(guān)于θ的假設(shè)常有以下三種形式(其中θ 0為給定值):
假設(shè)檢驗(yàn)的依據(jù)是樣本,樣本的某些取值可能對原假設(shè)H0有利,而另一些取值可能對H0不利。因此可以根據(jù)某種公認(rèn)的合理準(zhǔn)則將樣本空間分成兩部分,一部分為拒絕域,當(dāng)樣本落入拒絕域時(shí),便拒絕H0;另一部分可稱為接受域,當(dāng)樣本落入它時(shí)不拒絕H0。 構(gòu)造拒絕域的常用方法是尋找一個(gè)統(tǒng)計(jì)量g(如樣品中次品的件數(shù)X),g的大小可以反映出對原假設(shè)H0有利或者不利,因此,確定拒絕域W的問題轉(zhuǎn)化為確定統(tǒng)計(jì)量g的一個(gè)取之于C的問題。 例子:對假設(shè)檢驗(yàn)問題,設(shè)X1,X2,...,Xn為樣本,W為樣本空間中的一個(gè)子集,對于給定的α∈(0,1),若W滿足:
則稱由W構(gòu)成拒絕域的檢驗(yàn)方法為顯著性水平α的檢驗(yàn)。 顯著性水平α常用的取值為0.1、0.05和0.01等。對一個(gè)顯著性水平α的檢驗(yàn),假定原假設(shè)H0成立,而樣本落入拒絕域W中,就意味著一個(gè)小概率發(fā)生了,而一次實(shí)驗(yàn)中發(fā)生一個(gè)小概率事件是可疑的,結(jié)果就導(dǎo)致了對原假設(shè)H0的否定。 在第一個(gè)例子中,如果事先給定α=0.1,而Pp=0.01{X>=3}=0.08,因此當(dāng)p<0.01時(shí),這個(gè)概率還要小,根據(jù)定義W={X>=3}便給出了假設(shè)檢驗(yàn)H0:p<=p0=0.01的顯著性水平α=0.01的拒絕域,由X=3便可拒絕H0。但如果事先給定的顯著性水平α=0.05,這時(shí),相應(yīng)的顯著性水平α的檢驗(yàn)的拒絕域W={X>=4},這時(shí)X=3就不能拒絕H0。由此可見,顯著性水平α越小,則拒絕原假設(shè)越困難。換一句話說:顯著性水平α越小,則當(dāng)樣本落入拒絕域因而拒絕H0就越加可信。 通常,作假設(shè)者對原假設(shè)H0往往事先有一定的信任度,或者一旦否定了H0就意味著作出一個(gè)重大的決策,需謹(jǐn)慎從事,因此把檢驗(yàn)的顯著性水平α取得比較小其中體現(xiàn)了一種“保護(hù)原假設(shè)”的思想。 |
|