我們從SEER數(shù)據(jù)庫下載到數(shù)據(jù)庫后,一個(gè)很重要的步驟就是把數(shù)據(jù)庫隨機(jī)分為建模組和驗(yàn)證組,一般來說的話是用70%的數(shù)據(jù)建模,30%的數(shù)據(jù)進(jìn)行驗(yàn)證。因?yàn)槲覀兒茈y找到和SEER數(shù)據(jù)庫類似的數(shù)據(jù)進(jìn)行外部驗(yàn)證,因此只能對(duì)數(shù)據(jù)進(jìn)行拆分來驗(yàn)證。下圖這個(gè)范文,作者就是使用了數(shù)據(jù)7:3的拆分 今天我們來說說怎么通過R語言來對(duì)SEER數(shù)據(jù)庫按比例拆分為建模集和驗(yàn)證集,還是使用我們常用的既往乳腺癌的數(shù)據(jù), 先把數(shù)據(jù)導(dǎo)入
tr1<- sample(nrow(bc),0.7*nrow(bc))##隨機(jī)無放抽取
bc_train <- bc[tr1,]#70%數(shù)據(jù)集
bc_test<- bc[-tr1,]#30%數(shù)據(jù)集
OK,數(shù)據(jù)已經(jīng)隨機(jī)抽取好了,把它寫成文件就好了
write.csv(bc_train,file = "bc_train.csv")
write.csv(bc_test,file = "bc_test.csv")
OK,完成,雖然很簡單,也是很實(shí)用的。 本公眾號(hào)提供了SPSS、Stata對(duì)seer數(shù)據(jù)庫整套挖掘課程,零基礎(chǔ),簡單上手,歡迎訂閱。 更多精彩文章請(qǐng)關(guān)注公眾號(hào):零基礎(chǔ)說科研
|