最近科室上級老師發(fā)了一張圖片給我,想要激勵我努力學習。我一看,光榮榜,四川大學華西臨床醫(yī)學院的兩位今年畢業(yè)的8年制博士,估計也就26歲吧。 再仔細一看,媽呀,每個人讀書期間都發(fā)了30-40篇SCI了,還有一堆獎學金和學術頭銜。還好自己不再那么年輕,要是在當年,我還不得熬夜幾天幾夜,來研究如何發(fā)SCI,然后,然后無功而返,就放棄了。。 現(xiàn)在隨著年齡的增長,心態(tài)也要平和很多,這種心態(tài)變化并不是一件好事,喪失了年輕時的那般激情。盡管我現(xiàn)在還沒有一篇SCI,但我心里想哇,跟隨自己的內(nèi)心,按部就班的把事情做好,可能速度要慢一點。別人再怎么厲害,跟我沒關系,我要做的就是每周都能看到自己在進步,這就夠了。 感慨完了,那就開始總結吧。 打開STATA并導入EXCEL數(shù)據(jù) 本周的收獲是關于處理從SEER數(shù)據(jù)庫里下載的數(shù)據(jù),利用STATA軟件來對數(shù)據(jù)處理。前面一篇是關于EXCEL來處理數(shù)據(jù),發(fā)現(xiàn)雖然上手快,但速度要慢一點;而用STATA上手稍慢點,但處理速度要快得多,而且很簡潔。關于STATA安裝問題,在百度下搜索,下載無腦安裝就可以了。 打開STATA,頁面如下: 拿我們上周從數(shù)據(jù)庫里下載的數(shù)據(jù)來舉例。 我們需要將以上EXCEL表導入STATA中,步驟如下: 以上圖片顯示EXCEL導入成功。 STATA處理數(shù)據(jù) 1 我們的目標時將EXCEL里的性別、種族、分化程度、T分期、N分期、M分期六個變量全部用數(shù)字代替,并且刪除一些無效數(shù)據(jù)。 例如第一個變量,Sex,用'1'表示'Male',用'2'表示'Female',用STATA操作,以下是編寫命令的過程: 第一步:輸入以下命令 gen gender =9 這里的意思是在STATA里生成一個新的變量,并將所有患者默認值為9,在SEER數(shù)據(jù)庫里“9”代表未知的意思。(備注:以上命令包括以下所有命令中的符號是全英文下的狀態(tài),不會軟件運行會報錯。) 第二步:然后再輸入以下命令 replace gender =1 if strmatch(Sex, '*Male*') replace gender =2 if strmatch(Sex, '*Female*') 意思就是抓取Sex里的'Male'、'Female'字眼,并分別將他們賦值為:'1'、'2'保存到之前生成的gender的變量里面。 如圖所示,連個命令可以同時輸入,再enter 打開中間靠右的Data Browser,將表格拖到最右邊,如下圖。 這里的gender數(shù)值意義就是將Sex里的'Male'、'Female'全部用'1'、'2'表示,一步到位,避免EXCEL的篩選步驟的繁瑣。 2 第二個變量,race,我們用'1'表示'White',用'2'表示'Black', 用'3'表示'Other', 同樣,首先生成一個新的變量: gen race =9 然后再輸入以下命令 replace race=1 if strmatch(RacerecodeWhiteBlackOther, '*White*') replace race=2 if strmatch(RacerecodeWhiteBlackOther, '*Black*') replace race=3 if strmatch(RacerecodeWhiteBlackOther, '*Other*') 如下圖所示: race下面的'1'、'2'、'3'分別代表'White'、'Black'、'Other' 我們可以觀察下這個race下面的數(shù)據(jù)分布情況, 輸入命令:tab race 如下圖。 從這里我們可以看到各個種族的例數(shù)及比例分布,其中的'9'還有129例代表的是'unknown',我們可以一個命令(drop if race ==9)就可以把這129例患者資料刪除,如下圖。 3 STATA還有一個最大的厲害之處就是我們處理數(shù)據(jù)之前,可以把我們要處理的變量在TXT文檔里把全部命令寫好,然后在粘貼復制到STATA里,一秒鐘處理全部數(shù)據(jù),比上一系列文章中的EXCEL處理快太多。 再在Data Browser里查看,如下圖。 再從STATA里將處理完的數(shù)據(jù)全部導出至EXCEL里,同導入方式,導出結果如下圖。 這就是利用STATA高效處理數(shù)據(jù)全過程。 記得一句話“快就是慢,慢就是快”,對于數(shù)據(jù)的處理,利用EXCEL和STATA處理數(shù)據(jù)看個人選擇,經(jīng)過我自己親自實操的感受來看,我認為STATA要好太多。如果誰需要相關命令的模版,私信我。 用了5個系列將SEER數(shù)據(jù)庫從入門到提取數(shù)據(jù),再到處理數(shù)據(jù),接下來我會繼續(xù)研究關于數(shù)據(jù)分析這塊,距離發(fā)一篇SCI又近了一步,哈哈。 累了,渴了,來碗毒雞湯:你必須不停地奔跑,才能留在原地。 ———— e n d ———— |
|