Stata入門介紹 轉載,原作者不詳。 界面 當我們把stata裝好以后,首先需要了解的是它的界面。打開Stata后我們便可以看到它常用的四個窗口:Stata Results; Review; Variables; Stata Command。我們所有的運行結果都會在Stata Results界面中顯示;而命令的輸入則在Stata Command窗口;Review窗口記錄我們使用過的命令;最后Variables窗口顯示存在于當前數(shù)據(jù)庫中的所有變量的名稱??梢灾苯狱c擊 Review窗口來重新輸入已使用過的命令,我們所需變量可以通過點擊Varaibles窗口來得到,這些都可以簡便我們的操作。 Stata 命令 Stata軟件功能強大,體現(xiàn)在它提供了豐富的命令,可以實現(xiàn)許多功能。每一個stata命令都相應的命令格式。我們在這里介紹常用的一些命令的功能和相應的格式,大家在使用stata的過程中會不斷積累命令的相關知識。 需要對命令的幫助時可以用help命令查詢。例如了解命令: “reg” ,就可以在Stata Command窗口輸入 “help reg” ,也可以在Help選項下content中查找我們需要的相關命令。用help查詢,則窗口會顯示關于該命令的詳盡說明。更直接的辦法是看Examples中的范例是如何使用該命令,閱讀一些相關的說明并加以模仿。 重要習慣 我們使用stata進行回歸分析時,需要養(yǎng)成一些好的習慣。在進行一些數(shù)據(jù)量很大,過程復雜的分析時尤其重要。 (1)使用日志(log)。它可以幫助我們記錄stata的運行結果。 格式:log using c:\stata8\logfiles\10.21.5_30.log 關閉log的命令為“l(fā)og close”。 格式: log close 那么“10.21.5_30.log”文件就記錄了從“l(fā)og using”命令 到“l(fā)og close”命令之間stata運行的所有結果。 (2)Do-file。在command窗口輸入命令的方式很受限制,我們使用工具欄中“Do-file-editor”(第8個)在Do-file中編程。直接的好處便是我們可以很方便的執(zhí)行以前寫過的命令,并記錄我們需要的命令,方便下一次的使用和分析。在復雜的分析中,采用Command窗口輸入的方式會是非常的困難,我們必須用do-file去編程。 在do-file文件中,用*表示注釋內(nèi)容,Stata在運行do-file時會跳過這些注釋語句。加入注釋語句能增強do-file的可讀性。我們應該養(yǎng)成習慣為每一個do-file文件寫詳細的注釋內(nèi)容。比如要說明文件名稱,回歸分析的目的,時間和存放位置。如果過程中生成并保存了數(shù)據(jù)文件,應寫出相應數(shù)據(jù)文件的名稱等。如果中途對do-file文件進行過修改,最好將修改過文件保存為另一個文件,以便于將來對比分析原文件和修改后的文件。 格式: 在調(diào)試do-file文件時,可以選擇部分命令讓Stata只運行選中部分。 我們可以保存當前使用的do-file文件。Review窗口中的命令也可以保存為do-file。方法是右鍵點擊Review窗口,選擇Save Review Contents。 (3)存儲數(shù)據(jù)。在分析一個大的數(shù)據(jù)庫時,中途對數(shù)據(jù)有改動和刪減,有必要在分析過程中將數(shù)據(jù)進行保存,可以用File選項中“save as”,同時要為中途保存的數(shù)據(jù)文件寫一個詳盡的說明文件,此外還可以在do-file文件中或command窗口中使用命令 “save” 來實現(xiàn)。 格式:save c:\stata\datasets\2.dta 打開數(shù)據(jù)文件 我們用Stata做回歸的第一步便是打開一個數(shù)據(jù)庫。我們可以用工具欄“Open”(第1個),打開相應數(shù)據(jù)文件。也可以使用命令 “use” 。 格式: use c:\data\datasets\1.dta Stata有自己的數(shù)據(jù)格式,我們課上一般會給大家Stata格式的數(shù)據(jù)庫。有時候,我們手頭的數(shù)據(jù)格式不符合Stata的格式,就需要用相關軟件進行轉換,比如transfer,對這個問題感興趣的同學可以課后和我們聯(lián)系。如果我們的數(shù)據(jù)是Excel格式,那么可以直接把里面的數(shù)據(jù)拷貝粘貼到Stata 中:只需要點開數(shù)據(jù)工具欄“Data Editor”(第9個),就可以進行粘貼。 打開數(shù)據(jù)后我們可以用工具欄“Data Browse”(第10個)瀏覽數(shù)據(jù)。瀏覽數(shù)據(jù)可以幫助我們了解具體每一個數(shù)據(jù)。要了解數(shù)據(jù)具有的特征,我們必須借助Stata命令。 了解數(shù)據(jù)特征 “describe” 命令可以告訴我們每一個變量的含義。 格式:describe 具體了解每一個變量的特征,我們可以用tabstat命令。例如我們可以計算wage的均值,方差,中位數(shù),范圍,具體可以用help tabstata查詢。 格式: 如果我們想要了解不同教育水平的工資的均值,可以用如下命令: 格式: tabstat wage, by (educ) stats(mean) 此外可以使用 “Sum”,它是命令 “summarize” 的簡寫。Summarize(Sum)將匯報數(shù)據(jù)的均值和方差等信息。 格式: 需要了解如“中位數(shù)”(median),我們可以進一步使用后綴detail。此時會詳細報告百分比所對應的樣本值。 格式:sum wage educ, detail 此外Stata還提供了別的命令幫助我們了解數(shù)據(jù),如 “codebook” 命令,它與帶detail后綴的 “sum” 命令相似。 “table”,它將報告數(shù)據(jù)取值和相應的頻率。 “tabulate” (或簡寫為ta)是一個很有用的命令。與table相比,ta將進一步報告數(shù)據(jù)分布的百分比。 格式: 利用“by”命令,我們可以了解數(shù)據(jù)更細致的特征。例如我們想知道受不同教育的人群中工資的分布。 格式: 畫圖 很多時候,畫圖能夠直觀地看到數(shù)據(jù)分布和它們之間關系。比如我們可以 “histogram” 命令畫出數(shù)據(jù)分布的柱狀圖(histogram)。 格式: “scatter”命令可以畫出兩個變量之間的分布關系。例如我們想直觀的看到教育水平變化時工資的變化,可以用 “scatter” 命令或者 “graph twoway scatter” 命令。 格式: “graph twoway”命令可以帶別的后綴,例如 “graph twoway line” 則畫的是線狀圖。 格式: “graph”命令還有很多別的功能。例如使用“graph matrix”可以了解更多的變量之間的關系?!癵raph bar (mean) y, over(x)”就可以了解y的平均值關于x分布的柱狀圖。 格式: 右鍵點擊graph窗口可以將圖片進行保存和復制。 變量 格式 egen命令相對復雜一些,它能生成一些“gen”命令無法生成的變量。例如可以生成wagesum為每個人的工資和,以及生成wagemedian為工資的中位數(shù)(median),wagemax為工資的最大值。 格式: 更復雜的如想產(chǎn)生一個變量“wagemax”為相同教育水平里的最高工資。 格式: egen wagemaxeduc=max (wage),by (educ) 如果我們需要替換某一變量,我們可以用的命令是“replace”。 格式: 有時候我們在生成變量時可以加上一定條件,例如如果一個樣本工資超過3,我們就定義它的變量wagehigh的取值為1,否則為0。 格式: 我們也需要去掉過程中的暫用的變量,以方便我們?yōu)g覽數(shù)據(jù)和重新定義變量。我們可以用drop命令。 格式: drop educsqr wagesum wagemedian wagemax wagemaxeduc wagehigh 我們可以用“keep”或“drop”命令來刪除一些樣本,在刪除之前,我們需要了解刪除帶來的影響,則可以用“count”命令來了解樣本取值的情況。 格式: 我們可以用“sort”和“l(fā)ist”命令來了解數(shù)據(jù)分布的細節(jié)。例如我們想知道工資值從小到大排列在第50到70的樣本的工資值。 格式: 如果我們想保留工資小于100的樣本,可以有兩種命令。 格式: 有時我們關心變量之間的相關性,可以使用“correlate”命令,它將報告變量之間的相關系數(shù)。 格式: 回歸 現(xiàn)在我們以進入最重要的環(huán)節(jié):回歸分析。 格式: reg wage educ Stata Results窗口將報告這一回歸的相關結果: . reg wage educ Source | SS df MS Number of obs = 526 -------------------------------------------------------------- . 回歸會產(chǎn)生很多我們感興趣的值,例如回歸的擬合值以及回歸的殘差。Stata提供了predict命令幫助我們存儲這些變量。例如我們把擬合值定義為wagehat,殘差定義為wageresid。 格式: 我們常常需要檢驗某一個零假設,例如在我們作了如下回歸 格式: reg wage educ exper tenure nonwhite female 之后,我們想要知道nonwhite的系數(shù)是否顯著,我們可以直接看回歸結果報告,也可以用test命令。 格式: test nonwhite test命令報告的結果為F值。而回歸結果報告的為t值。它們之間是平方關系,而p 值是一樣的。對于更復雜的零假設,比如 nonwhite和female是否同時為0。exper的系數(shù)和tenure的系數(shù)是否相等,則只能借助“test”命令。 格式: 報告回歸結果 一般需要報告回歸系數(shù)和相應的殘差,同時報告系數(shù)的顯著性。此外根據(jù)需要往往還要報告回歸的擬合優(yōu)度和使用的樣本個數(shù)。對于回歸系數(shù)的符號和大小變化,要給出相應的分析和解釋。許多時候還會把檢驗的結果附在表格中。 下面是一個報告回歸結果的表格(摘自經(jīng)濟學論文)。其中括號里報告的是系數(shù)的方差, All Women 和 Married Women 表示兩個總體,(1)(2)(3)對應不同的模型設定。 計算器 Stata可以充當計算器用,使用 “display” 命令: 格式: display sqrt(5)*sin(0.5) 關于Stata的數(shù)學函數(shù)的命令格式,可以查詢help function。 |
|
來自: 極高明處 > 《經(jīng)濟》