Stata入門介紹

極高明處 2014-12-07

展開全文

Stata入門介紹

轉載，原作者不詳。
(1) Stata要在使用中熟練的，大家應該多加練習。
(2) Stata的很多細節(jié)，這里不會涉及，只是選取相對重要的部分加以解釋，大家在使用Stata過程中留心積累。作為入門性質(zhì)的介紹，本文只選取和中級計量經(jīng)濟學作業(yè)相關的內(nèi)容和一些處理數(shù)據(jù)所使用的基本命令。對于更高深的內(nèi)容，請大家參看STATA manual.”

界面

當我們把stata裝好以后，首先需要了解的是它的界面。打開Stata后我們便可以看到它常用的四個窗口：Stata Results; Review; Variables; Stata Command。我們所有的運行結果都會在Stata Results界面中顯示；而命令的輸入則在Stata Command窗口；Review窗口記錄我們使用過的命令；最后Variables窗口顯示存在于當前數(shù)據(jù)庫中的所有變量的名稱?？梢灾苯狱c擊 Review窗口來重新輸入已使用過的命令，我們所需變量可以通過點擊Varaibles窗口來得到，這些都可以簡便我們的操作。

Stata 命令

Stata軟件功能強大，體現(xiàn)在它提供了豐富的命令，可以實現(xiàn)許多功能。每一個stata命令都相應的命令格式。我們在這里介紹常用的一些命令的功能和相應的格式，大家在使用stata的過程中會不斷積累命令的相關知識。

需要對命令的幫助時可以用help命令查詢。例如了解命令： “reg” ，就可以在Stata Command窗口輸入 “help reg” ，也可以在Help選項下content中查找我們需要的相關命令。用help查詢，則窗口會顯示關于該命令的詳盡說明。更直接的辦法是看Examples中的范例是如何使用該命令，閱讀一些相關的說明并加以模仿。

重要習慣

我們使用stata進行回歸分析時，需要養(yǎng)成一些好的習慣。在進行一些數(shù)據(jù)量很大，過程復雜的分析時尤其重要。

（1）使用日志（log）。它可以幫助我們記錄stata的運行結果。

格式：log using c:\stata8\logfiles\10.21.5_30.log
（注意：我們需要先建好文件夾c:\stata8\logfiles）

關閉log的命令為“l(fā)og close”。

格式: log close

那么“10.21.5_30.log”文件就記錄了從“l(fā)og using”命令到“l(fā)og close”命令之間stata運行的所有結果。

（2）Do-file。在command窗口輸入命令的方式很受限制，我們使用工具欄中“Do-file-editor”（第8個）在Do-file中編程。直接的好處便是我們可以很方便的執(zhí)行以前寫過的命令，并記錄我們需要的命令，方便下一次的使用和分析。在復雜的分析中，采用Command窗口輸入的方式會是非常的困難，我們必須用do-file去編程。

在do-file文件中，用*表示注釋內(nèi)容，Stata在運行do-file時會跳過這些注釋語句。加入注釋語句能增強do-file的可讀性。我們應該養(yǎng)成習慣為每一個do-file文件寫詳細的注釋內(nèi)容。比如要說明文件名稱，回歸分析的目的，時間和存放位置。如果過程中生成并保存了數(shù)據(jù)文件，應寫出相應數(shù)據(jù)文件的名稱等。如果中途對do-file文件進行過修改，最好將修改過文件保存為另一個文件，以便于將來對比分析原文件和修改后的文件。

格式：
*Wage_analysis.do
*The program is written for the analysis of wage determination.
*Data management: reshape the data to panel.
*This rsult will be saved in the data file: wage1.dta
* written: 10/21/05

在調(diào)試do-file文件時，可以選擇部分命令讓Stata只運行選中部分。

我們可以保存當前使用的do-file文件。Review窗口中的命令也可以保存為do-file。方法是右鍵點擊Review窗口，選擇Save Review Contents。

（3）存儲數(shù)據(jù)。在分析一個大的數(shù)據(jù)庫時，中途對數(shù)據(jù)有改動和刪減，有必要在分析過程中將數(shù)據(jù)進行保存，可以用File選項中“save as”，同時要為中途保存的數(shù)據(jù)文件寫一個詳盡的說明文件，此外還可以在do-file文件中或command窗口中使用命令 “save” 來實現(xiàn)。

格式：save c:\stata\datasets\2.dta

打開數(shù)據(jù)文件

我們用Stata做回歸的第一步便是打開一個數(shù)據(jù)庫。我們可以用工具欄“Open”（第1個），打開相應數(shù)據(jù)文件。也可以使用命令 “use” 。

格式: use c:\data\datasets\1.dta

Stata有自己的數(shù)據(jù)格式，我們課上一般會給大家Stata格式的數(shù)據(jù)庫。有時候，我們手頭的數(shù)據(jù)格式不符合Stata的格式，就需要用相關軟件進行轉換，比如transfer，對這個問題感興趣的同學可以課后和我們聯(lián)系。如果我們的數(shù)據(jù)是Excel格式，那么可以直接把里面的數(shù)據(jù)拷貝粘貼到Stata 中：只需要點開數(shù)據(jù)工具欄“Data Editor”（第9個），就可以進行粘貼。

打開數(shù)據(jù)后我們可以用工具欄“Data Browse”（第10個）瀏覽數(shù)據(jù)。瀏覽數(shù)據(jù)可以幫助我們了解具體每一個數(shù)據(jù)。要了解數(shù)據(jù)具有的特征，我們必須借助Stata命令。

了解數(shù)據(jù)特征

“describe” 命令可以告訴我們每一個變量的含義。

格式：describe

具體了解每一個變量的特征，我們可以用tabstat命令。例如我們可以計算wage的均值，方差，中位數(shù)，范圍，具體可以用help tabstata查詢。

格式:
tabstat wage, stats(mean)
tabstat wage, stats (sd median range) (注意不要逗號)

如果我們想要了解不同教育水平的工資的均值，可以用如下命令：

格式: tabstat wage, by (educ) stats(mean)

此外可以使用 “Sum”，它是命令 “summarize” 的簡寫。Summarize（Sum）將匯報數(shù)據(jù)的均值和方差等信息。

格式：
summarize wage
sum educ exper

需要了解如“中位數(shù)”(median)，我們可以進一步使用后綴detail。此時會詳細報告百分比所對應的樣本值。

格式：sum wage educ, detail

此外Stata還提供了別的命令幫助我們了解數(shù)據(jù)，如 “codebook” 命令，它與帶detail后綴的 “sum” 命令相似。 “table”，它將報告數(shù)據(jù)取值和相應的頻率。 “tabulate” (或簡寫為ta)是一個很有用的命令。與table相比，ta將進一步報告數(shù)據(jù)分布的百分比。

格式:
codebook wage educ
table wage
ta educ

利用“by”命令，我們可以了解數(shù)據(jù)更細致的特征。例如我們想知道受不同教育的人群中工資的分布。

格式:
sort educ（這一步不可缺，一定需要先排序）
by educ: table wage
by educ: tabulate wage

畫圖

很多時候，畫圖能夠直觀地看到數(shù)據(jù)分布和它們之間關系。比如我們可以 “histogram” 命令畫出數(shù)據(jù)分布的柱狀圖(histogram)。

格式：
histogram wage

“scatter”命令可以畫出兩個變量之間的分布關系。例如我們想直觀的看到教育水平變化時工資的變化，可以用 “scatter” 命令或者 “graph twoway scatter” 命令。

格式:
scatter wage educ
graph twoway scatter wage educ

“graph twoway”命令可以帶別的后綴，例如 “graph twoway line” 則畫的是線狀圖。

格式:
graph twoway line wage educ

“graph”命令還有很多別的功能。例如使用“graph matrix”可以了解更多的變量之間的關系?！癵raph bar (mean) y, over(x)”就可以了解y的平均值關于x分布的柱狀圖。

格式:
graph matrix wage educ
graph matrix wage educ exper
graph bar (mean) wage, over (educ)

右鍵點擊graph窗口可以將圖片進行保存和復制。

變量
在分析的過程中，有些變量并沒有在數(shù)據(jù)中提供，需要我們用原始數(shù)據(jù)或者回歸的結果構造。常用的命令是 “gen” 和 “egen” 。

格式
gen educsqr=educ^2

egen命令相對復雜一些，它能生成一些“gen”命令無法生成的變量。例如可以生成wagesum為每個人的工資和，以及生成wagemedian為工資的中位數(shù)(median)，wagemax為工資的最大值。

格式:
egen wagesum=sum(wage)
egen wagemedian=median(wage)
egen wagemax=max(wage)

更復雜的如想產(chǎn)生一個變量“wagemax”為相同教育水平里的最高工資。

格式: egen wagemaxeduc=max (wage),by (educ)

如果我們需要替換某一變量，我們可以用的命令是“replace”。

格式:
replace wagemax=wage
replace wagemax=1

有時候我們在生成變量時可以加上一定條件，例如如果一個樣本工資超過3，我們就定義它的變量wagehigh的取值為1，否則為0。

格式:
gen wagehigh=1 if wage>=10
replace wagehigh=0 if wagehigh ==.（注意是兩個等號）

我們也需要去掉過程中的暫用的變量，以方便我們?yōu)g覽數(shù)據(jù)和重新定義變量。我們可以用drop命令。

格式: drop educsqr wagesum wagemedian wagemax wagemaxeduc wagehigh

我們可以用“keep”或“drop”命令來刪除一些樣本,在刪除之前，我們需要了解刪除帶來的影響，則可以用“count”命令來了解樣本取值的情況。

格式:
count if wage<100
count if wage<10

我們可以用“sort”和“l(fā)ist”命令來了解數(shù)據(jù)分布的細節(jié)。例如我們想知道工資值從小到大排列在第50到70的樣本的工資值。

格式:
sort wage
list wage in 50/70

如果我們想保留工資小于100的樣本，可以有兩種命令。

格式:
keep if wage<100
drop if wage>=100

有時我們關心變量之間的相關性，可以使用“correlate”命令，它將報告變量之間的相關系數(shù)。

格式：
correlate wage educ exper tenure

回歸

現(xiàn)在我們以進入最重要的環(huán)節(jié)：回歸分析。
進行OLS回歸的命令為“reg”。

格式: reg wage educ

Stata Results窗口將報告這一回歸的相關結果:

. reg wage educ

Source　|　　SS 　　　df 　MS　　　　　 Number of obs = 526
-----------------------------------　 F( 1, 524) = 103.36
Model　 | 1179.73204 　1 1179.73204　 Prob > F = 0.0000
Residual| 5980.68225 524 11.4135158 　R-squared = 0.1648
-----------------------------------　 Adj R-squared = 0.1632
Total　　| 7160.41429 525 13.6388844　 Root MSE = 3.3784

--------------------------------------------------------------
wage |　　 Coef. Std. Err.　　　t　　P>|t| [95% Conf. Interval]
--------------------------------------------------------------
educ |　.5413593　.053248　　10.17　0.000　　.4367534　.6459651
_cons| -.9048516　.6849678　 -1.32　0.187　-2.250472　.4407687
--------------------------------------------------------------

.
.表格中最后兩行報告回歸的斜率和截距的系數(shù)，相應的標準差、t值和P值，同時給出95%的置信區(qū)間。在表格左上方，報告了回歸的總變異、解釋變異和殘差變異。表格右上方報告回歸的R方和調(diào)整后的R方。其中F是自變量所有的系數(shù)都為0（即自變量完全沒有解釋力）這樣一個零假設對應的F分布值。

回歸會產(chǎn)生很多我們感興趣的值，例如回歸的擬合值以及回歸的殘差。Stata提供了predict命令幫助我們存儲這些變量。例如我們把擬合值定義為wagehat，殘差定義為wageresid。

格式:
predict wagehat
predict wageresid, re

我們常常需要檢驗某一個零假設，例如在我們作了如下回歸

格式: reg wage educ exper tenure nonwhite female

之后，我們想要知道nonwhite的系數(shù)是否顯著，我們可以直接看回歸結果報告，也可以用test命令。

格式: test nonwhite

test命令報告的結果為F值。而回歸結果報告的為t值。它們之間是平方關系，而p 值是一樣的。對于更復雜的零假設，比如 nonwhite和female是否同時為0。exper的系數(shù)和tenure的系數(shù)是否相等，則只能借助“test”命令。

格式:
test nonwhite female
test exper=tenure

報告回歸結果

一般需要報告回歸系數(shù)和相應的殘差，同時報告系數(shù)的顯著性。此外根據(jù)需要往往還要報告回歸的擬合優(yōu)度和使用的樣本個數(shù)。對于回歸系數(shù)的符號和大小變化，要給出相應的分析和解釋。許多時候還會把檢驗的結果附在表格中。

下面是一個報告回歸結果的表格（摘自經(jīng)濟學論文）。其中括號里報告的是系數(shù)的方差， All Women 和 Married Women 表示兩個總體，(1)(2)(3)對應不同的模型設定。

計算器