一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

R語言與數(shù)據(jù)挖掘?qū)W習(xí)筆記(3):數(shù)據(jù)探索

 啊羊的書店 2013-03-24


19
Jun 12

R語言與數(shù)據(jù)挖掘?qū)W習(xí)筆記(3):數(shù)據(jù)探索

   在開始一個(gè)數(shù)據(jù)分析項(xiàng)目之前,都非常有必要了解一下我們的數(shù)據(jù),今天晚上主要整理數(shù)據(jù)探索方面一些常用的代碼:

一、先看看數(shù)據(jù)

我們首先要先了解一下數(shù)據(jù)的尺寸和結(jié)構(gòu):

dim(iris) # 了解數(shù)據(jù)集的維度,有多少行多少列?

names(iris) # 數(shù)據(jù)有哪些列?

str(iris) # 數(shù)據(jù)的結(jié)構(gòu)如何?

attributes(iris) # 數(shù)據(jù)的列名、行名和數(shù)據(jù)結(jié)構(gòu)

然后看看數(shù)據(jù)集前幾行和后幾行長成什么樣子:

iris[1:5, ] # 看看數(shù)據(jù)的前5行

head(iris) # 看看數(shù)據(jù)的前6行

tail(iris) # 看看數(shù)據(jù)的最后6行

iris[1:10, "Sepal.Length"] # Sepal.Length變量的前10個(gè)取值

iris$Sepal.Length[1:10] # 用另外一種形式取出

二、看看單個(gè)變量的情況

summary(iris) # 看看單個(gè)變量的關(guān)鍵數(shù)據(jù):最小值、25%分位數(shù)、中位數(shù)、均值、75%分位數(shù)、最大值

quantile(iris$Sepal.Length) # 單個(gè)變量的1%、25%、50%、75%、100%分位數(shù)

quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65)) # 指定分位點(diǎn)對應(yīng)的分位數(shù)

mean(),median(),range() # 返回均值、中位數(shù)和數(shù)據(jù)的范圍

對于連續(xù)變量:

var() # 返回變量的方差

hist(iris$Sepal.Length) # 畫出變量的直方圖,看看變量的分布情況

plot(density(iris$Sepal.Length)) # 畫出變量的密度函數(shù)圖

對于類別變量:

table(iris$Species) # 統(tǒng)計(jì)每個(gè)類別的計(jì)數(shù),了解一下各個(gè)類別的分布

pie(table(iris$Species)) # 畫出每個(gè)類別的占比餅圖

barplot(table(iris$Species)) # 畫出柱狀圖

三、觀察多個(gè)變量之間的關(guān)系

首先看看變量之間的相關(guān)性:

cov(iris[ , 1:4]) # 計(jì)算變量之間的協(xié)方差矩陣

cor(iris[ , 1:4]) # 計(jì)算變量之間的相關(guān)系數(shù)矩陣

然后研究一些在不同的目標(biāo)變量水平下,某變量的基本情況:

aggregate(Sepal.Length~Spacies, summary, data=iris) # 對于Sepal.Length變量,在每個(gè)Species水平上執(zhí)行summary計(jì)算

boxplot(Sepal.Length~Species, data=iris) # 針對每個(gè)Species水平繪制Sepal.Length的盒形圖

with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species))) #針對每個(gè)Species水平繪制兩個(gè)變量的散點(diǎn)圖,并用顏色和點(diǎn)狀區(qū)分

plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))

接著用圖形的方式研究變量之間的關(guān)系:

pairs(iris) # 繪制任意兩個(gè)矩陣之間的散點(diǎn)圖,發(fā)現(xiàn)變量之間的相關(guān)性

四、看看其他方面

三維散點(diǎn)圖:

library(scatterplot3d)
scatterplot3d(iris$Petal.Width, iris$Sepal.Length, iris$Sepal.Width)

構(gòu)造相似性矩陣,用熱圖可視化樣本之間的相似性:

distMatrix <- as.matrix(dist(iris[,1:4]))
heatmap(distMatrix)

以Sepal.Length和Sepal.Width為橫縱坐標(biāo),分水平,以Petal.Width大小為顏色,探索數(shù)據(jù)之間的關(guān)系:

library(lattice)
levelplot(Petal.Width~Sepal.Length*Sepal.Width, iris, cuts=9,col.regions=grey.colors(10)[10:1])

以等高線的形式探索數(shù)據(jù)的關(guān)系:

library(lattice)

filled.contour(volcano, color=terrain.colors, asp=1,plot.axes=contour(volcano, add=T))

畫一頂帽子:

persp(volcano, theta = 25, phi = 30, expand = 0.5, col = "lightblue")

平面坐標(biāo)可視化,研究不同類別變量之間的差異:

library(MASS)
parcoord(iris[1:4], col=iris$Species)

還可以用另外一個(gè)函數(shù)實(shí)現(xiàn)

library(lattice)
parallelplot(~iris[1:4] | Species, data=iris)

最后介紹一下ggplot2這個(gè)包,非常強(qiáng)悍,后續(xù)專門找一個(gè)晚上重點(diǎn)學(xué)習(xí),一個(gè)簡單的例子:

根據(jù)Species的不同類別,繪制Sepal.Length和Sepal.Width的散點(diǎn)圖。

library(ggplot2)
qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)

五、保存圖片

# save as a PDF file
pdf("myPlot.pdf")
x <- 1:50
plot(x, log(x))
graphics.off()
# Save as a postscript file
postscript("myPlot2.ps")
x <- -20:20
plot(x, x^2)
graphics.off()

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产精品视频一区二区秋霞| 国语对白刺激高潮在线视频| 青青操成人免费在线视频| 99久久国产亚洲综合精品| 国产精品午夜小视频观看| 久久精品国产99精品亚洲| 日韩国产亚洲欧美激情| 九九热这里只有精品视频| 91偷拍视频久久精品| 91人妻人人精品人人爽| 中文字幕亚洲在线一区| 色综合视频一区二区观看| 五月天丁香婷婷狠狠爱| 欧美亚洲综合另类色妞| 久久精品亚洲欧美日韩| 91精品视频全国免费| 中文字幕中文字幕一区二区| 尹人大香蕉中文在线播放| 久久精品免费视看国产成人 | 日本高清一区免费不卡| 久久碰国产一区二区三区| 好吊妞视频免费在线观看| 午夜精品成年人免费视频| 午夜精品在线视频一区| 儿媳妇的诱惑中文字幕| 亚洲国产性生活高潮免费视频| 99久久精品午夜一区二| 中文字幕av诱惑一区二区| 少妇人妻中出中文字幕| 精品日韩中文字幕视频在线| 午夜激情视频一区二区| 久久天堂夜夜一本婷婷| a久久天堂国产毛片精品| 亚洲内射人妻一区二区| 99日韩在线视频精品免费| 黄色美女日本的美女日人| 国产av熟女一区二区三区四区| 欧美一区二区在线日韩| 国产午夜福利在线观看精品| 国产av大片一区二区三区| 中文字幕亚洲精品乱码加勒比|