數(shù)據(jù)科學(xué)是一個極其廣闊的領(lǐng)域,僅靠一本書是不可能登堂入室的。本書的目標(biāo)是教會你使用最重要的數(shù)據(jù)科學(xué)工具。在一個典型的數(shù)據(jù)科學(xué)項目中,需要的工具模型大體如下圖所示 本書第一部分的目的是讓你盡快掌握數(shù)據(jù)探索的基本工具。數(shù)據(jù)探索是一門藝術(shù),它可以審視數(shù)據(jù),快速生成假設(shè)并進行檢驗,接著重復(fù)、重復(fù)、再重復(fù)。數(shù)據(jù)探索的目的是生成多個有分析價值的線索,以供后續(xù)進行更深入的研究 在本書的這一部分中,您將學(xué)習(xí)到一些有用的工具,這些工具具有即時的回報: 第1章:使用ggplot2進行數(shù)據(jù)可視化準(zhǔn)備工作install.packages("tidyverse") library(tidyverse) install.packages("ggplot2") library(ggplot2) 這一行代碼加載了tidyverse的核心R包。在幾乎所有的數(shù)據(jù)分析任務(wù)中,你都會用到這些R包。這行代碼還會告訴你 tidyverse 中的哪些函數(shù)與基礎(chǔ)R包或者已加載的其他 R 包)中的函數(shù)有沖突。 第一步我們使用第一張圖來回答問題: 大引擎汽車比小引擎汽車更耗油嗎? 你可能已經(jīng)有了答案,但應(yīng)該努力讓答案更精確一些。 引擎大小與燃油效率之間是什么關(guān)系? 是正相關(guān),還是負相關(guān)? 是線性關(guān)系,還是非線性關(guān)系? mpg數(shù)據(jù)框可以使用 ggplot2 包中的 mpg 數(shù)據(jù)框(即 ggplot2::mpg)來檢驗自己的答案。數(shù)據(jù)框是變量(列)和觀測(行)的矩形集合。mpg 包含了由美國環(huán)境保護協(xié)會收集的 38 種車型的觀測數(shù)據(jù)。 mpg mpg 中包括如下變量。 創(chuàng)建ggplot圖形為了繪制 mpg 的圖形,運行以下代碼將 displ 放在 x 軸, hwy 放在 y 軸: ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy)) 上圖顯示出引擎大小(displ)和燃油效率(hwy)之間是負相關(guān)關(guān)系。
繪圖模板我們將上面的代碼轉(zhuǎn)換為一個可重用的 ggplot2 繪圖模板。要想生成一張圖,將以下代碼中的尖括號部分替換為數(shù)據(jù)集、幾何對象函數(shù)或映射集合即可: ggplot(data = <DATA>) + <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>)) 圖形屬性映射可以向二維散點圖中添加第三個變量,比如 class,方式是將它映射為圖形屬性。圖形屬性是圖中對象的可視化屬性,其中包括數(shù)據(jù)點的大小、形狀和顏色。通過改變圖形屬性的值,可以用不同的方式來顯示數(shù)據(jù)點 ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, color = class))
在上例中,我們將 class 映射為顏色,但也可以用同樣的方式將其映射為點的大小。在下面的示例中,每個點的實際大小表示其所屬的類別。這里我們收到一條警告信息,因為將無序變量(class)映射為有序圖形屬性(size)可不是好主意。 或者我們也可以將 class 映射為控制數(shù)據(jù)點透明度的 alpha 圖形屬性 ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, alpha = class)) ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, shape = class)) 還可以將其映射為點的形狀 ggplot2 只能同時使用 6 種形狀。默認情況下,當(dāng)使用這種圖形屬性時,多
還可以手動為幾何對象設(shè)置圖形屬性。例如,我們可以讓圖中的所有點都為藍色: ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy), color = "blue")
· 顏色名稱是一個字符串。 舉個栗子 ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy), shape = 1, colour = "blue", size = 5, stroke = 2) ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy), shape =21, colour = "blue", fill = "grey",size = 5, stroke = 2) 好了,今天就先放到這。 另外,最近收集了一些很好的資源,想分享給大家,順便能漲一些粉,主要有
R語言實戰(zhàn)(中文完整版) R數(shù)據(jù)科學(xué)(中文完整版) ggplot2:數(shù)據(jù)分析與圖形藝術(shù) 30分鐘學(xué)會ggplot2
前期從https:///datapages/ (UCSC Xena)數(shù)據(jù)庫下載的TCGA數(shù)據(jù),傳到了百度云上備份。 感興趣的話,轉(zhuǎn)發(fā)朋友圈或者100人以上的微信群,截圖發(fā)到公眾號,即可獲取全部資源的百度云鏈接,鏈接7天有效,希望大家趕緊下載。你們的支持是我前進的動力,感謝。 |
|