大數(shù)據(jù)如此火熱的現(xiàn)在,想必許多小伙伴都想要加入這個(gè)行業(yè)。也是我們今天就要拿出收藏已久的大數(shù)據(jù)學(xué)習(xí)計(jì)劃。幫助你不走彎路,邁向大數(shù)據(jù)之路。 1 大數(shù)據(jù)應(yīng)用離不開基礎(chǔ)軟件的支撐,且大部分大數(shù)據(jù)組件部署在 Linux 操作系統(tǒng)上的用戶空間,也有很多組件也借鑒了Linux 操作系統(tǒng)的一些設(shè)計(jì)精髓,所以 Linux 既是大數(shù)據(jù)的強(qiáng)力支撐,也是很多性能問題的支撐者。 同時(shí)數(shù)據(jù)庫的相關(guān)知識(shí)也是必要的基礎(chǔ),熟悉 MySQL 數(shù)據(jù)庫的安裝與部署,還有備份和恢復(fù)等都是重點(diǎn)。 所以在第一部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1、通過對(duì) Linux 操作系統(tǒng)體系結(jié)構(gòu)、 服務(wù)管理、包管理、NTP 協(xié)議時(shí)間 服務(wù)器、關(guān)系型數(shù)據(jù)庫理論和 MySQL 數(shù)據(jù)庫等相關(guān)知識(shí)的學(xué)習(xí), 掌握大部分安裝部署 Hadoop 集群操作系統(tǒng)層面的技能,為后續(xù)搭建 Hdoop 集群、對(duì) 比 RDBMS 與 NoSQL 數(shù)據(jù)庫打基 礎(chǔ)。 2、通過對(duì) Linux 文件系統(tǒng)、內(nèi)核參數(shù)、內(nèi)存結(jié)構(gòu)、以及 Java 虛 擬機(jī)等相關(guān)知識(shí)的學(xué)習(xí),為后續(xù)學(xué)習(xí)分布式文件系統(tǒng), Hadoop 集群優(yōu)化掃清操作系統(tǒng)層 面知識(shí)的障礙 2 Hadoop 由許多元素構(gòu)成。其最底部是HDFS,它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS(對(duì)于本文)的上一層是MapReduce 引擎,通過對(duì)Hadoop分布式計(jì)算平臺(tái)最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程,以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹,基本涵蓋了Hadoop分布式平臺(tái)的所有技術(shù)核心。 還有Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。在大數(shù)據(jù)中也起到一定作用。 本模塊通過學(xué)習(xí)HDFS,YARN(MapReduce)Spark 等核 心組件,了解Hadoop 的基本運(yùn)行框架。 所以在第二部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1、 搭建單節(jié)點(diǎn)模擬分布式集群,熟悉 HDFS 命令; 掌握 HDFS 體系結(jié) 構(gòu),讀寫流程,能 dump HDFS 元 數(shù)據(jù)文件; 理解 Flume 組件架構(gòu), 并能用 Flume 向 HDFS 平臺(tái)導(dǎo)入文 本日志; 2、 搭建多節(jié)點(diǎn)、可擴(kuò)展集群; 部署 HDFS HA 架構(gòu); 理解并實(shí)現(xiàn) Hadoop YARN 的多 租戶架構(gòu) 掌握 Zookeeper 組件原理; 掌握 Hadoop 集群優(yōu)化路徑; 3 傳統(tǒng)數(shù)據(jù)倉庫在面對(duì)更大規(guī)模數(shù)據(jù)時(shí)顯得力不從心,在寄希望于大數(shù)據(jù)平臺(tái)時(shí),MapReduce 編程門檻讓很多數(shù)據(jù)分析師望而卻步,而Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。 本模塊通過學(xué)習(xí) Hive、Impala 等大數(shù)據(jù) SQL 分析組件,讓用戶將隱匿在泥沙之下的數(shù)據(jù)價(jià)值挖掘出來。 所以在第三部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1、 安裝部署 Hive; 理解 Hive 架構(gòu)及執(zhí)行原理 ; Hive 的優(yōu)化(分區(qū)、桶) ; Hive SQL 語句優(yōu)化; Hive 常見故障診斷; 4 在上個(gè)模塊中,OLAP 類型的需求得到了很好的解決方案,即針對(duì)數(shù)據(jù)查詢分析的應(yīng)用。但是這些組件對(duì)于數(shù)據(jù)的隨機(jī)刪改并不擅長。針對(duì)此種 OLTP 類型應(yīng)用,大數(shù)據(jù)生態(tài)系統(tǒng)中有另外一類 組件處理這樣的問題,那就是 NoSQL 家族。這部分將介紹 NoSQL 的數(shù)據(jù)模型和分類,著重講述最具代表的 HBase。 ZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),,是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。在本部分也會(huì)涉及。 所以在第四部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1 理解HBase 體系結(jié)構(gòu)水平擴(kuò)展的 優(yōu)勢; 部署 HBase ; 設(shè)計(jì) HBase 表; 2 理解 zookeeper 在 HBase集群中的作用; 掌握 HBase Schema 設(shè)計(jì)注意 事項(xiàng); 理解 HBase 協(xié)處理器; 掌握 HBase 備份恢復(fù)步驟; 5 SQL 語句屬于聲明式編程語言,這種 Relational 方式擅長處理結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源種類繁多,數(shù)據(jù)類型多種多樣,SQL 并不能處理所有問題。所以需要用 procedural 方式,即編程 方式處理復(fù)雜多變的數(shù)據(jù)類型和應(yīng)用。本章介紹 MapReduce、Spark編程模型,著重講述利用 Python 在 Spark 平臺(tái)做數(shù)據(jù)轉(zhuǎn)換和分析。 所以在第五部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1 能指出 Spark 組件的產(chǎn)生背景; 掌握 Spark 與 RDD 的關(guān)系; 了解 RDD 使用場景,熟悉 RDD 操作; 使用 RDD 方法做日志分析; 理解 Spark-on-YARN 運(yùn)行原 理; 掌握數(shù)據(jù)持久化方法。 2 理解 Spark 共享變量及使用場 景; 在程序中使用廣播變量和累加 器; 理解 Spark SQL 的產(chǎn)生的歷史背 景; 創(chuàng)建 DataFrame 和 DataSet; 使用 SparkSQL 關(guān)聯(lián)結(jié)構(gòu)數(shù)據(jù)與 非機(jī)構(gòu)化數(shù)據(jù) ; 能夠利用 Spark 實(shí)現(xiàn)客戶群的分 類; 5 前面5部分學(xué)習(xí)完畢之后,對(duì)于大數(shù)據(jù)平臺(tái)的大部分問題,相比大家都會(huì)有思路去解決了。系統(tǒng)穩(wěn)定運(yùn)行之后,就要考慮運(yùn)行的好不好,快不快。本模塊針對(duì) HDFS 數(shù)據(jù)、HBase 數(shù)據(jù)、實(shí)時(shí)抓取數(shù) 據(jù)加索引,以及 Spark Streaming 流式處理技術(shù)做重點(diǎn)介紹,為大數(shù)據(jù)處理提速 所以在第六部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1 . 理解 Solr Cloud 組件架構(gòu)及原 理; 掌握 MapReduce 對(duì)靜態(tài)數(shù)據(jù)索 引過程; 掌握 Flume 對(duì)實(shí)時(shí)數(shù)據(jù)索引過 程; 理解 HBase 索引實(shí)現(xiàn)原理-協(xié)處 理器; 掌握 HBase Lily 對(duì) HBase 數(shù)據(jù)索引過 程; 介紹 Cloudera Search 2 了解流式計(jì)算的基本概念及分類 方式; 掌握 Flume、Kafka 組件的架構(gòu) 及原理; 用 Flume、Kafka、Spark Streaming 搭建 簡單的流式處理應(yīng) 用; 學(xué)會(huì)使用狀態(tài)保持及滑動(dòng)窗口等 流式計(jì)算 特性; 3 事物的原理和規(guī)律隱藏在紛繁雜亂的數(shù)據(jù)中,如何從數(shù)據(jù)中將他們挖掘出來服務(wù)生產(chǎn)生活,大數(shù)據(jù)的核心價(jià)值體現(xiàn)在此。 本模塊我們一起學(xué)習(xí)數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)、機(jī)器學(xué)習(xí)的算法。因?yàn)镾park 正在取代 MapReduce 成為大數(shù)據(jù)平臺(tái)數(shù)據(jù)處理的全新引擎,它也使得在大數(shù)據(jù)環(huán)境下高效的運(yùn)用數(shù)據(jù)科學(xué)成為可能, 所以我們著重介紹基于 Spark 的機(jī)器學(xué)習(xí)的實(shí)現(xiàn), 把握大數(shù)據(jù)的發(fā)展趨勢,步入數(shù)據(jù)科學(xué)的殿堂。 所以在第七部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo): 1、掌握數(shù)據(jù)科學(xué)的數(shù)據(jù)基礎(chǔ),掌握統(tǒng) 計(jì)學(xué)基礎(chǔ)知識(shí)。 2、 掌握機(jī)器學(xué)習(xí)理論; 掌握 推薦系統(tǒng)和決策系統(tǒng)原理 3、掌握 Spark Mllib 組件架構(gòu); 利用 Spark Mllib 實(shí)現(xiàn)推薦器; . 學(xué)會(huì)引用常用機(jī)器學(xué)習(xí)算法。 選修 1.大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)的組建大部分是java編寫,但95%的企業(yè)是直接使用不會(huì)修改組建,所以培訓(xùn)課程包含冗長的java是不科學(xué)的。不過對(duì)于Java能做到一點(diǎn)了解還是不錯(cuò)的。 2.web開發(fā)html及javascript,只是在大數(shù)據(jù)可視化階段才會(huì)用到,并不是大數(shù)據(jù)課程的核心內(nèi)容,所以有需要的同學(xué)再去學(xué)習(xí)吧。 3.R 語言具有豐富的統(tǒng)計(jì)方法,大多數(shù)人使用R語言是因?yàn)槠渚哂袕?qiáng)大的統(tǒng)計(jì)功能, R 語言內(nèi)部包含了許多經(jīng)典統(tǒng)計(jì)技術(shù)的環(huán)境。通過對(duì) R 語言基礎(chǔ)知識(shí)的學(xué)習(xí),了解 R 數(shù)據(jù)分析的通用流程 。同時(shí)學(xué)習(xí)R 語言在 Spark 計(jì)算框架的基本使用方法,可以為實(shí)現(xiàn)更強(qiáng)大的數(shù)據(jù)分析打基礎(chǔ)。 4.大數(shù)據(jù)時(shí)代需要數(shù)據(jù)開放,同時(shí)又需要保障敏感數(shù)據(jù)的安全。企業(yè)如何保障數(shù)據(jù)中心的安全性成為即將面臨的重大課題,所以 Hadoop 集群的安全機(jī)制可以學(xué)習(xí)一下。 同時(shí)可以在學(xué)習(xí)路上對(duì)照一下下面這張大數(shù)據(jù)知識(shí)體系。相信你完成這份學(xué)習(xí)計(jì)劃后,任何大數(shù)據(jù)方面的工作都可以勝任。 |
|