新手大數(shù)據(jù)學(xué)習(xí)路線規(guī)劃

昵稱16619343 2019-05-05

展開全文

大數(shù)據(jù)如此火熱的現(xiàn)在，想必許多小伙伴都想要加入這個(gè)行業(yè)。也是我們今天就要拿出收藏已久的大數(shù)據(jù)學(xué)習(xí)計(jì)劃。幫助你不走彎路，邁向大數(shù)據(jù)之路。

大數(shù)據(jù)應(yīng)用離不開基礎(chǔ)軟件的支撐，且大部分大數(shù)據(jù)組件部署在 Linux 操作系統(tǒng)上的用戶空間，也有很多組件也借鑒了Linux 操作系統(tǒng)的一些設(shè)計(jì)精髓，所以 Linux 既是大數(shù)據(jù)的強(qiáng)力支撐，也是很多性能問題的支撐者。

同時(shí)數(shù)據(jù)庫的相關(guān)知識(shí)也是必要的基礎(chǔ)，熟悉 MySQL 數(shù)據(jù)庫的安裝與部署，還有備份和恢復(fù)等都是重點(diǎn)。

所以在第一部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

1、通過對(duì) Linux 操作系統(tǒng)體系結(jié)構(gòu)、服務(wù)管理、包管理、NTP 協(xié)議時(shí)間服務(wù)器、關(guān)系型數(shù)據(jù)庫理論和 MySQL 數(shù)據(jù)庫等相關(guān)知識(shí)的學(xué)習(xí)，

掌握大部分安裝部署 Hadoop 集群操作系統(tǒng)層面的技能，為后續(xù)搭建 Hdoop 集群、對(duì) 比 RDBMS 與 NoSQL 數(shù)據(jù)庫打基礎(chǔ)。

2、通過對(duì) Linux 文件系統(tǒng)、內(nèi)核參數(shù)、內(nèi)存結(jié)構(gòu)、以及 Java 虛擬機(jī)等相關(guān)知識(shí)的學(xué)習(xí)，為后續(xù)學(xué)習(xí)分布式文件系統(tǒng)， Hadoop 集群優(yōu)化掃清操作系統(tǒng)層面知識(shí)的障礙

Hadoop 由許多元素構(gòu)成。其最底部是HDFS，它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS(對(duì)于本文)的上一層是MapReduce 引擎，通過對(duì)Hadoop分布式計(jì)算平臺(tái)最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程，以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹，基本涵蓋了Hadoop分布式平臺(tái)的所有技術(shù)核心。

還有Flume是Cloudera提供的一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)，F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)。在大數(shù)據(jù)中也起到一定作用。

本模塊通過學(xué)習(xí)HDFS，YARN(MapReduce)Spark 等核心組件，了解Hadoop 的基本運(yùn)行框架。

所以在第二部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

1、

搭建單節(jié)點(diǎn)模擬分布式集群，熟悉 HDFS 命令;

掌握 HDFS 體系結(jié) 構(gòu)，讀寫流程，能 dump HDFS 元數(shù)據(jù)文件;

理解 Flume 組件架構(gòu)，并能用 Flume 向 HDFS 平臺(tái)導(dǎo)入文本日志;

2、

搭建多節(jié)點(diǎn)、可擴(kuò)展集群;

部署 HDFS HA 架構(gòu);

理解并實(shí)現(xiàn) Hadoop YARN 的多租戶架構(gòu)

掌握 Zookeeper 組件原理;

掌握 Hadoop 集群優(yōu)化路徑;

傳統(tǒng)數(shù)據(jù)倉庫在面對(duì)更大規(guī)模數(shù)據(jù)時(shí)顯得力不從心，在寄希望于大數(shù)據(jù)平臺(tái)時(shí)，MapReduce 編程門檻讓很多數(shù)據(jù)分析師望而卻步，而Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低，可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì)，不必開發(fā)專門的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。

本模塊通過學(xué)習(xí) Hive、Impala 等大數(shù)據(jù) SQL 分析組件，讓用戶將隱匿在泥沙之下的數(shù)據(jù)價(jià)值挖掘出來。

所以在第三部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

1、

安裝部署 Hive;

理解 Hive 架構(gòu)及執(zhí)行原理 ;

Hive 的優(yōu)化(分區(qū)、桶) ;

Hive SQL 語句優(yōu)化;

Hive 常見故障診斷;

在上個(gè)模塊中，OLAP 類型的需求得到了很好的解決方案，即針對(duì)數(shù)據(jù)查詢分析的應(yīng)用。但是這些組件對(duì)于數(shù)據(jù)的隨機(jī)刪改并不擅長。針對(duì)此種 OLTP 類型應(yīng)用，大數(shù)據(jù)生態(tài)系統(tǒng)中有另外一類組件處理這樣的問題，那就是 NoSQL 家族。這部分將介紹 NoSQL 的數(shù)據(jù)模型和分類，著重講述最具代表的 HBase。

ZooKeeper是一個(gè)分布式的，開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，，是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件，提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。在本部分也會(huì)涉及。

所以在第四部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

理解HBase 體系結(jié)構(gòu)水平擴(kuò)展的優(yōu)勢; 部署 HBase ;

設(shè)計(jì) HBase 表;

理解 zookeeper 在 HBase集群中的作用;

掌握 HBase Schema 設(shè)計(jì)注意事項(xiàng);

理解 HBase 協(xié)處理器;

掌握 HBase 備份恢復(fù)步驟;

SQL 語句屬于聲明式編程語言，這種 Relational 方式擅長處理結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源種類繁多，數(shù)據(jù)類型多種多樣，SQL 并不能處理所有問題。所以需要用 procedural 方式，即編程方式處理復(fù)雜多變的數(shù)據(jù)類型和應(yīng)用。本章介紹 MapReduce、Spark編程模型，著重講述利用 Python 在 Spark 平臺(tái)做數(shù)據(jù)轉(zhuǎn)換和分析。

所以在第五部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

能指出 Spark 組件的產(chǎn)生背景;

掌握 Spark 與 RDD 的關(guān)系;

了解 RDD 使用場景，熟悉 RDD 操作; 使用 RDD 方法做日志分析;

理解 Spark-on-YARN 運(yùn)行原理;

掌握數(shù)據(jù)持久化方法。

理解 Spark 共享變量及使用場景;

在程序中使用廣播變量和累加器;

理解 Spark SQL 的產(chǎn)生的歷史背景;

創(chuàng)建 DataFrame 和 DataSet;

使用 SparkSQL 關(guān)聯(lián)結(jié)構(gòu)數(shù)據(jù)與非機(jī)構(gòu)化數(shù)據(jù) ;

能夠利用 Spark 實(shí)現(xiàn)客戶群的分類;

前面5部分學(xué)習(xí)完畢之后，對(duì)于大數(shù)據(jù)平臺(tái)的大部分問題，相比大家都會(huì)有思路去解決了。系統(tǒng)穩(wěn)定運(yùn)行之后，就要考慮運(yùn)行的好不好，快不快。本模塊針對(duì) HDFS 數(shù)據(jù)、HBase 數(shù)據(jù)、實(shí)時(shí)抓取數(shù) 據(jù)加索引，以及 Spark Streaming 流式處理技術(shù)做重點(diǎn)介紹，為大數(shù)據(jù)處理提速

所以在第六部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

. 理解 Solr Cloud 組件架構(gòu)及原理;

掌握 MapReduce 對(duì)靜態(tài)數(shù)據(jù)索引過程;

掌握 Flume 對(duì)實(shí)時(shí)數(shù)據(jù)索引過程;

理解 HBase 索引實(shí)現(xiàn)原理-協(xié)處理器; 掌握 HBase Lily 對(duì) HBase 數(shù)據(jù)索引過程;

介紹 Cloudera Search

了解流式計(jì)算的基本概念及分類方式;

掌握 Flume、Kafka 組件的架構(gòu) 及原理;

用 Flume、Kafka、Spark Streaming 搭建簡單的流式處理應(yīng) 用;

學(xué)會(huì)使用狀態(tài)保持及滑動(dòng)窗口等流式計(jì)算特性;

事物的原理和規(guī)律隱藏在紛繁雜亂的數(shù)據(jù)中，如何從數(shù)據(jù)中將他們挖掘出來服務(wù)生產(chǎn)生活，大數(shù)據(jù)的核心價(jià)值體現(xiàn)在此。本模塊我們一起學(xué)習(xí)數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)、機(jī)器學(xué)習(xí)的算法。因?yàn)镾park 正在取代 MapReduce 成為大數(shù)據(jù)平臺(tái)數(shù)據(jù)處理的全新引擎，它也使得在大數(shù)據(jù)環(huán)境下高效的運(yùn)用數(shù)據(jù)科學(xué)成為可能，所以我們著重介紹基于 Spark 的機(jī)器學(xué)習(xí)的實(shí)現(xiàn)，把握大數(shù)據(jù)的發(fā)展趨勢，步入數(shù)據(jù)科學(xué)的殿堂。

所以在第七部分的學(xué)習(xí)中我們需要達(dá)到以下目標(biāo)：

1、掌握數(shù)據(jù)科學(xué)的數(shù)據(jù)基礎(chǔ)，掌握統(tǒng) 計(jì)學(xué)基礎(chǔ)知識(shí)。

2、掌握機(jī)器學(xué)習(xí)理論; 掌握推薦系統(tǒng)和決策系統(tǒng)原理

3、掌握 Spark Mllib 組件架構(gòu); 利用 Spark Mllib 實(shí)現(xiàn)推薦器; . 學(xué)會(huì)引用常用機(jī)器學(xué)習(xí)算法。

選修

1.大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)的組建大部分是java編寫，但95%的企業(yè)是直接使用不會(huì)修改組建，所以培訓(xùn)課程包含冗長的java是不科學(xué)的。不過對(duì)于Java能做到一點(diǎn)了解還是不錯(cuò)的。

2.web開發(fā)html及javascript，只是在大數(shù)據(jù)可視化階段才會(huì)用到，并不是大數(shù)據(jù)課程的核心內(nèi)容，所以有需要的同學(xué)再去學(xué)習(xí)吧。

3.R 語言具有豐富的統(tǒng)計(jì)方法，大多數(shù)人使用R語言是因?yàn)槠渚哂袕?qiáng)大的統(tǒng)計(jì)功能， R 語言內(nèi)部包含了許多經(jīng)典統(tǒng)計(jì)技術(shù)的環(huán)境。通過對(duì) R 語言基礎(chǔ)知識(shí)的學(xué)習(xí)，了解 R 數(shù)據(jù)分析的通用流程。同時(shí)學(xué)習(xí)R 語言在 Spark 計(jì)算框架的基本使用方法，可以為實(shí)現(xiàn)更強(qiáng)大的數(shù)據(jù)分析打基礎(chǔ)。

4.大數(shù)據(jù)時(shí)代需要數(shù)據(jù)開放，同時(shí)又需要保障敏感數(shù)據(jù)的安全。企業(yè)如何保障數(shù)據(jù)中心的安全性成為即將面臨的重大課題，所以 Hadoop 集群的安全機(jī)制可以學(xué)習(xí)一下。

同時(shí)可以在學(xué)習(xí)路上對(duì)照一下下面這張大數(shù)據(jù)知識(shí)體系。相信你完成這份學(xué)習(xí)計(jì)劃后，任何大數(shù)據(jù)方面的工作都可以勝任。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：昵稱16619343 > 《Python數(shù)據(jù)挖掘與分析，機(jī)器學(xué)習(xí)，深度學(xué)習(xí)》

舉報(bào)/認(rèn)領(lǐng)