【原】BigData：大數(shù)據(jù)開發(fā)的簡介、核心知識(linux基礎(chǔ)+Java/Python編程語言+Hadoop{HDFS、HBase、Hive}+Docker)、經(jīng)典場景應(yīng)用之詳細攻略

處女座的程序猿 2021-09-28

展開全文

BigData：大數(shù)據(jù)開發(fā)的簡介、核心知識(linux基礎(chǔ)+Java/Python編程語言+Hadoop{HDFS、HBase、Hive}+Docker)、經(jīng)典場景應(yīng)用之詳細攻略
BigData：大數(shù)據(jù)簡介及以Hadoop生態(tài)系統(tǒng)為基礎(chǔ)帶你了解大數(shù)據(jù)必須掌握的那些知識(HDFS、HBase、Hive、MongoDB，Spark等等)

導(dǎo)讀：最近幾天，有很多很多的網(wǎng)友留言都在咨詢——如何學(xué)習(xí)大數(shù)據(jù)開發(fā)，以及如何跟上大數(shù)據(jù)時代而不被拋棄。今天周末，博主花了一段時間，統(tǒng)一采用本文章，以Hadoop生態(tài)系統(tǒng)布局進行回答，歡迎網(wǎng)友留言提建議。
首先，大數(shù)定理告訴我們，在試驗不變的條件下，重復(fù)試驗多次，隨機事件的頻率近似于它概率。“有規(guī)律的隨機事件”在大量重復(fù)出現(xiàn)的條件下，往往呈現(xiàn)幾乎必然的統(tǒng)計特性。
其次，大數(shù)據(jù)的主要價值——輔助決策。利用大數(shù)據(jù)分析，能夠總結(jié)經(jīng)驗、發(fā)現(xiàn)規(guī)律、預(yù)測趨勢，這些都可以為輔助決策服務(wù)。只有掌握的數(shù)據(jù)信息越多，人類的決策才能更加科學(xué)、精確、合理。

推薦文章
BigData之Hadoop：Hadoop的簡介、深入理解、下載、案例應(yīng)用之詳細攻略
BigData之Hbase：Hbase數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Hive：Hive數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之MongoDB：MongoDB基于分布式文件存儲數(shù)據(jù)庫的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Spark：Spark計算引擎的簡介、下載、經(jīng)典案例之詳細攻略
BigData之Storm：Apache Storm的簡介、深入理解、下載、案例應(yīng)用之詳細攻略
Docker：Docker的簡介、安裝、使用方法之詳細攻略

大數(shù)據(jù)簡介

? ? ? ? ? 大數(shù)據(jù)（big data），IT行業(yè)術(shù)語，是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

Gartner定義的大數(shù)據(jù)：“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。
MGI麥肯錫全球研究所定義的大數(shù)據(jù)：一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合，具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

1、大數(shù)據(jù)的單位

? ? ? ? ? 大數(shù)據(jù)需要特殊的技術(shù)，以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù)，包括大規(guī)模并行處理（MPP）數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。最小的基本單位是bit，按順序給出所有單位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024（2的十次方）來計算：

1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

2、大數(shù)據(jù)的5V特點——Volume、Velocity、Variety、Value、Veracity

? ? ? ? ? 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法（抽樣調(diào)查）這樣捷徑，而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。

3、大數(shù)據(jù)的價值體現(xiàn)

? ? ? ? ?大數(shù)據(jù)的主要價值——輔助決策。利用大數(shù)據(jù)分析，能夠總結(jié)經(jīng)驗、發(fā)現(xiàn)規(guī)律、預(yù)測趨勢，這些都可以為輔助決策服務(wù)。只有掌握的數(shù)據(jù)信息越多，人類的決策才能更加科學(xué)、精確、合理。從這個方面看，也可以說數(shù)據(jù)本身不產(chǎn)生價值，大數(shù)據(jù)必須和其他具體的領(lǐng)域、行業(yè)相結(jié)合，能夠給企業(yè)決策提供幫助之后，才具有價值。很多企業(yè)都可以借助大數(shù)據(jù)，提升管理、決策水平，提升經(jīng)濟效益。

（1）對大量消費者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進行精準營銷；
（2）做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型；
（3）面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時俱進充分利用大數(shù)據(jù)的價值。

4、大數(shù)據(jù)與云計算密不可分

? ? ? ? ? 大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理，必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。?
? ? ? ? ? 隨著云時代的來臨，大數(shù)據(jù)（Big data）也吸引了越來越多的關(guān)注。分析師團隊認為，大數(shù)據(jù)（Big data）通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)，這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起，因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

以Hadoop生態(tài)系統(tǒng)為基礎(chǔ)帶你了解大數(shù)據(jù)必須掌握的那些知識

大數(shù)據(jù)技術(shù)應(yīng)用場景

? ? ? ? ? ?大數(shù)據(jù)技術(shù)可以應(yīng)用在各個領(lǐng)域，比如公安大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、就業(yè)大數(shù)據(jù)、環(huán)境大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)等等，應(yīng)用范圍非常廣泛，大數(shù)據(jù)技術(shù)已經(jīng)像空氣一樣滲透在生活的方方面面。大數(shù)據(jù)技術(shù)的出現(xiàn)將社會帶入了一個高速發(fā)展的時代，這不僅是信息技術(shù)的終極目標(biāo)，也是人類社會發(fā)展管理智能化的核心技術(shù)驅(qū)動力。

1、經(jīng)典應(yīng)用場景

（1）及時解析故障、問題和缺陷的根源，每年可能為企業(yè)節(jié)省數(shù)十億美元。
（2）為成千上萬的快遞車輛規(guī)劃實時交通路線，躲避擁堵。
（3）分析所有SKU，以利潤最大化為目標(biāo)來定價和清理庫存。
（4）根據(jù)客戶的購買習(xí)慣，為其推送他可能感興趣的優(yōu)惠信息。
（5）從大量客戶中快速識別出金牌客戶。
（6）使用點擊流分析和數(shù)據(jù)挖掘來規(guī)避欺詐行為。

大數(shù)據(jù)核心技術(shù)

1、linux基礎(chǔ)

? ? ? ? ?Linux是一種自由和開放源代碼的bai類duUnix操作系統(tǒng)，以Unix為原型改造的，一個多用戶多任務(wù)的操作系統(tǒng)，任何人都可以修改其代碼和頁面，主要的目的就是為了不收商業(yè)化的限制，服務(wù)器部署在linux系統(tǒng)上會更加高效穩(wěn)定、安全。云計算、大數(shù)據(jù)的發(fā)展是基于開源軟件的平臺，Linux占據(jù)優(yōu)勢，大數(shù)據(jù)的分布式集群（ Hadoop，Spark ）都是搭建在多臺 Linux 系統(tǒng)上，對集群的執(zhí)行命令都是在 Linux 終端窗口輸入的。
? ? ? ? ?在大數(shù)據(jù)體系中，基本都是開源軟件，這些開源軟件都是在開源的linux系統(tǒng)上運行的，所以，基本的linux操作一定要會，比如：

系統(tǒng)管理操作
基本的用戶管理
文件權(quán)限的操作
文件系統(tǒng)操作
shell編程

推薦文章：Linux：Linux系統(tǒng)新手教程—linux系統(tǒng)使用攻略之常見操作、常用快捷鍵

2、編程語言——Java、Python

基礎(chǔ)需要Java語言，數(shù)據(jù)科學(xué)處理需要Python語言等等。

3、分布式存儲框架——Hadoop生態(tài)系統(tǒng)+列式存儲數(shù)據(jù)庫HBase

學(xué)習(xí)大數(shù)據(jù)，必須學(xué)習(xí)大數(shù)據(jù)核心知識Hadoop生態(tài)系統(tǒng)

HDFS技術(shù)：
HBase技術(shù)：
Hive數(shù)據(jù)倉庫工具：
Spark大數(shù)據(jù)離線分析：
Sqoop使用流程
數(shù)據(jù)實時分析Storm
消息訂閱分發(fā)系統(tǒng)Kafka等

推薦文章：
BigData之Hadoop：Hadoop的簡介、深入理解、下載、案例應(yīng)用之詳細攻略
BigData之Hbase：Hbase數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Hive：Hive數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之MongoDB：MongoDB基于分布式文件存儲數(shù)據(jù)庫的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Spark：Spark計算引擎的簡介、下載、經(jīng)典案例之詳細攻略