BigData:大數(shù)據(jù)開發(fā)的簡介、核心知識(linux基礎(chǔ)+Java/Python編程語言+Hadoop{HDFS、HBase、Hive}+Docker)、經(jīng)典場景應(yīng)用之詳細攻略
BigData:大數(shù)據(jù)簡介及以Hadoop生態(tài)系統(tǒng)為基礎(chǔ)帶你了解大數(shù)據(jù)必須掌握的那些知識(HDFS、HBase、Hive、MongoDB,Spark等等)
導(dǎo)讀:最近幾天,有很多很多的網(wǎng)友留言都在咨詢——如何學(xué)習(xí)大數(shù)據(jù)開發(fā),以及如何跟上大數(shù)據(jù)時代而不被拋棄。今天周末,博主花了一段時間,統(tǒng)一采用本文章,以Hadoop生態(tài)系統(tǒng)布局進行回答,歡迎網(wǎng)友留言提建議。
首先,大數(shù)定理告訴我們,在試驗不變的條件下,重復(fù)試驗多次,隨機事件的頻率近似于它概率。“有規(guī)律的隨機事件”在大量重復(fù)出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計特性。
其次,大數(shù)據(jù)的主要價值——輔助決策。利用大數(shù)據(jù)分析,能夠總結(jié)經(jīng)驗、發(fā)現(xiàn)規(guī)律、預(yù)測趨勢,這些都可以為輔助決策服務(wù)。只有掌握的數(shù)據(jù)信息越多,人類的決策才能更加科學(xué)、精確、合理。
推薦文章
BigData之Hadoop:Hadoop的簡介、深入理解、下載、案例應(yīng)用之詳細攻略
BigData之Hbase:Hbase數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Hive:Hive數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之MongoDB:MongoDB基于分布式文件存儲數(shù)據(jù)庫的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Spark:Spark計算引擎的簡介、下載、經(jīng)典案例之詳細攻略
BigData之Storm:Apache Storm的簡介、深入理解、下載、案例應(yīng)用之詳細攻略
Docker:Docker的簡介、安裝、使用方法之詳細攻略
大數(shù)據(jù)簡介
? ? ? ? ? 大數(shù)據(jù)(big data),IT行業(yè)術(shù)語,是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
- Gartner定義的大數(shù)據(jù):“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。
- MGI麥肯錫全球研究所定義的大數(shù)據(jù):一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
1、大數(shù)據(jù)的單位
? ? ? ? ? 大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算:
- 1 Byte =8 bit
- 1 KB = 1,024 Bytes = 8192 bit
- 1 MB = 1,024 KB = 1,048,576 Bytes
- 1 GB = 1,024 MB = 1,048,576 KB
- 1 TB = 1,024 GB = 1,048,576 MB
- 1 PB = 1,024 TB = 1,048,576 GB
- 1 EB = 1,024 PB = 1,048,576 TB
- 1 ZB = 1,024 EB = 1,048,576 PB
- 1 YB = 1,024 ZB = 1,048,576 EB
- 1 BB = 1,024 YB = 1,048,576 ZB
- 1 NB = 1,024 BB = 1,048,576 YB
- 1 DB = 1,024 NB = 1,048,576 BB
2、大數(shù)據(jù)的5V特點——Volume、Velocity、Variety、Value、Veracity
? ? ? ? ? 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
3、大數(shù)據(jù)的價值體現(xiàn)
? ? ? ? ?大數(shù)據(jù)的主要價值——輔助決策。利用大數(shù)據(jù)分析,能夠總結(jié)經(jīng)驗、發(fā)現(xiàn)規(guī)律、預(yù)測趨勢,這些都可以為輔助決策服務(wù)。只有掌握的數(shù)據(jù)信息越多,人類的決策才能更加科學(xué)、精確、合理。從這個方面看,也可以說數(shù)據(jù)本身不產(chǎn)生價值,大數(shù)據(jù)必須和其他具體的領(lǐng)域、行業(yè)相結(jié)合,能夠給企業(yè)決策提供幫助之后,才具有價值。很多企業(yè)都可以借助大數(shù)據(jù),提升管理、決策水平,提升經(jīng)濟效益。
- (1)對大量消費者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進行精準營銷;
- (2)做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型;
- (3)面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時俱進充分利用大數(shù)據(jù)的價值。
4、大數(shù)據(jù)與云計算密不可分
? ? ? ? ? 大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。?
? ? ? ? ? 隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
以Hadoop生態(tài)系統(tǒng)為基礎(chǔ)帶你了解大數(shù)據(jù)必須掌握的那些知識
大數(shù)據(jù)技術(shù)應(yīng)用場景
? ? ? ? ? ?大數(shù)據(jù)技術(shù)可以應(yīng)用在各個領(lǐng)域,比如公安大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、就業(yè)大數(shù)據(jù)、環(huán)境大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)等等,應(yīng)用范圍非常廣泛,大數(shù)據(jù)技術(shù)已經(jīng)像空氣一樣滲透在生活的方方面面。大數(shù)據(jù)技術(shù)的出現(xiàn)將社會帶入了一個高速發(fā)展的時代,這不僅是信息技術(shù)的終極目標(biāo),也是人類社會發(fā)展管理智能化的核心技術(shù)驅(qū)動力。
1、經(jīng)典應(yīng)用場景
- (1)及時解析故障、問題和缺陷的根源,每年可能為企業(yè)節(jié)省數(shù)十億美元。
- (2)為成千上萬的快遞車輛規(guī)劃實時交通路線,躲避擁堵。
- (3)分析所有SKU,以利潤最大化為目標(biāo)來定價和清理庫存。
- (4)根據(jù)客戶的購買習(xí)慣,為其推送他可能感興趣的優(yōu)惠信息。
- (5)從大量客戶中快速識別出金牌客戶。
- (6)使用點擊流分析和數(shù)據(jù)挖掘來規(guī)避欺詐行為。
大數(shù)據(jù)核心技術(shù)
1、linux基礎(chǔ)
? ? ? ? ?Linux是一種自由和開放源代碼的bai類duUnix操作系統(tǒng),以Unix為原型改造的,一個多用戶多任務(wù)的操作系統(tǒng),任何人都可以修改其代碼和頁面,主要的目的就是為了不收商業(yè)化的限制,服務(wù)器部署在linux系統(tǒng)上會更加高效穩(wěn)定、安全。云計算、大數(shù)據(jù)的發(fā)展是基于開源軟件的平臺,Linux占據(jù)優(yōu)勢, 大數(shù)據(jù)的分布式集群( Hadoop,Spark )都是搭建在多臺 Linux 系統(tǒng)上,對集群的執(zhí)行命令都是在 Linux 終端窗口輸入的。
? ? ? ? ?在大數(shù)據(jù)體系中,基本都是開源軟件,這些開源軟件都是在開源的linux系統(tǒng)上運行的,所以,基本的linux操作一定要會,比如:
- 系統(tǒng)管理操作
- 基本的用戶管理
- 文件權(quán)限的操作
- 文件系統(tǒng)操作
- shell編程
推薦文章:Linux:Linux系統(tǒng)新手教程—linux系統(tǒng)使用攻略之常見操作、常用快捷鍵
2、編程語言——Java、Python
基礎(chǔ)需要Java語言,數(shù)據(jù)科學(xué)處理需要Python語言等等。
3、分布式存儲框架——Hadoop生態(tài)系統(tǒng)+列式存儲數(shù)據(jù)庫HBase
學(xué)習(xí)大數(shù)據(jù),必須學(xué)習(xí)大數(shù)據(jù)核心知識Hadoop生態(tài)系統(tǒng)
- HDFS技術(shù):
- HBase技術(shù):
- Hive數(shù)據(jù)倉庫工具:
- Spark大數(shù)據(jù)離線分析:
- Sqoop使用流程
- 數(shù)據(jù)實時分析Storm
- 消息訂閱分發(fā)系統(tǒng)Kafka等
推薦文章:
BigData之Hadoop:Hadoop的簡介、深入理解、下載、案例應(yīng)用之詳細攻略
BigData之Hbase:Hbase數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Hive:Hive數(shù)據(jù)管理的簡介、下載、案例應(yīng)用之詳細攻略
BigData之MongoDB:MongoDB基于分布式文件存儲數(shù)據(jù)庫的簡介、下載、案例應(yīng)用之詳細攻略
BigData之Spark:Spark計算引擎的簡介、下載、經(jīng)典案例之詳細攻略
4、資源調(diào)度框架——Docker
? ? ? ? ? Docker可是整整火了最近一兩年。各個公司都在發(fā)力基于Docker的容器解決方案,最有名的開源容器調(diào)度框架就是K8S了,但同樣著名的還有Hadoop的YARN和Apache Mesos。
推薦文章:Docker:Docker的簡介、安裝、使用方法之詳細攻略