前言緒論 一、縱觀大數(shù)據(jù)發(fā)展前景 1. 人們不再止步于大數(shù)據(jù)的談?wù)?/SPAN> 2014年,大數(shù)據(jù)止于說的情況將發(fā)生改變,人們將致力于從中獲益,所有大數(shù)據(jù)的炒作也將“煙消云散”。從Gainsight了解到,大數(shù)據(jù)本身也將成為桌面上的籌碼,Gainsight在其IaaS平臺中利用大數(shù)據(jù)分析被其稱之為“customer success management”的服務(wù)。Gainsight認(rèn)為,在2014年,每家云應(yīng)用程序提供商都將會讓其后端基礎(chǔ)設(shè)施支持大數(shù)據(jù)。 2. Hadoop在大中型企業(yè)普及應(yīng)用將成為企業(yè)的關(guān)鍵組件 Hadoop將普及,大數(shù)據(jù)也不會再繼續(xù)止步于云服務(wù)。Alteryx認(rèn)為,2014年,Hadoop的適用場景將超越批處理和存儲,將成為企業(yè)數(shù)據(jù)架構(gòu)中通用的核心組件,這意味著數(shù)據(jù)分析將繼續(xù)成為大數(shù)據(jù)的首要用例。 3. 企業(yè)將更加鐘情于用戶數(shù)據(jù) 從Gainsight了解到,各個機(jī)構(gòu)將對用戶數(shù)據(jù)充滿熱情,企業(yè)將充分利用客戶與其在線產(chǎn)品或服務(wù)交互產(chǎn)生的數(shù)據(jù),并從中獲取價值。為了實現(xiàn)這點,數(shù)據(jù)分析能力將比BI團(tuán)隊更受重視,為企業(yè)提供更多的價值。 4. 大數(shù)據(jù)為王的時刻將要玩轉(zhuǎn)市場決策 Alteryx認(rèn)為,在2014年,大數(shù)據(jù)將首次正式登陸市場營銷,用于市場營銷的大數(shù)據(jù)技術(shù)將在這一年扮演重要角色——影響著廣告、產(chǎn)品推銷和消費(fèi)者行為,World Cup及Winter Olympics將是其最大的舞臺。 5. 海量的數(shù)據(jù)將超越數(shù)據(jù)科學(xué)家的意識 Alteryx認(rèn)為,新型的數(shù)據(jù)分析需求將超越人力可為,有些情況下大數(shù)據(jù)技術(shù)將堪比成千上萬的數(shù)據(jù)科學(xué)家。該公司預(yù)測,這將會毫無疑問的拉低數(shù)據(jù)科學(xué)家薪酬。 6. 物聯(lián)網(wǎng)將進(jìn)軍網(wǎng)絡(luò) IEEE的專業(yè)協(xié)會認(rèn)為,2014年,可識別事物將無縫的連接到信息網(wǎng)絡(luò),實現(xiàn)真正意義上的Web of Things。The Web of Things將會充分利用移動設(shè)備和傳感器的監(jiān)控能力,增強(qiáng)現(xiàn)實世界中的物體與Web副本之間的協(xié)同性。 The Web of Things將會生成大量與現(xiàn)實世界相關(guān)的數(shù)據(jù),因而會需求智能化的解決方案在現(xiàn)實世界與相對應(yīng)的數(shù)字世界資源之間賦予連接性、網(wǎng)際互連和相關(guān)性。 7. 從大數(shù)據(jù)到海量數(shù)據(jù) 數(shù)據(jù)的體積、速度和類型(volume、velocity和variety)在2014年將會繼續(xù)呈指數(shù)級增長,因此需要更簡單的分析工具來駕馭這些“數(shù)據(jù)洪流”。 IEEE稱,“不止是3個V讓大數(shù)據(jù)成了非常難以制服的老虎,數(shù)據(jù)科學(xué)家及行業(yè)所需簡單工具也是個難題,許多行業(yè)尚無獨立提取數(shù)據(jù)價值的能力。當(dāng)前已出現(xiàn)的海量數(shù)據(jù)時代更需求數(shù)據(jù)管理和分析上新的范式和實踐。2014年,這個領(lǐng)域?qū)⑸涎萑盒蹱幇浴!?SPAN lang=EN-US> 8. R語言將取代傳統(tǒng)SAS解決方案 Alteryx認(rèn)為,基于R編程語言的分析將數(shù)據(jù)科學(xué)家“御用”模式,這種分析在2014年將成為主流,將替代傳統(tǒng)的SAS及SPSS模式。Alteryx說道:“超過200萬用戶和300萬的分析師都在尋找更好的解決方案,R恰逢其時。” 9. Hadoop將增加實時特性 SQL-on-Hadoop供應(yīng)商Splice Machine共同創(chuàng)始人兼CEO Monte Zweben指出,未來1年建立在Hadoop平臺上的交互式應(yīng)用程序?qū)⒊时l(fā)式增長,其中包括Web應(yīng)用、移動應(yīng)用和社交應(yīng)用,人們可以與之進(jìn)行實時的交互。 Zweben說道:“2014將帶來實時大數(shù)據(jù)應(yīng)用程序平臺,企業(yè)將不會只能像當(dāng)下一樣分析歷史數(shù)據(jù),你將有能力分析5分鐘,甚至是1分鐘之內(nèi)的數(shù)據(jù);企業(yè)將擁有交互式應(yīng)用程序,以便實時的制定決策。” 10. Hadoop將得到企業(yè)級強(qiáng)化 Splice Machine的Zweben說:“毋庸置疑,Hadoop是個了不起的平臺,但是仍然有許多工作要做?!?SPAN lang=EN-US> 他認(rèn)為,在2014,你將看到Hadoop向安全、運(yùn)營管理、資源管理及多站點響應(yīng)方向發(fā)展。Zweben補(bǔ)充道:“你將看到所有的企業(yè)級需求,我認(rèn)為這些將是未來主要的焦點?!?SPAN lang=EN-US> 11. 2014年底,至少有一家NoSQL IPO 大數(shù)據(jù)及云環(huán)境安全解決方案Gazzang董事長兼CEO Larry Warnock預(yù)測,在2014,至少有一家Hadoop或者NoSQL供應(yīng)商會IPO,這標(biāo)志著大數(shù)據(jù)平臺已被廣泛認(rèn)可。 Warnock說道:“我不會去預(yù)測哪家會IPO,但是至少會有一家Hadoop或NoSQL供應(yīng)商IPO。通過Wikibon了解到,在2012年,NoSQL軟件和服務(wù)創(chuàng)造了2.86億美元的稅收,而在2017年,這個數(shù)據(jù)被預(yù)測為18.25億。商場被不斷增長的企業(yè)需求推動,他們需要靈活、可擴(kuò)展及負(fù)擔(dān)得起的數(shù)據(jù)管理解決方案,為新時代的云及大數(shù)據(jù)設(shè)計?!?SPAN lang=EN-US> 12. 一個新的分析堆棧將誕生 Alteryx 預(yù)測,2014年,將出現(xiàn)一個新的數(shù)據(jù)及分析堆棧,為數(shù)據(jù)庫、分析、可視化提供新的解決方案,這將直接威脅到傳統(tǒng)的供應(yīng)商巨頭,而這些供應(yīng)商也會在匆忙中推出新的解決方案。 二、大數(shù)據(jù)基礎(chǔ)概論簡介 2.1大數(shù)據(jù)(Big Data)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫系統(tǒng)。為了獲取大數(shù)據(jù)中的價值,我們必須選擇另一種方式來處理它。 百度擁有中國最大的消費(fèi)者行為數(shù)據(jù)庫,覆蓋95%的中國網(wǎng)民,日均響應(yīng) 50億次搜索請求,搜索市場占比達(dá)80%,百度聯(lián)盟,60萬聯(lián)盟合作伙伴每天有50億次的日均行為產(chǎn)生,這些構(gòu)成了巨大數(shù)據(jù)的基礎(chǔ)。變現(xiàn)模式:推百度指數(shù),并在百度指數(shù)的基礎(chǔ)上建立百度風(fēng)云榜;百度數(shù)據(jù)中心,研究機(jī)構(gòu)的方式網(wǎng)絡(luò)搜索咨詢報告。廣告站長和開發(fā)組提供的百度(移動)統(tǒng)計以及相關(guān)的開發(fā)者服務(wù)工具 騰訊則超過7.836億QQ活躍賬戶,4.69億微博用戶和超過1億的視頻用戶、5.976億QQ空間用戶,微信、手機(jī)管家等帶來的移動用戶也超過了4億,海外用戶快超過1億。除卻海量用戶,龐大服務(wù)矩陣,帶來數(shù)據(jù)的非結(jié)構(gòu)化、碎片化、海量化。 變現(xiàn)工具只有:騰訊分析和騰訊羅盤馬云宣稱平臺、金融和數(shù)據(jù)是阿里未來的三大戰(zhàn)略方向。阿里未來本質(zhì)上是一個數(shù)據(jù)公司,電商越來越離不開數(shù)據(jù), 金融的核心也是數(shù)據(jù)。、KPI系統(tǒng)、數(shù)據(jù)門戶、活動直播間、賣家云圖、頁面點擊、黃金策;給客戶提供的數(shù)據(jù)魔方、無量神針和類目360、淘寶指數(shù)最具備劃時代意義的2012年阿里又推出了聚石塔產(chǎn)品可提供數(shù)據(jù)存儲、數(shù)據(jù)計算兩類服務(wù)處理的訂單超過天貓總量的20%,比平時增長20倍。阿里金融是大數(shù)據(jù)衍生產(chǎn)品開發(fā)的一個范例。阿里由于電商特性他在應(yīng)用上走得是最遠(yuǎn)的。 三、大數(shù)據(jù)七點總結(jié): 一種思維:數(shù)據(jù)思維 兩大推動:極致體驗、長尾效應(yīng) 三大趨勢:泛互聯(lián)網(wǎng)、垂直一體化、數(shù)據(jù)是資產(chǎn)。 四大步驟:入口、流量、數(shù)據(jù)、變現(xiàn) 五大標(biāo)準(zhǔn):活性、顆粒度、維度時空、情緒 六大模式:數(shù)據(jù)、信息、咨詢、媒體、數(shù)據(jù)使能、技術(shù) 七字心決:專注、極致、口碑、快 四、大數(shù)據(jù)進(jìn)修學(xué)習(xí)內(nèi)容模塊及發(fā)展方向
4.1 Linux學(xué)習(xí)知識概要 (安裝) Linux簡介 Linux與Unix區(qū)別 Linux安裝 Linux常用命令與Unix異同 Linux文件系統(tǒng) Linux用戶及用戶組管理 實驗: 1)安裝, 2)常用命令的使用 3)常用服務(wù)配置 4)用戶配置 5)網(wǎng)絡(luò)管理 (管理) Linux系統(tǒng)性能分析 Linux網(wǎng)絡(luò)管理及配置 Linux安全控制 Linux存儲管理 Linux系統(tǒng)服務(wù) 目標(biāo):掌握Linux基本操作和管理知識
4.2 Hadoop分布式計算學(xué)習(xí) 目標(biāo):掌握MapReduce程序開發(fā)及Hadoop集群運(yùn)維知識 (架構(gòu)原理)大數(shù)據(jù)時代及Hadoop簡介 Hadoop集群安裝部署 HDFS部分 HDFS原理和體系結(jié)構(gòu) 訪問HDFS HDFS常用Java API詳解 HDFS中的重要文件存儲結(jié)構(gòu) HDFS數(shù)據(jù)讀寫原理 (實驗): 部署Hadoop集群 編寫簡單和復(fù)雜的MapReduce程序 元數(shù)據(jù)備份及管理 使用Ganglia、Nagios對Hadoop進(jìn)行監(jiān)控 使用dfsadmin和fsck對Hadoop集群進(jìn)行管理 掌握Hadoop集群日常維護(hù) 1、datanode節(jié)點磁盤損壞故障恢復(fù) 2、datanode節(jié)點硬件升級替換 3、datanode節(jié)點故障宕機(jī)恢復(fù) 4、datanode節(jié)點磁盤損壞處理 5、namenode高可用方案實戰(zhàn) 6、namenode故障宕機(jī)后的metadata數(shù)據(jù)恢復(fù) 7、namenode主備節(jié)點熱切換 要求具備基本的Hadoop知識(開發(fā)維護(hù)) HDFS數(shù)據(jù)壓縮機(jī)制 HDFS 元數(shù)據(jù)管理方法與技術(shù) HDFS數(shù)據(jù)塊存儲管理方法與技術(shù) HDFS HA MapReduce部分 MapRedcue工作原理 MapReduce組件詳解 MapReduce Job執(zhí)行流程介紹 Streaming編程 MapReduce任務(wù)調(diào)度 (Hadoop的最新框架原理) 什么是Hadoop2.0 Hadoop2.0與1.0對比 YARN原理和基本架構(gòu) YARN安裝部署 運(yùn)作機(jī)制 (Hadoop運(yùn)維監(jiān)控) Hadoop運(yùn)維 Hadoop運(yùn)維管理,常見故障 openTSDB實戰(zhàn) MapReduce作業(yè)調(diào)優(yōu) 案例 討論
4.3大數(shù)據(jù)存儲(Hbase)學(xué)習(xí) 目標(biāo):掌握HBase主要功能,熟練使用API開發(fā)應(yīng)用程序,掌握集群運(yùn)維方法 (HBase簡介和架構(gòu)) NoSql數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的對比 HBase基本概念 HBase應(yīng)用場景 HBase架構(gòu)和核心模塊介紹 HBase存儲邏輯結(jié)構(gòu)介紹 集群下安裝部署HBase 啟動HBase,啟動順序 測試啟動多種方法 實驗: 部署HBase集群 通過Java程序管理表 通過Java程序增刪改查數(shù)據(jù) 編寫過濾器精細(xì)控制數(shù)據(jù) 編寫2種協(xié)處理器程序 HBase表管理 HBase Region轉(zhuǎn)移和備份 Split&Compact策略 regionserver日常維護(hù) master日常維護(hù) (HBase核心知識點) 基本方法:Get/Put/Scan/Delete 列式存儲核心:LSM 日志系統(tǒng):WAL 底層存儲:HFile 復(fù)制、備份:Replication 過渡期:RIT 分裂、合并:Split/Compact 負(fù)載均衡:Load Balance 批量記載:bulk load 監(jiān)控系統(tǒng):OpenTSDB 主鍵設(shè)計:key design 二級索引:secondary index 協(xié)處理器:Coprocessors 過濾器:bloomfilter 版本:version (Hbase管理與案例) 集群管理和監(jiān)控 性能優(yōu)化 native java接口 shell client thrift接口 案例(需求剖析、架構(gòu)設(shè)計) (Nosql技術(shù)發(fā)展) 主流NoSql產(chǎn)品簡介:Cassandra、 MongoDB、CouchDB、Redis NoSql產(chǎn)品優(yōu)缺點比較、性能比較 4.4大數(shù)據(jù)存儲(Hive數(shù)據(jù)庫)學(xué)習(xí) (原理)Hive概念 Hive架構(gòu)原理 如何利用Hive用戶接口提交作業(yè) Hive主要配置詳解 目標(biāo):掌握HQL語法及調(diào)優(yōu)方法 實驗:使用HQL語句和自定義函數(shù)實現(xiàn)簡單和復(fù)雜的數(shù)據(jù)統(tǒng)計 (使用) HiveQL語法講解及使用 編寫UDF及UDAF、UDTF函數(shù) Hive與HBase的整合 HiveQL優(yōu)化與執(zhí)行計劃 Hive日志管理 hive輸入lzo文件格式時會產(chǎn)生中文亂碼 分隔符入庫問題(如何定制分隔符入庫,比如€) (管理和優(yōu)化) 多級存儲遷移(數(shù)據(jù)生命周期) 如何找出低效的hive任務(wù) 使用Hive分區(qū)策略 HIVE查詢中分區(qū)剪裁失效案例分析 使用Lzo壓縮優(yōu)化數(shù)據(jù)存儲容量 CPU與IO配比 編寫Hive自定義MapReduce腳本優(yōu)化查詢 Hive數(shù)據(jù)傾斜和查詢性能優(yōu)化 解決hive數(shù)據(jù)傾斜的多個案例分析 Mapjoin解決數(shù)據(jù)傾斜 優(yōu)化小文件過多的sql 介紹一下大表之間join或group by 或 distinct產(chǎn)生傾斜解決的案例 使用Sqoop工作原理和進(jìn)行數(shù)據(jù)分析 使用oozie配置工作流 編寫程序注意規(guī)范
4.5大數(shù)據(jù)相關(guān)技術(shù)Pig學(xué)習(xí) Pig簡介 安裝和運(yùn)行Pig Pig Latin詳解 命令行使用以及配置選項介紹 目標(biāo):掌握Pig Latin使用方法
4.6 ZooKeeper協(xié)調(diào)管理學(xué)習(xí) 目標(biāo):了解ZooKeeper在Hadoop系統(tǒng)中的作用,掌握基本運(yùn)維知識 概念介紹和基本原理 集群安裝部署 Zookeeper Server角色 實驗:搭建ZooKeeper集群 Zookeeper Server選舉、同步和工作流程 Leader的工作流程 Follower的工作流程 Zookeeper的擴(kuò)展 Zookeeper的應(yīng)用場景 Zookeeper性能調(diào)優(yōu) Zookeeper性能調(diào)優(yōu) 數(shù)據(jù)一致性與Paxos算法 案例 相關(guān)技術(shù) 4.7 日志采集系統(tǒng)Flume 學(xué)習(xí) 目標(biāo):掌握Flume Agent和Collector配置 2天 具備Hadoop基礎(chǔ) Flume簡介 Flume架構(gòu)設(shè)計 Flume原理及常見配置 Flume部署、安裝、配置 Flume常用Source、Sink、Decorator Flume常用命令 Flume與Hadoop、HBase集成 編寫Source、Sink、Decorator插件 主要日志采集產(chǎn)品簡介:Chukwa、Scribe、Kafka 各產(chǎn)品之間優(yōu)缺點比較 4.8Storm實時處理 學(xué)習(xí) Storm簡介 Storm安裝部署 Storm架構(gòu)及工作原理詳解 目標(biāo):理解Storm工作原理及應(yīng)用程序編寫 2天 storm組件介紹 Topology介紹 Spout組件 Blot組件 Strom的數(shù)據(jù)模型 流分組策略 Storm的容錯機(jī)制 基于storm的開發(fā) 自定義Topology 維護(hù)管理 案例Topology 4.9 Spark實時處理框架學(xué)習(xí) 目標(biāo):掌握Spark安裝配置和開發(fā) Spark的簡介 Spark的原理 Spark與hadoop的比較 Spark安裝 Mesos介紹 Mesos安裝 Spark生態(tài)系統(tǒng)介紹 Spark核心概念 —RDD介紹 scala語言學(xué)習(xí)、Spark源碼解析、Spark案例實戰(zhàn) 4.10大數(shù)據(jù)挖掘?qū)W習(xí) 數(shù)據(jù)挖掘應(yīng)用領(lǐng)域: 用戶相關(guān): 客戶分析,商友圈 推薦:商品,用戶,資訊、、、 搜索:標(biāo)簽,排名 營銷 文本分析 常用數(shù)據(jù)挖掘工具: Weka Mahout歷史沿革、架構(gòu)和算法介紹 Mahout適用場景介紹 Mahout安裝部署 Mahout相關(guān)的數(shù)據(jù)基礎(chǔ)知識講解 常用數(shù)據(jù)挖掘算法: 聚類 分類 數(shù)據(jù)挖掘應(yīng)用案例簡述: 反作弊、精準(zhǔn)營銷;為商品打標(biāo)簽(1):風(fēng)格標(biāo)簽 數(shù)據(jù)挖掘算法和相關(guān)應(yīng)用案例 用戶研究:個性化應(yīng)用,對用戶分層,聚類,打標(biāo)注 業(yè)務(wù)背景 系統(tǒng)架構(gòu) kmeans算法介紹和應(yīng)用 LDA應(yīng)用 數(shù)據(jù)挖掘算法和應(yīng)用案例 商品搜索:標(biāo)簽,商品排名 業(yè)務(wù)背景 系統(tǒng)架構(gòu) 分類算法學(xué)習(xí)和應(yīng)用 回歸算法學(xué)習(xí)和應(yīng)用 推薦 :商品推薦系統(tǒng) 業(yè)務(wù)背景 系統(tǒng)架構(gòu) 關(guān)聯(lián)算法學(xué)習(xí)和應(yīng)用 協(xié)同過濾算法學(xué)習(xí)和應(yīng)用 內(nèi)容相關(guān)算法學(xué)習(xí)和應(yīng)用 五、結(jié)論 大數(shù)據(jù)飛速發(fā)展時代如何適應(yīng)當(dāng)前企業(yè)發(fā)展需要、做一個合格的大數(shù)據(jù)開發(fā)工程師、只有不斷充實自己、不斷努力提升自己的技術(shù)專業(yè)水平與時俱進(jìn)!如何充實自己的專業(yè)技術(shù)水平、提高自己的經(jīng)驗->大數(shù)據(jù)進(jìn)修學(xué)習(xí)思數(shù)科技?xì)g迎! |
|