一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

 wzw69 2016-04-26

2016年QCon全球軟件開發(fā)大會(huì)北京站于4.21-4.23在北京國(guó)際會(huì)議中心舉辦,參會(huì)者對(duì)整體內(nèi)容設(shè)置及安排反饋良好。這里我們梳理出了22號(hào)“大數(shù)據(jù)生態(tài)構(gòu)建”廠商共建專場(chǎng)的重點(diǎn)演講內(nèi)容,為沒能到現(xiàn)場(chǎng)聆聽的小伙伴們奉上飽滿的干貨內(nèi)容。(進(jìn)入QCon北京2016大會(huì)官網(wǎng),免費(fèi)下載三天的講師演講PPT。)

參與大數(shù)據(jù)技術(shù)實(shí)踐分享的廠商有:通聯(lián)數(shù)據(jù)、明略數(shù)據(jù)、FreeWheel、七牛云、百度開放云、易觀和鏈家網(wǎng)。演講話題點(diǎn)包含機(jī)器學(xué)習(xí)、數(shù)據(jù)存儲(chǔ)、用戶畫像、數(shù)據(jù)查詢、數(shù)據(jù)遷移和數(shù)據(jù)分析等關(guān)鍵技術(shù)點(diǎn),完整的詮釋了構(gòu)建大數(shù)據(jù)生態(tài)必備的技能和構(gòu)建生態(tài)最終的目的。具體內(nèi)容往下看!

機(jī)器學(xué)習(xí) & 金融投資

作為金融投資領(lǐng)域的實(shí)踐者,通聯(lián)數(shù)據(jù)在投研管理業(yè)務(wù)場(chǎng)景中有較多的經(jīng)驗(yàn)可以分享,尤其是在信息搜集、分析判斷、投資決策和后續(xù)跟蹤方面,將大數(shù)據(jù)吸收并用于投資活動(dòng)的“小數(shù)據(jù)”。

而完成這一系列動(dòng)作就需要一個(gè)分析能力特別強(qiáng)的平臺(tái),平臺(tái)架構(gòu)底層聚合多行業(yè)的數(shù)據(jù),包括財(cái)務(wù)數(shù)據(jù)和社交數(shù)據(jù)等等,但是我們更為關(guān)注的是這個(gè)投研平臺(tái)的機(jī)器學(xué)習(xí)技術(shù)框架,因?yàn)檫@樣一個(gè)框架基本上展現(xiàn)出了其技術(shù)的組成部分和核心技術(shù)點(diǎn)。(如下圖)

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

從圖上可以簡(jiǎn)單的看出,平臺(tái)底層有海量的數(shù)據(jù)不斷積累、不斷增長(zhǎng),包括宏觀數(shù)據(jù)、行業(yè)的數(shù)據(jù)、場(chǎng)合數(shù)據(jù),官方數(shù)據(jù),也包括各種通過爬蟲爬來的各種數(shù)據(jù)。接下來會(huì)通過數(shù)據(jù)生產(chǎn)、數(shù)據(jù)清洗、數(shù)據(jù)上線等過程,將這些表面上看似沒什么關(guān)聯(lián)的數(shù)據(jù)通過自然語(yǔ)言處理和算法建立起一個(gè)知識(shí)圖譜和關(guān)系。通過設(shè)定某些規(guī)則來檢測(cè)不斷流動(dòng)的數(shù)據(jù)流或者文本流信息,關(guān)注不斷出現(xiàn)的事件,對(duì)帶有關(guān)鍵詞或帶監(jiān)控的主題進(jìn)行監(jiān)控,可以實(shí)時(shí)監(jiān)控大事件。通過包括神經(jīng)網(wǎng)絡(luò)在內(nèi)的算法方式,對(duì)數(shù)據(jù)進(jìn)行建模和歸類,把大量的信息進(jìn)行過濾,過濾成有用的“小數(shù)據(jù)”。

除此之外,蔡弘博士還提到了通過機(jī)器學(xué)習(xí)向用戶推薦準(zhǔn)確的新聞資訊;通過智能搜索,對(duì)關(guān)鍵詞的分詞、同義詞、精密度和重要度進(jìn)行數(shù)據(jù)清洗和建模,完成用戶的精準(zhǔn)信息搜索需求。

社會(huì)化數(shù)據(jù) & 混合存儲(chǔ)

在講到社會(huì)化數(shù)據(jù)這一塊內(nèi)容的時(shí)候,來自明略數(shù)據(jù)的任鑫琦解釋說,社會(huì)化數(shù)據(jù)的特點(diǎn)就是:收集更困難,質(zhì)量難保證,數(shù)據(jù)非結(jié)構(gòu)化,數(shù)據(jù)處理性能差。所以說,要把這樣的社會(huì)化數(shù)據(jù)存儲(chǔ)起來是有難度的。接下來看看社會(huì)化關(guān)系網(wǎng)絡(luò)的存儲(chǔ)架構(gòu),基于Hadoop分析框架和流式計(jì)算框架形成一整套數(shù)據(jù)處理框架,主要用于數(shù)據(jù)查詢。

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

查詢完數(shù)據(jù)該如何存儲(chǔ)下來呢?當(dāng)然是用混合存儲(chǔ)體系,(如上圖)這個(gè)存儲(chǔ)實(shí)現(xiàn)框架的底層都是基于一些開源的技術(shù),最底層是基于HDFS,數(shù)據(jù)庫(kù)存儲(chǔ)用的是HBase,數(shù)據(jù)倉(cāng)庫(kù)用的是Hive,圖形數(shù)據(jù)庫(kù)用的是開源的Titan。之所以用開源的Titan,原因在于其索引分析系統(tǒng)是Elastic Search,除了需要較多的業(yè)務(wù)應(yīng)用之外,還有一些批量或者是離線、在線任務(wù)的計(jì)算,還要提供上層應(yīng)用的服務(wù)層,能提供整體的一個(gè)接口。

此外,任老師還講了一些他所遇到的坑,包括邊爆炸問題,Super Node問題,多點(diǎn)查詢效率,索引性能和靈活度,導(dǎo)入數(shù)據(jù)性能等問題。

用戶畫像 & 標(biāo)注噪聲處理

說起用戶畫像,這是計(jì)算廣告領(lǐng)域一個(gè)非常經(jīng)典的問題。FreeWheel的童有軍老師在開講時(shí)介紹了用戶畫像在廣告投放平臺(tái)的重要地位。廣告的受眾定向和測(cè)量都會(huì)涉及到用戶畫像的相關(guān)工作。而受眾定向則是根據(jù)用戶畫像生成的用戶興趣細(xì)分標(biāo)簽對(duì)廣告進(jìn)行精準(zhǔn)定向。

但是童老師也說到,在用戶畫像上,缺乏質(zhì)量較高的標(biāo)注來源,而FreeWheel選擇了一種基于貝葉斯的方法來近似的標(biāo)注用戶。這種方法的基本思路就是通過用戶觀看過的視頻在各個(gè)分類上的分布來推測(cè)這個(gè)用戶的類別。對(duì)標(biāo)注集合的噪聲處理方法主要是Boosting方法、Bagging方法和半監(jiān)督方法。Bagging方法中又分別嘗試了CV方法和有放回的Bagging方法。

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

最后,童老師也介紹了用戶畫像和標(biāo)注噪聲的系統(tǒng)架構(gòu),(如上圖)從HDFS開始,到MR,SPARK,然后同時(shí)做特征工程,和貝葉斯算法。將算出后的數(shù)據(jù),dump到server上,做Lable Noise,然后把數(shù)據(jù)插入到Aerospike中,用來做測(cè)試和使用。

百度 & 即席查詢

在大數(shù)據(jù)即席查詢技術(shù)的演講中,百度大數(shù)據(jù)架構(gòu)師孫垚光分別講了BigSQL的定位和特點(diǎn),BigSQL的架構(gòu)和關(guān)鍵技術(shù)、以及在百度內(nèi)部應(yīng)用的案例。

首先BigSQL的定位是一個(gè)即席查詢服務(wù)平臺(tái),是PaaS形態(tài)的產(chǎn)品,它的特點(diǎn)是支持半結(jié)構(gòu)化數(shù)據(jù)格式,使用多樣化接口,兼容開源SparkSQL/HQL語(yǔ)法集,同時(shí)還有靈活的權(quán)限管理,支持不同用戶之間共享、協(xié)同工作。

下圖是BigSQL的整體架構(gòu)圖,分成接入層和引擎層兩部分,最上面是用戶可以接觸到的各種API,中間是提供RestAPI的server,還有負(fù)責(zé)session管理和調(diào)度的master,監(jiān)控job運(yùn)行的worker等,下面是真正的計(jì)算引擎和存儲(chǔ)引擎。

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

接下來簡(jiǎn)單說一下BigSQL的關(guān)鍵技術(shù):高性能Shuffle。關(guān)鍵技術(shù):高性能Shuffle。(如下圖)

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

將基于磁盤的pull模式,改變成基于內(nèi)存的push模式,因?yàn)楹芏鄰?fù)雜的項(xiàng)目對(duì)工程質(zhì)量要求很高,所以這個(gè)改變并不容易。它的好處就是數(shù)據(jù)在map端全內(nèi)存,到一個(gè)專用的Shuffle模塊上去聚合,聚合多個(gè)map的Shuffle模塊,產(chǎn)出的數(shù)據(jù)極大減少了磁盤IO和隨機(jī)讀,并且對(duì)于只需要分組不需要排序的Query,甚至可以做到流式處理,提高了時(shí)效性。

在最后的BigSQL后續(xù)規(guī)劃上,孫老師說到,在性能方面還會(huì)持續(xù)提升,包括存儲(chǔ)、計(jì)算、Query翻譯優(yōu)化等各個(gè)層面的工作,比如更智能/細(xì)粒度的數(shù)據(jù)緩存層,數(shù)據(jù)的實(shí)時(shí)更新,向量執(zhí)行,有效的提高CPU cache命中率,還有利用一些統(tǒng)計(jì)信息做cost based Optimizer等等。

大數(shù)據(jù)分析技術(shù) & 房產(chǎn)領(lǐng)域

最后的一場(chǎng)演講是來自房產(chǎn)領(lǐng)域的鏈家網(wǎng),其大數(shù)據(jù)架構(gòu)師蔡白銀為大家分享了鏈家網(wǎng)是如何使用分析技術(shù)來價(jià)值最大化海量用戶數(shù)據(jù)的。蔡白銀在開頭就講到了,現(xiàn)在房產(chǎn)O2O領(lǐng)域存在很多痛點(diǎn),包括精準(zhǔn)數(shù)據(jù)收集以及辨別虛假信息等方面。

那么鏈家網(wǎng)是怎么解決這些痛點(diǎn)的呢?結(jié)合(下圖)大數(shù)據(jù)方面的技術(shù)架構(gòu)圖一起來看一下。

QCon北京:構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)?

從下往上看,其黃色部分是數(shù)據(jù)采集層,HDFS是鏈家網(wǎng)內(nèi)部業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層,采集到的數(shù)據(jù)通過ETL傳輸?shù)紿DFS。同樣日志流經(jīng)過Kafka進(jìn)入HDFS,基于Yam提供計(jì)算的服務(wù),計(jì)算完之后放入Hive進(jìn)行分析,分析結(jié)果再存儲(chǔ)到Hbase,供其他業(yè)務(wù)方獲取。最上面的一層是應(yīng)用挖掘?qū)?,鏈家網(wǎng)目前基于這些數(shù)據(jù)做了比如市場(chǎng)解讀報(bào)告,后續(xù)的市場(chǎng)情況,客源解讀等方面的服務(wù)提供。

在應(yīng)用挖掘?qū)?,蔡老師挑出兩個(gè)案例做了進(jìn)一步解釋。用戶畫像應(yīng)用主要是對(duì)用戶畫像進(jìn)行選型,HBase和Spark是整個(gè)選型過程中最關(guān)鍵的技術(shù)。放入Elastic Search的熱數(shù)據(jù)會(huì)被放入磁盤,HBase可以存儲(chǔ)線上所有用戶數(shù)據(jù)。在技術(shù)選型上,從左到右基于Hive、HDFS,到了Spark,將數(shù)據(jù)處理完之后會(huì)把結(jié)果批量放到Elastic Search。另外,通過Kafka傳過來的日志流在進(jìn)入到Spark之后會(huì)建立索引,這些索引會(huì)全量放入Elastic Search,數(shù)據(jù)最終會(huì)放在HBase。但是為了應(yīng)對(duì)與日劇增的龐大日志量,會(huì)把熱數(shù)據(jù)放在Elastic Search,將冷數(shù)據(jù)移出。

說在最后

大數(shù)據(jù)之所以能引領(lǐng)一場(chǎng)革命,原因并不在于“大”,而在于“有用”,它能夠?qū)?shù)據(jù)與現(xiàn)實(shí)社會(huì)有機(jī)融合,能真正意義上產(chǎn)生對(duì)社會(huì)有價(jià)值的變革。這也正應(yīng)了業(yè)界流傳的那句話:三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。大數(shù)據(jù)公司在爭(zhēng)搶數(shù)據(jù)源的同時(shí),對(duì)數(shù)據(jù)處理的技術(shù)也在不斷的升級(jí)和多功能化。

從全天的演講內(nèi)容來看,幾乎涵蓋了所有對(duì)大數(shù)據(jù)生態(tài)構(gòu)建起作用的關(guān)鍵技術(shù),以技術(shù)加實(shí)踐經(jīng)驗(yàn)的方式來輸出技術(shù)干貨,確實(shí)是一件對(duì)大數(shù)據(jù)技術(shù)交流有幫助的事情,整體的將數(shù)據(jù)分布式處理技術(shù)、存儲(chǔ)技術(shù)、感知技術(shù)、數(shù)據(jù)挖掘等技術(shù)統(tǒng)一到一起,建設(shè)良性增益的大數(shù)據(jù)閉環(huán)生態(tài),也是所有開發(fā)者或架構(gòu)師等技術(shù)人員所關(guān)心的問題。

原文來自:http://www.

宅男福利:http://www.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产精品午夜视频免费观看| 欧美中文字幕日韩精品| 台湾综合熟女一区二区| 亚洲清纯一区二区三区| 久久久精品日韩欧美丰满| 国产二级一级内射视频播放| 国产精品成人免费精品自在线观看| 日本高清二区视频久二区| 老鸭窝老鸭窝一区二区| 成人精品亚洲欧美日韩| 成人精品国产亚洲av久久| 日韩色婷婷综合在线观看| 91欧美亚洲视频在线| 国产黑人一区二区三区| 亚洲欧美日韩精品永久| 国产精品欧美一区二区三区不卡| 国产精品日韩欧美一区二区| 久草热视频这里只有精品| 日韩中文字幕在线不卡一区| 欧美激情一区=区三区| 九九久久精品久久久精品| 人妻久久这里只有精品| 欧美中文字幕一区在线| 国产精品久久女同磨豆腐| 护士又紧又深又湿又爽的视频| 少妇熟女亚洲色图av天堂| 国内外免费在线激情视频| 亚洲伊人久久精品国产| 久久这里只精品免费福利| 亚洲综合香蕉在线视频| 五月情婷婷综合激情综合狠狠| 国产欧美日韩在线精品一二区 | 国产一区二区精品丝袜| 国产精品视频一级香蕉| 免费观看在线午夜视频| 四季精品人妻av一区二区三区| 伊人网免费在线观看高清版| 99精品国产一区二区青青 | 亚洲天堂国产精品久久精品| 亚洲国产成人精品一区刚刚| 不卡一区二区高清视频|