技術(shù)大牛帶你走向機(jī)器學(xué)習(xí)“正道”：小朋友才迷信算法，大人們更重視工程實(shí)踐

LZS2851 2017-01-27

展開全文

AI科技評(píng)論按：“算法”這兩字在人工智能圈已然成為“高大上”的代名詞，由于不少在校生和職場(chǎng)新人對(duì)它過度迷戀，多名 AI 資深人士均對(duì)這一現(xiàn)象表示擔(dān)憂。李開復(fù)曾這樣說到：

現(xiàn)在的 AI 科學(xué)家大部分是在科研環(huán)境中培養(yǎng)出來的，不但欠缺工程化、產(chǎn)品化的經(jīng)驗(yàn)，而且對(duì)于錯(cuò)綜復(fù)雜的商業(yè)環(huán)境也并不熟悉，更缺乏解決實(shí)際問題所必須的數(shù)據(jù)資源。

隨著開源框架層出不窮，人工智能產(chǎn)品化和商業(yè)化進(jìn)程不斷加速，使得算法的門檻逐漸降低，但對(duì)工程的要求不斷在提高。這種情況下，實(shí)際應(yīng)用和工程能力基礎(chǔ)扎實(shí)的技術(shù)人才變得異常搶手。

其實(shí) AI 新人們?cè)谶M(jìn)入職場(chǎng)后也愈發(fā)意識(shí)到這個(gè)問題，那他們?cè)撊绾翁嵘约旱膶?shí)戰(zhàn)能力？

AI科技評(píng)論特邀王剛為大家講述機(jī)器學(xué)習(xí)的實(shí)戰(zhàn)與應(yīng)用，王剛根據(jù)工程、產(chǎn)品、業(yè)務(wù)等多個(gè)維度幫大家梳理如何系統(tǒng)地去學(xué)習(xí)機(jī)器學(xué)習(xí)。

嘉賓介紹：

王剛，前樂視大數(shù)據(jù)總監(jiān)，現(xiàn)任某電商平臺(tái)大數(shù)據(jù)總監(jiān)。10 年大數(shù)據(jù)領(lǐng)域工作經(jīng)驗(yàn)，具有 Hadoop 和 Spark 生態(tài)相關(guān)技術(shù)的實(shí)際應(yīng)用經(jīng)驗(yàn)。目前專注于機(jī)器學(xué)習(xí)，搜索和推薦系統(tǒng)的設(shè)計(jì)和開發(fā)。

以下為王剛所撰寫的正文：

機(jī)器學(xué)習(xí)對(duì)很多初學(xué)者來說，最大的學(xué)習(xí)困難和障礙就是模型、算法、“眼花繚亂”的數(shù)學(xué)公式所帶來的抽象感，無法有效的建立起直覺上的理解。所以本文的目的是嘗試給初學(xué)者具體的學(xué)習(xí)方式建議，以幫助初學(xué)者打通機(jī)器學(xué)習(xí)的任督二脈，然后通過不斷的學(xué)習(xí)和實(shí)踐，使得自己在機(jī)器學(xué)習(xí)領(lǐng)域的專業(yè)能力持續(xù)提升。

機(jī)器學(xué)習(xí)與人工智能、深度學(xué)習(xí)之間的關(guān)系

當(dāng)前被提及的高頻詞語(yǔ)是“AI人工智能”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”。那這些詞語(yǔ)背后所代表的技術(shù)之間到底是什么關(guān)系呢？充分的理解這個(gè)關(guān)系，有利于建立起更加系統(tǒng)的專業(yè)學(xué)習(xí)框架。

首先，我們要搞明白機(jī)器學(xué)習(xí)到底學(xué)習(xí)的是什么，答案是模型“參數(shù)”，比如Y=AX+B是個(gè)機(jī)器學(xué)習(xí)的模型，通過樣本數(shù)據(jù)，可以學(xué)習(xí)出參數(shù)A和B的確定值。然后基于這兩個(gè)參數(shù)，對(duì)模型進(jìn)行泛化，即對(duì)給定的X對(duì)Y進(jìn)行預(yù)測(cè)。明白了機(jī)器學(xué)習(xí)到底是學(xué)習(xí)什么之后，我們一起看看下圖來搞清楚機(jī)器學(xué)習(xí)與人工智能和深度學(xué)習(xí)之間的關(guān)系。

如上圖所示，人工智能是最大的一個(gè)范疇，人工智能的實(shí)現(xiàn)目前看主要有兩種途徑：一種是基于腦科學(xué)的方式來實(shí)現(xiàn)智能。另一種是基于機(jī)器學(xué)習(xí)的方式來實(shí)現(xiàn)智能，這種方式的假設(shè)是當(dāng)學(xué)習(xí)的數(shù)據(jù)足夠充分，就可以大概率的逼近事實(shí)。

再回到公式Y(jié)=AX+B，我們可以看到機(jī)器學(xué)習(xí)是通過X和Y來學(xué)習(xí)出參數(shù)A和B，而在機(jī)器學(xué)習(xí)中，X是人工構(gòu)造的特征，Y是人工進(jìn)行標(biāo)注的標(biāo)簽。一句話，機(jī)器學(xué)習(xí)就是通過構(gòu)造X和Y來學(xué)習(xí)參數(shù)A和B。但通常情況下，構(gòu)造X和標(biāo)注Y需要耗用大量的人力和時(shí)間。所以，對(duì)于如何更智能的構(gòu)造X和標(biāo)注Y是機(jī)器學(xué)習(xí)很重要的研究方向。深度學(xué)習(xí)的一個(gè)重要作用就是能夠更智能的構(gòu)造X，即進(jìn)行更好的特征表示。所以深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集。那如何更好的標(biāo)注Y呢，當(dāng)前流行的對(duì)抗生成網(wǎng)絡(luò)（GAN）就是一種解決方案。

機(jī)器學(xué)習(xí)需要的基礎(chǔ)知識(shí)體系

機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵要素是模型、策略、算法。模型指的是具體的機(jī)器學(xué)習(xí)模型，比如決策樹、SVM、神經(jīng)網(wǎng)絡(luò)、LDA等具體模型。策略指的是最小化模型結(jié)構(gòu)性風(fēng)險(xiǎn)的手段，即避免模型欠擬合和過擬合的應(yīng)對(duì)策略，在這里專指正則化（Regularization）。算法指的是建立好模型之后，如何對(duì)模型中的參數(shù)進(jìn)行學(xué)習(xí)。也即最優(yōu)化的方法。所以，初學(xué)者需要掌握的基礎(chǔ)知識(shí)為：

1.導(dǎo)數(shù)與微積分，以及還需要對(duì)泰勒展開式、拉格朗日等定理和公式有充分的掌握。這是進(jìn)行算法推導(dǎo)的基礎(chǔ)中的基礎(chǔ)。

2.線性代數(shù)，矩陣運(yùn)算等要做到熟練掌握，因?yàn)闄C(jī)器學(xué)習(xí)的最優(yōu)化算法中涉及到的復(fù)雜計(jì)算需要線性代數(shù)好矩陣運(yùn)算的內(nèi)容。

3.概率論，概率論的基礎(chǔ)知識(shí)是理解像極大似然、最大熵、EM算法、貝葉斯網(wǎng)絡(luò)、概率圖模型的基礎(chǔ)。

4.最優(yōu)化，機(jī)器學(xué)習(xí)中的模型訓(xùn)練是通過對(duì)模型中參數(shù)的學(xué)習(xí)來進(jìn)行泛化推廣。如何對(duì)模型中的參數(shù)進(jìn)行學(xué)習(xí)是最優(yōu)化要解決的問題。比如線性優(yōu)化、非線性優(yōu)化的各種主要方法（比如梯度下降法、牛頓和擬牛頓法等）要有充分的理解。

5.機(jī)器學(xué)習(xí)模型的思想和具體實(shí)現(xiàn)方式要理解透徹。

機(jī)器學(xué)習(xí)的應(yīng)用實(shí)踐

特征工程，如上面所說就是造X，機(jī)器學(xué)習(xí)實(shí)踐中大部分的實(shí)踐都在處理特征工程上。所以真正有機(jī)器學(xué)習(xí)實(shí)踐經(jīng)驗(yàn)的人都知道機(jī)器學(xué)習(xí)更多的時(shí)間不是高大上的算法，而是苦逼特征工程。工程師每天更多的是基于對(duì)業(yè)務(wù)的深刻理解，通過構(gòu)建“更好”的特征，持續(xù)提升模型的準(zhǔn)確度。

推薦系統(tǒng)與搜索系統(tǒng)

當(dāng)推薦和搜索這些字眼出現(xiàn)在網(wǎng)頁(yè)中，專業(yè)書籍中，或是大部分的培訓(xùn)課程中，更多的是與機(jī)器學(xué)習(xí)和算法關(guān)聯(lián)起來。這種情況的原因可能是為了迎合機(jī)器學(xué)習(xí)在大部分人認(rèn)知中的“高大上”吧。

在實(shí)際的產(chǎn)品設(shè)計(jì)和開發(fā)中，推薦系統(tǒng)和搜索系統(tǒng)是有著一個(gè)更大概念的系統(tǒng)架構(gòu)，絕非僅僅是只有機(jī)器學(xué)習(xí)和算法。其中UI/UE的重要性占比為40%，業(yè)務(wù)理解重要性占比為30%，數(shù)據(jù)重要性占比為20%，模型重要性占比為10%。

以推薦系統(tǒng)舉例，整個(gè)推薦系統(tǒng)的框架應(yīng)當(dāng)如下圖所示：

下圖是電商平臺(tái)上推薦系統(tǒng)的框架

所以，建議的推薦系統(tǒng)知識(shí)學(xué)習(xí)體系為：

一、推薦系統(tǒng)之整體架構(gòu)

1.推薦系統(tǒng)的本質(zhì)、目標(biāo)及價(jià)值

2.一個(gè)好的推薦系統(tǒng)的相貌

3.線下零售的促銷員與電商平臺(tái)的推薦系統(tǒng)的關(guān)系

3.推薦系統(tǒng)與搜索的關(guān)系

4.主流電商平臺(tái)上的推薦系統(tǒng)學(xué)習(xí)

5.推薦系統(tǒng)的整體架構(gòu)圖以及如何學(xué)習(xí)推薦系統(tǒng)

二、推薦系統(tǒng)之策略及模型

1. 基于規(guī)則的推薦算法

2. 基于內(nèi)容(Content-Based)的推薦算法

3. 基于協(xié)同過濾（CF)的推薦算法

4. 基于隱因子（SVD/SVD++/MF/FM/FFM/PLSA/LDA）的推薦算法

5. 推薦結(jié)果的排序模型（GBDT+LR，LTR）

6. 數(shù)學(xué)基礎(chǔ)及典型最優(yōu)化算法

7.不同場(chǎng)景下的推薦策略（如在電商平臺(tái)上，首頁(yè)、詳情頁(yè)、購(gòu)物車頁(yè)、搜索結(jié)果頁(yè)等不同場(chǎng)景下的推薦策略）

8.推薦系統(tǒng)評(píng)估

如何評(píng)估線下模型，如何評(píng)估線上效果

三、推薦系統(tǒng)之特征工程

1.用戶畫像如何構(gòu)建

2.特征工程如何構(gòu)建，以及如何進(jìn)行特征分析

四、推薦系統(tǒng)之交互體驗(yàn)

如何向用戶展示推薦系統(tǒng)的權(quán)威性、取得用戶的信任、如何幫助用戶決策、如何獲取用戶反饋。

如何開始機(jī)器學(xué)習(xí)

對(duì)于大多數(shù)人來說，如果以抽象的方式開始學(xué)習(xí)一項(xiàng)內(nèi)容肯定不是最好的方式。相反，先建立起直覺，然后建立具體到抽象的映射，再深入學(xué)習(xí)抽象部分完成對(duì)細(xì)節(jié)部分的掌握，最后循環(huán)到具體的應(yīng)用是適合大多數(shù)人的學(xué)習(xí)方式。所以對(duì)于機(jī)器學(xué)習(xí)初學(xué)者建議的學(xué)習(xí)路徑為：

步驟一：先選擇一門實(shí)戰(zhàn)性非常強(qiáng)的機(jī)器學(xué)習(xí)及其應(yīng)用課程進(jìn)行學(xué)習(xí)。目標(biāo)是通過足夠多具體的應(yīng)用，能夠深刻理解機(jī)器學(xué)習(xí)的實(shí)際使用方式，從而建立起直覺。

步驟二：學(xué)習(xí)機(jī)器學(xué)習(xí)的理論課程，包括具體的模型算法，最優(yōu)化方法，以及相關(guān)的公式推導(dǎo)。過了這一關(guān)，就完成了對(duì)機(jī)器學(xué)習(xí)細(xì)節(jié)的更好掌控。

步驟三：如果能夠立刻參與到機(jī)器學(xué)習(xí)的實(shí)際項(xiàng)目中是最好不過了。如果不能，可以去完成Kaggle中的一些比賽項(xiàng)目。

最后，也是最最重要的建議，如果要想“更快速”“更高效”的掌握機(jī)器學(xué)習(xí)，找到合適的培訓(xùn)課程進(jìn)行學(xué)習(xí)是最合適的方式。用錢買時(shí)間，買別人的經(jīng)驗(yàn)，以更高效的方式掌握機(jī)器學(xué)習(xí)后，這些付出的費(fèi)用可能僅僅是你工作之后月薪的很小的一部分。

在任督二脈打通之后，可以適當(dāng)?shù)膶?duì)分布式存儲(chǔ)和計(jì)算相關(guān)體系的內(nèi)容進(jìn)行學(xué)習(xí)。即靠的是個(gè)人的持續(xù)修行，在理論與實(shí)踐循環(huán)提升中，成長(zhǎng)為真正的專家。

PS：為了推動(dòng) AI 人才全面化，AI科技評(píng)論將為大家提供一個(gè)業(yè)界頂級(jí)的專業(yè) AI 技術(shù)培訓(xùn)平臺(tái)：1024MOOC 。其中王剛老師也會(huì)在1024MOOC 開展系統(tǒng)的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)培訓(xùn)課程，具體開課時(shí)間在年后一周左右，請(qǐng)大家持續(xù)關(guān)注AI科技評(píng)論信息。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： LZS2851 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)