AI科技評(píng)論按:“算法”這兩字在人工智能圈已然成為“高大上”的代名詞,由于不少在校生和職場(chǎng)新人對(duì)它過度迷戀,多名 AI 資深人士均對(duì)這一現(xiàn)象表示擔(dān)憂。李開復(fù)曾這樣說到:
隨著開源框架層出不窮,人工智能產(chǎn)品化和商業(yè)化進(jìn)程不斷加速,使得算法的門檻逐漸降低,但對(duì)工程的要求不斷在提高。這種情況下,實(shí)際應(yīng)用和工程能力基礎(chǔ)扎實(shí)的技術(shù)人才變得異常搶手。 其實(shí) AI 新人們?cè)谶M(jìn)入職場(chǎng)后也愈發(fā)意識(shí)到這個(gè)問題,那他們?cè)撊绾翁嵘约旱膶?shí)戰(zhàn)能力? AI科技評(píng)論特邀王剛為大家講述機(jī)器學(xué)習(xí)的實(shí)戰(zhàn)與應(yīng)用,王剛根據(jù)工程、產(chǎn)品、業(yè)務(wù)等多個(gè)維度幫大家梳理如何系統(tǒng)地去學(xué)習(xí)機(jī)器學(xué)習(xí)。 嘉賓介紹:王剛,前樂視大數(shù)據(jù)總監(jiān),現(xiàn)任某電商平臺(tái)大數(shù)據(jù)總監(jiān)。10 年大數(shù)據(jù)領(lǐng)域工作經(jīng)驗(yàn),具有 Hadoop 和 Spark 生態(tài)相關(guān)技術(shù)的實(shí)際應(yīng)用經(jīng)驗(yàn)。目前專注于機(jī)器學(xué)習(xí),搜索和推薦系統(tǒng)的設(shè)計(jì)和開發(fā)。 以下為王剛所撰寫的正文: 機(jī)器學(xué)習(xí)對(duì)很多初學(xué)者來說,最大的學(xué)習(xí)困難和障礙就是模型、算法、“眼花繚亂”的數(shù)學(xué)公式所帶來的抽象感,無法有效的建立起直覺上的理解。所以本文的目的是嘗試給初學(xué)者具體的學(xué)習(xí)方式建議,以幫助初學(xué)者打通機(jī)器學(xué)習(xí)的任督二脈,然后通過不斷的學(xué)習(xí)和實(shí)踐,使得自己在機(jī)器學(xué)習(xí)領(lǐng)域的專業(yè)能力持續(xù)提升。 機(jī)器學(xué)習(xí)與人工智能、深度學(xué)習(xí)之間的關(guān)系當(dāng)前被提及的高頻詞語(yǔ)是“AI人工智能”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”。那這些詞語(yǔ)背后所代表的技術(shù)之間到底是什么關(guān)系呢?充分的理解這個(gè)關(guān)系,有利于建立起更加系統(tǒng)的專業(yè)學(xué)習(xí)框架。 首先,我們要搞明白機(jī)器學(xué)習(xí)到底學(xué)習(xí)的是什么,答案是模型“參數(shù)”,比如Y=AX+B是個(gè)機(jī)器學(xué)習(xí)的模型,通過樣本數(shù)據(jù),可以學(xué)習(xí)出參數(shù)A和B的確定值。然后基于這兩個(gè)參數(shù),對(duì)模型進(jìn)行泛化,即對(duì)給定的X對(duì)Y進(jìn)行預(yù)測(cè)。明白了機(jī)器學(xué)習(xí)到底是學(xué)習(xí)什么之后,我們一起看看下圖來搞清楚機(jī)器學(xué)習(xí)與人工智能和深度學(xué)習(xí)之間的關(guān)系。 如上圖所示,人工智能是最大的一個(gè)范疇,人工智能的實(shí)現(xiàn)目前看主要有兩種途徑:一種是基于腦科學(xué)的方式來實(shí)現(xiàn)智能。另一種是基于機(jī)器學(xué)習(xí)的方式來實(shí)現(xiàn)智能,這種方式的假設(shè)是當(dāng)學(xué)習(xí)的數(shù)據(jù)足夠充分,就可以大概率的逼近事實(shí)。 再回到公式Y(jié)=AX+B,我們可以看到機(jī)器學(xué)習(xí)是通過X和Y來學(xué)習(xí)出參數(shù)A和B,而在機(jī)器學(xué)習(xí)中,X是人工構(gòu)造的特征,Y是人工進(jìn)行標(biāo)注的標(biāo)簽。一句話,機(jī)器學(xué)習(xí)就是通過構(gòu)造X和Y來學(xué)習(xí)參數(shù)A和B。但通常情況下,構(gòu)造X和標(biāo)注Y需要耗用大量的人力和時(shí)間。所以,對(duì)于如何更智能的構(gòu)造X和標(biāo)注Y是機(jī)器學(xué)習(xí)很重要的研究方向。深度學(xué)習(xí)的一個(gè)重要作用就是能夠更智能的構(gòu)造X,即進(jìn)行更好的特征表示。所以深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集。那如何更好的標(biāo)注Y呢,當(dāng)前流行的對(duì)抗生成網(wǎng)絡(luò)(GAN)就是一種解決方案。 機(jī)器學(xué)習(xí)需要的基礎(chǔ)知識(shí)體系機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵要素是模型、策略、算法。模型指的是具體的機(jī)器學(xué)習(xí)模型,比如決策樹、SVM、神經(jīng)網(wǎng)絡(luò)、LDA等具體模型。策略指的是最小化模型結(jié)構(gòu)性風(fēng)險(xiǎn)的手段,即避免模型欠擬合和過擬合的應(yīng)對(duì)策略,在這里專指正則化(Regularization)。算法指的是建立好模型之后,如何對(duì)模型中的參數(shù)進(jìn)行學(xué)習(xí)。也即最優(yōu)化的方法。所以,初學(xué)者需要掌握的基礎(chǔ)知識(shí)為: 1.導(dǎo)數(shù)與微積分,以及還需要對(duì)泰勒展開式、拉格朗日等定理和公式有充分的掌握。這是進(jìn)行算法推導(dǎo)的基礎(chǔ)中的基礎(chǔ)。 2.線性代數(shù),矩陣運(yùn)算等要做到熟練掌握,因?yàn)闄C(jī)器學(xué)習(xí)的最優(yōu)化算法中涉及到的復(fù)雜計(jì)算需要線性代數(shù)好矩陣運(yùn)算的內(nèi)容。 3.概率論,概率論的基礎(chǔ)知識(shí)是理解像極大似然、最大熵、EM算法、貝葉斯網(wǎng)絡(luò)、概率圖模型的基礎(chǔ)。 4.最優(yōu)化,機(jī)器學(xué)習(xí)中的模型訓(xùn)練是通過對(duì)模型中參數(shù)的學(xué)習(xí)來進(jìn)行泛化推廣。如何對(duì)模型中的參數(shù)進(jìn)行學(xué)習(xí)是最優(yōu)化要解決的問題。比如線性優(yōu)化、非線性優(yōu)化的各種主要方法(比如梯度下降法、牛頓和擬牛頓法等)要有充分的理解。 5.機(jī)器學(xué)習(xí)模型的思想和具體實(shí)現(xiàn)方式要理解透徹。 機(jī)器學(xué)習(xí)的應(yīng)用實(shí)踐特征工程,如上面所說就是造X,機(jī)器學(xué)習(xí)實(shí)踐中大部分的實(shí)踐都在處理特征工程上。所以真正有機(jī)器學(xué)習(xí)實(shí)踐經(jīng)驗(yàn)的人都知道機(jī)器學(xué)習(xí)更多的時(shí)間不是高大上的算法,而是苦逼特征工程。工程師每天更多的是基于對(duì)業(yè)務(wù)的深刻理解,通過構(gòu)建“更好”的特征,持續(xù)提升模型的準(zhǔn)確度。 推薦系統(tǒng)與搜索系統(tǒng) 當(dāng)推薦和搜索這些字眼出現(xiàn)在網(wǎng)頁(yè)中,專業(yè)書籍中,或是大部分的培訓(xùn)課程中,更多的是與機(jī)器學(xué)習(xí)和算法關(guān)聯(lián)起來。這種情況的原因可能是為了迎合機(jī)器學(xué)習(xí)在大部分人認(rèn)知中的“高大上”吧。 在實(shí)際的產(chǎn)品設(shè)計(jì)和開發(fā)中,推薦系統(tǒng)和搜索系統(tǒng)是有著一個(gè)更大概念的系統(tǒng)架構(gòu),絕非僅僅是只有機(jī)器學(xué)習(xí)和算法。其中UI/UE的重要性占比為40%,業(yè)務(wù)理解重要性占比為30%,數(shù)據(jù)重要性占比為20%,模型重要性占比為10%。 以推薦系統(tǒng)舉例,整個(gè)推薦系統(tǒng)的框架應(yīng)當(dāng)如下圖所示: 下圖是電商平臺(tái)上推薦系統(tǒng)的框架 所以,建議的推薦系統(tǒng)知識(shí)學(xué)習(xí)體系為: 一、推薦系統(tǒng)之整體架構(gòu) 1.推薦系統(tǒng)的本質(zhì)、目標(biāo)及價(jià)值 2.一個(gè)好的推薦系統(tǒng)的相貌 3.線下零售的促銷員與電商平臺(tái)的推薦系統(tǒng)的關(guān)系 3.推薦系統(tǒng)與搜索的關(guān)系 4.主流電商平臺(tái)上的推薦系統(tǒng)學(xué)習(xí) 5.推薦系統(tǒng)的整體架構(gòu)圖以及如何學(xué)習(xí)推薦系統(tǒng) 二、推薦系統(tǒng)之策略及模型 1. 基于規(guī)則的推薦算法 2. 基于內(nèi)容(Content-Based)的推薦算法 3. 基于協(xié)同過濾(CF)的推薦算法 4. 基于隱因子(SVD/SVD++/MF/FM/FFM/PLSA/LDA)的推薦算法 5. 推薦結(jié)果的排序模型(GBDT+LR,LTR) 6. 數(shù)學(xué)基礎(chǔ)及典型最優(yōu)化算法 7.不同場(chǎng)景下的推薦策略(如在電商平臺(tái)上,首頁(yè)、詳情頁(yè)、購(gòu)物車頁(yè)、搜索結(jié)果頁(yè)等不同場(chǎng)景下的推薦策略) 8.推薦系統(tǒng)評(píng)估 如何評(píng)估線下模型,如何評(píng)估線上效果 三、推薦系統(tǒng)之特征工程 1.用戶畫像如何構(gòu)建 2.特征工程如何構(gòu)建,以及如何進(jìn)行特征分析 四、推薦系統(tǒng)之交互體驗(yàn) 如何向用戶展示推薦系統(tǒng)的權(quán)威性、取得用戶的信任、如何幫助用戶決策、如何獲取用戶反饋。 如何開始機(jī)器學(xué)習(xí)對(duì)于大多數(shù)人來說,如果以抽象的方式開始學(xué)習(xí)一項(xiàng)內(nèi)容肯定不是最好的方式。相反,先建立起直覺,然后建立具體到抽象的映射,再深入學(xué)習(xí)抽象部分完成對(duì)細(xì)節(jié)部分的掌握,最后循環(huán)到具體的應(yīng)用是適合大多數(shù)人的學(xué)習(xí)方式。所以對(duì)于機(jī)器學(xué)習(xí)初學(xué)者建議的學(xué)習(xí)路徑為: 步驟一:先選擇一門實(shí)戰(zhàn)性非常強(qiáng)的機(jī)器學(xué)習(xí)及其應(yīng)用課程進(jìn)行學(xué)習(xí)。目標(biāo)是通過足夠多具體的應(yīng)用,能夠深刻理解機(jī)器學(xué)習(xí)的實(shí)際使用方式,從而建立起直覺。 步驟二:學(xué)習(xí)機(jī)器學(xué)習(xí)的理論課程,包括具體的模型算法,最優(yōu)化方法,以及相關(guān)的公式推導(dǎo)。過了這一關(guān),就完成了對(duì)機(jī)器學(xué)習(xí)細(xì)節(jié)的更好掌控。 步驟三:如果能夠立刻參與到機(jī)器學(xué)習(xí)的實(shí)際項(xiàng)目中是最好不過了。如果不能,可以去完成Kaggle中的一些比賽項(xiàng)目。 最后,也是最最重要的建議,如果要想“更快速”“更高效”的掌握機(jī)器學(xué)習(xí),找到合適的培訓(xùn)課程進(jìn)行學(xué)習(xí)是最合適的方式。用錢買時(shí)間,買別人的經(jīng)驗(yàn),以更高效的方式掌握機(jī)器學(xué)習(xí)后,這些付出的費(fèi)用可能僅僅是你工作之后月薪的很小的一部分。 在任督二脈打通之后,可以適當(dāng)?shù)膶?duì)分布式存儲(chǔ)和計(jì)算相關(guān)體系的內(nèi)容進(jìn)行學(xué)習(xí)。即靠的是個(gè)人的持續(xù)修行,在理論與實(shí)踐循環(huán)提升中,成長(zhǎng)為真正的專家。 PS:為了推動(dòng) AI 人才全面化,AI科技評(píng)論將為大家提供一個(gè)業(yè)界頂級(jí)的專業(yè) AI 技術(shù)培訓(xùn)平臺(tái):1024MOOC 。其中王剛老師也會(huì)在1024MOOC 開展系統(tǒng)的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)培訓(xùn)課程,具體開課時(shí)間在年后一周左右,請(qǐng)大家持續(xù)關(guān)注AI科技評(píng)論信息。
|
|