1. 在電商場景中的人工智能應(yīng)用實例。 2. 深度學(xué)習(xí)在電商內(nèi)容搜索,推薦中的應(yīng)用前景。 3. 如何在初創(chuàng)公司合理使用人工智能。 大家好,非常開心能夠在架構(gòu)師峰會上和大家交流分享,謝謝大家聽我分享。 我叫趙曉萌,現(xiàn)在是小紅書算法的架構(gòu)師,在小紅書之前,我在微軟 Bing 搜索引擎,是排序組 Core Ranking 的產(chǎn)品經(jīng)理,負責(zé)點擊模型,后面到 Twitter 的廣告組做移動廣告的精準(zhǔn)投放。 今天要為大家分享四點內(nèi)容: 首先介紹下小紅書、小紅書的人工智能團隊、以及小紅書在機器學(xué)習(xí)上的應(yīng)用。 第二點,舉一個深入的例子介紹我們怎么理解用戶在小紅書上產(chǎn)生的內(nèi)容。 第三點介紹下人工智能在推薦搜索中的應(yīng)用以及在小紅書的應(yīng)用。 第四點是結(jié)合我的經(jīng)驗介紹下如何在像小紅書這樣一個比較初期的人工智能團隊,這樣比較小的公司里更好地應(yīng)用人工智能。 我早上聽了幾位講師的分享,特別留意到他們公司有自己的機器學(xué)習(xí)訓(xùn)練框架和訓(xùn)練平臺,他們在算法上做了非常多的優(yōu)化,我們作為一個小公司并沒有這些,我很羨慕,希望有一天我們也會有。去年我們的算法團隊大約從 6 個人發(fā)展到了 10 個人,以下介紹的是去年一年的時間內(nèi),尤其在后半年完成的一些工作,希望我們的經(jīng)驗?zāi)軌蚪o人員和資源都比較早期的公司一些借鑒。 我先從介紹小紅書開始,介紹下我們算法團隊需要解決的問題。小紅書是一個分享社區(qū)加電商的 APP。 首先看下分享社區(qū),分享社區(qū)以女性為主,是一個有少量話題引導(dǎo)的,但基本上是自然形成的,關(guān)于分享精致好生活的社區(qū)。這里主要分享的內(nèi)容包括美裝、穿搭,喜歡去的餐館,新發(fā)現(xiàn)的旅行地點、酒店,最新的母嬰和家居生活的內(nèi)容也在增加。小紅書今天有五千萬的注冊用戶,月活躍用戶超過千萬,這些用戶幫助我們在平臺上產(chǎn)生了九百多萬篇非常高質(zhì)量的分享。這么多的內(nèi)容,我要如何轉(zhuǎn)發(fā)分發(fā)給用戶,讓他們看到想看的,這是一個算法組需要解決的問題。 小紅書的另外一面是福利社,就是電商,這個問題很簡單,就是你在社區(qū)里看到的,在福利社希望能買到。如何提高福利社的商品購買轉(zhuǎn)換率,這個也是算法組需要解決的問題。 小紅書獨一無二的地方,就在于它把社區(qū)和電商融合到了一個 APP 里,非常重要的一點是它造就了女生人數(shù)占比最高的互聯(lián)網(wǎng)公司。在我們公司里面女生男生占比是 7:3,其他公司里比例可能最高 3:7,或者 1:10 都是有可能的,這是小紅書獨特的地方。更重要的一點是,它造就了 1 加 1 大于二的效應(yīng)。 這是什么意思呢?我們社區(qū)是提供用戶黏性的,它為我們電商引流,電商這部分把流量變現(xiàn),在我們 APP 里形成了一個閉環(huán),這兩個是互相推動的。對于算法團隊來說,因為我們有這樣獨特的形式,我們有社區(qū)的用戶數(shù)據(jù),同時也有用戶在福利社的行為數(shù)據(jù),我們?nèi)绾伟褍蛇叺男袨檫B接起來,更好地理解用戶,這是一個非常獨特的挑戰(zhàn)。 我們算法優(yōu)化的目標(biāo)是什么?優(yōu)化的核心目標(biāo)也是兩個,分別對應(yīng)社區(qū)和電商。社區(qū)的目標(biāo)是用戶增長,我們衡量的是在社區(qū)的深度交互,這是一個間接的,但是離我們更近的一個 metrics(指標(biāo))。對于電商我們要做到的是驅(qū)動盈利,福利社的加車購買,是我們關(guān)注的指標(biāo)。機器學(xué)習(xí)大概是從去年年初開始在小紅書慢慢地發(fā)展起來,截止到去年年底,整體效果還不錯,我們需要達到的深度交互,以及電商的購買轉(zhuǎn)換,都有非常不錯的提高。 剛才介紹了小紅書和我們算法要解決的問題,現(xiàn)在舉個具體的例子介紹怎么理解小紅書的內(nèi)容。剛才提到五千萬用戶的九百萬篇推薦筆記,是我們最重要的內(nèi)容,我們花了非常大的精力來理解內(nèi)容。 首先我們看一下這些內(nèi)容大概是什么樣子。很簡單,是圖文并茂的。用戶產(chǎn)生的內(nèi)容圖片多,而且質(zhì)量非常高,同時是非常詳細的種草文(推薦物品的文章),這個文章正常情況下不是橫過來的,橫過來是為了讓大家看到這個文章很有長度,寫得非常仔細,吸引眼球,而且有感情有干貨。 因此需要把文本和圖片結(jié)合起來去理解文章內(nèi)容。我們通過機器學(xué)習(xí)把筆記的主題分到人工標(biāo)定的上百個主題里。我們用 CNN(卷積神經(jīng)網(wǎng)絡(luò))提取圖像特征,用 Doc2Vec(文本到向量模型)提取文本特征,通過一個簡單的分類器就能把用戶筆記分到主題中。接下來具體介紹下圖像特征的提取。 我們用的是卷積神經(jīng)網(wǎng)絡(luò)。 卷積神經(jīng)是深度神經(jīng)網(wǎng)絡(luò),層次比較多,是 feedforward 神經(jīng)網(wǎng)絡(luò)。簡單解釋下它的原理,它模擬了我們大腦處理圖像的過程。什么意思呢?如果我們選一個稍淺的神經(jīng)網(wǎng)絡(luò),把這個多層神經(jīng)網(wǎng)絡(luò)每一層的輸出打出來,那我們大概就能夠了解這個神經(jīng)網(wǎng)絡(luò)在做什么。最下面的輸入層是我們圖像的像素,第一層、第二層的輸出我們可以看到這個神經(jīng)網(wǎng)絡(luò)能夠提取出一些邊緣的信息,再往上四五層的時候,它把邊緣的信息組合起來了,我們會看到轉(zhuǎn)角、圓圈還有網(wǎng)格這樣一些形狀上局部的信息,再往上到第六第七第八層的時候,就能看到一些整體的概念被抽象出來了。經(jīng)過這個卷積神經(jīng)網(wǎng)絡(luò)層層的抽取和抽象,在像素之上會形成概念最有用的一些特征,這個就是我們拿到的圖像的特征。通過這個卷積神經(jīng)網(wǎng)絡(luò)我們把一張圖變成一個 4096 維的向量,這個向量是這個圖在高維空間里的一種表示,它是有空間意義的,這個意義是指相似的圖片,或者說圖片上的相似特征在這個空間里是距離接近的。 我們這一套神經(jīng)網(wǎng)絡(luò)是在 Caffe Model Zoo 的很多已經(jīng)預(yù)先訓(xùn)練好的模型里選出來的一個 VGG 的 16 層神經(jīng)網(wǎng)絡(luò),它已經(jīng)在 ImageNet 上訓(xùn)練好了,我們不需要花太多時間去訓(xùn)練它,我們只是標(biāo)注了少量小紅書上的圖片,把它的主題標(biāo)上去,然后我們再 fine-tune 這個神經(jīng)網(wǎng)絡(luò),最后就達到我們期望的效果。 講完了圖像,我再講一下文本的向量表示,文本的向量表示有非常多種,其中一個比較有名的向量表示叫做 Word2Vec,是 Google 提出來的,它的原理非常簡單,它其實是一個非常淺的淺層神經(jīng)網(wǎng)絡(luò),根據(jù)前后的詞來預(yù)測中間這個詞的概率,優(yōu)化預(yù)測的時候模型就得到了詞的向量表示。同樣的這個詞的向量表示在空間里也是有意義的,相似的詞也處在相近的空間里。這個模型比較有意思的是,把向量拿出來隨時可以做向量運算,比如圖中,女人到男人之間的那個指向的向量,和皇后到國王之間是一樣的,所以你知道其中三個,就能算出另外一個。 把文字的 Word2Vec Model 往上提一層時就會得到文本到向量的 Doc2Vec Model。那么怎么用它呢?其實就是把小紅薯,就是我們的用戶的筆記上的標(biāo)簽,它提到的商品的品牌品類加上筆記本身的內(nèi)容一起放到這個模型中,我們就得到了一個描述筆記的向量,然后再提取。這個模型也是開源的,我們也直接拿來用就可以了。 當(dāng)我們現(xiàn)在有了圖像和文本的向量表示以后,我們就有監(jiān)督地去訓(xùn)練一個分類器,把它分布到我們標(biāo)注出來的主題上,我們用的分類器是一個,有一個隱層的全連接的神經(jīng)網(wǎng)絡(luò),能達到我們要的效果。之前我說過小紅書是一個非常視覺的社區(qū),圖像很多,我們只用圖像提取特征就已經(jīng)達到良好的效果,準(zhǔn)確率大概是 85% 時覆蓋率能達到 73% 左右,加上文本以后效果更好,準(zhǔn)確率達到 90%,覆蓋率達到 84%。 上面是一個我們用文本和圖像特征來理解我們用戶產(chǎn)生內(nèi)容的具體實例。下面給大家概括介紹下小紅書機器學(xué)習(xí)使用的情況。 做這方面的同行應(yīng)該知道人工智能有三個階段,最早的專家系統(tǒng),到統(tǒng)計學(xué)習(xí),到深度學(xué)習(xí)現(xiàn)在慢慢流行起來。對于我們這樣一個小的公司來說,我們非常注重算法的實際效果,遠超過我們看這個算法先進不先進,比如剛才我們講的提取圖像特征的模型,并不是 CNN 里效果最好的,而是一個相對簡單的模型,16 層神經(jīng)網(wǎng)絡(luò)對我們來說相對簡單,容易理解,比較能 Hold 住。 人工智能的三個階段產(chǎn)物,我們都各有各的應(yīng)用。 專家系統(tǒng)是指我們需要依靠人對問題的理解來設(shè)計規(guī)則,比如中文搜索中特殊的分詞,在小紅書早期時,搜索中大約 80% 的問題都是因為中文分詞分得不太準(zhǔn),導(dǎo)致用戶搜不到想要的東西。我們通過人工的一些工作,從人工加詞、加詞典維護,到我們做了新詞發(fā)現(xiàn)的一套半自動的系統(tǒng),這些問題就被解決掉了,實際上分詞有更好的解決方法,現(xiàn)在已經(jīng)有了基于深度學(xué)習(xí)的方法,有可能以后考慮替換這套系統(tǒng)。 有些專家系統(tǒng)確實不太好替換,比如對于電商來說,它的品類(商品的分類)系統(tǒng)是非常需要行業(yè)知識的,需要對商品品類有深刻的理解,而且需要結(jié)合公司電商發(fā)展的階段來設(shè)計這套系統(tǒng),系統(tǒng)要隨著公司發(fā)展階段的變化去不斷地迭代。這套系統(tǒng)特別重要,因為當(dāng)品類不對時,在品類下的推薦就不準(zhǔn),搜索的篩選可能會做得不太好,或者品類的粒度分得不夠細不夠準(zhǔn)時,推薦和搜索的算法都會受到非常嚴(yán)重的影響,所以這套專家系統(tǒng)可能會一直存在下去。這是最左邊的早期的專家系統(tǒng),相當(dāng)于早期第一個版本的人工智能,最新版本的人工智能就是現(xiàn)在比較火的深度學(xué)習(xí),這點剛才也講了,主要講的是主題分類,同樣我們可以做到圖片相似,以及物體檢測等。 剩下中間這塊統(tǒng)計學(xué)習(xí),統(tǒng)計學(xué)習(xí)是我們使用量最大也是實踐中最常用的,這一套系統(tǒng)當(dāng)中,最重要的就是統(tǒng)計的信息,往往需要用到大量的統(tǒng)計特征。 比如在我們推薦的 GBDT 模型中,模型的產(chǎn)品目的是個性化,我們希望用戶可以看到想看的筆記,這屬于我之前講的筆記分發(fā)的問題。在這張表里,大家可以看到,我們有非常多的用戶行為統(tǒng)計,產(chǎn)生了一些靜態(tài)的信息,用來描述用戶或者筆記。 我們通過用戶畫像和人口統(tǒng)計信息來描述用戶,比如性別年齡等常用的靜態(tài)信息。筆記分作者和內(nèi)容兩個維度,比如作者打分和筆記的質(zhì)量、標(biāo)簽以及剛才介紹的主題等。還有一些我們實驗過的更復(fù)雜的統(tǒng)計信息,被我們放棄了,因為雖然復(fù)雜但是效果并不顯著。比如我們會算用戶的行為趨向,是趨向在社區(qū)里花的時間比較多,還是趨向于在福利社電商花的時間比較多,我們嘗試過統(tǒng)計用戶的生命周期,這個用戶是新用戶、老用戶、經(jīng)?;貋淼挠脩?、還是可能快流失的用戶,還有用戶的活躍時段,用戶是在早上比較活躍還是晚上比較活躍,用戶購買力,用戶對折扣的敏感度,在社區(qū)里的活躍度,這些統(tǒng)計信息我們都嘗試過,這些都比較靜態(tài)地去描述一個用戶。 還有一個非常關(guān)鍵的信息是動態(tài)特征,雖然動態(tài)特征并不多,但是很重要。動態(tài)特征包括用戶在瀏覽和搜索過程中有沒有點擊、有沒有深度行為等類似的用戶反饋,這些交互的數(shù)據(jù)有一個實時的 pipeline 從線下直接放到線上的模型里,在線上會利用這些數(shù)據(jù)對交互的質(zhì)量,比如點擊率進行預(yù)測,以及通過協(xié)同過濾得到用戶和筆記的隱性分類,這在推薦當(dāng)中也是有用的。我想講的是用戶反饋的數(shù)據(jù),即使是簡單的統(tǒng)計都是非常有用的。我們在使用復(fù)雜模型之前先用簡單的統(tǒng)計方法把用戶的反饋數(shù)據(jù)放到模型預(yù)測中,可能就能達到想要的 80% 的效果,這是非常重要的。 還有一點是我們有兩部分的數(shù)據(jù),社區(qū)和電商的行為數(shù)據(jù),用戶在社區(qū)的行為和電商的行為是不太一樣的,而且是有點互補的。比如用戶在社區(qū)的行為是比較高頻的,用戶會在這里搜、看、點擊、點贊,可能因為好奇進行點贊和點擊,而在電商的數(shù)據(jù)是低頻的,比如產(chǎn)生最后的購買。高頻數(shù)據(jù)我覺得統(tǒng)計信息是非常有用、非常準(zhǔn)確的,對于電商,我們認為比較昂貴的行為,比如購買和加心愿單的行為,是非??尚诺?,這兩種數(shù)據(jù)是互補的,我們試著把這兩邊的數(shù)據(jù)融合起來用到特征里。 下面再舉一個比較具體的例子,另外一個從文本中提取特征的例子。 之前講的提取特征,是為了判別文本的主題,我們用的是 Doc2Vec 文本到向量的方法,向量越接近,文本越接近?,F(xiàn)在這個場景叫相關(guān)筆記,相關(guān)筆記的要求是什么呢?推薦的筆記和用戶在看的筆記最好講的是同一個東西,比如說,同一款口紅,同一個旅行目的地,同一家酒店,同一家餐館,有可能不是同一家餐館,是類似的餐館,或者說同一件衣服,但是也有可能是不同款但是相似的衣服。 相關(guān)筆記的要求的是首先相關(guān)性非常強,第二在這個基礎(chǔ)上稍微有些擴展。實際實驗時發(fā)現(xiàn),如果用 Doc2Vec(文本向量表示)選出來的筆記不太能滿足相關(guān)性的要求,比如上圖的例子,講的是世界第一潛點詩巴丹,Word2Vec 的結(jié)果不太在乎具體地點是哪里,在最右邊的例子里,我們可以看到,它找的是附近的地方,比如越南芽莊,它會把相似的地方找出來把它替換掉。在這樣一個場景當(dāng)中,我們選擇了另外一個詞向量的方法 TDIDF,一個簡單的統(tǒng)計學(xué)方法。這個就能比較好地解決相似性的問題,因為它本來就是用于信息抽取和信息檢索。 有一點讓我覺得比較驚喜的是,TFIDF model 雖然基本要求詞是一樣的,但它可以把一類筆記找出來,就是講用戶心理、描述用戶心情的筆記,因為用戶描述心情用的詞匯很接近,所以這個方法也會把擴展的內(nèi)容找出來。舉這個從另外一個應(yīng)用場景來選文本向量表示的例子的意思是我們的算法選擇在小公司里需要非常接地氣,需要考慮具體要求,而且是實驗性質(zhì)的,如果不做實驗嘗試就沒法知道哪個方法更能滿足具體場景的需求。所以對于小公司來說,團隊能不能快速試錯、實驗和迭代,這個能力可能比某個模型的質(zhì)量或者模型本身能力的局限更加重要。 之前講的幾個具體的例子是我們已經(jīng)實現(xiàn)過的,接下來展望下小紅書未來機器學(xué)習(xí)團隊需要做的事情。 之前舉的幾個都是統(tǒng)計的例子,主要想說明我們?nèi)绾芜x擇算法,如何注重開發(fā)的成本、速度和最后的效果。其實深度學(xué)習(xí)的效果在推薦預(yù)測上已經(jīng)漸漸超過了之前講的一些統(tǒng)計模型,隨著機器學(xué)習(xí)平臺的成熟,以及相關(guān)模型的開源,我們也會考慮把之前在推薦里用的 GBDT 模型替換掉。 深度學(xué)習(xí)有什么好處呢?首先講深度學(xué)習(xí)的一個缺點,就是抽取的特征比較沒有解釋性,人工特征比較好解釋是因為預(yù)先設(shè)計了特征,然后再去構(gòu)造。機器學(xué)習(xí)的特征在抽象完之后,仍然保留了很多信息,雖然不好解釋,但是有一個好處,留給應(yīng)用想象的空間很大,可以實現(xiàn)一些比較有創(chuàng)意的應(yīng)用。比如去年有一段時間小紅書上突然流行分享治痘,就是臉上有很多痘痘,怎么把它治好的這種文章,用戶會秀很多自拍的、臉上長很多痘痘的照片,但不是每個用戶都喜聞樂見臉上充滿痘痘的照片,所以我們需要識別出這些照片,把它推薦給合適的目標(biāo)人群,這也可以通過我剛才講的 CNN model 來實現(xiàn)。我們嘗試做這件事,發(fā)現(xiàn)它對全臉露出的、半臉、1/4 臉甚至臉上只有少量的臉部器官,都能識別為臉部圖像,而且能夠識別臉上有沒有痘痘。CNN 還可以很好地識別這張圖里是不是文本占了絕大多數(shù),比如是不是一個截圖,對 AntiSpam(反作弊)會有幫助。未來 CNN 還可以幫我們做更多,比如我們想做一些風(fēng)格上的嘗試,希望通過用戶買的東西和經(jīng)??吹臇|西能夠知道用戶穿搭的風(fēng)格。 剛剛講完了小紅書的故事,現(xiàn)在結(jié)合我的經(jīng)驗介紹下如何在類似的初創(chuàng)公司合理地使用人工智能。 我指的小公司是怎樣的小公司?首先是希望人工智能能夠融入公司業(yè)務(wù),是非常實用主義的小公司。它不是 Google,F(xiàn)acebook,阿里百度這樣的大公司,大公司研究的更多是人工智能的平臺和框架,提供什么樣的服務(wù),專注在訓(xùn)練和算法效率上的提升。同時也有區(qū)別于人工智能創(chuàng)業(yè)公司,這些公司人工智能是它的主業(yè),比如視覺識別、自動駕駛,它們專注于算法的創(chuàng)新突破,算法準(zhǔn)確率需要有比較大的提升。我講的這些小公司,為了將人工智能融入公司業(yè)務(wù),它需要更多的是被驗證過的算法,它關(guān)注的是算法的實用性和開發(fā)維護的成本,對于這樣的小公司,我們有經(jīng)驗,我想從兩個方面談一下,它應(yīng)該怎么看待在自己的公司應(yīng)用人工智能這件事情。 首先我覺得第一點非常重要,就是越來越多的人意識到機器學(xué)習(xí)、人工智能的應(yīng)用成本加速降低,小公司要抓住這個機會,抓住人工智能發(fā)展提供給自己的紅利。運算力、機器學(xué)習(xí)平臺的開放大家都知道,Tensorflow、Caffe 以及 MXNet 都想擴大自己的 Community,希望能夠有更多的公司和更多的開發(fā)者用他們的平臺。 另外一點是模型的成熟和開源,這對于深度學(xué)習(xí)階段尤其重要,因為在統(tǒng)計學(xué)習(xí)階段模型也是開放的,但是這個階段算法的核心不在模型,而在模型里使用的特征,特征工程是當(dāng)時的核心。到了深度學(xué)習(xí),情況發(fā)生了改變,因為深度學(xué)習(xí)的核心就是模型,模型能夠抽取特征,能夠很快地在分類、推薦、預(yù)測得到應(yīng)用。 對一個小公司來說,我們是非常需要開源的,因為從頭搭建自己的這套模型非常耗時、耗力,比如我們剛才用的神經(jīng)網(wǎng)絡(luò),它有多少層,它的層和層之間應(yīng)該怎樣卷積,需不需要使用 dropout,這些都是需要花大量的時間做實驗,對于小公司來說這樣的投入并不值得,投入太大而產(chǎn)出效果可能并不太好。而且深度學(xué)習(xí)好的模型通用性非常強,比如我剛才舉的例子,可以用它處理很多圖像識別方面的問題。 最后一點是理論知識,我認為小公司如果有效地利用這點就能夠比較快地享受到人工智能帶來的利益。理論知識的相對重要性在降低,工程學(xué)習(xí)能力的重要性要求在上升,這說明個人力成本在下降。幾年前在推薦預(yù)測上要做到比較好的結(jié)果還是很難的,大家可以參考 09 年的時候 Netflix 做了一個挑戰(zhàn)獎金是一百萬美金,想提高推薦系統(tǒng)的效率,全世界當(dāng)時有相關(guān)知識而且能夠把這些理論知識用到推薦系統(tǒng)里的人非常少,人力成本非常昂貴。那么到了現(xiàn)在呢,我記得 Google IO 上 TensorFlow Team 有個分享,說 2005 年大約一個研究室 6 個月想要做到的基于神經(jīng)網(wǎng)絡(luò)分類的效果,在今天一個優(yōu)秀的 Python 開發(fā)者有一些 TensorFlow 的背景知識,大概需要幾天就能遠遠超過當(dāng)時的效果。 小公司對理論知識非常強的深度學(xué)習(xí)大牛的依賴程度大幅度降低了,而且一個小公司請個大牛并不劃算,第一大牛特別貴,第二因為大牛一般有自己的研究方向,尤其到了今天這個時候,他可能有自己的計劃,并不一定愿意花時間在小公司這種已經(jīng)成熟的應(yīng)用上面,這就不是每個小公司都能承擔(dān)的起的,第三招個大牛并不代表一段時間內(nèi)業(yè)務(wù)會有很大的提升,因為人工智能需要大量工程師協(xié)同完成?,F(xiàn)在學(xué)習(xí)能力和工程能力強的團隊,能夠把已經(jīng)驗證過的算法在快速迭代中優(yōu)化,能夠?qū)崿F(xiàn)自己的場景,這樣的公司反而有比較大的優(yōu)勢。從平臺到模型開發(fā)、到開發(fā)人員的成本,這些成本都在降低,由于這些成本降低,更多的人會進來,促使這些成本加速降低,這點是現(xiàn)在的小公司和初創(chuàng)的公司可以很好利用的。 算法應(yīng)用和算法團隊是整個人工智能應(yīng)用的冰山一角,我們需要動用整個公司研發(fā)團隊的力量來支持人工智能的落地。 首先是核心業(yè)務(wù)數(shù)據(jù)的設(shè)計,對我們的電商來說剛才說的歸類商品的品類系統(tǒng),這是非常重要的,以及這些系統(tǒng)的整理迭代,保證數(shù)據(jù)的清潔。我們內(nèi)部想要做這樣一件事情,因為我們的搜索經(jīng)常會被一些不太好的數(shù)據(jù)干擾,我們需要設(shè)計一套系統(tǒng),讓我們內(nèi)部的人針對我們的搜索引擎做一些 SEO(搜索引擎的優(yōu)化),幫助我們清理業(yè)務(wù)的核心數(shù)據(jù),并且讓他們負責(zé)地去輸入新的業(yè)務(wù)數(shù)據(jù)。 第二在前端對用戶行為打點,甚至為了提高效率,要做到自動埋點,比如用戶反饋行為,這個信息在整個機器學(xué)習(xí)應(yīng)用中非常重要,信息的收集需要產(chǎn)品前端和我們配合,把打點做好。數(shù)據(jù)收集之后的分析和挖掘是數(shù)據(jù)、算法團隊需要幫我們做的。下一點是訓(xùn)練數(shù)據(jù)的標(biāo)注,這是算法團隊需要做的事情。當(dāng)我們需要大量做實驗時,AB 測試的框架,實驗上線后所有的指標(biāo)是不是能夠反映到 Dashboard 里,這都是需要非常多的人去投入的。 因為成本的降低人工智能正在加速從學(xué)術(shù)走向日常,希望能看到更多的公司和工程師進入實踐機器學(xué)習(xí)的領(lǐng)域,期待看到更多激動人心的智能應(yīng)用。以上就是我的分享,謝謝大家。 趙曉萌,小紅書算法架構(gòu)師。曾任微軟 Bing 必應(yīng)搜索 Core Ranking Team 的 program manager,分管用戶點擊模型在 dynamic ranking 中的應(yīng)用。曾任 Twitter Performance Ads,Tech Lead,負責(zé)移動相關(guān)的精準(zhǔn)廣告投放?,F(xiàn)任小紅書算法架構(gòu)師,負責(zé)機器學(xué)習(xí)應(yīng)用。 |
|