深度學(xué)習(xí)之上，圖神經(jīng)網(wǎng)絡(luò)（GNN ）崛起

萬(wàn)皇之皇 2019-08-12

展開(kāi)全文

由于深度學(xué)習(xí)在可推理和可解釋性方面存在比較大的局限性，結(jié)合了圖計(jì)算和深度學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)（GNNs）成為近期學(xué)術(shù)界和工業(yè)界研究熱度頗高的新方向之一。業(yè)界普遍認(rèn)為，GNN 恰好可以彌補(bǔ)前面提到的深度學(xué)習(xí)無(wú)法解決的兩個(gè)缺陷。近一年 GNN 在越來(lái)越多應(yīng)用場(chǎng)景上取得了成功，但它也仍面臨著許多挑戰(zhàn)。

螞蟻金服在今年的數(shù)據(jù)挖掘研究領(lǐng)域頂級(jí)年會(huì) KDD 2019 上召開(kāi)了以“圖神經(jīng)網(wǎng)絡(luò)研究及實(shí)際應(yīng)用”為主題的研討會(huì)。InfoQ記者有幸采訪到了螞蟻金服人工智能部研究員宋樂(lè)，聊聊深度學(xué)習(xí)和 GNN 在大型工業(yè)級(jí)場(chǎng)景的應(yīng)用和實(shí)踐、目前面臨的難點(diǎn)挑戰(zhàn)，以及未來(lái)技術(shù)前進(jìn)的可能方向。

宋樂(lè)老師在 KDD 2019

GNN已成“AI新貴”

除了傳統(tǒng)的深度學(xué)習(xí)方法，圖神經(jīng)網(wǎng)絡(luò)（GNN）在近兩年也是公認(rèn)的“AI 新貴”。由于圖結(jié)構(gòu)的強(qiáng)大表現(xiàn)力，用機(jī)器學(xué)習(xí) / 深度學(xué)習(xí)方法分析圖的研究越來(lái)越受重視。而圖神經(jīng)網(wǎng)絡(luò)（GNN）由于較好的性能和可解釋性，已經(jīng)成為一種廣泛應(yīng)用的圖分析方法，更有不少人將它看作“深度學(xué)習(xí)的新一代技術(shù)”。近一年來(lái)，學(xué)界和工業(yè)界陸續(xù)推出了 GNN 的相關(guān)框架和工具，進(jìn)一步促進(jìn)了這一領(lǐng)域的蓬勃發(fā)展。

GNN 提供了圖表征學(xué)習(xí)（Graph representation learning）或圖嵌入技術(shù)（Graph embedding）的框架，可以用于各種圖數(shù)據(jù)上的監(jiān)督，半監(jiān)督及強(qiáng)化學(xué)習(xí)。GNN將圖上的元素，如節(jié)點(diǎn)，連接或者子圖表達(dá)成為一個(gè)向量，而不同元素所對(duì)應(yīng)的向量之間的距離保存了它們?cè)谠瓐D上的相似關(guān)系。這樣將拓?fù)潢P(guān)系表達(dá)為特征空間中的向量的做法，本質(zhì)上是一種基于拓?fù)湫畔⒌奶卣魈崛∵^(guò)程，其結(jié)果是溝通了傳統(tǒng)的圖分析和各種傳統(tǒng)機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘方法，在推薦系統(tǒng)、知識(shí)圖譜構(gòu)建及推理等領(lǐng)域都有許多應(yīng)用。比如說(shuō)，可以通過(guò)引入了圖卷積操作構(gòu)造了一個(gè)適用于圖數(shù)據(jù)的半監(jiān)督學(xué)習(xí)框架，用于提取更精確的特征表達(dá)或直接進(jìn)行分類(lèi)操作，并可以結(jié)合圖像分割、視頻理解、交通預(yù)測(cè)等許多領(lǐng)域開(kāi)始探索其應(yīng)用價(jià)值。無(wú)論對(duì)于圖分析還是深度學(xué)習(xí)，GNN 都是一個(gè)極有價(jià)值的的演化。

GNN 的出現(xiàn)解決了傳統(tǒng)深度學(xué)習(xí)方法難以應(yīng)用到非規(guī)則形態(tài)數(shù)據(jù)上的痛點(diǎn)，大大擴(kuò)展了神經(jīng)網(wǎng)絡(luò)的應(yīng)用空間，并在一些問(wèn)題上改進(jìn)了模型的可解釋性。對(duì)于許多建立在非規(guī)則形態(tài)數(shù)據(jù)基礎(chǔ)之上的業(yè)務(wù)場(chǎng)景，諸如推薦、消歧、反欺詐等，GNN 都有極大的應(yīng)用潛力。以螞蟻金服為例，GNN 已經(jīng)廣泛部署于普惠金融業(yè)務(wù)的推薦和風(fēng)控中。

宋樂(lè)還列舉了兩個(gè)比較有趣的新應(yīng)用：

一個(gè)是 GNN 在知識(shí)圖譜上推理的應(yīng)用。知識(shí)圖譜是螞蟻金服非常重要的研發(fā)方向之一，借助知識(shí)圖譜可以把中國(guó)所有注冊(cè)企業(yè)都聯(lián)系起來(lái)，圖譜里每個(gè)節(jié)點(diǎn)可能就是一個(gè)注冊(cè)的商家，這個(gè)節(jié)點(diǎn)數(shù)量可能會(huì)達(dá)到幾千萬(wàn)。這些商家之間可能有一些是供應(yīng)商關(guān)系，有一些是同行競(jìng)爭(zhēng)對(duì)手的關(guān)系，有一些可能是存在法律訴訟的關(guān)系。如果想根據(jù)這個(gè)圖來(lái)做一些預(yù)測(cè)和推測(cè)，用于普惠金融業(yè)務(wù)的推薦和風(fēng)控，就可以借助 GNN。

另一個(gè)是動(dòng)態(tài)圖的應(yīng)用。本質(zhì)上，所有金融交易問(wèn)題都是動(dòng)態(tài)的，誰(shuí)在什么時(shí)間買(mǎi)了什么東西，都是有一個(gè)對(duì)應(yīng)的時(shí)間戳的，隨著新的交易發(fā)生、新的賬號(hào)產(chǎn)生，整個(gè)圖應(yīng)該是在不斷變化的。如何把時(shí)間和圖的結(jié)構(gòu)一起考慮進(jìn)去做表征，這個(gè)也是比較有挑戰(zhàn)性的前沿問(wèn)題。目前螞蟻金服正在貸款準(zhǔn)入模型中嘗試應(yīng)用動(dòng)態(tài)圖。

除此之外，據(jù)宋樂(lè)保守估計(jì)，GNN 目前至少已在阿里巴巴數(shù)十個(gè)業(yè)務(wù)場(chǎng)景落地。不過(guò)這只是 GNN 發(fā)展樂(lè)觀的一面。

從業(yè)界整體落地情況來(lái)看，GNN 仍然處于發(fā)展初期。從 2018 年 10 月，由 DeepMind、谷歌大腦、麻省理工等近 30 名學(xué)者聯(lián)名在 ArXiv 上傳的論文《Relational inductive biases, deep learning, and graph networks》將 GNN 相關(guān)工作推到一個(gè)新的高度以來(lái)，GNN 火熱發(fā)展還未到一年，很多本質(zhì)問(wèn)題尚未突破。與工業(yè)級(jí)深度學(xué)習(xí)應(yīng)用面臨的問(wèn)題類(lèi)似，GNN 要真正做到在工業(yè)界大規(guī)模落地，在底層系統(tǒng)架構(gòu)方面仍需要做大量工作。

如何大規(guī)模落地 GNN 仍面臨挑戰(zhàn)

在宋樂(lè)看來(lái)，目前 GNN 在工業(yè)界大規(guī)模落地面臨的挑戰(zhàn)主要在于大規(guī)模圖網(wǎng)絡(luò)的訓(xùn)練和線上更新預(yù)測(cè)兩方面。未來(lái)互聯(lián)網(wǎng)公司只要涉及 GNN 相關(guān)應(yīng)用工作，幾乎都逃不開(kāi)大規(guī)模圖網(wǎng)絡(luò)。

首先，工業(yè)級(jí)業(yè)務(wù)場(chǎng)景，尤其是互聯(lián)網(wǎng)公司的業(yè)務(wù)場(chǎng)景，圖網(wǎng)絡(luò)規(guī)模通常都很大，至少包含億級(jí)，甚至是十億級(jí)、百億級(jí)的圖節(jié)點(diǎn)和邊。要計(jì)算這么大規(guī)模的圖神經(jīng)網(wǎng)絡(luò)，通常一臺(tái)機(jī)器是無(wú)法達(dá)到想要的效果的，這時(shí)就需要一個(gè)專(zhuān)門(mén)的分布式圖計(jì)算平臺(tái)。如果沒(méi)有一個(gè)平臺(tái)能夠支撐 GNN 所需的海量計(jì)算，就很難把 GNN 做好。但目前就業(yè)界來(lái)說(shuō)，GNN 平臺(tái)的進(jìn)展仍然比較慢。還沒(méi)有哪個(gè)企業(yè)能夠推出一個(gè)足夠好的開(kāi)源 GNN 平臺(tái)，并且能自信地表示可以很好地支持億級(jí)節(jié)點(diǎn)的圖網(wǎng)絡(luò)。

在對(duì)GNN 模型進(jìn)行訓(xùn)練時(shí)，算法需要與分布式圖存儲(chǔ)平臺(tái)進(jìn)行高效交互，這也是非常有挑戰(zhàn)性的一項(xiàng)工作。在模型訓(xùn)練時(shí)，算法需要不斷隨機(jī)查詢節(jié)點(diǎn)、節(jié)點(diǎn)的鄰居和鄰居的鄰居，取出數(shù)據(jù)放到內(nèi)存中做深度學(xué)習(xí)模型的前向 Inference 和后向的回傳，這在大規(guī)模圖上其實(shí)是很難做好的。對(duì)于 GNN 平臺(tái)來(lái)說(shuō)，做深度學(xué)習(xí)以及和數(shù)據(jù)庫(kù)打交道這兩個(gè)環(huán)節(jié)常常是導(dǎo)致速度慢最大的瓶頸。在過(guò)去兩年，螞蟻金服在分布式圖存儲(chǔ)這個(gè)方向上做了很多努力，目前已經(jīng)開(kāi)發(fā)出了一個(gè)高效的分布式圖存儲(chǔ)平臺(tái)，以及可以跟這個(gè)圖存儲(chǔ)平臺(tái)比較高效地交互的圖訓(xùn)練平臺(tái)。從數(shù)據(jù)上看，原來(lái)需要幾天時(shí)間的億級(jí)圖網(wǎng)絡(luò)訓(xùn)練已經(jīng)可以縮短到一個(gè)小時(shí)以內(nèi)。

大規(guī)模圖神經(jīng)網(wǎng)絡(luò)在線上的預(yù)測(cè)也是難點(diǎn)之一。GNN 的 Embedding 并非實(shí)時(shí)的，以金融交易場(chǎng)景為例，每次出現(xiàn)一筆新的交易，圖網(wǎng)絡(luò)就會(huì)多一條邊，圖就會(huì)發(fā)生變化，如果想做好實(shí)時(shí)預(yù)測(cè)，就需要用最新的邊根據(jù)這個(gè) GNN 的參數(shù)，算出它的表征來(lái)進(jìn)行預(yù)測(cè)。但是通常在線上環(huán)境中，要在非常短的響應(yīng)時(shí)間內(nèi)構(gòu)一個(gè)圖，把 GNN 計(jì)算好非常困難，特別是在交易量很大的情況下，通常都存在一定的滯后。如何讓GNN 能夠在線上高效地直接做這個(gè)運(yùn)算，這個(gè)挑戰(zhàn)還沒(méi)有完全解決，需要和底層的系統(tǒng)架構(gòu)做一些合作。

宋樂(lè)坦言，即使沒(méi)有 GNN，圖計(jì)算本身在工業(yè)界就是一個(gè)比較困難的問(wèn)題。因?yàn)閳D和圖像、文本有所不同，圖的每個(gè)節(jié)點(diǎn)連接的鄰居個(gè)數(shù)可能不一樣、節(jié)點(diǎn)類(lèi)型不一樣、邊的類(lèi)型不一樣，就制造了很多不規(guī)則的運(yùn)算，每個(gè)節(jié)點(diǎn)需要運(yùn)算的程度不一樣。而計(jì)算機(jī)特別適合規(guī)則運(yùn)算，卻天生不適合不規(guī)則運(yùn)算，圖的計(jì)算就屬于不規(guī)則運(yùn)算，以前傳統(tǒng)的圖算法也有各種各樣的研究，但都不能很好地解決問(wèn)題，再加上 GNN 引入了深度學(xué)習(xí)這一層，導(dǎo)致復(fù)雜度陡增，難度就更大了。因此，如何在很短的時(shí)間內(nèi)得到 GNN 的訓(xùn)練結(jié)果和預(yù)測(cè)結(jié)果，都存在很大的挑戰(zhàn)。如果這一問(wèn)題能夠得到解決，使 GNN 的訓(xùn)練和預(yù)測(cè)都做到足夠快，那么算法工程師在建模的時(shí)候，就可以很快地嘗試 GNN 的效果以及各種不同網(wǎng)絡(luò)結(jié)構(gòu)下 GNN 的效果，進(jìn)一步修改提高 GNN 的結(jié)果。

不管在學(xué)術(shù)界還是工業(yè)界，目前這都還是一個(gè)比較前沿的問(wèn)題，同時(shí)這也是當(dāng)前 GNN 領(lǐng)域的瓶頸之一。雖然 Google、Facebook 等業(yè)內(nèi)大公司都在推動(dòng) GNN 平臺(tái)的開(kāi)發(fā)工作，但目前還沒(méi)有一個(gè)能夠真正做好大規(guī)模分布式圖網(wǎng)絡(luò)計(jì)算的主流開(kāi)源平臺(tái)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：萬(wàn)皇之皇 > 《IT互聯(lián)》

舉報(bào)/認(rèn)領(lǐng)