當(dāng)這兩種技術(shù)融合在一起時,就可以創(chuàng)造出一些新穎、奇妙的東西——比如手機(jī)和瀏覽器融合在一起,產(chǎn)生了智能手機(jī)。 如今,科研人員正在將人工智能發(fā)現(xiàn)模式的能力應(yīng)用于存儲各種數(shù)據(jù)點(diǎn)之間關(guān)系信息的大型圖數(shù)據(jù)庫。與此同時,就產(chǎn)生了一種強(qiáng)大的新工具,稱為圖形神經(jīng)網(wǎng)絡(luò)。 什么是圖神經(jīng)網(wǎng)絡(luò)?圖神經(jīng)網(wǎng)絡(luò)將深度學(xué)習(xí)的預(yù)測能力應(yīng)用于豐富的數(shù)據(jù)結(jié)構(gòu)上,這些數(shù)據(jù)結(jié)構(gòu)將對象及對象之間的關(guān)系描述為圖形中由線連接的點(diǎn)。 在GNN中,數(shù)據(jù)點(diǎn)被稱為節(jié)點(diǎn),連接這些點(diǎn)的線被稱為邊,將上述概念使用數(shù)學(xué)元素進(jìn)行表達(dá),機(jī)器學(xué)習(xí)算法就可以在節(jié)點(diǎn)、邊或整個圖的層次上做出有用的預(yù)測。 GNN能做什么?越來越多的公司正在應(yīng)用GNN來進(jìn)行藥物研發(fā)、欺詐檢測和推薦系統(tǒng)。這些應(yīng)用程序都需要查找數(shù)據(jù)點(diǎn)之間的關(guān)系模式。 研究人員正在探索GNN在計算機(jī)圖形學(xué)、網(wǎng)絡(luò)安全、基因組學(xué)和材料科學(xué)中的應(yīng)用。最近的一篇論文報道了GNN如何使用交通地圖作為圖來改進(jìn)對到達(dá)時間的預(yù)測。 許多科學(xué)和工業(yè)分支已經(jīng)將有價值的數(shù)據(jù)存儲在圖數(shù)據(jù)庫中。通過深度學(xué)習(xí),他們可以訓(xùn)練預(yù)測模型,從圖中挖掘出新的見解。 AWS高級首席科學(xué)家喬治·卡皮斯(George Karypis)在今年早些時候的一次演講中表示:“GNN是深度學(xué)習(xí)研究中最熱門的領(lǐng)域之一,我們看到越來越多的應(yīng)用程序利用GNN來提高其性能?!?。 其他人也同意。斯坦福大學(xué)副教授朱爾·萊斯科維奇(Jure Leskovec)在最近的一次演講中表示,GNN“因其對復(fù)雜關(guān)系建模的靈活性而備受關(guān)注,這是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無法做到的?!?。 誰在使用GNN? 亞馬遜在2017年報告了其在欺詐檢測中對于GNN的應(yīng)用。2020年,它推出了一項(xiàng)公共GNN服務(wù),其他人可以將其用于欺詐檢測、推薦系統(tǒng)和其他應(yīng)用。 為了保持客戶的高度信任,亞馬遜搜索使用GNN來檢測惡意賣家、買家和產(chǎn)品。使用NVIDIA GPU,它能夠探索具有數(shù)千萬個節(jié)點(diǎn)和數(shù)億條邊的圖形,同時將訓(xùn)練時間從24小時減少到5小時。 生物制藥公司GSK工智能全球負(fù)責(zé)人金·布蘭森(Kim Branson)在GNN研討會的一個小組上表示,該公司維護(hù)著一個包含近5000億個節(jié)點(diǎn)的知識圖譜,這些節(jié)點(diǎn)用于其許多機(jī)器語言模型。 LinkedIn的高級軟件工程師Jaewon Yang在研討會上的另一個小組上表示,LinkedIn使用GNN進(jìn)行社交推薦,并探索人們的技能與職位之間的關(guān)系。 GNN是如何工作的?到目前為止,深度學(xué)習(xí)主要關(guān)注圖像和文本,他們可以描述成詞序列或像素網(wǎng)格的結(jié)構(gòu)化數(shù)據(jù)。相比之下,圖是非結(jié)構(gòu)化的。它們可以采用任何形狀或大小,并包含任何類型的數(shù)據(jù),包括圖像和文本。 GNN使用一個稱為消息傳遞的過程來組織圖,以便機(jī)器學(xué)習(xí)算法可以使用它們。 消息傳遞將有關(guān)其鄰居的信息嵌入到每個節(jié)點(diǎn)中。人工智能模型利用嵌入的信息來發(fā)現(xiàn)潛在模式并做出預(yù)測。 例如,推薦系統(tǒng)使用一種節(jié)點(diǎn)嵌入的形式來匹配客戶和產(chǎn)品。欺詐檢測系統(tǒng)使用邊緣嵌入來發(fā)現(xiàn)可疑交易,藥物發(fā)現(xiàn)模型比較整個分子圖以找出它們之間的反應(yīng)。
GNN的歷史 一個意大利研究人員于2009年發(fā)表的一篇論文首次定義圖神經(jīng)網(wǎng)絡(luò)。但阿姆斯特丹的兩名研究人員花了八年時間才用一種稱為圖卷積網(wǎng)絡(luò)(GCN)的變體展示了他們的能力,并成為當(dāng)今最流行的GNN之一。 GCN的工作啟發(fā)了萊斯科維奇和他的兩名斯坦福研究生,以此創(chuàng)建了GraphSage,這是一個GNN,展示了消息傳遞功能的新工作方式。他于2017年夏天在Pinterest進(jìn)行了測試,并擔(dān)任首席科學(xué)家。 他們的實(shí)現(xiàn):PinSage是一個推薦系統(tǒng),它包含了30億個節(jié)點(diǎn)和180億個邊緣,性能超過當(dāng)時的其他人工智能模型。 與此同時,出現(xiàn)了其他變體和混合體,包括圖遞歸網(wǎng)絡(luò)和圖注意力網(wǎng)絡(luò)。GAT借鑒了transformer模型中定義的注意力機(jī)制,幫助GNN專注于最感興趣的數(shù)據(jù)集部分。 Scaling Graph Neural Networks展望未來,GNN需要在所有維度上進(jìn)行擴(kuò)展。 尚未維護(hù)圖數(shù)據(jù)庫的組織需要工具來簡化創(chuàng)建這些復(fù)雜數(shù)據(jù)結(jié)構(gòu)的工作。 使用圖數(shù)據(jù)庫的人知道,在某些情況下,他們正在迅速增長,在單個節(jié)點(diǎn)或邊緣上嵌入了數(shù)千個特征。這帶來了數(shù)據(jù)存儲和傳輸?shù)奶魬?zhàn)。 伊頓表示:“我們提供的產(chǎn)品最大限度地提高了系統(tǒng)的內(nèi)存、計算帶寬和吞吐量,以解決數(shù)據(jù)加載和擴(kuò)展問題。”。 作為這項(xiàng)工作的一部分,NVIDIA在GTC上宣布,除了深度圖庫(DGL)之外,它現(xiàn)在還支持PyTorch Geometric(PyG)。這是兩個最流行的GNN軟件框架。 |
|