【原】清華唐杰教授綜述全面解讀網(wǎng)絡(luò)表示學(xué)習(xí)(NRL)最新動(dòng)態(tài)
在計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,機(jī)器處理現(xiàn)實(shí)生活中復(fù)雜任務(wù)的能力也越來(lái)越強(qiáng)大。其中,從現(xiàn)實(shí)世界網(wǎng)絡(luò)中挖掘有效、相關(guān)的信息在許多新興應(yīng)用中起著至關(guān)重要的作用。例如,在社交網(wǎng)絡(luò)中,根據(jù)個(gè)人資料和社交關(guān)系將用戶進(jìn)行分類(lèi),而后應(yīng)用于社交推薦、目標(biāo)廣告、用戶搜索等功能。然而,傳統(tǒng)的網(wǎng)絡(luò)表示方式所能提供的相關(guān)信息往往有限,于是近年來(lái),網(wǎng)絡(luò)表示學(xué)習(xí)算法(Network representation learning, NRL)應(yīng)運(yùn)而生,而且發(fā)展迅速。近日,由清華大學(xué)計(jì)算機(jī)系唐杰教授領(lǐng)導(dǎo)的團(tuán)隊(duì)對(duì) NRL 進(jìn)行了詳細(xì)綜述,深入探究和對(duì)比了 NRL 每個(gè)類(lèi)別下最先進(jìn)的算法,并系統(tǒng)地研究了這些算法背后的理論基礎(chǔ),最后還提出了該領(lǐng)域可能的發(fā)展方向。該綜述以 “Network representation learning: A macro and micro view” 為題發(fā)表在專注 AI 開(kāi)放獲取的新期刊《AI OPEN》上。https://www./science/article/pii/S2666651021000024三類(lèi)圖嵌入技術(shù)模型對(duì)比分析 實(shí)際上,NRL 也被稱為圖嵌入方法(graph embedding method,GEM),旨在學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的低維度表示,所學(xué)習(xí)到的特征表示可以用作基于圖的各種任務(wù),例如分類(lèi),聚類(lèi),鏈路預(yù)測(cè)和可視化任務(wù)等等。圖 | 具有相同顏色的頂點(diǎn)在結(jié)構(gòu)上彼此相似。經(jīng)過(guò) GEM 處理后,基本結(jié)構(gòu)信息就保留在了嵌入空間中(例如,結(jié)構(gòu)相似的頂點(diǎn) E 和 F 比結(jié)構(gòu)不同的頂點(diǎn) C 和 F 嵌入得更近)。 而根據(jù)本次的研究,現(xiàn)有的 GEM 算法可以分為三類(lèi):淺層嵌入模型(Shallow Embedding Models)、異構(gòu)網(wǎng)絡(luò)嵌入模型(Heterogeneous Embedding Models)、基于圖神經(jīng)網(wǎng)絡(luò)的模型(Graph Neural Networks,GNN)。圖 | 三類(lèi)模型之間的聯(lián)系 & 已有的成果在文中,作者對(duì)三種模型的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析,并提出可能的解決方法,如下:(一)淺層嵌入模型:可以分為淺層神經(jīng)嵌入模型和基于矩陣分解的模型,前者的缺點(diǎn)是游走長(zhǎng)度接近無(wú)限時(shí),其性能沒(méi)有矩陣分解好且耗時(shí)長(zhǎng);后者則由于矩陣注定稠密,若希望保留高階頂點(diǎn)鄰近性和結(jié)構(gòu)信息,則會(huì)非常耗時(shí)。(二)異構(gòu)嵌入模型:基于淺層嵌入模型,將異構(gòu)圖拆分為幾個(gè)同構(gòu)圖,從而更有效地利用圖內(nèi)容,這樣的設(shè)計(jì)思路可以看作是 GNN 的基本模型。(三)圖神經(jīng)網(wǎng)絡(luò) GNN:其基本思想是迭代地聚合來(lái)自頂點(diǎn)鄰居的信息,以獲得整個(gè)圖結(jié)構(gòu)的連續(xù)視圖,屬于深層歸納嵌入模型,還可以使用監(jiān)督信息進(jìn)行訓(xùn)練。然而,其架構(gòu)存在固有問(wèn)題 ——GNN 模型總是傾向于增加 GNN 層數(shù)來(lái)捕獲來(lái)自高階鄰居的信息,且傳播過(guò)程總是會(huì)使每個(gè)節(jié)點(diǎn)過(guò)于依賴其鄰居,因此可能導(dǎo)致過(guò)擬合、過(guò)度平滑和非魯棒性的問(wèn)題。可以通過(guò)圖正則化、GNN 自監(jiān)督學(xué)習(xí)、神經(jīng)架構(gòu)搜索等方法來(lái)改善。動(dòng)態(tài)性。現(xiàn)實(shí)世界中的網(wǎng)絡(luò)總是在不斷發(fā)展和更新,例如社交網(wǎng)絡(luò)中的新用戶。因此,相應(yīng)的嵌入算法也面臨著跟上 “動(dòng)態(tài)更新” 的挑戰(zhàn) —— 即能夠處理不斷變化的網(wǎng)絡(luò)并能夠有效地更新嵌入向量。魯棒性。近兩年,對(duì)圖數(shù)據(jù)的攻擊和防御引起了人們的廣泛關(guān)注,且已有研究表明,無(wú)論是無(wú)監(jiān)督還是有監(jiān)督模型,即使受到輕微干擾,其性能也會(huì)大受影響。此外,現(xiàn)實(shí)世界網(wǎng)絡(luò)中的節(jié)點(diǎn)及節(jié)點(diǎn)間聯(lián)系往往具有不確定性、無(wú)關(guān)因素較多。因此,模型的魯棒性至關(guān)重要。生成真實(shí)世界網(wǎng)絡(luò)。機(jī)器模型被創(chuàng)造的根本目的,就是不斷提高其處理真實(shí)世界任務(wù)的能力,因此,生成真實(shí)世界網(wǎng)絡(luò)將大大加速這一進(jìn)程。然而,由于圖的固有組合特性,在圖上設(shè)計(jì)有效的密度估計(jì)和生成模型是一件具有挑戰(zhàn)性的事情。GNN 的推理能力。最近,也有一些研究正在嘗試挖掘 GNN 的推理能力,試圖探索 GNN 在執(zhí)行算法方面的潛力,或者關(guān)注 GNN 的邏輯表達(dá)能力。這些工作都可以幫助我們更好地理解 GNN 內(nèi)部機(jī)制,從而有助于推動(dòng) GNN 模型的發(fā)展,以生成更具表現(xiàn)力和強(qiáng)大的嵌入模型。AI OPEN 于 2020 年 3 月創(chuàng)刊,專注于分享有關(guān)人工智能(AI)理論及其應(yīng)用的可行知識(shí)和前瞻性觀點(diǎn)。期刊主編為智源研究院學(xué)術(shù)副院長(zhǎng)、清華大學(xué)計(jì)算機(jī)系唐杰教授。https://www./journal/ai-open
|
轉(zhuǎn)藏
分享
獻(xiàn)花(0)
+1