2008-01-05
WordNet簡介· 對(duì)于WordNet來說,10年后來清點(diǎn)清點(diǎn)得失似乎是合適的。每個(gè)參與其事的研究人員都真誠地感受到它的缺點(diǎn),并且他們從未覺得這是一個(gè)“完工”了的項(xiàng)目。事實(shí)上,WordNet仍在繼續(xù)發(fā)展中。
· "WordNet: An Electronic Lexical Database"一書分三部分,16章。第一部分從第1章到第4章,前3章分別介紹WordNet中的名詞,形容詞,動(dòng)詞,第4章介紹WordNet的設(shè)計(jì)細(xì)節(jié)及相關(guān)軟件的情況(這主要是由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室的研究人員寫的);第二部分和第三部分主要是由普林斯頓認(rèn)知科學(xué)實(shí)驗(yàn)室之外的參加WordNet研究工作的研究人員撰寫的。第5章和第6章描述了WordNet的改進(jìn);第7章從形式化的概念分析的角度描述了WordNet;第8到第16章討論了WordNet的各種不同應(yīng)用。 (一)計(jì)算機(jī)與詞庫(computers and lexicon) · 一個(gè)人即使不接受把人腦比作計(jì)算機(jī)的隱喻,也一定同意,計(jì)算機(jī)提供了一個(gè)良好的模式演練場,通過它,人們可以測試各種關(guān)于人類認(rèn)知能力的理論模型。 · 越來越多的人認(rèn)識(shí)到,一個(gè)大的詞庫對(duì)自然語言理解,人工智能的各方面研究都具有重要的價(jià)值。 · 對(duì)大規(guī)模機(jī)器可讀詞典的需求同時(shí)也帶來許多基礎(chǔ)問題。首先是如何構(gòu)造這樣一個(gè)詞庫,是手工編制還是機(jī)器自動(dòng)生成?第二,詞典中應(yīng)包含什么樣的信息?第三,詞典應(yīng)如何設(shè)計(jì),即信息如何組織,以及用戶如何訪問?實(shí)際上,這些問題涉及到詞典的編纂方法,詞典的內(nèi)容,詞典的使用方式這一系列非?;A(chǔ)的問題。 (二)構(gòu)造詞庫數(shù)據(jù)庫(constructing the lexical database) · 構(gòu)建詞典的兩種基本方式:自動(dòng)獲取 / 手工編制。 手工構(gòu)建詞典的優(yōu)點(diǎn)之一是便于創(chuàng)建更為豐富的詞條信息;其次是便于控制。 (三)WordNet的內(nèi)容 · WordNet的描述對(duì)象包含compound(復(fù)合詞)、phrasal verb(短語 動(dòng)詞)、collocation(搭配詞)、idiomatic phrase(成語)、word(單詞),其中word是最基本的單位。 · WordNet并不把詞語分解成更小的有意義的單位(這是義素分析法/componential analyses的方法);WordNet也不包含比詞更大的組織單位(如腳本、框架之類的單位);由于WordNet把4個(gè)開放詞類區(qū)分為不同文件加以處理,因而WordNet中也不包含詞語的句法信息內(nèi)容;WordNet包含緊湊短語,如bad person,這樣的語言成分不能被作為單個(gè)詞來加以解釋。 · 人們經(jīng)常區(qū)分詞語知識(shí)和世界知識(shí)。前者體現(xiàn)在詞典中,后者體現(xiàn)在百科全書中。事實(shí)上二者的界限是模糊的。比如hit(“打”)某人是一種帶有敵意的行為,這是百科知識(shí);而hit跟strike(“擊”)多多少少同義,并且hit可以帶一個(gè)直接賓語論元,這是詞語知識(shí)。但hit的直接賓語應(yīng)該是固體(而不是像gas這樣的氣體),這是詞語知識(shí)還是百科知識(shí)就界限模糊了。不過毫無疑問,要理解語言,這兩部分知識(shí)是缺一不可的。Kay(1989)指出我們的大腦詞庫應(yīng)該包含這兩部分知識(shí)。但是百科知識(shí)太多難以駕馭,WordNet不試圖包括百科知識(shí)。不過,在WordNet中,對(duì)于一些不常見的專業(yè)概念,比如不常見的植物和動(dòng)物,詞語知識(shí)和百科知識(shí)是融合在一起的。 (四)WordNet的設(shè)計(jì)(the design of WordNet) · 一般的詞典都是按照單詞拼寫的正字法原則進(jìn)行組織的。但如果為了獲得詞語意義信息的目的,通過詞語語義屬性來組織詞典就更值得去做了。在線詞典跟傳統(tǒng)的紙張?jiān)~典不同,允許使用者從不同的途徑去訪問詞典信息。 · 第一個(gè)以意義作為組織原則的詞典是羅杰斯同義詞詞林(Roget's Thesaurus)。傳統(tǒng)的詞典是通過提供給用戶關(guān)于詞語的信息來幫助用戶理解那些他們不熟悉的詞的概念意義。WordNet既非傳統(tǒng)詞典,也非同義詞詞林。它混合了這兩種類型的詞典。 (五)作為同義詞詞林的WordNet (WordNet as a thesaurus) · WordNet跟同義詞詞林相似的地方是:它也是以同義詞集合(synset)作為基本建構(gòu)單位進(jìn)行組織的。用戶腦子里如果有一個(gè)已知的概念,就可以在同義詞集合中中找到一個(gè)適合的詞去表達(dá)這個(gè)概念。 · 但WordNet不僅僅是用同義詞集合的方式羅列概念。同義詞集合之間是以一定數(shù)量的關(guān)系類型相關(guān)聯(lián)的。這些關(guān)系包括上下位關(guān)系、整體部分關(guān)系、 繼承關(guān)系等。 (六)作為一般詞典的WordNet (WordNet as a dictionary) · WordNet跟傳統(tǒng)的詞典相似的地方是它給出了同義詞集合的定義以及例句。在同義詞集合中包含對(duì)這些同義詞的定義。對(duì)一個(gè)同義詞集合中的不同的詞,分別給出適合的例句來加以區(qū)分。 (七)WordNet中的關(guān)系 (relations in WordNet) · 不同句法詞類中的語義關(guān)系類型也不同,比如盡管名詞都動(dòng)詞都是分層級(jí)組織詞語之間的語義關(guān)系,但在名詞中,上下位關(guān)系是hyponymy關(guān)系,而動(dòng)詞中是troponymy關(guān)系;動(dòng)詞中的entailment(繼承)關(guān)系有些類似名詞中的meronymy(整體部分)關(guān)系。名詞的meronymy關(guān)系下面還分出三種類型的子關(guān)系(見“WordNet中的名詞”部分)。 (八)網(wǎng)球問題(the tennis problem) · WordNet是基于同義性和反義(對(duì)義)性來描述詞語和概念之間的各種語義關(guān)系類型的。由于WordNet的注意力不是在文本和話語篇章水平上來描述詞和概念的語義,因此WordNet中沒有包含指示詞語在特定的篇章話題領(lǐng)域的相關(guān)概念關(guān)系。例如,WordNet中沒有將racquet(網(wǎng)球拍)、ball(球)、net(球網(wǎng))等詞語以一定方式聯(lián)系到一起。Roger Chaffin在一封私人信箋中,曾把這類問題稱為“tennis problem”(網(wǎng)球問題),指的就是如何把racquet、ball、net、court game(場地比賽);或者把physician(內(nèi)科醫(yī)生)跟hospital(醫(yī)院)聯(lián)系到一起。這對(duì)電子詞典來說,是一個(gè)挑戰(zhàn)。已經(jīng)有一些相關(guān)的研究工作在探索如何從WordNet中包含的詞匯和概念之間的語義關(guān)系,來推導(dǎo)出話題信息。Hirst和St-Onge描述了一種所謂的“詞匯鏈”(lexical chain)的應(yīng)用方法。“詞匯鏈”是在基于名詞的語義關(guān)系構(gòu)成的上下文中的名詞的序列。Al-Halimi和Kazman則在類似的基礎(chǔ)上構(gòu)造“詞匯樹”(lexical tree)來推導(dǎo)出話題信息。 (九)新的觀點(diǎn),改進(jìn),應(yīng)用 (new perspectives, enhancements, and applications) · 許多WordNet的用戶都對(duì)WordNet中缺乏跟語義處理的細(xì)節(jié)相匹配的句法信息而感到遺憾。的確,WordNet中幾乎沒有句法信息,因?yàn)樗亲鳛橐粋€(gè)語義知識(shí)庫構(gòu)建的。但是,對(duì)形容詞的部分句法約束信息是包含在WordNet中的(考慮形容詞跟中心名詞的關(guān)系,以及形容詞作為屬性形容詞作表語使用的情況)。句法對(duì)動(dòng)詞而言最為重要,對(duì)此,可以通過動(dòng)詞的名詞論元、介詞短語以及義素組成等不同來加以次范疇化(分出動(dòng)詞小類)。目前,WordNet的每個(gè)動(dòng)詞同義詞集中包含了及物性和論元類型的基本信息,但有關(guān)這些論元的性質(zhì)的細(xì)節(jié)就很少提到。知識(shí)工程以及推理方面的應(yīng)用系統(tǒng)特別受益于動(dòng)名間關(guān)系的信息。WordNet的一些用戶依靠其他一些語法知識(shí)庫,像COMLEX,來配合WordNet中的語義信息一道使用。事實(shí)上,有關(guān)動(dòng)詞的句法信息和語義信息的區(qū)分基本是人為的。Levin(1985,1993)已經(jīng)收集了令人印象深刻的證據(jù)來說明動(dòng)詞的語義性質(zhì)跟其句法行為之間的緊密聯(lián)系。 (十)詞語和它的上下文 (words and their contexts) · 為了提供詞語的語境信息,普林斯頓(Princeton)認(rèn)知科學(xué)實(shí)驗(yàn)室開發(fā)了一個(gè)語義檢索工具(semantic concordance)——見《WordNet》一書第8章。該工具將文本和詞庫組成一個(gè)整體的數(shù)據(jù)庫,從而使文本中的單詞跟詞庫中合適的意義相關(guān)聯(lián)。這樣的語義檢索工具,既可以看作是這樣一個(gè)文本,其中的單詞帶有句法和語義信息的標(biāo)注;也可以看作是一個(gè)詞庫,其中的詞條都配有指示義項(xiàng)用法環(huán)境的例句。跟WordNet語義詞庫配合的文本是來自Brown語料庫的語料(當(dāng)代美國英語標(biāo)準(zhǔn)語料庫)以及一個(gè)中短篇小說的全文(the complete text of a novella)。 (十一)意義排歧 (sense disambiguation) · 盡管我們很清楚,在確定的上下文中,說者賦予多義詞確定的一個(gè)意義,但排歧的過程并不容易。對(duì)計(jì)算機(jī)而言,排歧需要多大的語境就是一個(gè)大問題。 · Leacock和Chodorow(見《WordNet》一書第11章)測試了對(duì)多義動(dòng)詞“serve”進(jìn)行多義詞歧義消解的不同策略。在三個(gè)試驗(yàn)中,他們發(fā)現(xiàn),選擇上下文的“窗口”大小為6個(gè)詞比較適宜,所得結(jié)果最優(yōu);此外,當(dāng)將上下文信息和WordNet中有關(guān)詞語之間語義相似度的信息結(jié)合在一起使用時(shí),排歧準(zhǔn)確度最高。 (十二)信息檢索 (information retrieval) · 意義排歧對(duì)許多應(yīng)用來說都是關(guān)鍵因素,比如信息檢索就是這樣的應(yīng)用領(lǐng)域。Voorhees(見《WordNet》一書第12章)解釋說,要在大量文獻(xiàn)中發(fā)現(xiàn)所需的文檔,計(jì)算機(jī)就要在被查詢?cè)~語和文檔標(biāo)題或摘要之間進(jìn)行有效地匹配操作。Voorhees探討了WordNet在詞語匹配方面的效力,發(fā)現(xiàn)意義分辨方面的困難阻礙了有效利用WordNet中的語義信息。只有先依靠手工選擇了概念,使得要查找的詞語的意義已知,這種情況下,WordNet中的語義關(guān)系信息才對(duì)提高檢索結(jié)果有幫助。 (十三)語義關(guān)系與文本連貫性 (semantic relations and textual coherence) · Hirst 和 St-Onge(見《WordNet》第13章)也討論了上下文的問題,尤其是一個(gè)連貫的文本是如何組成的?;谡Z篇是由意義相關(guān)的概念串聯(lián)起來的假設(shè),他們使用了“詞匯鏈”(lexical chain)概念作為評(píng)估連貫性的一種方式。Hirst和St-Onge采用詞匯鏈來檢查文本中的用詞錯(cuò)誤情況(malapropism)。他們把用詞錯(cuò)誤定義為:一個(gè)詞所對(duì)應(yīng)的概念跟該詞所在的文本中的其他詞所對(duì)應(yīng)的概念無關(guān)。利用評(píng)估一個(gè)詞匯鏈中鏈接強(qiáng)度的方法,Hirst和St-Onge認(rèn)為,文本中詞語之間的語義距離越大,出現(xiàn)用詞錯(cuò)誤問題的可能性也越大。 · Al-Halimi和Kazman也對(duì)信息存貯,索引,檢索等問題感興趣(見《WordNet》第14章)。他們描述了一種自動(dòng)對(duì)視頻會(huì)議的腳本按照話題進(jìn)行索引的方法(不是按照關(guān)鍵詞索引),以及利用話題索引結(jié)果,通過匹配對(duì)腳本進(jìn)行信息檢索。Al-Halimi和Kazman將話題信息描述為“詞匯樹”(lexical tree)——這是對(duì)“詞匯鏈”的一個(gè)修正。前者對(duì)后者的革新之一是考慮了不同的語義關(guān)系類型的信息相關(guān)性。 · Hirst和St-Onge指出,WordNet缺乏有關(guān)兩個(gè)相關(guān)詞之間語義距離的信息。他們舉的例子是:more stew than steak(燜肉比牛排多),其中“more ... than”是一個(gè)格式,用來連接兩個(gè)語義上相關(guān)的詞語。在這個(gè)例子中,兩個(gè)名詞(stew和steak)分屬6個(gè)同義詞集合(synset),顯然這無法反映出它們真實(shí)的語義距離。說英語的人知道“good person”(好人,圣人)的兩個(gè)上下位概念之間語義上是非常相似的。這兩個(gè)上下位概念分別是{saint, holy man, holy person, angel},{plaster saint},而且這兩個(gè)概念之間的相似性與它們跟第三個(gè)下位概念之間的相似性不同。第三個(gè)下位概念是{square shooter, straight arrow}(正人君子)。 (十四)知識(shí)工程 (knowledge engineering) · WordNet的諸多應(yīng)用中,最具雄心壯志的也許是知識(shí)工程(見《WordNet》一書第15,16章)。 · Harabagiu和Moldovan(見《WordNet》一書第16章)指出,為常識(shí)推理建模需要一個(gè)擴(kuò)展的知識(shí)庫,其中包括數(shù)量巨大的概念和關(guān)系。WordNet提供了前者,但在關(guān)系方面不足以支持推理。他們的解決方案是對(duì)WordNet中的注釋進(jìn)行排歧,得到詞語之間的更多關(guān)系,從而將WordNet中的注釋轉(zhuǎn)變?yōu)檎Z義網(wǎng)絡(luò),其中包含不同詞類之間的關(guān)系。他們舉了一個(gè)例子:在hungry(餓)和refrigerator(冰箱)之間存在一個(gè)路徑,因?yàn)檫@兩個(gè)標(biāo)記詞在food(食物)這個(gè)節(jié)點(diǎn)上相撞,即通過food,可以把hungry和refrigerator聯(lián)系到一起,從而用于常識(shí)推理。 |
|