正如檢索結(jié)果可以按照申請(qǐng)日、公開日先后進(jìn)行排序一樣,語(yǔ)義檢索的結(jié)果就是按照語(yǔ)義相關(guān)度對(duì)專利文獻(xiàn)進(jìn)行排序,先后順序則是相關(guān)度越高,位置越靠前。HimmPat會(huì)根據(jù)給定的內(nèi)容(如:專利號(hào)碼、技術(shù)要點(diǎn)語(yǔ)句、一段文字描述),在數(shù)據(jù)庫(kù)中匹配與輸入的技術(shù)方案最相關(guān)的前1000件專利,按相關(guān)度從高到低排序,讓用戶先看到更相關(guān)的專利文獻(xiàn),提高效率。 想要了解語(yǔ)義檢索的原理,就要先了解專利文獻(xiàn)本身。與論文的標(biāo)準(zhǔn)化表達(dá)不同,專利文獻(xiàn)由于其具有法律屬性,申請(qǐng)人喜歡對(duì)技術(shù)特征進(jìn)行上位概括或自定義表達(dá),專利文獻(xiàn)的語(yǔ)言表達(dá)具有多樣性,例如“觸屏”一詞,在專利中可以衍生出”屏幕觸控”、“手勢(shì)觸摸”、“感應(yīng)屏幕”等多種表達(dá)方式,這在中文中更加常見。 因此,專利檢索一直以來(lái)都具有較高的門檻,為了解決這個(gè)問(wèn)題,傳統(tǒng)解決方案有兩個(gè),一是給涉及相同技術(shù)點(diǎn)的專利賦予統(tǒng)一的分類號(hào),可以用統(tǒng)一的分類號(hào)檢索出該領(lǐng)域下不同表達(dá)的專利;二是對(duì)專利進(jìn)行人工改寫,改寫成比較統(tǒng)一的表達(dá)。但分類號(hào)難以涵蓋所有技術(shù)點(diǎn),也有對(duì)某個(gè)技術(shù)點(diǎn)覆蓋不全的情況;而人工改寫改寫內(nèi)容無(wú)法涵蓋專利全文信息,最終也需要檢索者按改寫后的表達(dá)進(jìn)行檢索,并且成本過(guò)高。 以上兩種解決方案實(shí)際上都是試圖將千變?nèi)f化的專利信息置于統(tǒng)一的測(cè)量體系中進(jìn)行標(biāo)準(zhǔn)化描述,而語(yǔ)義檢索正是在這樣的思路下提供了第三種解決方案,將不同的專利用統(tǒng)一的標(biāo)準(zhǔn)去測(cè)量,給專利檢索設(shè)置了統(tǒng)一的運(yùn)算方式。 簡(jiǎn)單來(lái)說(shuō)語(yǔ)義檢索就是將所有專利轉(zhuǎn)化為高維數(shù)學(xué)向量,用統(tǒng)一的維度去描述不同的專利,將檢索者輸入的內(nèi)容與數(shù)據(jù)庫(kù)中的專利向量進(jìn)行匹配,二者形成的向量夾角越小,則相似度越高。 《語(yǔ)義檢索的數(shù)學(xué)原理》(作者:江釩) 來(lái)源:《專利文獻(xiàn)研究》2018年第三期 正如下圖中的結(jié)果展示,也許技術(shù)方案的關(guān)鍵詞不是完全一樣,但是它們所表達(dá)的內(nèi)容是相同的,那么它的排序結(jié)果也會(huì)在前面。在數(shù)據(jù)庫(kù)中匹配到1000條相似的專利數(shù)據(jù),將其按照相關(guān)度從高到低的排序方式呈現(xiàn)在頁(yè)面內(nèi),這就是語(yǔ)義檢索,也叫語(yǔ)義排序。 語(yǔ)義檢索有哪些小技巧呢?直接輸入一段話或者號(hào)碼就可以了嗎? 根據(jù)語(yǔ)義檢索的原理我們可以了解到,語(yǔ)義檢索是構(gòu)建輸入的文本與檢索數(shù)據(jù)庫(kù)之間的向量關(guān)系,所以可以這兩個(gè)角度出發(fā)。 1 . 忽略背景技術(shù)(來(lái)源:李老師 國(guó)知局審查協(xié)作中心資深審查員) 語(yǔ)義檢索會(huì)根據(jù)專利文獻(xiàn)的內(nèi)容進(jìn)行檢索,比對(duì)相似度較高的專利進(jìn)行排序。如果此時(shí)申請(qǐng)文件的撰寫具有極大的主觀性,存在專利文獻(xiàn)中的說(shuō)明書無(wú)關(guān)內(nèi)容較多。將技術(shù)背景計(jì)入到檢索文獻(xiàn)中,會(huì)形成信息噪聲將檢索方向指向與檢索目標(biāo)不相關(guān)的方向。 當(dāng)檢索文獻(xiàn)的說(shuō)明書中的背景技術(shù)與技術(shù)方案不相關(guān)或相悖時(shí),避免背景技術(shù)描述中的干擾信息和冗雜信息等噪音對(duì)語(yǔ)義排序的相關(guān)度進(jìn)行干擾,可以在檢索框下方中勾選“ 忽略背景技術(shù) ”,在前兩位就找到了對(duì)比文件。 對(duì)比下面兩篇專利文件,同樣都使用了葉枯唑(別名:噻枯唑),A中的專利表達(dá)為主要是以葉枯唑的表達(dá)方式,僅在技術(shù)背景解釋了它的其它學(xué)名噻枯唑。而在專利B中,全篇使用的是噻枯唑的表達(dá)方式。 專利文件A 專利文件B 總結(jié):我們可以在 HimmPat 語(yǔ)義檢索界面勾選忽略背景技術(shù),這樣直接以名稱、摘要、技術(shù)要點(diǎn)為檢索根本,忽略背景技術(shù)的影響,以更高效地獲取相關(guān)專利。但是如果專利文獻(xiàn)的背景技術(shù)對(duì)技術(shù)方案描述能起到補(bǔ)充作用時(shí)或涉及到重點(diǎn)的文字表達(dá),則無(wú)需勾選“忽略技術(shù)背景”。 一個(gè)簡(jiǎn)單判斷是否忽略背景技術(shù)的方法:語(yǔ)義檢索輸入專利號(hào)碼后,打開自定義調(diào)整語(yǔ)義方向按鈕,系統(tǒng)會(huì)自動(dòng)判斷背景技術(shù)與全文的相關(guān)性,相關(guān)性過(guò)低則會(huì)自動(dòng)勾選忽略背景技術(shù)勾選框。 2 . 多重語(yǔ)義檢索(來(lái)源:Horie老師 專利審查協(xié)作中心資深審查員) 忽略背景技術(shù)是去除噪音文本對(duì)結(jié)果的影響,而多重語(yǔ)義檢索則正好相反,是增加需要的或者是相關(guān)的描述語(yǔ)句,調(diào)整語(yǔ)義檢索方向,重新組織檢索的側(cè)重點(diǎn),根據(jù)調(diào)整好的檢索權(quán)重,再次進(jìn)行語(yǔ)義排序。 第一步:直接輸入專利號(hào)碼進(jìn)行語(yǔ)義檢索,在語(yǔ)義檢索結(jié)果第4-6位找到3篇相似的對(duì)比文件。 第二步:將已找到的對(duì)比文件加入到語(yǔ)義篩選中,進(jìn)行多重語(yǔ)義篩選,在第4-6位、14位又找到4篇對(duì)比文件。 第三步:將所有對(duì)比文件全部加入到語(yǔ)義篩選中,共同進(jìn)行多重語(yǔ)義篩選,在第17位、第46位又找到2篇對(duì)比文件。 第四步:再次將已找到的對(duì)比文件加入語(yǔ)義篩選,去除勾選中文庫(kù),改選外文庫(kù)檢索,在第19位再找到一篇外文的對(duì)比文件。 至此,使用多重語(yǔ)義檢索找到10篇對(duì)比文件。 總結(jié): ①進(jìn)行初步語(yǔ)義檢索后,可以將獲得的相似對(duì)比文件進(jìn)行多重語(yǔ)義檢索,循環(huán)重復(fù)上述過(guò)程,獲得更多相似對(duì)比文件,優(yōu)中選優(yōu)。通過(guò)人工篩選和不斷反饋,可以逐步縮小范圍,不斷將相似對(duì)比文件提前,多重語(yǔ)義使結(jié)果越來(lái)越精準(zhǔn)和智能。 ②在初步檢索中,建議去掉公開日期限制,獲得申請(qǐng)日之后的相似對(duì)比文件不要丟掉,可以用于多重語(yǔ)義檢索。 以上案例是連續(xù)使用多個(gè)專利號(hào)碼進(jìn)行多重語(yǔ)義檢索,在實(shí)際的檢索場(chǎng)景中,多重語(yǔ)義檢索可以有多種方式,可以號(hào)碼+文本進(jìn)行多重語(yǔ)義檢索,也可以文本+文本進(jìn)行多重語(yǔ)義檢索,增加相關(guān)檢索詞或特征的權(quán)重。 實(shí)際案例二:以案件CN109304043A為例,涉及一種電子積木,該專利屬于越來(lái)越常見的跨領(lǐng)域發(fā)明,既是玩具又與電磁電路相關(guān)。 第一步:當(dāng)直接輸入專利號(hào)碼進(jìn)行語(yǔ)義檢索時(shí),可以看到此時(shí)檢索結(jié)果中靠前的大多都是和電磁相關(guān)的專利,積木比較少,也就是說(shuō)系統(tǒng)更偏向于檢索與電磁相關(guān)的專利,而積木這一特征的重要性則被系統(tǒng)識(shí)別得較低。 第二步:此時(shí)可以在語(yǔ)義排序中繼續(xù)添加“電子積木”做多重語(yǔ)義檢索,加重專利主題“電子積木”的權(quán)重,檢索結(jié)果將更側(cè)重電子積木。 總結(jié):當(dāng)語(yǔ)義檢索結(jié)果明顯缺失某個(gè)重要特征時(shí),添加該特征的描述進(jìn)行多重語(yǔ)義檢索,可以提高它的權(quán)重,檢索結(jié)果更偏向我們關(guān)注的技術(shù)特征,高效地篩選出對(duì)比文件。因此,語(yǔ)義檢索中,我們可以針對(duì)核心發(fā)明點(diǎn)進(jìn)行多重語(yǔ)義檢索,讓檢索結(jié)果更聚焦發(fā)明核心,也可以對(duì)從權(quán)的附加發(fā)明點(diǎn)進(jìn)行多重語(yǔ)義檢索,更快速地找到Y(jié)類對(duì)比文件。 以下是上述案例多重語(yǔ)義檢索的基本原理,當(dāng)僅輸入號(hào)碼時(shí),文本向量的方向更偏向于電磁方向,當(dāng)新加入“電子積木”的檢索方向時(shí),“電子積木”向量與原專利號(hào)碼向量將根據(jù)向量合成的平行四邊形法則合成為新的向量進(jìn)行語(yǔ)義檢索,新的向量方向既與原號(hào)碼向量方向相關(guān),又更偏向“電子積木”的方向,因此,能夠更快地檢索到更符合預(yù)期的專利。 同樣,在 HimmPat 系統(tǒng)中可以直接在語(yǔ)義篩選的檢索頁(yè)面,輸入一段話或者號(hào)碼后,可以勾選“自定義調(diào)整語(yǔ)義方向”,選擇技術(shù)要點(diǎn)的關(guān)鍵詞,或者在右側(cè)直接自定義添加關(guān)鍵詞或語(yǔ)段,減少檢索的過(guò)程步驟。 3 . 布爾檢索+語(yǔ)義排序(人工干預(yù)) 上面兩種方法是從調(diào)整文本語(yǔ)義的方向提高準(zhǔn)確度,而人工干預(yù)是在語(yǔ)義檢索基礎(chǔ)上限定檢索范圍,也就是在限定的結(jié)果中進(jìn)行語(yǔ)義檢索并排序。 語(yǔ)義檢索時(shí),由于是全文對(duì)比相關(guān)性,難免出現(xiàn)一些部分文本相關(guān),但是整體內(nèi)容、技術(shù)要點(diǎn)不相關(guān)的其它文件。這時(shí)可增加布爾限定條件,把當(dāng)前列表不符合布爾條件的噪音過(guò)濾掉,重新排序,就是常說(shuō)的人工干預(yù),語(yǔ)義排序+布爾檢索的模式。 以CN108599988A為例,我們需要找到此文件的 X 對(duì)比文件。 直接輸入號(hào)碼CN108599988A發(fā)現(xiàn)語(yǔ)義檢索的結(jié)果并不好,然后我們?cè)陂喿x專利說(shuō)明書時(shí),可以看到多次出現(xiàn)“ 二級(jí)代理 ” 一詞,作為一個(gè)專有名詞,我們判斷想要的對(duì)比文件中一定會(huì)出現(xiàn)“二級(jí)代理”這個(gè)名詞,于是直接在布爾篩選框中輸入 “ 二級(jí)代理” ,進(jìn)行布爾限定。 結(jié)果,在檢索結(jié)果在第2位就找到了對(duì)比文件。 總結(jié):人工干預(yù)是基于智能語(yǔ)義檢索與布爾檢索的聯(lián)合使用,在限定的結(jié)果集中進(jìn)行語(yǔ)義檢索,還可以結(jié)合多重語(yǔ)義使用,在一定程度上可以降低信息噪音對(duì)結(jié)果產(chǎn)生的影響。 Tips : 抵觸申請(qǐng)與新穎性檢索 在利用號(hào)碼進(jìn)行語(yǔ)義檢索時(shí),要注意一個(gè)問(wèn)題:抵觸申請(qǐng)。 通常情況下,對(duì)于專利申請(qǐng)A,審查員會(huì)以專利A的申請(qǐng)日(有優(yōu)先權(quán)日為優(yōu)先權(quán)日)為節(jié)點(diǎn),檢索在此申請(qǐng)日/優(yōu)先權(quán)日之前專利A的核心技術(shù)點(diǎn)是否為國(guó)內(nèi)外公眾所知。 同時(shí),審查員會(huì)關(guān)注在專利A申請(qǐng)日/優(yōu)先權(quán)日之前申請(qǐng),但在之后公開的專利,如果這樣的專利技術(shù)方案與專利A保護(hù)范圍重合,就會(huì)形成抵觸申請(qǐng),由于先申請(qǐng)?jiān)瓌t,專利A就會(huì)喪失新穎性而無(wú)法獲得授權(quán)。但抵觸申請(qǐng)的認(rèn)定只針對(duì)權(quán)利要求保護(hù)范圍與在先申請(qǐng)技術(shù)方案完全一樣的專利,特別嚴(yán)格,只能以新穎性理由駁回,只要專利A中有任何一點(diǎn)不一樣就可以規(guī)避掉,所以抵觸申請(qǐng)出現(xiàn)的概率比較低,相較于540萬(wàn)有XY對(duì)比文件的中國(guó)發(fā)明申請(qǐng),有抵觸申請(qǐng)(E)對(duì)比文件的中國(guó)發(fā)明申請(qǐng)只有5萬(wàn)件左右。 當(dāng)我們使用語(yǔ)義檢索時(shí),如果勾選新穎性檢索,系統(tǒng)將自動(dòng)添加公開日小于等于申請(qǐng)日的限定條件。 當(dāng)未檢索到申請(qǐng)日/優(yōu)先權(quán)日前公開現(xiàn)有技術(shù)時(shí),應(yīng)補(bǔ)充檢索申請(qǐng)日或優(yōu)先權(quán)日小于等于本申請(qǐng)申請(qǐng)日/優(yōu)先權(quán)日的專利,可在HimmPat檢索結(jié)果左側(cè)直接選擇調(diào)整相關(guān)限定字段。 |
|
來(lái)自: 木槿團(tuán)子 > 《專利》