今天在洪波的博客中看到一篇文章:超鏈分析和PageRank的專利問題,才第一次知道百度總裁李彥宏曾經(jīng)申請(qǐng)并獲得對(duì)于超鏈接分析的專利,我們姑且稱之為超鏈分析專利。而這個(gè)專利申請(qǐng)是在Google申請(qǐng)他們自己的PageRank專利之前。 我以前對(duì)中文搜索引擎沒什么認(rèn)識(shí),真是孤陋寡聞??吹竭@篇文章,直覺是如果這兩個(gè)專利是相似的或有抄襲嫌疑,這牽扯到兩家公司的核心利益。對(duì)我這樣的搜索引擎優(yōu)化人員來說,也能從中了解百度算法的一些內(nèi)幕。所以馬上去看了李彥宏的專利申請(qǐng),并再次閱讀了Google PR的專利申請(qǐng)。 我的理解是,這兩個(gè)專利申請(qǐng)的區(qū)別在于,他們談的根本就是兩回事。要解決的問題和實(shí)施方法都不一樣,雖然研究對(duì)象是一樣的,都是鏈接。 超鏈分析要解決的是文件與搜索關(guān)鍵詞的相關(guān)性。李彥宏提出的方法是,除了文件本身對(duì)關(guān)鍵詞的引用外,還需要考慮反向鏈接中的關(guān)鍵詞。 具體來說,一個(gè)文件被索引進(jìn)數(shù)據(jù)庫(kù)的時(shí)候,會(huì)連同指向這個(gè)文件的超鏈接,以及每個(gè)超鏈接當(dāng)中使用的錨文字(鏈接文字),一同記錄在案。而搜索詞也會(huì)建立一個(gè)數(shù)據(jù)庫(kù),每個(gè)詞連同含有這個(gè)詞的超鏈接,以及這些超鏈接所指向的文件一同被記錄在案。 當(dāng)一個(gè)關(guān)鍵詞被搜索的時(shí)候,含有以關(guān)鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個(gè)文件或網(wǎng)頁(yè),將被作為最相關(guān)的結(jié)果排在前面。 這是基本思路,當(dāng)然還有其他變量考慮進(jìn)去。比如說搜索字符串含有幾個(gè)詞的時(shí)候,每一個(gè)詞都是搜索矢量的一個(gè)維度。 我比較感興趣的是,在這篇專利申請(qǐng)中已經(jīng)提到了詞干技術(shù),而且提到了不同文字文件的相關(guān)性。 而Google的PR專利顯然是專注在已經(jīng)應(yīng)用了超鏈分析之后還不能解決的問題。在Google的專利申請(qǐng)中,明確提到即使在考慮了指向文件的鏈接及鏈接錨文字之后,搜索引擎還有重要問題需要解決,那就是來自不同文件的鏈接有不同的權(quán)重值。 你不能指望來自白宮網(wǎng)站的鏈接和非洲某小鎮(zhèn)上一個(gè)學(xué)生的個(gè)人網(wǎng)站上的一個(gè)鏈接,投票值相同。而Google PageRank就是衡量網(wǎng)頁(yè)重要性的一個(gè)方法。指向一個(gè)網(wǎng)頁(yè)的鏈接越多,而這些鏈接本身的權(quán)重越高,那么這個(gè)被指向的網(wǎng)頁(yè)的重要性及PageRank就越高。 Google的專利申請(qǐng)當(dāng)中給出了具體怎樣計(jì)算這一重要性指標(biāo),他們?nèi)∶麨?a href="http://www./2006/04/08/google-pr/">網(wǎng)頁(yè)級(jí)別。網(wǎng)頁(yè)級(jí)別的計(jì)算需要進(jìn)行多個(gè)循環(huán)的替代計(jì)算,才能得到近似于最終結(jié)果的PR值。 Google PR是與搜索詞無關(guān)的,或者說與文件相關(guān)性無關(guān)的。它只描述某一個(gè)文件的重要性或地位。 就目前所有搜索引擎的表現(xiàn)來看,可以肯定這兩個(gè)技術(shù)都已經(jīng)被應(yīng)用在排名算法中了,雖然可能名字不一樣。尤其明顯的是,雖然Google一直以PR為旗號(hào),很少介紹它們的其他技術(shù)。但近一兩年來, Google算法中對(duì)鏈接分析,錨文字分析,詞干技術(shù)的重視越來越多。 這里做的分析完全是針對(duì)兩篇專利申請(qǐng)所透露的技術(shù)問題,對(duì)誰先誰后,誰受誰啟發(fā)等等,無意評(píng)論。
|
|