號(hào)碼百事通和商務(wù)領(lǐng)航是中國(guó)電信向綜合信息服務(wù)提供商轉(zhuǎn)型過(guò)程中選擇的面向個(gè)人用戶(hù)和企業(yè)用戶(hù)提供的綜合信息服務(wù)業(yè)務(wù),在這兩個(gè)綜合信息服務(wù)業(yè)務(wù)中存在信息源有限、信息利用困難的問(wèn)題,這樣就難以促進(jìn)公眾消費(fèi)服務(wù)從而影響了后向收費(fèi),成為形成良性的盈利循環(huán)的障礙。本文針對(duì)這兩個(gè)問(wèn)題,通過(guò)對(duì)搜索技術(shù)的介紹和對(duì)兩個(gè)信息服務(wù)業(yè)務(wù)的分析,提出以面向領(lǐng)域的搜索技術(shù)來(lái)解決這兩個(gè)問(wèn)題的思路,并概要性地給出了一個(gè)基于面向領(lǐng)域搜索技術(shù)的解決方案。
垂直引擎提高查全率和查準(zhǔn)率 所謂垂直搜索,是針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是專(zhuān)、精、深,且具有行業(yè)色彩。它是與通用搜索引擎截然不同的引擎類(lèi)型。垂直搜索引擎專(zhuān)注具體、深入的縱向服務(wù),致力于某一特定領(lǐng)域內(nèi)信息的全面和內(nèi)容的深入,這個(gè)領(lǐng)域外的閑雜信息不收錄。比如:用戶(hù)搜索廣州天河區(qū)的可帶寵物就餐的川菜館的電話(huà)、菜單價(jià)格、交通指路等這就是一種垂直搜索。 搜索領(lǐng)域有句名言就是:用戶(hù)無(wú)法描述他要找什么,除非讓他看到想找的東西。曾有一名技術(shù)專(zhuān)家說(shuō):“75%的內(nèi)容通用搜索引擎搜索不出來(lái)”。而垂直搜索引擎的誕生則是為了更大程度地提高搜索的“查全率”和“查準(zhǔn)率”。垂直搜索引擎通過(guò)對(duì)行業(yè)領(lǐng)域內(nèi)的信息模型和用戶(hù)模型結(jié)構(gòu)化的搜集或再組織,提供更多、更專(zhuān)業(yè)、個(gè)性化的行業(yè)相關(guān)服務(wù)。 跟通用搜索引擎相比,垂直搜索引擎有哪些數(shù)據(jù)特性?垂直搜索引擎的數(shù)據(jù)傾向于結(jié)構(gòu)化和格式化。比如在某個(gè)購(gòu)物類(lèi)的垂直搜索引擎上輸入“MP3”,就會(huì)出現(xiàn)該產(chǎn)品的相關(guān)屬性,如:內(nèi)存、尺寸、大小、電池型號(hào)、價(jià)格、生產(chǎn)廠(chǎng)家等相關(guān)技術(shù)屬性,有的還提供比價(jià)服務(wù)。在某餐飲搜索引擎的高級(jí)搜索,針對(duì)一家餐館的搜索屬性設(shè)置多達(dá)300個(gè)選項(xiàng),把你想到和沒(méi)想到的都列出來(lái)了,這就把搜索服務(wù)專(zhuān)業(yè)化、細(xì)致化、個(gè)性化了。 當(dāng)然,垂直搜索引擎的廣告模式也不會(huì)再僅是通用搜索引擎的那些套路。除了排名和競(jìng)價(jià)之外,還很多種廣告營(yíng)利模式。比如,加盟收入、訂單提成、會(huì)員會(huì)費(fèi)收入、交易費(fèi)用收入等。由于垂直搜索引擎能提供更為集中的受眾群體,因此它的“單次點(diǎn)擊有效率”相比通用搜索引擎更為有效,風(fēng)險(xiǎn)更小。 搜索引擎中的關(guān)鍵技術(shù) 數(shù)據(jù)采集,從互聯(lián)網(wǎng)上采集頁(yè)面,作為建立索引的依據(jù);關(guān)鍵詞分析,對(duì)采集的網(wǎng)頁(yè)進(jìn)行分析,提取其中的關(guān)鍵詞;索引編制,為網(wǎng)頁(yè)和分析出的關(guān)鍵詞建立一個(gè)可供檢索的索引庫(kù);搜索工具,為用戶(hù)提供訪(fǎng)問(wèn)索引和獲得結(jié)果的用戶(hù)界面。 垂直搜索是傳統(tǒng)搜索的延伸,它不僅僅包含傳統(tǒng)搜索的特點(diǎn)而且要求這些特點(diǎn)更加鮮明。下面列出的各項(xiàng)技術(shù)是傳統(tǒng)搜索的關(guān)鍵技術(shù),同樣也是垂直搜索的,不同的是,垂直搜索有它更進(jìn)一步的要求。 信息采集技術(shù)——傳統(tǒng)搜索引擎在信息采集的過(guò)程中,無(wú)須考慮信息所屬的領(lǐng)域,只是收集,以數(shù)量取勝,也并未考慮是否為死鏈。而垂直搜索在信息采集過(guò)程中,要著重考慮信息質(zhì)量,只收集相關(guān)網(wǎng)頁(yè)而忽略不相關(guān)網(wǎng)頁(yè),也就是說(shuō)垂直搜索的spider要更加專(zhuān)業(yè),更加智能。 網(wǎng)頁(yè)提取技術(shù)——對(duì)于傳統(tǒng)搜索引擎而言,網(wǎng)頁(yè)提取技術(shù)主要局限在對(duì)spider收集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化操作;而對(duì)于垂直搜索,在結(jié)構(gòu)化操作以后,還要對(duì)其進(jìn)行數(shù)據(jù)挖掘,更進(jìn)一步的分析,剔出不相關(guān)無(wú)意義的數(shù)據(jù),從而提高信息的質(zhì)量。例如商品的搜索,用戶(hù)感興趣的僅僅局限在價(jià)格、品牌等少數(shù)的幾個(gè)方面,這便體現(xiàn)出網(wǎng)頁(yè)提取技術(shù)的重要性。 語(yǔ)義相關(guān)性技術(shù)——傳統(tǒng)搜索包含了包羅萬(wàn)象的信息,因此語(yǔ)義相關(guān)性較差,一詞多義而造成搜索結(jié)果和用戶(hù)本意差距較大的情況時(shí)常發(fā)生。而垂直搜索由于其只包含某個(gè)領(lǐng)域的信息,語(yǔ)言上一詞多義的現(xiàn)象較少,這樣完全有可能有必要進(jìn)行這方面研究。 分詞技術(shù)——百度對(duì)于中國(guó)的市場(chǎng)之所以能很自信,很大的原因就是中文分詞上百度要領(lǐng)先其他知名搜索引擎。因此可以看出分詞技術(shù)十分重要。而對(duì)于垂直搜索,由于其限定在某一個(gè)領(lǐng)域,這樣就可以建立相關(guān)領(lǐng)域的專(zhuān)業(yè)詞庫(kù)或者是字典,這樣大大增加了分詞的準(zhǔn)確性,這必然可以增進(jìn)搜索結(jié)果的準(zhǔn)確性。 索引——好的索引可以加快搜索速度,能夠更準(zhǔn)確地進(jìn)行網(wǎng)頁(yè)定位,從而減少執(zhí)行的成本。垂直搜索所需要的信息只是傳統(tǒng)搜索信息的一個(gè)子集,傳統(tǒng)搜索上使用的索引方法就不一定適合垂直搜索;而且垂直搜索得到的數(shù)據(jù)結(jié)構(gòu)化更強(qiáng),怎樣利用這樣的優(yōu)勢(shì),也是尋找適合垂直搜索的索引的原因之一。 除了這些共同的技術(shù)以外,還有些是傳統(tǒng)搜索不能考慮的單垂直搜索可以考慮的問(wèn)題。 保證一定領(lǐng)域內(nèi)一定主題的覆蓋。傳統(tǒng)搜索信息涉及各個(gè)領(lǐng)域,因此沒(méi)有明確的主題。垂直搜索正好相反,它們領(lǐng)域唯一,完全有能力通過(guò)手工或自動(dòng)的辦法保證主題的覆蓋。這樣就很難使用戶(hù)無(wú)功而返,從而提高了搜索引擎的服務(wù)質(zhì)量。 垂直搜索引擎及技術(shù)的發(fā)展方向 首先,目錄再分類(lèi)。與早期的網(wǎng)址分類(lèi)搜索引擎相似,垂直搜索引擎只選定了某一特定行業(yè)或某一主題進(jìn)行目錄的細(xì)化分類(lèi),結(jié)合機(jī)器抓取行業(yè)相關(guān)站點(diǎn)的信息提供專(zhuān)業(yè)化的搜索服務(wù)。這種專(zhuān)業(yè)化的分類(lèi)目錄(或稱(chēng)主題指南、列表瀏覽),很容易讓用戶(hù)迅速知道自己要找的是什么,并且按目錄點(diǎn)擊就能找到。 其次,垂直搜索引擎的第二個(gè)發(fā)展方向是深度挖掘型搜索,其特點(diǎn)是“元數(shù)據(jù)模型再組織、再整合、深度數(shù)據(jù)挖掘、互動(dòng)性”。 通過(guò)對(duì)元數(shù)據(jù)信息進(jìn)入深度加工,該類(lèi)垂直搜索引擎為用戶(hù)提供網(wǎng)頁(yè)搜索引擎無(wú)法做到的專(zhuān)業(yè)性、功能性、關(guān)聯(lián)性,有的加入了用戶(hù)信息管理以及信息發(fā)布互動(dòng)功能,能很好地滿(mǎn)足了用戶(hù)對(duì)專(zhuān)業(yè)性、準(zhǔn)確性、功能性、個(gè)性化的需求。 第三,垂直搜索可以向本地搜索拓展,其特點(diǎn)是借助于地圖元素來(lái)發(fā)展。 到目前為止,各大搜索引擎Google、Yahoo、MSN都推出了本地搜索而且都相對(duì)成熟。國(guó)內(nèi)很多人把本地搜索理解等同于地圖搜索,這是一種觀(guān)念上錯(cuò)誤。地圖搜索只是本地搜索的一個(gè)功能元素,就像本地的天氣預(yù)報(bào)一樣。本地搜索的關(guān)鍵需求在于人們大多是在本地購(gòu)物、就餐、娛樂(lè)、健身、修車(chē)、喝咖啡、工作等。 第四種可能,垂直搜索引擎可以向搜索交易平臺(tái)發(fā)展。 垂直搜索引擎由于自身對(duì)行業(yè)的專(zhuān)注,使得它可以提供行業(yè)信息深度和廣度的整合提供更加細(xì)致周到的服務(wù)。對(duì)消費(fèi)領(lǐng)域可以推出針對(duì)某一行業(yè)的搜索交易平臺(tái)。比如美容搜索、餐飲搜索、購(gòu)物搜索、機(jī)票旅游搜索。這種交易平臺(tái)針對(duì)的是小型商家,比如一家川菜館,一個(gè)只有幾個(gè)人的機(jī)票代理商,一家美容院。他們甚至沒(méi)有自己的站點(diǎn),有些電話(huà)號(hào)碼都用的是私人的,傳統(tǒng)的114無(wú)法查到,但他們確實(shí)需要通過(guò)開(kāi)展電子商務(wù)來(lái)獲得更多的顧客。(未完待續(xù)) |
|
來(lái)自: suyihong > 《號(hào)碼百事通》
联系客服
微信扫码,添加客服企业微信
客服QQ:
1732698931联系电话:4000-999-276
客服工作时间9:00-18:00,晚上非工作时间,请在微信或QQ留言,第二天客服上班后会立即联系您。