本白皮書介紹了全文搜索的基本概念,并解釋了不同 Microsoft? 產(chǎn)品是如何應(yīng)用全文搜索的。這些信息可以幫助您確定哪個 Microsoft 產(chǎn)品最適合您的信息檢索需求。
Microsoft 全文搜索技術(shù)已經(jīng)應(yīng)用于多個服務(wù)器和客戶端產(chǎn)品。提供的具體功能取決于每個產(chǎn)品的具體要求。這些不同也反映出該技術(shù)的發(fā)展。但是,所有產(chǎn)品都因為利用全文索引來有效檢索非結(jié)構(gòu)化的文本數(shù)據(jù)的共同優(yōu)點而受益。
下列 Microsoft 產(chǎn)品利用了不同的 Microsoft 全文搜索技術(shù):
- Index Server,用于Microsoft Windows? 的索引服務(wù)
- Microsoft SharePoint? Portal Server 2001
- Microsoft SQL Server? 7.0 和 SQL Server 2000
- Microsoft Exchange Server 2000
- Microsoft Site Server 3.0
- Microsoft Office XP
您選擇什么產(chǎn)品取決于您的用途。例如,您可能是要搜索 Intranet 站點或 Internet 站點、Exchange 公共文件夾,或者要搜索結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)。您可能需要迎合內(nèi)部團隊,或者需要通過 Extranet 站點滿足客戶需求。這些考慮和其他考慮可幫助您決定什么產(chǎn)品是適合您的最佳產(chǎn)品。
全文搜索
全文搜索的任務(wù)是根據(jù)用戶的需求,提供一組來源中的相關(guān)信息。對此需求的表達通常是文本查詢,在此組來源的每個文檔中搜索每個(或所有)查詢詞。處理查詢時有一個簡單的方法可打開并掃描每個文檔,尋找每個查詢詞。但是,在處理查詢時打開每個文檔并搜索查詢詞會很費時間。此方法并不比個人用戶自己在少量文檔中搜索高明。
一個簡單的解決方案是事先完成大部分工作。實現(xiàn)方法是,提出每個文檔中的術(shù)語信息并用一種便于檢索的方法保存此信息。那么處理查詢時就不用掃描每個文檔了。唯一的要求是用反向索引相互比較文檔,并選擇與查詢最有關(guān)聯(lián)的文檔。
事先完成大部分工作這個原則是全文搜索技術(shù)(包括 Microsoft 全文搜索)的基礎(chǔ)。要想高效,搜索技術(shù)必須:
- 從各種文檔存儲區(qū)獲得文檔。
- 從各種文檔格式中提取文字。
- 用文檔術(shù)語更新索引。
- 給文檔排序,把最相關(guān)的文檔放在列表最前面。
好的搜索技術(shù)可以對各種語言、不同類型以及存儲在多種文檔知識庫中的文檔執(zhí)行這些任務(wù)。好的搜索技術(shù)必須返回真正與用戶需求相關(guān)的文檔。最佳情況下,全文搜索技術(shù)是個完整的知識解決方案,獲得的直接文本查詢正是用戶所需要的。用戶需要的信息用高級機制解釋,并返回結(jié)構(gòu)化和非結(jié)構(gòu)化信息。
Microsoft 全文搜索技術(shù)中的以下組件提供了絕佳的全文搜索解決方案:
- 協(xié)議處理程序。協(xié)議處理程序可以通過特定協(xié)議或從特定存儲區(qū)訪問數(shù)據(jù)。常見的協(xié)議處理程序包括文件協(xié)議、超文本傳輸協(xié)議 (HTTP)、消息處理應(yīng)用程序編程接口 (MAPI) 以及 HTTP 分布式編輯和版本控制 (HTTPDAV)。協(xié)議處理程序處理收集程序傳遞給它的 URL。
- 收集程序。收集程序維護將通過協(xié)議訪問的 URL 隊列。例如,爬行一個 Web 站點可能包括數(shù)百個頁面,而且會因為每次訪問一個 Web 頁而造成網(wǎng)絡(luò)通信流量。為了更有效,收集程序會交叉排列遠程 Web 位置的 URL 與其它 Web 位置的 URL,或者交叉排列遠程 Web 位置的 URL 與對文件系統(tǒng)文檔或其它存儲區(qū)的訪問。收集程序可能會使用額外的邏輯來提高爬行效率,比如 SharePoint Portal Server 適應(yīng)性爬行。它會對收集進程給爬行目標(biāo)服務(wù)器造成的負載保持平衡。收集程序維持著待處理的 URL 隊列,并管理聯(lián)合爬行。對訪問的每個文檔,收集程序連續(xù)從協(xié)議處理程序獲得內(nèi)容,并傳遞給相應(yīng)的篩選器。
- 篩選器。 篩選器(也叫做 Ifilter)從特定的文檔格式中提取文字信息,比如 Microsoft Word 文檔或文本文件。例如,Microsoft 提供了 Microsoft Office 篩選器,它可從 Word、Microsoft Excel 和 Microsoft PowerPoint? 文件中提取術(shù)語。其它篩選器處理 HTML 或電子郵件。還有第三方篩選器,比如 Adobe 提供的 PDF 篩選器。
篩選器的任務(wù)是從文檔中提取文字信息流,放棄非文字信息和格式信息。篩選器生成文字串和屬性/值對,并把它傳遞給索引引擎。所有篩選器都是針對某個應(yīng)用程序編程接口 (API) 編寫的,它是 Microsoft 平臺軟件開發(fā)工具包 (SDK) 的組成部分。有關(guān)詳細信息,請參見“Using Custom Filters with Indexing Service”,網(wǎng)址是 http://msdn.microsoft.com/library/psdk/indexsrv/ixufilt_912d.htm。
- 斷字程序和詞干程序。斷字程序是一個判斷查詢或待爬行文檔的連續(xù)字符中字詞邊界的組件。詞干程序從給定的詞中提取詞根。例如,“running”、“ran”和“runner”都是“run”的變體。有些語言中,詞干程序可以將詞的詞根形式擴展為另外的形式。
SharePoint Portal Server 提供了英語、法語、西班牙語、日語、泰語、朝鮮語、繁體中文和簡體中文的斷字程序。Windows 2000 Server 索引服務(wù)的斷字程序用于荷蘭語、意大利語、瑞典語和德語。當(dāng) SharePoint Portal Server 爬行多語種文檔時,每種語言的自定義斷字程序可以使最后的術(shù)語整理結(jié)果對該語言來說更精確。如果只有某個語系的斷字程序,而沒有特定語言的斷字程序,則使用主要語言。例如,法語斷字程序會被用于處理加拿大法語文本。如果沒有特定語言的斷字程序,則使用中性斷字程序。字詞按中性字符(比如空格和標(biāo)點符號)來斷字。判斷在何處斷字的代碼是 Microsoft Search (MSSearch) 服務(wù)內(nèi)置的,不可更改。
- 索引引擎。索引引擎的作用是準(zhǔn)備內(nèi)容的反向索引。反向索引是每個術(shù)語一行的數(shù)據(jù)結(jié)構(gòu)。此行中有關(guān)于出現(xiàn)此術(shù)語的文檔的信息、出現(xiàn)次數(shù)以及該術(shù)語在每個文檔中的相關(guān)位置。反向索引可以應(yīng)用統(tǒng)計和概率公式,以便快速計算文檔的相關(guān)性。
諸如 Windows 或 Microsoft Outlook? 這樣沒有使用全文搜索的應(yīng)用程序需要在查詢時訪問每個文檔。這些應(yīng)用程序要遍歷每個文檔,用篩選器或其它老技術(shù)查找查詢詞。與反向索引相比,這個過程很慢。反向索引提供了直接訪問級別公式(而不是訪問源文檔)的能力。
- 級別。查詢評估最終將形成一組相關(guān)文檔。在關(guān)系數(shù)據(jù)庫中,每一行都會在或不在結(jié)果集合中。例如,當(dāng)用戶查詢“所有余額小于或等于 $30,000 的帳戶”時,它明確表達了應(yīng)返回帳戶表中的哪些行。而全文搜索任務(wù)卻更微妙。查詢并未明白體現(xiàn)所需的信息,而且檢索到的文檔在相關(guān)性方面也各不相同。相關(guān)性最強的文檔排在結(jié)果集合的最上面,而相關(guān)性較差的文檔對用戶仍然有用,所以排在下面。
在排列這個級別的時候,不同 Microsoft 全文搜索產(chǎn)品使用的算法也各不相同。Index Server 和 Site Server 3.0 使用基于矢量的級別算法,而后期的產(chǎn)品則采用先進的概率算法。
查詢語言
要想向系統(tǒng)表達信息請求,用戶要用一種語言來描述對查詢詞的限制和條件。例如,用戶可能對上周發(fā)布的所有文檔感興趣。要想查詢這些文檔,用戶必須同時表達文檔的“發(fā)布”概念和精確的時間范圍(比如從上個周一開始,到上個周日為止)。
Microsoft 全文搜索產(chǎn)品的發(fā)展經(jīng)歷了三種不同的查詢語言:
- Query Dialect 1
- 結(jié)構(gòu)化查詢語言 (SQL) 全文擴展
- Query Dialect 2
有關(guān)查詢語言的詳細信息,請參見“Platform SDK”,網(wǎng)址是 http://msdn.microsoft.com/library/psdk/indexsrv/ixqlang_92xx.htm。
以下各節(jié)討論采用了 Microsoft 全文搜索技術(shù)的 Microsoft 產(chǎn)品。每節(jié)都包括產(chǎn)品概述、目標(biāo)用戶以及全文搜索技術(shù)與該產(chǎn)品的集成方式。
Microsoft SharePoint Portal Server
概述
SharePoint Portal Server 是一個靈活的門戶解決方案,允許您方便地查找、共享和發(fā)布信息。有了 SharePoint Portal Server,您可以有效地使用現(xiàn)有信息,并用適合您業(yè)務(wù)的新方法獲得信息。此外,您可以快速部署現(xiàn)成的儀表盤站點,并方便地使用 Web 部件技術(shù)來自定義貴單位基于 Web 的視圖。
有關(guān) SharePoint Portal Server 的更多信息,請參見 http://www.microsoft.com/sharepoint。
目標(biāo)
SharePoint Portal Server 的目標(biāo)是 Intranet 門戶解決方案,從團隊門戶開始,直到企業(yè)門戶。
搜索功能
SharePoint Portal Server 提供了最新、最豐富的搜索和信息查找功能。
數(shù)據(jù)訪問。SharePoint Portal Server 利用協(xié)議處理程序和收集程序來爬行不同內(nèi)容來源的數(shù)據(jù),并對這些數(shù)據(jù)進行搜索。現(xiàn)成的 SharePoint Portal Server 可以爬行以下來源的數(shù)據(jù):
- 文件系統(tǒng)
- Web 站點
- Exchange 2000 Server 和 Exchange Server 5.5 計算機
- Lotus Notes 服務(wù)器
- 其它 SharePoint Portal Server 工作區(qū)
雖然 SharePoint Portal Server 不能直接訪問 OLE DB、開放式數(shù)據(jù)庫連接 (ODBC) 和其它關(guān)系數(shù)據(jù)訪問標(biāo)準(zhǔn),但它能使用 HTTP 爬行數(shù)據(jù)庫信息。為此,您必須創(chuàng)建一個呈現(xiàn)數(shù)據(jù)庫中每行信息的 Active Server Page (ASP) 頁。
Microsoft SharePoint Portal Server SDK 記錄協(xié)議處理程序接口。這個接口允許開發(fā)人員為使用其它特有數(shù)據(jù)訪問方法(比如文檔管理系統(tǒng)或歸檔解決方案)的文檔知識庫編寫協(xié)議處理程序。SharePoint Portal Server 的資源工具包中有一些協(xié)議處理程序,可以用于爬行文件傳輸協(xié)議 (FTP) 站點和 SharePoint Team Services 站點。
- 篩選器。 SharePoint Portal Server 中還有用于 Microsoft Office 文檔、HTML 文件、標(biāo)記圖形文件格式 (TIFF) 文件和文本文件的篩選器。TIFF 篩選器使 SharePoint Portal Server 可以爬行基于光學(xué)字符識別 (OCR) 技術(shù)的已保存的傳真數(shù)據(jù)。從 Exchange 公共文件夾篩選消息時,SharePoint Portal Server 可使用多用途 Internet 郵件擴展 (MIME) 篩選器,此程序是與 Windows 2000 一起提供的。SharePoint Portal Server 還支持第三方和自定義文件類型,比如 Adobe PDF 篩選器。有關(guān) PDF 篩選器的詳細信息,請訪問 Adobe Web 站點。
- 級別。SharePoint Portal Server 提供了一個概率級別高級算法,它基于 Microsoft 研究隊伍獲得的信息檢索成果。此算法可保證在搜索結(jié)果頂部返回與用戶查詢相關(guān)性最強的文檔,提高了用戶的效率和滿意度。
級別公式是由 Microsoft 研究人員和城市大學(xué)教授 Stephen Robertson 一起開發(fā)的,后者是著名的計算機專業(yè)興趣組協(xié)會信息檢索 (ACM SIGIR) 2000 Salton 獎項獲得者。Microsoft 全文搜索采用的級別公式就是這項研究的直接成果。在計算文檔的可能相關(guān)性時,此公式采用了以下幾個因數(shù):
- 文檔長度
- 查詢詞在整個文檔集合中出現(xiàn)的頻率
- 含有查詢詞的文檔的數(shù)量
- 整個文檔集合中的文檔數(shù)量
- 最佳匹配。此功能讓有相應(yīng)權(quán)限的用戶將單個文檔標(biāo)記為最適合特定查詢或類別的文檔。即使在最先進的概率級別環(huán)境中,某些文檔還是缺乏文字信息,不能在特定查詢詞的搜索結(jié)果中突出出來。最佳匹配功能可以最有效地解決這個問題,它有兩個方法,一是將特別標(biāo)定的文檔放在搜索結(jié)果列表的最上面,或者在用戶瀏覽類別時突出顯示這些文檔。SharePoint Portal Server 的現(xiàn)成儀表盤站點也能在文檔級別非常高時凸顯出最佳匹配文檔。
- 自動分類。除了簡單的搜索外,SharePoint Portal Server 還提供了自動分類。此功能允許用戶定義類別層次,然后在層次結(jié)構(gòu)內(nèi)用文檔集合示例作為培訓(xùn)示例。培訓(xùn)后,存儲在服務(wù)器上的文檔和爬行后的文檔會被自動標(biāo)記并顯示在類別層次結(jié)構(gòu)中。
- 方案支持。SharePoint Portal Server 使用升級和降級方法提供了與 Office 兼容的簡化了的方案管理工具。用戶可以定義文檔配置文件和相關(guān)屬性。在升級過程中,Office 文檔的屬性值被復(fù)制到一個 SharePoint Portal Server 文檔配置文件的屬性中。在降級時,SharePoint Portal Server 文檔配置文件中的屬性值被復(fù)制到 Office 文檔。SharePoint Portal Server 中的全文搜索與這個方案緊密集成。高級搜索使用屬性和文檔配置文件。
- 可擴展性和可編程性。SharePoint Portal Server 儀表盤站點基于 Microsoft 數(shù)字儀表盤技術(shù)。Microsoft 數(shù)字儀表盤技術(shù)允許您將商業(yè)應(yīng)用程序和自定義內(nèi)容方便地與 SharePoint Portal Server 的內(nèi)置全文搜索功能集成在一起。它以 Web 部件的形式提供查詢提交和搜索結(jié)果,可以與自定義 Web 部件一起方便地在儀表盤站點上共存。但是,查詢提交和搜索結(jié)果這兩個 Web 部件必須相互依存才能使用,因此必須位于 SharePoint Portal Server 計算機上。SharePoint Portal Server SDK 支持通過記錄搜索 API 來開發(fā)自定義搜索解決方案。您可以使用 ActiveX? 數(shù)據(jù)對象 (ADO)、OLE DB 或基于 Web 的分布式編輯和版本控制 (WebDAV) 協(xié)議來操作搜索。SharePoint Portal Server 沒有為管理其搜索、文檔管理和儀表盤站點功能提供自動接口。
- 查詢語言。SharePoint Portal Server 使用 SQL 全文擴展。查詢用分布式編輯和版本控制搜索和定位 (DASL) 請求(HTTPDAV 的一部分)提交。有關(guān)詳細信息,請參見 SharePoint Portal Server SDK。
- 訂閱。SharePoint Portal Server 訂閱功能使用戶可以訂閱文檔、文件夾、類別和搜索結(jié)果的更改信息。訂閱將一直作為長期查詢存在。出現(xiàn)更改時,訂戶將接到通知。要用編程方式添加訂閱,請參見 SharePoint Portal Server SDK。訂閱是使用 Persistent Query Service (PQS) 規(guī)則實施的。PQS 是一個反向查詢處理器。它對單個文檔評估一大組查詢,判斷哪些查詢與該文檔匹配。這樣可以在每個新文檔進入 SharePoint Portal Server 存儲區(qū)時識別匹配的訂閱。訂閱提供了“推”模式,以匹配全文搜索的“拉”模式。
- 適應(yīng)性爬行。Site Server 3.0 推出了增量爬行,它用比較時間戳的方法來只加入自上一次更新索引后更改的文檔。增量更新減少了重復(fù)爬行時的索引工作量。但是,增量更新不能取消每次爬行時比較以前已爬行文檔的時間戳的工作。適應(yīng)性爬行則更進一步。爬行時,適應(yīng)性爬行算法收集每個文檔更改率的統(tǒng)計信息。在以后的適應(yīng)性爬行中,算法只針對那些可能已經(jīng)被更改過的文檔。
SharePoint Portal Server 并不完全取代 Site Server 的功能,但 SharePoint Portal Server 中使用的搜索技術(shù)比 Site Server 使用的搜索技術(shù)要新得多。此外,SharePoint Portal Server 使用高級級別算法,并有允許搜索現(xiàn)成儀表盤站點的高級功能。這些高級功能包括最佳匹配、類別和 Office 方案集成。
SharePoint Portal Server 通過提供多線程索引引擎,提供了比 Site Server 3.0 優(yōu)越得多的索引性能,適應(yīng)性爬行的使用也大大減少了執(zhí)行增量索引所需的時間。
Microsoft 索引服務(wù)
概述
索引服務(wù)是 Microsoft Windows 2000 對文件系統(tǒng)和 Web 服務(wù)器的一項基本服務(wù)。它以前叫做 Index Server,原來的功能是爬行和創(chuàng)建 Internet Information Services (IIS) Web 服務(wù)器內(nèi)容的類別。索引服務(wù)現(xiàn)在可創(chuàng)建文件系統(tǒng)及虛擬 Web 站點內(nèi)容和屬性的類別。
目標(biāo)
作為一個操作系統(tǒng)組件,索引服務(wù)的目標(biāo)用戶與 Windows 的目標(biāo)用戶一樣廣泛。索引服務(wù)的目標(biāo)是用戶桌面,為個人用戶帶來搜索存儲在本地磁盤上信息的增強體驗。在 Windows 中,當(dāng)您單擊“開始”菜單中的“搜索”按鈕,按 CTRL + F,單擊 Windows 資源管理器中的“搜索”按鈕以及單擊 Office XP 中的搜索任務(wù)窗格的時候,索引服務(wù)就出現(xiàn)了。索引服務(wù)提供管理和查詢對象,利用它們可以快速開發(fā)自定義搜索應(yīng)用程序。索引服務(wù)類別可以擴展,以包括遠程文件共享中的信息。這樣的自定義應(yīng)用程序可以用于垂直應(yīng)用程序或用戶組,并可以爬行多個位置的信息。
索引服務(wù)可以從 Internet 站點提供全文搜索。索引服務(wù)可以用于驅(qū)動自定義搜索 Web 應(yīng)用程序。除了查詢語言支持外,索引服務(wù)還提供了面向自定義應(yīng)用程序開發(fā)人員的全面編程功能:用于查詢和管理的腳本對象、OLE DB 提供程序以及 ADO 兼容性。
搜索功能
- 數(shù)據(jù)訪問。索引服務(wù)并不包括跨協(xié)議的收集組件。它可以訪問文件系統(tǒng)中的所有數(shù)據(jù),包括本地文件系統(tǒng)和遠程計算機上的共享文件系統(tǒng)。索引服務(wù)利用 IIS 配置數(shù)據(jù)庫 (Metabase) 來了解將哪些文件映射到 Web 站點內(nèi)容,從而簡化了 Web 站點內(nèi)容的索引。然后索引服務(wù)根據(jù) IIS 配置數(shù)據(jù)庫的信息爬行本地 Web 站點。索引服務(wù)并不使用 HTTP 協(xié)議來爬行 Web 站點。因此,索引服務(wù)不能爬行動態(tài)呈現(xiàn)的內(nèi)容(如引用數(shù)據(jù)庫的 ASP 頁)和每個用戶各不相同的個性化內(nèi)容。
- 篩選器。索引服務(wù)使用操作系統(tǒng)上已經(jīng)安裝的篩選器,包括新聞和電子郵件 MIME 篩選器、Office 文檔的 Office 篩選器以及 HTML 篩選器。
- 級別。索引服務(wù)使用基于矢量空間模型的級別算法。該算法的有關(guān)信息在 Platform SDK 中。使用的默認算法是 Jaccard 公式。有關(guān)索引服務(wù)的級別公式的更多信息,請參見 http://msdn.microsoft.com/library/psdk/indexsrv/ixqlang_5dtf.htm。
- 方案支持。索引服務(wù)提供豐富廣泛的方案支持。使用 Microsoft 管理控制臺 (MMC),用戶可以查看來自文檔的所有建立了索引的屬性,并指定哪些屬性要保存到屬性高速緩存,以便迅速檢索。
- 可擴展性和可編程性。索引服務(wù)為全文搜索應(yīng)用程序提供了一個平臺。它包括一個完整的編程接口集:用于管理和查詢的腳本接口以及一個用于搜索的 OLE DB 提供程序。Platform SDK 中提供了與索引服務(wù)編程接口有關(guān)的更多信息。
- 查詢語言。索引服務(wù)通過靈活的查詢語言提供了快速訪問文件的途徑。索引服務(wù)支持 Query Dialect 1、Query Dialect 2 和 SQL 全文擴展。
Platform SDK 中有一個索引服務(wù) 3.0(與 Windows 2000 一起提供)的新功能列表。詳細信息請參見 http://msdn.microsoft.com/library/default.asp?url=/library/en-us
/indexsrv/hh/indexsrv/ixintro_24og.asp。
開發(fā)自定義應(yīng)用程序時要想提供對 Internet 站點內(nèi)容的全文搜索,索引服務(wù)是一個高性能的解決方案。而對于主要采用結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序,它就不太合適了。這類應(yīng)用程序應(yīng)考慮使用 Microsoft SQL Server 2000。若考慮的是立即就能使用,或者用于需要聚合不同來源和來源類型的內(nèi)容的應(yīng)用程序,SharePoint Portal Server 是合適的選擇。
索引服務(wù)是一個可選的操作系統(tǒng)組件。文件系統(tǒng)內(nèi)容的初始索引需要大量資源,會影響桌面應(yīng)用程序的性能。因此,默認情況下并未啟用索引服務(wù)。
Microsoft SQL Server 2000
概述
SQL Server 2000 是一個產(chǎn)品系列,它滿足最大的數(shù)據(jù)處理系統(tǒng)和商業(yè) Web 站點的數(shù)據(jù)存儲和分析要求。SQL Server 2000 可以為個人或小企業(yè)提供便于使用的數(shù)據(jù)存儲和分析服務(wù)。
有關(guān) SQL Server 2000 的更多信息,請參見 http://www.microsoft.com/sql。
目標(biāo)
SQL 2000 中的全文搜索目標(biāo)是對以結(jié)構(gòu)化數(shù)據(jù)為主、但同時包括文字信息和非結(jié)構(gòu)化信息的數(shù)據(jù)進行搜索。
搜索功能
SQL Server 2000 采用的搜索引擎與 SharePoint Portal Server 相同,利用了同樣的高級級別算法的優(yōu)點,并使用了 SharePoint Portal Server 使用的針對 SQL 的全文擴展子集。
- 數(shù)據(jù)訪問。SQL server 中的全文搜索只能用于搜索存儲在 SQL 列中的內(nèi)容。
- 篩選器。SQL Server 2000 使用服務(wù)器上已經(jīng)安裝的篩選器來處理存儲在數(shù)據(jù)庫列中的文檔。用戶可以使用 IMAGE 類型的列來存儲文檔,然后另外用一列來指定文檔類型。接著由全文搜索根據(jù)文檔類型來應(yīng)用相應(yīng)的篩選器,比如 HTML、Office 或者第三方篩選器。此外,全文搜索可以應(yīng)用于 [N]CHAR、[N]VARCHAR 和 [N]TEXT 類型的列內(nèi)容。
- 可擴展性和可編程性。全文搜索 SQL 擴展與 T-SQL 語言集成在一起。用戶可以指定 SQL 查詢,這些查詢跨越 SQL 表的結(jié)構(gòu)化數(shù)據(jù)、以及 SQL 列中、列中嵌入的文檔中以及來自文件系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)。
有關(guān) SQL Server 全文搜索功能的更多信息,請參見 http://www.microsoft.com/SQL/evaluation/features/fulltext.asp。
全文搜索是作為 SQL Server 7.0 的一個 SQL 服務(wù)器功能出現(xiàn)的。有關(guān) SQL 7.0 中全文搜索的更多信息,請參見標(biāo)題為“Textual Searches on Database Data Using SQL Server 7.0”的白皮書,網(wǎng)址是
http://www.microsoft.com/SQL/techinfo/development/70/textsearch.asp。有關(guān)用 SQL Server 全文搜索將文件系統(tǒng)和 SQL 表結(jié)合在一起的信息,請參見標(biāo)題為“Textual Searches on File Data Using Microsoft SQL Server 7.0”的白皮書,網(wǎng)址是
http://www.microsoft.com/SQL/techinfo/administration/70/filedata.asp。
Microsoft Site Server
概述
Site Server 的設(shè)計目的是幫助您最佳利用企業(yè) Intranet。Site Server 允許用戶快捷地發(fā)布、查找和共享信息。它的功能包括巨大的搜索能力以及全面分析 Intranet 利用率和效率的多個工具。
Site Server Commerce Edition 是一個全面的 Internet 商務(wù)服務(wù)器,它允許您預(yù)定客戶、進行商業(yè)交易并分析商務(wù) Web 站點。Site Server Commerce Edition 具有高度的可伸縮性和安全性,簡化并集成了您與分銷商和供應(yīng)商的在線交易。
詳細信息請參見 http://www.microsoft.com/siteserver。
目標(biāo)
自 1998 年 5 月出現(xiàn) Site Server 3.0 Standard Edition 和 Site Server 3.0 Commerce Edition 以來,Web 市場已經(jīng)得到巨大發(fā)展。Site Server 3.0 Standard Edition 的目標(biāo)是 Intranet 空間,它允許用戶查找、分享信息并將信息發(fā)布到企業(yè) Intranet 上。相比之下,Site Server 3.0 Commerce Edition 的目標(biāo)是 Internet 空間,可以進行在線金融交易、分析交易并與消費者進行個性化互動。
從那以后,Intranet 市場需求發(fā)生了巨大變化,形成了一個門戶市場,對核心服務(wù)和應(yīng)用程序集成的需求越來越大,而且一直需要強健的企業(yè)范圍搜索功能。因此,產(chǎn)品重點也發(fā)生了相應(yīng)的變化。Site Server 3.0 Standard Edition 的搜索技術(shù)繼續(xù)在 SharePoint Portal Server 中得以運用。Site Server 3.0 Commerce Edition 的電子商務(wù)和 Internet 功能現(xiàn)在可以用 Microsoft E-Commerce Business Solutions 得到最佳體現(xiàn)。詳細信息請參見 http://www.microsoft.com/business/。
搜索功能
Microsoft Exchange 2000 Server
概述
Exchange 2000 Server 與 Windows 2000 操作系統(tǒng)無縫地集成在一起,設(shè)計用于滿足不同規(guī)模企業(yè)的消息傳遞和協(xié)作需求。與其客戶端軟件 Outlook 2000 一起使用時,Exchange 提供了一個非??煽?、可縮放并易于使用的消息傳遞和協(xié)作基礎(chǔ)結(jié)構(gòu)。
詳細信息請參見 http://www.microsoft.com/exchange。
目標(biāo)
如果您的主要用途是爬行電子郵件消息,則應(yīng)該使用 Exchange 2000 Server。利用 Exchange 2000 全文搜索,服務(wù)器可以在個人郵箱和所有用戶使用的公共文件夾中搜索傳遞的郵件。
如果您希望搜索電子郵件和其它來源,請使用 SharePoint Portal Server。但是 SharePoint Portal Server 不支持爬行專用郵箱。
搜索功能
Exchange 2000 Server 使用的搜索技術(shù)與 SharePoint Portal Server 相同。它使用群集能力經(jīng)過證明的版本。
- 數(shù)據(jù)訪問。數(shù)據(jù)訪問限于存儲在 Exchange 公共文件夾和郵箱中的信息。
- 篩選器。Exchange 全文搜索使用 MIME 篩選器來爬行傳遞的郵件。附件的處理要根據(jù)其內(nèi)容類型使用可用的篩選器。
- 級別。Exchange 2000 Server 使用的高級概率級別算法與 SharePoint Portal Server 相同。此算法可保證在搜索結(jié)果頂部返回與查詢相關(guān)性最強的文檔,提高了用戶的效率和滿意度。
- 可擴展性和可編程性。Exchange 2000 Server 在搜索時使用 HTTPDAV 協(xié)議,特別是 DASL。詳細信息請參見
http://msdn.microsoft.com/library/backgrnd/html/webstorewp.htm。
- 查詢語言。Exchange 2000 中的全文搜索通過分布式編輯和版本控制 (DAV) 協(xié)議使用并支持 SQL 全文擴展。使用 Exchange 2000 時,Outlook 的高級搜索可以利用 Exchange 全文搜索。然后將自然語言查詢直接提交到服務(wù)器。它沒有 SQL 查詢語言的客戶端支持。
有關(guān)詳細信息,請參見標(biāo)題為“Best Practices for Deploying Full-Text Indexing”的白皮書,網(wǎng)址是
http://www.microsoft.com/exchange/techinfo/deployment/2000/BestIndexing.doc。
Microsoft Office XP 搜索
概述
世界領(lǐng)先的效率軟件套件 Microsoft Office 可幫助您完成常見的工作任務(wù),包括字處理、電子郵件、演示文稿、數(shù)據(jù)管理和分析等。
目標(biāo)
如果您是 Office 用戶,而且您希望在桌面工作,請使用 Office XP 搜索。Office XP 使您不僅可以搜索本地硬盤,而且還能搜索文件共享和 SharePoint Portal Server 計算機。
搜索功能
- 數(shù)據(jù)訪問。在 Windows 2000 計算機上,如果啟用了索引服務(wù),它會創(chuàng)建一個本地磁盤索引。在運行 Microsoft Windows NT? 4.0 版本、Windows 98 或 Windows Millennium 的計算機上,Microsoft Office XP 提供一個 SharePoint Portal Server 上使用的搜索引擎版本,用于爬行本地磁盤。索引服務(wù)或 Office 搜索索引引擎則由用戶自己激活。如果未啟用索引,Office XP 則提供一個速度較慢、未建立索引形式的搜索。
- 用戶界面。 Office XP 提供一個搜索任務(wù)窗格,可以通過 Word、Excel 和 PowerPoint 訪問。
- 高級功能。任務(wù)窗格提供對用戶本地硬盤、遠程服務(wù)器(通過索引服務(wù))、SharePoint Portal Server 計算機、SharePoint Team Services 站點(其全文搜索功能采用索引服務(wù))和 Outlook 郵件(PST 文件或 Exchange 郵箱)的聯(lián)合搜索。查詢代理組件將搜索命令分配給每個存儲區(qū)的搜索提供程序。
- 可擴展性和可編程性。Office 應(yīng)用程序可以通過一個類似 FindFast API 的 API 對這些搜索查詢代理進行編程。詳細信息請參見
http://www.microsoft.com/office/ork/xp/five/wgtd01.htm。
結(jié)論
本白皮書介紹了全文搜索的基本概念,并解釋了不同 Microsoft 產(chǎn)品是如何應(yīng)用全文搜索的。這些信息可以幫助您確哪些 Microsoft 產(chǎn)品最適合您的信息檢索需求。
附錄 A 提供了以下產(chǎn)品的技術(shù)對比和功能對比:
- SharePoint Portal Server
- 索引服務(wù)
- Site Server
- SQL Server 2000
- Exchange 2000 Server
- Office XP
附錄 A - 對比表
下面的這些表格顯示了以下產(chǎn)品的技術(shù)對比和功能對比:
- SharePoint Portal Server
- 索引服務(wù)
- Site Server
- SQL Server 2000
- Exchange 2000 Server
- Office XP
技術(shù)對比
|
SharePoint Portal Server
|
索引服務(wù)
|
Site Server
|
SQL Server 2000
|
Exchange 2000 Server
|
Windows 2000 上的 Office XP
|
Windows 98 或 Millennium Edition 上的 Office XP
|
使用專門查詢語言的全文搜索
|
|
|
|
|
|
|
|
使用 SQL 全文擴展的全文搜索
|
|
|
|
|
|
|
|
布爾型級別算法
|
|
|
|
|
|
|
|
高級概率級別算法
|
|
|
|
|
|
|
|
使用多個數(shù)據(jù)訪問協(xié)議
|
|
|
|
|
|
|
|
功能比較
|
SharePoint Portal Server
|
索引服務(wù)
|
Site Server
|
SQL Server 2000
|
Exchange 2000 Server
|
Windows 2000 上的 Office XP
|
Windows 98 或 Millennium Edition 上的 Office XP
|
爬行:
|
|
|
|
|
|
|
|
文件系統(tǒng)
|
|
|
|
|
|
僅本地
|
僅本地
|
Web 站點
|
|
僅本地,通過文件系統(tǒng)
|
|
|
|
|
|
Lotus Notes
|
|
|
|
|
|
|
|
Exchange 5,5
|
公共文件夾
|
|
|
|
|
|
|
Exchange 2000
|
公共文件夾
|
|
|
|
公共文件夾和專用郵箱
|
|
|
SQL 表
|
通過 ASP
|
|
通過 ASP
|
|
|
|
|
SharePoint Portal Server 工作區(qū)
|
|
|
|
|
|
|
|
第三方協(xié)議
|
|
|
|
|
|
|
|
最佳匹配
|
|
|
|
|
|
|
|
類別
|
|
|
|
|
|
|
|
最終用戶界面
|
儀表盤站點
|
Windows 2000 上的 Windows 資源管理器和自定義
|
自定義
|
自定義
|
Outlook(通過高級查找),自定義
|
Office 搜索任務(wù)窗格
|
Office 搜索任務(wù)窗格
|
有關(guān)詳細信息,請參閱: http://www.microsoft.com/sharepoint/ 和
http://www.microsoft.com/technet/prodtechnol/sharepoint/default.asp。
本文檔所包含的信息代表了在發(fā)布之日,Microsoft Corporation 對所討論問題的當(dāng)前看法。因為 Microsoft 必須順應(yīng)不斷變化的市場條件,故該文檔不應(yīng)理解為 Microsoft 一方的承諾,Microsoft 不保證所給信息在發(fā)布之日以后的準(zhǔn)確性。
本白皮書僅供參考。在本文檔中,MICROSOFT 不做任何明示或暗示的保證。
用戶必須遵守所有適用的版權(quán)法。在不對版權(quán)法所規(guī)定的權(quán)利加以限制的情況下,未得到 Microsoft 公司明確的書面許可,不得為任何目的、以任何形式或手段(電子的、機械的、影印、錄制等等)復(fù)制、傳播本文的任何部分,也不得將其存儲或引入到檢索系統(tǒng)中。
Microsoft 可能擁有本文檔主題涉及到的專利、專利使用、商標(biāo)、版權(quán)或其它知識產(chǎn)權(quán)。除非在 Microsoft 書面許可協(xié)議中明確提到,否則購買本文檔并不向您提供其中的任何專利、商標(biāo)、版本或其他知識產(chǎn)權(quán)。
此處作為例子提到的公司、組織、產(chǎn)品、人和事件均屬虛構(gòu)。決不意指任何實際的公司、機構(gòu)、產(chǎn)品、人員和事件。
? 2001 Microsoft Corporation。保留所有權(quán)利。
Microsoft、ActiveX、Outlook、PowerPoint、SharePoint、Windows 和 Windows NT 是 Microsoft Corporation 在美國和/或其它國家(地區(qū))的注冊商標(biāo)或商標(biāo)。
此處提到的實際公司和產(chǎn)品名稱可能是其各自所有者的商標(biāo)。