1. 前言
7 N) U. z& C# O/ k2 f/ X" T( X ]: a8 N6 O0 \ 1.1 應(yīng)用背景
6 I+ x/ V e+ ?9 k% C" @ D$ x8 ^; i: n5 ]隨著我國(guó)zhengfu和企業(yè)信息化的快速普及和發(fā)展,來(lái)自于供應(yīng)鏈、企業(yè)生產(chǎn)系統(tǒng)、辦公自動(dòng)化(或公文行文)系統(tǒng)、人事績(jī)效系統(tǒng)、財(cái)務(wù)管理系統(tǒng)等無(wú)一不在積累著各類(lèi)數(shù)據(jù)。不僅如此,來(lái)自于企業(yè)門(mén)戶網(wǎng)站、通過(guò)各種手持移動(dòng)設(shè)備傳遞的會(huì)議通知、保存在業(yè)務(wù)員筆記本和PDA中的離線產(chǎn)品報(bào)價(jià)和短期個(gè)人銷(xiāo)售信息也不一而足。可以說(shuō)信息無(wú)處不在、無(wú)時(shí)不在、無(wú)設(shè)備不在,但是它們是否可以在您的手中,即zhengfu和企業(yè)的信息系統(tǒng)是否可以把員工需要的信息呈送到他們的指尖之下,這恐怕是另一回事了。信息化普遍實(shí)施后,數(shù)據(jù)獲取方式、獲取手段的局限,是國(guó)內(nèi)信息化建設(shè)主要面臨的尷尬現(xiàn)狀。
6 Z9 F& r6 K3 D& F

圖1:Your Data,Any Where、Any Time、Any Device. But not on your finger.
1.2 主要檢索技術(shù)的區(qū)別
) s- d; p) S3 f1 d7 M* @& F$ m0 C. B% @7 h
有了數(shù)據(jù)但是沒(méi)有被使用,那么這些數(shù)據(jù)不應(yīng)該被稱(chēng)為信息。它們無(wú)非是不斷充斥設(shè)備和網(wǎng)絡(luò)的比特而已,但是如何把數(shù)據(jù)提供給必要的人員,檢索技術(shù)是其中非常有效的途徑之一。本文筆者主要基于微軟平臺(tái),針對(duì)SQL Server 2005提供的全文檢索技術(shù)進(jìn)行介紹。與關(guān)系數(shù)據(jù)查詢、多維數(shù)據(jù)庫(kù)查詢和基于XML的XQuery、XPath不同,全文檢索技術(shù)主要處理對(duì)象是基于超大數(shù)據(jù)量的文本數(shù)據(jù)和結(jié)構(gòu)化的二進(jìn)制數(shù)據(jù)上類(lèi)似LIKE的模糊查詢。主要區(qū)別見(jiàn)下表。
|
關(guān)系數(shù)據(jù)庫(kù)查詢 |
多維數(shù)據(jù)查詢 |
XML查詢 |
全文檢索 |
檢索技術(shù) |
SQL |
MDX |
XQuery、XPath |
SQL (extension) |
主要處理對(duì)象 |
關(guān)系二維數(shù)據(jù) |
結(jié)構(gòu)化多維數(shù)據(jù) |
層次型數(shù)據(jù) |
大容量二維和層次型數(shù)據(jù)的模糊檢索 |
主要應(yīng)用領(lǐng)域 |
一般的OLTP類(lèi)應(yīng)用 |
一般的OLAP類(lèi)分析型應(yīng)用 |
面向Internet、Intranet的松散耦合SOA應(yīng)用 |
企業(yè)內(nèi)部知識(shí)管理類(lèi)應(yīng)用 |
索引 |
大量使用非聚簇索引,一般保存在數(shù)據(jù)庫(kù)中。 |
通過(guò)層次型、保存中間結(jié)果的方式,通過(guò)不同的軸向快速定位信息剖面。 |
基于XPath的索引,索引一般保存在數(shù)據(jù)庫(kù)中。 |
基于關(guān)鍵字的索引,保存在文件系統(tǒng)中。每個(gè)表僅支持一個(gè)索引。 |
表1:全文檢索與關(guān)系數(shù)據(jù)庫(kù)查詢、多維數(shù)據(jù)查詢、XML查詢的對(duì)比