多媒體技術(shù)和Internet的發(fā)展給人們帶來(lái)巨大的多媒體信息海洋,并進(jìn)一步導(dǎo)致了超大型多媒體信息庫(kù)的產(chǎn)生,光憑關(guān)鍵詞是很難做到對(duì)多媒體信息的描述和檢索的,這就需要有一種針對(duì)多媒體的有效的檢索方式。如何有效的幫助人們快速、準(zhǔn)確地找到所需要的多媒體信息,成了多媒體信息庫(kù)所要解決的核心問(wèn)題。
基于內(nèi)容的信息檢索(Content-Based Retrival)是一種新的檢索技術(shù),是對(duì)多媒體對(duì)象的內(nèi)容及上下文語(yǔ)義環(huán)境進(jìn)行檢索,如對(duì)圖像中的顏色、紋理,或視頻中的場(chǎng)景、片斷進(jìn)行分析和特征提取,并基于這些特征進(jìn)行相似性匹配。
基于內(nèi)容的圖像檢索:
它是根據(jù)分析圖像的內(nèi)容,提取其顏色、形狀、紋理,以及對(duì)象空間關(guān)系等信息,建立圖像的特征索引。目前有的圖像檢索系統(tǒng)有:
- QBIC(Query By Image Content)是IBM Almaden研究中心開發(fā)的第一個(gè)商用基于內(nèi)容的圖像及視頻檢索系統(tǒng),它提供了對(duì)靜止圖像及視頻信息基于內(nèi)容的檢索手段,其系統(tǒng)結(jié)構(gòu)及所用技術(shù)對(duì)后來(lái)的視頻檢索有深遠(yuǎn)的影響;
- 由MIT的媒體實(shí)驗(yàn)室開發(fā)研制的Photobook,圖像在存儲(chǔ)時(shí)按人臉、形狀或紋理特性自動(dòng)分類,圖像根據(jù)類別通過(guò)顯著語(yǔ)義特征壓縮編碼;
- 美國(guó)哥倫比亞大學(xué)開發(fā)的VisualSEEK圖像查詢系統(tǒng),該系統(tǒng)的主要特點(diǎn)是用到了圖像區(qū)域的空間關(guān)系查詢和直接從壓縮數(shù)據(jù)中提取視覺特征。
- EXCALIBUR技術(shù)公司開發(fā)的retrieval ware系統(tǒng);
- Virage公司開發(fā)的virage檢索系統(tǒng)能;
- 香港中央圖書館的多媒體信息系統(tǒng)(MMIS)是IBM和分包商ICO于1999年底開始承建190萬(wàn)美元的數(shù)字圖書館項(xiàng)目,被認(rèn)為是世界上最大且最復(fù)雜的“中文/英文”雙語(yǔ)圖書館服務(wù)之一,其采用的DB2 Text 和Image Extenders既支持文本查找,也支持圖片查找。
基于內(nèi)容的視頻檢索:
基于內(nèi)容的視頻信息檢索是當(dāng)前多媒體數(shù)據(jù)庫(kù)發(fā)展的一個(gè)重要研究領(lǐng)域,它通過(guò)對(duì)非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理,采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語(yǔ)義的視頻片段——鏡頭,作為檢索的基本單元,在此基礎(chǔ)上進(jìn)行代表幀(representative frame)的提取和動(dòng)態(tài)特征的提取,形成描述鏡頭的特征索引;依據(jù)鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭之間的關(guān)系,把內(nèi)容相近的鏡頭組合起來(lái),逐步縮小檢索范圍,直至查詢到所需的視頻數(shù)據(jù)。其中,視頻分割、代表幀和動(dòng)態(tài)特征提取是基于內(nèi)容的視頻檢索的關(guān)鍵技術(shù)。目前相關(guān)的研究有:
- MPEG-7標(biāo)準(zhǔn)稱為“多媒體內(nèi)容描述接口”(Multimedia Content Description Inteface) ,它是一種多媒體內(nèi)容描述的標(biāo)準(zhǔn),它定義了描述符、描述語(yǔ)言和描述方案,對(duì)多媒體信息進(jìn)行標(biāo)準(zhǔn)化的描述,實(shí)現(xiàn)快速有效的檢索;
- JJACOB基于內(nèi)容的視頻檢索系統(tǒng),可進(jìn)行視頻自動(dòng)發(fā)段并從中抽取代表幀,并可按彩色及紋理特征以代表幀描述基于內(nèi)容的檢索;
- 卡內(nèi)基·梅隆大學(xué)的informedia數(shù)字視頻圖書館系統(tǒng),結(jié)合語(yǔ)音識(shí)別、視頻分析和文本檢索技術(shù),支持2000小時(shí)的視頻廣播的檢索;實(shí)現(xiàn)全內(nèi)容的、基于知識(shí)的查詢和檢索。
基于內(nèi)容的音頻檢索:
基于內(nèi)容的圖像檢索要提取顏色、紋理、形狀等特征,視頻檢索要提取關(guān)鍵幀特征,同樣要實(shí)現(xiàn)基于內(nèi)容的音頻檢索,必須從音頻數(shù)據(jù)中提取聽覺特征信息。音頻特征可以分為:聽覺感知特征和聽覺非感知特征(物理特性),聽覺感知特征包括音量、音調(diào)、音強(qiáng)等。在語(yǔ)音識(shí)別方面,IBM的Via Voice已趨于成熟,另外劍橋大學(xué)的VMR系統(tǒng),以及卡內(nèi)基悔隆大學(xué)的Informedia都是很出色的音頻處理系統(tǒng)。在基于內(nèi)容的音頻信息檢索方面,美國(guó)的Muscle fish公司推出了較為完整的原型系統(tǒng),對(duì)音頻的檢索和分類有較高的準(zhǔn)確率。
基于內(nèi)容的多媒體檢索是一個(gè)新興的研究領(lǐng)域,國(guó)內(nèi)外都處于研究、探索階段。目前仍存在著諸如算法處理速度慢、漏檢誤檢率高、檢索效果無(wú)評(píng)價(jià)標(biāo)準(zhǔn)、支持多種檢索手段缺少等問(wèn)題。但隨著多媒體內(nèi)容的增多和存儲(chǔ)技術(shù)的提高,對(duì)基于內(nèi)容的多媒體檢索的需求將更加上升。
|