CTI論壇: 認(rèn)準(zhǔn)語(yǔ)音識(shí)別的“內(nèi)核”

篩子 2006-03-15

展開全文

劉學(xué)習(xí) 2002/07/12

有專家說(shuō)，語(yǔ)音識(shí)別用途廣泛，潛力巨大，但要真正實(shí)現(xiàn)人與計(jì)算機(jī)的自然交流卻很難，它不僅需要高深的基礎(chǔ)理論的突破，更需要大量的實(shí)際工作的積累。

語(yǔ)音交互就要實(shí)現(xiàn)？

1996年，IBM公司發(fā)布了VoiceType中文語(yǔ)音識(shí)別軟件，首次將其語(yǔ)音識(shí)別產(chǎn)品介紹給中國(guó)用戶;1997年9月，IBM推出了ViaVoice中文連續(xù)語(yǔ)音識(shí)別系統(tǒng)，標(biāo)志著中文語(yǔ)音識(shí)別技術(shù)商業(yè)化進(jìn)程開始啟動(dòng)。

然而，語(yǔ)音識(shí)別技術(shù)并不是一夜之間冒出來(lái)的神話，自從有了計(jì)算機(jī)，人們就開始了語(yǔ)音識(shí)別技術(shù)的研究，因此可以說(shuō)語(yǔ)音識(shí)別的歷史和計(jì)算機(jī)一樣長(zhǎng)。特別是在70年代前后，研究的脈絡(luò)日漸清晰，貝爾實(shí)驗(yàn)室和IBM等都先后建立了專門的研究機(jī)構(gòu)。今天這兩家公司在這一領(lǐng)域都已取得了顯著的成果，并且在商業(yè)上應(yīng)用成功，貝爾實(shí)驗(yàn)室主要偏重于電信方面應(yīng)用的語(yǔ)音識(shí)別系統(tǒng)，如電話查詢等；而IBM則偏重于商務(wù)應(yīng)用，因而在連續(xù)語(yǔ)音識(shí)別上取得了不小的成功。

不談商業(yè)方面的應(yīng)用，事實(shí)上，很多公司都提供語(yǔ)音識(shí)別的引擎(Engine)，并且都表示能支持微軟的SAPI?？匆豢碨API 4.0SUITE就不難發(fā)現(xiàn)，微軟在這方面的研究并不遜色，只是很奇怪它居然沒(méi)有將成果商業(yè)化。微軟同時(shí)提供了一系列引擎，如SpeechRecognition(語(yǔ)音識(shí)別)、Command&Control(發(fā)布指令并控制)、PhoneQuery(電話語(yǔ)音識(shí)別)、Texttospeech(文本語(yǔ)音轉(zhuǎn)換)等。

今天，許多用戶已能享受到語(yǔ)音技術(shù)的優(yōu)勢(shì)了，可以對(duì)計(jì)算機(jī)發(fā)送命令，或者要求計(jì)算機(jī)記錄用戶所說(shuō)的話，以及將文本轉(zhuǎn)換成聲音朗讀出來(lái)。盡管如此，距離真正的人機(jī)自由交流的境界似乎還很遙遠(yuǎn)。現(xiàn)在已有商用系統(tǒng)存在的主要問(wèn)題是：系統(tǒng)魯棒性還有待改進(jìn)，如對(duì)于噪聲環(huán)境下或方言的語(yǔ)言識(shí)別率和穩(wěn)健性等都不盡如人意。

不可否認(rèn)，語(yǔ)音識(shí)別技術(shù)還有一段路需要走，要做到真正成功的商業(yè)化，它還需要在很多方面取得突破性進(jìn)展，這實(shí)際上也是其技術(shù)的未來(lái)走向。

語(yǔ)音識(shí)別難在哪兒？

計(jì)算機(jī)自動(dòng)語(yǔ)音識(shí)別就是讓計(jì)算機(jī)能聽懂人說(shuō)話。這一問(wèn)題曾經(jīng)被一位知名的美國(guó)教授稱之為是“比登月還難”的科學(xué)難題。其實(shí)，人們很早就認(rèn)識(shí)到語(yǔ)音識(shí)別對(duì)于人類生活的重要性。世界上第一臺(tái)計(jì)算機(jī)問(wèn)世之后，馬上就有人想到要讓計(jì)算機(jī)聽懂人說(shuō)話。所以說(shuō)，語(yǔ)音識(shí)別的研究歷史與計(jì)算機(jī)的發(fā)展歷史一樣長(zhǎng)。計(jì)算機(jī)的發(fā)展已經(jīng)經(jīng)歷了好幾代，今天已經(jīng)進(jìn)入到了普通家庭。但是，語(yǔ)音識(shí)別方面的產(chǎn)品卻遲遲未能進(jìn)入市場(chǎng)。那么，它難在哪兒呢？

計(jì)算機(jī)語(yǔ)音識(shí)別是一個(gè)模式識(shí)別匹配的過(guò)程。在這個(gè)過(guò)程中，計(jì)算機(jī)首先要根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型，對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析，并抽取所需的特征，在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板。而計(jì)算機(jī)在識(shí)別過(guò)程中要根據(jù)語(yǔ)音識(shí)別的整體模型，將計(jì)算機(jī)中存放的語(yǔ)音模板與輸入的語(yǔ)音信號(hào)的特征進(jìn)行比較，根據(jù)一定的搜索和匹配策略，找出一系列最優(yōu)的與輸入的語(yǔ)音匹配的模板。然后，據(jù)此模板的定義，通過(guò)查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。顯然，這種最優(yōu)的結(jié)果與特征的選擇、語(yǔ)音模型和語(yǔ)言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。

一個(gè)語(yǔ)音識(shí)別系統(tǒng)性能好壞的關(guān)鍵首先是它所采用的語(yǔ)音模型能否真實(shí)地反映話音的物理變化規(guī)律，所用的語(yǔ)言模型能否表達(dá)自然語(yǔ)言所包含的豐富語(yǔ)言學(xué)知識(shí)。然而無(wú)論是語(yǔ)音信號(hào)還是人類的自然語(yǔ)言都是隨機(jī)、多變和不穩(wěn)定的，很難把握。這就是目前語(yǔ)音識(shí)別過(guò)程中的最大難點(diǎn)。

其次，模板訓(xùn)練的好壞也直接關(guān)系到語(yǔ)音識(shí)別系統(tǒng)識(shí)別率的高低。為了得到一個(gè)好的模板，往往需要有大量的原始語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音模型。因此，在開始進(jìn)行語(yǔ)音識(shí)別研究之前，首先要建立起一個(gè)龐大的語(yǔ)音數(shù)據(jù)庫(kù)和語(yǔ)料數(shù)據(jù)庫(kù)。一個(gè)好的語(yǔ)音數(shù)據(jù)庫(kù)包括足夠數(shù)量、具有不同性別、年齡、口音說(shuō)話人的聲音，并且必須要有代表性，能均衡地反映實(shí)際使用情況。

有了語(yǔ)音數(shù)據(jù)庫(kù)及語(yǔ)音特征，就可以建立語(yǔ)音模型，并用語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音來(lái)訓(xùn)練這個(gè)語(yǔ)音模型。訓(xùn)練過(guò)程是指選擇系統(tǒng)的某種最佳狀態(tài)（如對(duì)語(yǔ)音庫(kù)中的所有語(yǔ)音有最好的識(shí)別率），不斷地調(diào)整系統(tǒng)模型（或模板）的參數(shù)，使系統(tǒng)模型的性能不斷向這種最佳狀態(tài)逼近的過(guò)程。這是一個(gè)復(fù)雜的過(guò)程，要求計(jì)算機(jī)有強(qiáng)大的計(jì)算能力，并有很強(qiáng)的理論指導(dǎo)，才能保證得到良好的訓(xùn)練結(jié)果。

當(dāng)語(yǔ)音識(shí)別系統(tǒng)對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí)，相對(duì)來(lái)說(shuō)，其識(shí)別過(guò)程要比訓(xùn)練過(guò)程簡(jiǎn)單，對(duì)計(jì)算機(jī)的運(yùn)算能力要求也很低，并且速度較快。這有利于實(shí)時(shí)地實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)和進(jìn)行商品化開發(fā)應(yīng)用。

那么,制約語(yǔ)音識(shí)別技術(shù)發(fā)展的根本是什么呢?接受記者采訪的清華大學(xué)王作英教授認(rèn)為,語(yǔ)音識(shí)別的關(guān)鍵是其依據(jù)的模型和算法,模型算法是計(jì)算機(jī)描述語(yǔ)音的能力能否抓住人的語(yǔ)音的本質(zhì)的關(guān)鍵。在語(yǔ)音識(shí)別領(lǐng)域，固然有資金實(shí)力、人力資源等的競(jìng)爭(zhēng)，但最根本是其關(guān)鍵核心技術(shù)——模型和算法的競(jìng)爭(zhēng)。

DTW逐漸淡出HMM占據(jù)統(tǒng)治地位

要建立一個(gè)語(yǔ)音識(shí)別系統(tǒng)僅有一個(gè)好的語(yǔ)音特征還不夠，還要有一個(gè)好的語(yǔ)音識(shí)別的模型和算法。在語(yǔ)音識(shí)別系統(tǒng)中通常分為兩個(gè)部分：聲學(xué)層部分主要研究如何充分利用語(yǔ)音信號(hào)中的信息;語(yǔ)音學(xué)層部分主要研究如何充分利用已有語(yǔ)音學(xué)知識(shí)來(lái)提高系統(tǒng)的識(shí)別率。目前，大家關(guān)注的中心是低層中聲學(xué)層部分所涉及的模型和算法。

目前，在研發(fā)語(yǔ)音識(shí)別系統(tǒng)時(shí)常用的算法有基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別算法、基于動(dòng)態(tài)時(shí)間歸整匹配(DTW)的識(shí)別算法和基于統(tǒng)計(jì)的隱含馬爾可夫模型（HMM）識(shí)別和訓(xùn)練算法。

基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識(shí)別算法由于實(shí)現(xiàn)起來(lái)較復(fù)雜，且識(shí)別率并不見得比基于統(tǒng)計(jì)的語(yǔ)音識(shí)別模型好，因此，這種算法目前仍處于實(shí)驗(yàn)室研究階段。

基于動(dòng)態(tài)時(shí)間歸整匹配的DTW算法從目前來(lái)看，可能是一個(gè)最為小巧的語(yǔ)音識(shí)別的算法。其系統(tǒng)開銷小，識(shí)別速度快，在對(duì)付小詞匯量的語(yǔ)音命令控制系統(tǒng)中是一個(gè)非常有效的算法。但是，如果系統(tǒng)稍微復(fù)雜一些，這種算法就顯得力不從心了。

基于統(tǒng)計(jì)的HMM算法可能是目前最為成功的一種語(yǔ)音識(shí)別模型和算法了。目前所能見到的各種性能優(yōu)良的連續(xù)語(yǔ)音識(shí)別系統(tǒng)幾乎無(wú)一例外地采用了這種模型。這是因?yàn)檫@種數(shù)學(xué)模型出現(xiàn)的時(shí)間較早，人們對(duì)它的研究也比較深入，已建立起了完整的理論框架。從20世紀(jì)80年代初人們開始用這種模型來(lái)描述語(yǔ)音信號(hào)后，就不斷有人對(duì)它進(jìn)行了各種改良和發(fā)展。這種隱含馬爾可夫模型的算法是將語(yǔ)音看成是一連串特定狀態(tài)，這種狀態(tài)是不能被直接觀測(cè)到的（如這種狀態(tài)可以是語(yǔ)音的某個(gè)音素），而是以某種隱含的關(guān)系與語(yǔ)音的觀測(cè)量（或特征）相關(guān)聯(lián)。而這種隱含關(guān)系在HMM模型中通常以概率形式表現(xiàn)出來(lái)，模型的輸出結(jié)果也以概率形式給出。這為系統(tǒng)最后給出一個(gè)穩(wěn)健的判決創(chuàng)造了條件。

如今，各種形式的HMM模型和算法已日趨成熟，以它為基礎(chǔ)已經(jīng)形成了語(yǔ)音識(shí)別的整體框架模型，它統(tǒng)一了語(yǔ)音識(shí)別中聲學(xué)層和語(yǔ)音學(xué)層的算法結(jié)構(gòu)，制定了最佳的搜索和匹配算法，以概率的形式將聲學(xué)層中得到的信息和語(yǔ)音學(xué)層中已有的信息完美地結(jié)合在一起。因此，HMM語(yǔ)音識(shí)別模型與算法是迄今為止最為完美的一個(gè)語(yǔ)音識(shí)別模型，從中也可看出好的理論體系對(duì)研究工作所起的重要的指導(dǎo)作用。

HMM的“內(nèi)傷”

許多從事語(yǔ)音識(shí)別技術(shù)研究的公司都把HMM當(dāng)做“救命稻草”，對(duì)其展開了大量的研究開發(fā)，隨著語(yǔ)音識(shí)別研究工作的深入開展，HMM語(yǔ)音識(shí)別方法愈來(lái)愈受到人們的重視，但與此同時(shí)，人們也愈來(lái)愈認(rèn)識(shí)到經(jīng)典HMM語(yǔ)音識(shí)別模型在一些重要方面存在嚴(yán)重的缺陷，這就是：

經(jīng)典HMM是一個(gè)齊次的Markov模型，狀態(tài)轉(zhuǎn)移概率與狀態(tài)駐留長(zhǎng)度無(wú)關(guān)，與語(yǔ)音的實(shí)際過(guò)程不符；
經(jīng)典HMM現(xiàn)有的模型訓(xùn)練算法和識(shí)別算法都是假設(shè)語(yǔ)音特征是相互獨(dú)立的，這也不符合語(yǔ)音信號(hào)的實(shí)際情況；
經(jīng)典HMM模型用于大詞匯表的識(shí)別系統(tǒng)時(shí)，其模型的訓(xùn)練量是災(zāi)難性的；
模型的存儲(chǔ)量太大。

任何一個(gè)成功的語(yǔ)音識(shí)別模型，都是基于其參數(shù)具有聚類性這一基礎(chǔ)上的。HMM模型之所以能達(dá)到很高的識(shí)別率，是由于反映其狀態(tài)的特征參數(shù)具有聚類性，從而它必然是對(duì)應(yīng)于語(yǔ)音學(xué)中的語(yǔ)音單位(如音素)，聲學(xué)上則必然是對(duì)應(yīng)于某種聲學(xué)單元或發(fā)聲器官的某種結(jié)構(gòu)狀態(tài)。語(yǔ)音學(xué)的研究表明，語(yǔ)音單位(如音素)在詞中的長(zhǎng)度有一個(gè)相對(duì)平穩(wěn)的分布。正是這種狀態(tài)長(zhǎng)度分布的相對(duì)平穩(wěn)性破壞了HMM模型的齊次性結(jié)構(gòu)。

DDBHMM浮出水面

王作英教授1988年年底向“863”計(jì)劃提交的“語(yǔ)音識(shí)別的改進(jìn)隱含馬爾可夫模型”，可以說(shuō)是對(duì)語(yǔ)音識(shí)別模型算法的一次重大革新。它指出了傳統(tǒng)的HMM模型在語(yǔ)音識(shí)別應(yīng)用中存在的問(wèn)題，得到了一個(gè)基于段長(zhǎng)分布的非齊次隱含馬爾可夫模型(Duration Distribution Based Hidden Markov Model，DDBHMM)。以此理論為指導(dǎo)所設(shè)計(jì)的語(yǔ)音識(shí)別聽寫機(jī)系統(tǒng)在1994年～1998年的全國(guó)語(yǔ)音識(shí)別系統(tǒng)評(píng)測(cè)中取得三連冠，從而顯示了這一新模型的生命力和在這一研究領(lǐng)域內(nèi)的領(lǐng)先水平。

HMM模型是在國(guó)際上在語(yǔ)音識(shí)別系統(tǒng)中被廣泛引用的一種模型，但是它有一個(gè)主要的缺點(diǎn)，即根據(jù)詞模型推出的狀態(tài)段長(zhǎng)分布是指數(shù)分布，這不符合語(yǔ)音的本質(zhì)屬性。而王作英教授提出的DDBHMM(基于段長(zhǎng)分布的HMM)模型解決了這一缺陷。它是一個(gè)非齊次的HMM語(yǔ)音識(shí)別模型。在此模型中用狀態(tài)的段長(zhǎng)分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣，徹底拋棄了“平穩(wěn)的假設(shè)”，而從非平穩(wěn)的角度考慮問(wèn)題，使模型成為一種基于狀態(tài)段長(zhǎng)分布的隱含Markov模型。段長(zhǎng)分布函數(shù)的引入澄清了經(jīng)典HMM語(yǔ)音識(shí)別模型的許多矛盾。

同時(shí)，由于非齊次HMM是一個(gè)有后效過(guò)程，不能用Bellman的動(dòng)態(tài)規(guī)劃求最大似然路徑，也不能用Baum的重新估值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。對(duì)于這類有后效的多階段決策問(wèn)題，如果用完全搜索算法求解最佳路徑，其計(jì)算復(fù)雜性太大，甚至在現(xiàn)有硬件水平上無(wú)法實(shí)時(shí)運(yùn)行。因而，必須建立新的非齊次HMM訓(xùn)練算法和識(shí)別算法。DBBHMM比國(guó)際上流行的HMM語(yǔ)音識(shí)別模型有更好的識(shí)別性能和更低的計(jì)算復(fù)雜度(訓(xùn)練算法比流行的Baum算法復(fù)雜度低兩個(gè)數(shù)量級(jí))。由于該模型解除了對(duì)語(yǔ)音信號(hào)狀態(tài)的齊次性和對(duì)語(yǔ)音特征的非相關(guān)性的限制,因此為語(yǔ)音識(shí)別研究的深入發(fā)展提供了一個(gè)和諧的框架。

有好的模型只是一個(gè)開始，還需要做大量的工作。以前的模型可以借助其他技術(shù)如神經(jīng)網(wǎng)絡(luò)技術(shù)改進(jìn)模型的不足,而DBBHMM模型的出現(xiàn)促進(jìn)了語(yǔ)音識(shí)別模型與算法的競(jìng)爭(zhēng)與發(fā)展。未來(lái)，在語(yǔ)音識(shí)別領(lǐng)域，基于HMM和DBBHMM兩種模型的語(yǔ)音識(shí)別系統(tǒng)將齊頭并進(jìn)，展開競(jìng)爭(zhēng)?；贖MM的系統(tǒng)“走得早”，且有大量資金和技術(shù)力量的支持;后發(fā)的DBBHMM系統(tǒng)有理論優(yōu)勢(shì)，但需要做的工作卻很多，短期內(nèi)兩種系統(tǒng)將共存。另外會(huì)不會(huì)出現(xiàn)更好的第三種模型算法，現(xiàn)在還不能斷定。

計(jì)算機(jī)世界網(wǎng)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：篩子 > 《我的圖書館》

舉報(bào)/認(rèn)領(lǐng)