語音用戶界面(或VUI)是一種交互模型,在該模型中,人與機(jī)器進(jìn)行交互,并至少部分通過使用語音來執(zhí)行一組任務(wù)。 實際上,這種方式的交互式語音應(yīng)答(IVR)系統(tǒng)在銀行業(yè)和旅游業(yè)中已經(jīng)得到了廣泛的應(yīng)用。這些系統(tǒng)主要依賴于語音生物識別來識別用戶并使用語音作為主要交互模式完成的任務(wù)集。隨著亞馬遜Echo、蘋果的siri 等產(chǎn)品的誕生,VUI發(fā)生爆炸,各大公司也開始嘗試多媒體交叉設(shè)備的體驗。 “治學(xué)先治史”,了解語音技術(shù)的過去點(diǎn)滴,大概會有些幫助。 穿越時間走廊早在1961年,IBM設(shè)計了一個名為Shoebox的實驗裝置,是由William C.Dersch開發(fā)的,大概是早期的語音識別設(shè)備。機(jī)器把聲音轉(zhuǎn)換成電脈沖可以識別出16個單詞。在1962年西雅圖舉行的世界博覽會上首次展示,這可能是自動語音識別(ASR)和自然語言理解(NLU)的起點(diǎn),但只涉及第一部分的聲音識別。對于純語音用戶界面,機(jī)器生成人聲早在1939年或更早的時候就有了。 霍默·達(dá)德利(在新澤西的貝爾電話實驗室)的Voder是第一款能夠產(chǎn)生連續(xù)人聲的電子化設(shè)備。1939年,阿爾登·P·阿瑪涅克在《大眾科學(xué)》雜志上寫下了關(guān)于這一裝置的文章。它是用真空管和電路制成的,是為了復(fù)制人類的聲音。為了進(jìn)行對話,機(jī)器操作員使用了一個像風(fēng)琴一樣的鍵盤。十三個黑白鍵產(chǎn)生了所有的元音和輔音,另一把鍵控制著合成聲音的揚(yáng)聲器響度。腳踏板改變了音調(diào),使同一句話可以陳述句或疑問。大約一年的培訓(xùn),操作員就能使機(jī)器說話,想起來也是一個有意思的東西。 2000年初,IVR系統(tǒng)成為主流。任何有電話的人都可以預(yù)訂飛機(jī)航班,在賬戶間轉(zhuǎn)賬,查找當(dāng)?shù)仉娪皶r間,聽交通信息,所有這些都只使用普通電話和人聲。 語音交互、增強(qiáng)現(xiàn)實和虛擬現(xiàn)實等技術(shù)或許已經(jīng)存在或研究了相當(dāng)長的時間。令人興奮的是,它們最終在市場上廣泛商用了,這就需要設(shè)計師和工程師來承擔(dān)開發(fā)場景以解決用戶日常問題的挑戰(zhàn)。 為什么是語音助理語音助理已經(jīng)風(fēng)靡各地,為什么呢?它的優(yōu)勢有:
語音是人們交流的基本手段。其他形式的交流方式如寫作、面部表情或手語,在所有文化中也都同樣具有表達(dá)力,但人們主要還是通過語音來說服、告知和建立關(guān)系。語音助理能夠在不同的場景和渠道中保持一致。 理解對話用戶通常會就手頭的特定任務(wù)進(jìn)行語音對話。交互通常很短,來回的交互也很少。用戶可以通過對話來完成一項任務(wù),即使他們不忙,不能總是全神貫注。用戶在通過GUI執(zhí)行相同任務(wù)時會感覺到很多延遲或不爽,而對話將有助于減輕這種體驗。 在語音識別中,得到對話所有的上下文幾乎是不可能的。上下文大約分成三類:
從物理、情感和會話上下文中,可以創(chuàng)建一個關(guān)于會話內(nèi)容的推理或得出結(jié)論,得出一個擬人化的結(jié)果。 對話的意圖大約有兩種,一種是目標(biāo)反饋確定的,一種是不確定的,對于不確定的意圖需要更多的用戶選擇。 也就是說,大約可以分為基于意圖的對話和隨機(jī)問答。基于意圖的對話是為了完成一個目標(biāo)或完成一個任務(wù)而進(jìn)行的對話。心里有一個意圖,需要助手的回答,這時只想完成一項任務(wù)。隨機(jī)問答是指用戶與助手進(jìn)行交互時沒有特定的意圖。他們只是想和助手聊天,談興趣,也許是想更多的彼此了解,建立一種關(guān)系。 當(dāng)然,語音交互有著自己的局限。在IVR中,很難暫停系統(tǒng),相反,用戶必須不斷地進(jìn)行交互,而視覺組件可以讓用戶以更輕松的方式繼續(xù)交互。另外,是在公共場所使用方面的限制。用戶可能不能在某些公共空間使用語音,因為這樣做會侵犯用戶的隱私。 語音交互的部分關(guān)注點(diǎn)人的一種主要行為,就把人的情緒聯(lián)系起來,試圖理解一個復(fù)雜的物體。不過,大多數(shù)消費(fèi)者的底線是,更愿意與一個溫暖的身體交談,而不是與一臺冰冷的電腦交談,因而需要關(guān)注語音應(yīng)答的多樣性。 逐步披露是人機(jī)交互中常用的一種交互設(shè)計技術(shù),通過減少混亂、混亂和認(rèn)知工作量,幫助保持用戶注意力的焦點(diǎn)。這通過只提供手頭任務(wù)所需的最小數(shù)據(jù)來提高可用性。一般使用猶豫標(biāo)記,或者增加短語詢問。 給語音助理賦予人性化,可能需要一些因素:
模仿的行為可以與另一個人更相似,感知到的相似性可以作為基礎(chǔ)。 基于語音的交互或語音檢測依賴于一個設(shè)備,該設(shè)備有一個性能良好的麥克風(fēng)來捕捉/記錄用戶的指令,可以參考過去一篇文字。 多方式交互的HCIVUI與GUI成為人機(jī)交互規(guī)范的時候非常相似,設(shè)計人員需要清理混亂的邏輯,簡化數(shù)據(jù),并向用戶提供更容易掌握的流程和解決方案。以電視遙控器為例,設(shè)備上有20-30個按鈕時,操作起來就會非常困難,一個人很難理解所有按鈕的作用。沒有好的設(shè)計,技術(shù)就很難甚至不可能得到應(yīng)用。 用戶體驗設(shè)計圍繞著整個用戶旅程展開,即回答用戶對特定用例可以做什么,然后理解用戶能夠以無障礙和愉快的方式滿足需求的最佳方式。 從一開始就不能決定只使用一個模態(tài),但是設(shè)計者必須理解用戶根據(jù)系統(tǒng)的輸入和輸出模態(tài)完成特定任務(wù)的需求。 對于具有圖形用戶界面的數(shù)字助理,當(dāng)有動畫選項時,這變得更有趣。在這里,助理會表現(xiàn)得像人一樣;會傾聽你的問題,思考,回答,開個玩笑,唱歌,表達(dá)悲傷和憤怒,還有很多其他的情緒。 多交互方式并存,形成了人機(jī)交互的領(lǐng)域。人機(jī)交互(HCI)已經(jīng)存在了相當(dāng)長的一段時間了。在20世紀(jì)50年代初,用穿孔卡片存儲數(shù)據(jù)和輸入,隨著個人電腦的引入而發(fā)生了顛覆性的變化。20世紀(jì)80年代后期,幾乎使世界上的每個人都成為潛在的計算機(jī)用戶,也暴露了關(guān)于可用性的問題。 HCI整合了認(rèn)知心理學(xué)、人工智能和思維哲學(xué),以闡明系統(tǒng)化和科學(xué)化的應(yīng)用,稱為認(rèn)知工程。它使具有概念、技能和遠(yuǎn)見的人能夠滿足人機(jī)交互的實際需求。 交互設(shè)計的一些原則HCI 的設(shè)計有很多的經(jīng)驗和原則,對于VUI同樣有著參考意義。例如,Ben Shneiderman 關(guān)于界面設(shè)計的8條金規(guī):
又例如,Donald Norman的七個設(shè)計原則:
還有現(xiàn)在廣泛使用的Nielsen啟發(fā)式UI/UX設(shè)計原則:
創(chuàng)建一個平滑無縫且自然的 VUI 對于使用的人工智能產(chǎn)品來說至關(guān)重要。對VUI而言,也有著自己的設(shè)計技巧:
然而,“大道易得,小術(shù)難求”。行勝于言,努力去學(xué)習(xí)和實踐才能得到更多的理解和認(rèn)識。 |
|