【原】語音交互設(shè)計的一點(diǎn)認(rèn)知

DuerOS布道師 2021-04-29

展開全文

語音用戶界面（或VUI）是一種交互模型，在該模型中，人與機(jī)器進(jìn)行交互，并至少部分通過使用語音來執(zhí)行一組任務(wù)。

實際上，這種方式的交互式語音應(yīng)答（IVR）系統(tǒng)在銀行業(yè)和旅游業(yè)中已經(jīng)得到了廣泛的應(yīng)用。這些系統(tǒng)主要依賴于語音生物識別來識別用戶并使用語音作為主要交互模式完成的任務(wù)集。隨著亞馬遜Echo、蘋果的siri 等產(chǎn)品的誕生，VUI發(fā)生爆炸，各大公司也開始嘗試多媒體交叉設(shè)備的體驗。

“治學(xué)先治史”，了解語音技術(shù)的過去點(diǎn)滴，大概會有些幫助。

穿越時間走廊

早在1961年，IBM設(shè)計了一個名為Shoebox的實驗裝置，是由William C.Dersch開發(fā)的，大概是早期的語音識別設(shè)備。機(jī)器把聲音轉(zhuǎn)換成電脈沖可以識別出16個單詞。在1962年西雅圖舉行的世界博覽會上首次展示，這可能是自動語音識別（ASR）和自然語言理解（NLU）的起點(diǎn)，但只涉及第一部分的聲音識別。對于純語音用戶界面，機(jī)器生成人聲早在1939年或更早的時候就有了。

霍默·達(dá)德利（在新澤西的貝爾電話實驗室）的Voder是第一款能夠產(chǎn)生連續(xù)人聲的電子化設(shè)備。1939年，阿爾登·P·阿瑪涅克在《大眾科學(xué)》雜志上寫下了關(guān)于這一裝置的文章。它是用真空管和電路制成的，是為了復(fù)制人類的聲音。為了進(jìn)行對話，機(jī)器操作員使用了一個像風(fēng)琴一樣的鍵盤。十三個黑白鍵產(chǎn)生了所有的元音和輔音，另一把鍵控制著合成聲音的揚(yáng)聲器響度。腳踏板改變了音調(diào)，使同一句話可以陳述句或疑問。大約一年的培訓(xùn)，操作員就能使機(jī)器說話，想起來也是一個有意思的東西。

2000年初，IVR系統(tǒng)成為主流。任何有電話的人都可以預(yù)訂飛機(jī)航班，在賬戶間轉(zhuǎn)賬，查找當(dāng)?shù)仉娪皶r間，聽交通信息，所有這些都只使用普通電話和人聲。

語音交互、增強(qiáng)現(xiàn)實和虛擬現(xiàn)實等技術(shù)或許已經(jīng)存在或研究了相當(dāng)長的時間。令人興奮的是，它們最終在市場上廣泛商用了，這就需要設(shè)計師和工程師來承擔(dān)開發(fā)場景以解決用戶日常問題的挑戰(zhàn)。

為什么是語音助理

語音助理已經(jīng)風(fēng)靡各地，為什么呢？它的優(yōu)勢有：

自然
解放雙手
快速響應(yīng)
個性化

語音是人們交流的基本手段。其他形式的交流方式如寫作、面部表情或手語，在所有文化中也都同樣具有表達(dá)力，但人們主要還是通過語音來說服、告知和建立關(guān)系。語音助理能夠在不同的場景和渠道中保持一致。

理解對話

用戶通常會就手頭的特定任務(wù)進(jìn)行語音對話。交互通常很短，來回的交互也很少。用戶可以通過對話來完成一項任務(wù)，即使他們不忙，不能總是全神貫注。用戶在通過GUI執(zhí)行相同任務(wù)時會感覺到很多延遲或不爽，而對話將有助于減輕這種體驗。

在語音識別中，得到對話所有的上下文幾乎是不可能的。上下文大約分成三類：

物理上下文
情感上下文
對話的上下文

從物理、情感和會話上下文中，可以創(chuàng)建一個關(guān)于會話內(nèi)容的推理或得出結(jié)論，得出一個擬人化的結(jié)果。

對話的意圖大約有兩種，一種是目標(biāo)反饋確定的，一種是不確定的，對于不確定的意圖需要更多的用戶選擇。也就是說，大約可以分為基于意圖的對話和隨機(jī)問答。基于意圖的對話是為了完成一個目標(biāo)或完成一個任務(wù)而進(jìn)行的對話。心里有一個意圖，需要助手的回答，這時只想完成一項任務(wù)。隨機(jī)問答是指用戶與助手進(jìn)行交互時沒有特定的意圖。他們只是想和助手聊天，談興趣，也許是想更多的彼此了解，建立一種關(guān)系。

當(dāng)然，語音交互有著自己的局限。在IVR中，很難暫停系統(tǒng)，相反，用戶必須不斷地進(jìn)行交互，而視覺組件可以讓用戶以更輕松的方式繼續(xù)交互。另外，是在公共場所使用方面的限制。用戶可能不能在某些公共空間使用語音，因為這樣做會侵犯用戶的隱私。

語音交互的部分關(guān)注點(diǎn)

人的一種主要行為，就把人的情緒聯(lián)系起來，試圖理解一個復(fù)雜的物體。不過，大多數(shù)消費(fèi)者的底線是，更愿意與一個溫暖的身體交談，而不是與一臺冰冷的電腦交談，因而需要關(guān)注語音應(yīng)答的多樣性。

逐步披露是人機(jī)交互中常用的一種交互設(shè)計技術(shù)，通過減少混亂、混亂和認(rèn)知工作量，幫助保持用戶注意力的焦點(diǎn)。這通過只提供手頭任務(wù)所需的最小數(shù)據(jù)來提高可用性。一般使用猶豫標(biāo)記，或者增加短語詢問。

給語音助理賦予人性化，可能需要一些因素：

經(jīng)驗的開放性，這可能包括對藝術(shù)、情感、冒險、不尋常的想法、好奇心和各種體驗的欣賞。
責(zé)任心，可以是高效/有組織的，或者隨和/無關(guān)緊要的態(tài)度。
外向傾向于表現(xiàn)為外向、健談、精力充沛的行為，而內(nèi)向則表現(xiàn)為較為保守和孤獨(dú)的行為。
令人愉快的對話，體現(xiàn)善良、同情、合作、熱情和體貼的個人行為特征。
神經(jīng)質(zhì)，可能是驚喜，也可能是驚嚇。

模仿的行為可以與另一個人更相似，感知到的相似性可以作為基礎(chǔ)。

基于語音的交互或語音檢測依賴于一個設(shè)備，該設(shè)備有一個性能良好的麥克風(fēng)來捕捉/記錄用戶的指令，可以參考過去一篇文字。

多方式交互的HCI

VUI與GUI成為人機(jī)交互規(guī)范的時候非常相似，設(shè)計人員需要清理混亂的邏輯，簡化數(shù)據(jù)，并向用戶提供更容易掌握的流程和解決方案。以電視遙控器為例,設(shè)備上有20-30個按鈕時，操作起來就會非常困難，一個人很難理解所有按鈕的作用。沒有好的設(shè)計，技術(shù)就很難甚至不可能得到應(yīng)用。

用戶體驗設(shè)計圍繞著整個用戶旅程展開，即回答用戶對特定用例可以做什么，然后理解用戶能夠以無障礙和愉快的方式滿足需求的最佳方式。

從一開始就不能決定只使用一個模態(tài)，但是設(shè)計者必須理解用戶根據(jù)系統(tǒng)的輸入和輸出模態(tài)完成特定任務(wù)的需求。

對于具有圖形用戶界面的數(shù)字助理，當(dāng)有動畫選項時，這變得更有趣。在這里，助理會表現(xiàn)得像人一樣；會傾聽你的問題，思考，回答，開個玩笑，唱歌，表達(dá)悲傷和憤怒，還有很多其他的情緒。

多交互方式并存，形成了人機(jī)交互的領(lǐng)域。人機(jī)交互（HCI）已經(jīng)存在了相當(dāng)長的一段時間了。在20世紀(jì)50年代初，用穿孔卡片存儲數(shù)據(jù)和輸入，隨著個人電腦的引入而發(fā)生了顛覆性的變化。20世紀(jì)80年代后期，幾乎使世界上的每個人都成為潛在的計算機(jī)用戶，也暴露了關(guān)于可用性的問題。

HCI整合了認(rèn)知心理學(xué)、人工智能和思維哲學(xué)，以闡明系統(tǒng)化和科學(xué)化的應(yīng)用，稱為認(rèn)知工程。它使具有概念、技能和遠(yuǎn)見的人能夠滿足人機(jī)交互的實際需求。

交互設(shè)計的一些原則

HCI 的設(shè)計有很多的經(jīng)驗和原則，對于VUI同樣有著參考意義。例如，Ben Shneiderman 關(guān)于界面設(shè)計的8條金規(guī)：

爭取一致性
允許用戶使用快捷方式
提供信息反饋
設(shè)計對話以實現(xiàn)閉環(huán)
提供錯誤預(yù)防和簡單的錯誤處理
允許輕松逆轉(zhuǎn)操作
支持內(nèi)部控制點(diǎn)
減少短期內(nèi)存負(fù)載

又例如，Donald Norman的七個設(shè)計原則：

在頭腦中運(yùn)用現(xiàn)實世界和知識
簡化任務(wù)結(jié)構(gòu)
使事物可見；縮小執(zhí)行和評估之間的差距
正確繪制地圖
利用自然和人工約束的力量
面向錯誤的設(shè)計
當(dāng)所有其他方面都失敗時，標(biāo)準(zhǔn)化

還有現(xiàn)在廣泛使用的Nielsen啟發(fā)式UI/UX設(shè)計原則：

系統(tǒng)狀態(tài)的可視性
與系統(tǒng)和現(xiàn)實世界相匹配
用戶控制和自由
一致性和標(biāo)準(zhǔn)
靈活性和效率
錯誤預(yù)防
錯誤報告、診斷和恢復(fù)
美學(xué)和極簡設(shè)計
識別而不是回憶
幫助和文檔

創(chuàng)建一個平滑無縫且自然的 VUI 對于使用的人工智能產(chǎn)品來說至關(guān)重要。對VUI而言，也有著自己的設(shè)計技巧：

了解智能引擎的背后，成功與否取決于真正為體驗提供動力的內(nèi)部架構(gòu)。
構(gòu)建自己的設(shè)計工具棧，Adobexd非常適合用于線框用戶流程圖，語音工具包括Walkie, Botframe 和 Mockabot等。
個性在設(shè)計中表現(xiàn)出來，而不是交給設(shè)備。個性表現(xiàn)在設(shè)計決策和獨(dú)特的工作流程，堅持利益相關(guān)者的有效執(zhí)行。
少即是多。設(shè)備所說的實際語言必須清楚地滿足其用戶的需求，剩下的才是措辭，句子結(jié)構(gòu)，音調(diào)，甚至聲音本身的音調(diào)變化等。
在配音的時候要專業(yè)一點(diǎn)。專業(yè)的錄制最好有TTS的客戶經(jīng)驗，為人工智能對話設(shè)計音頻與制作音樂甚至是傳統(tǒng)的配音有很大的不同。
在 VUI 之外保持角色的一致性。如果圖形元素不能和諧地補(bǔ)充語音元素，那么創(chuàng)建一個殺手級的 VUI 將被證明是徒勞的。
讓語音設(shè)備保持親密狀態(tài)。有競爭力的產(chǎn)品是需要盡可能多地挖掘。
鼓勵嘗試。場測和錯誤驗證，再加上可靠的用戶研究，無論多么細(xì)致，都不會讓你成功地將最微妙的特質(zhì)融入到你的語音交互體驗中。
一切都是達(dá)到目的的手段。歸結(jié)為一件事，數(shù)據(jù)是人工智能的全部。個設(shè)計良好的 VUI 應(yīng)該通過成為習(xí)慣的具有啟發(fā)性的交互體驗來補(bǔ)充這個過程。
設(shè)計的分享。目標(biāo)、需求、最佳實踐、技術(shù)、技術(shù)、工具集和行業(yè)每天都在不斷變化。知識和經(jīng)驗的擴(kuò)散是揭開人工智能個性設(shè)計的神秘面紗并使之標(biāo)準(zhǔn)化的最佳途徑。