早上,王爺爺吃完飯,機(jī)器人“小明”趕緊提醒王爺爺要在半小時之內(nèi)吃藥,吃完藥王爺爺坐在電視機(jī)前,“小明”告訴王爺爺老花鏡在茶幾的第一個抽屜中。午休過后,王爺爺要出門散步,“小明”告訴王爺爺外面只有10度,需要穿外套,并拿上傘。 以上的情景絕對不只是暢想,隨著老齡化和少子化程度的加深,機(jī)器人會越來越多走進(jìn)老年人家庭,成為智能養(yǎng)老小助手。但是每個老人的脾氣、性格、需求各不相同,因此要求機(jī)器人能夠不斷學(xué)習(xí),理解老人的隱性需求,真正能夠陪伴老人。如何滿足這些個性化的需求?從人工智能的角度分析,就要讓機(jī)器人不斷學(xué)習(xí),認(rèn)識老人的家庭環(huán)境,理解老人的需求,但是目前,不管是從機(jī)器視覺方面,還是自然語言理解方面都面臨巨大的挑戰(zhàn)。 在英特爾中國研究院2018年媒體開放日上,英特爾的研究人員從計算機(jī)視覺、自然語言識別、強(qiáng)化學(xué)習(xí)等領(lǐng)域分享了英特爾的研究成果,讓我們看到未來機(jī)器人的發(fā)展方向。 目前的技術(shù)瓶頸 機(jī)器人進(jìn)入家庭,首先需要認(rèn)識主人,只有認(rèn)識了主人才能進(jìn)行全方位的服務(wù),比如主人習(xí)慣什么時候起床,如果起床晚了是否需要進(jìn)行提醒?喜歡吃什么食物,當(dāng)家里沒有了是否需要提醒子女購買?對于主人和重要物品,目前是基于深度學(xué)習(xí),進(jìn)行大量訓(xùn)練進(jìn)行識別,但是即使進(jìn)行了大量訓(xùn)練,可能有時候還會出錯,比如針對老花鏡進(jìn)行了一萬張圖片的訓(xùn)練,人工智能還是有可能認(rèn)錯主人的老花鏡。 另外,由于每個家庭的需求不同,機(jī)器人無法進(jìn)行預(yù)編譯處理,需要個性化定制。比如有些人喜歡靜,家里不能隨便走動,有些人喜歡動,需要隨時滿足主人的呼喚。主人的起床時間不同,無法預(yù)先編程,需要根據(jù)個人的特點(diǎn)進(jìn)行觀察。因此,做好機(jī)器人不僅需要人臉識別、底層語義分析,還需要高層語義分析,從而讓機(jī)器人的智能程度滿足個性化需求。 進(jìn)入家庭后需要自主學(xué)習(xí) 現(xiàn)在的人臉識別一般是對正臉進(jìn)行識別,對于側(cè)臉識別可能就沒有那么靈了,如果在家中機(jī)器人只能識別正臉將會發(fā)生很多尷尬,用戶的交互體驗(yàn)也會大打折扣,因此有人想出了通過人體特征進(jìn)行辨識,比如衣服,但是當(dāng)主人換了衣服機(jī)器人又無法辨識。英特爾所采取的方式是將人臉特征和人體特征相結(jié)合,人體特征不需要預(yù)先把人各種各樣的衣服都要看一遍或者姿態(tài)看一遍才能認(rèn),通過人體特征認(rèn)人,而是通過人臉開始不斷地自我學(xué)習(xí),機(jī)器人剛開始通過人臉識別主人,經(jīng)過一周的交互和觀察,可以從各個角度把主人準(zhǔn)確地識別出來。 因?yàn)橹魅丝赡軙Q衣服,機(jī)器人還會發(fā)生錯誤,這時候機(jī)器人需要和主人主動交互,把可能的錯誤進(jìn)行確認(rèn),這是自我學(xué)習(xí)的認(rèn)人功能。同時,英特爾還研發(fā)了一些自適應(yīng)物體識別,比如:藥瓶,通過對一幀的圖像標(biāo)注之后,把物體在線建一個模型,后續(xù)可以把這個物體的邊界準(zhǔn)確的分割出來,這等于認(rèn)識物體是可以通過向用戶學(xué)習(xí)的過程實(shí)現(xiàn)。 讓機(jī)器人理解:“昨天我在客廳里吃藥,藥瓶去哪里了?” 在家庭生活中,王爺爺可能問機(jī)器人:昨天我在客廳里吃藥,藥瓶去哪里了?這個問題貌似非常簡單,可能三歲小朋友也能理解,但是對機(jī)器人來說里面有很難跨越的技術(shù)鴻溝。其中王爺爺是對人的識別,吃藥是動作識別,藥瓶是物體識別,這些需要底層識別模塊來實(shí)現(xiàn)。再看“昨天”和“客廳”這兩個關(guān)鍵詞,客廳是對空間的理解,昨天是對時間信的理解。如何讓機(jī)器人理解這句話?首先最底層要進(jìn)行人物識別、物體識別、情緒檢測、動作檢測,接下來,有一個三維語義環(huán)境,就是把底層檢測到的信息和物理環(huán)境對應(yīng)起來,比如人在什么位置,物體在什么位置,這件事發(fā)生在什么位置,這些信息只有在三維語義環(huán)境的模塊中對應(yīng)上,機(jī)器人才能夠理解事件發(fā)生的意義。 英特爾利用三維語義環(huán)境和個性化知識庫這兩個模塊來解決這些問題,從底層的感知模塊走到應(yīng)用,但是底層的感知模塊不可能做到百分之百精準(zhǔn)。這個錯誤會往上層傳播,到了空間層,我們希望把底層的這些信息打上空間智能的標(biāo)簽,位置跟空間相對的情況,包括跟空間的三維建模,都是在這一層次進(jìn)行的。理想的情況機(jī)器人到了家里,馬上建立空間模型,并且能夠理解空間的含義。到了知識庫層面,能夠很好的記憶這個知識,基于這個知識進(jìn)行推理、應(yīng)用,但是目前的技術(shù)還存在問題,不可能做到百分之百精準(zhǔn)。 三維語義環(huán)境所做的是從感知層得到信息,比如藥瓶的位置,用坐標(biāo)的方式標(biāo)記出來,接下來空間智能要理解這個空間是客廳還是餐廳,到 這一層次才能跟人交流,進(jìn)而判斷出客廳,然后順利在客廳找到藥瓶??梢钥闯?,空間智能主要的工作是快速對空間進(jìn)行建模,并理解這個空間。關(guān)于個性化的知識圖譜,主要功能是記憶和推理,所面臨的最大挑戰(zhàn)來自于我們想記錄的知識。人類知識分兩塊:一塊是穩(wěn)定的知識,就像谷歌和Facebook力圖想存的知識,谷歌叫Google Graph,這些知識可以事先做好,并且經(jīng)過專家審核;另外一種是個性化知識,是動態(tài)變化的,機(jī)器人來到家庭之前無法提前獲取,為了獲取這樣的知識,我們的挑戰(zhàn)必須要有一個合適的知識表示,合適的知識推理,而且這個知識圖譜要能容忍底層產(chǎn)生的錯誤。 強(qiáng)化學(xué)習(xí)讓機(jī)器人能夠完成主動服務(wù) 當(dāng)機(jī)器人能夠理解語言的時候,說明機(jī)器人已經(jīng)具備了和人溝通的能力,但是想要實(shí)現(xiàn)真正的照顧別人,機(jī)器人需要更深的理解能力,不光是被動地去服務(wù),還能主動的猜測主人的意圖。從王爺爺?shù)睦觼砜?,?dāng)王爺爺需要藥瓶時機(jī)器人可以拿給他是一種情況,如果機(jī)器人看到王爺爺在找東西,能夠猜測他想找藥瓶還是找水,就能提供主動服務(wù)。這里會用到強(qiáng)化學(xué)習(xí),它教給機(jī)器人三個功能:一是如何學(xué)習(xí)新的能力;二是如何做的一次比一次好;三是如何主動地提供正確服務(wù)。 關(guān)于一次比一次做的好這一點(diǎn),需要通過小樣本的強(qiáng)化學(xué)習(xí)來解決。我們希望機(jī)器人一次比一次做得好,需要猜測,而猜測本身也是需要優(yōu)化的。猜測的目的主要有兩方面,一是有時候不能進(jìn)行標(biāo)注,比如王爺爺走向桌子可能是找水,走向柜子可能是找藥,但是這個事情無法去標(biāo)注,機(jī)器人需要去主動采集樣本,通過回報自己進(jìn)行標(biāo)注。強(qiáng)化學(xué)習(xí)需要不斷探索和優(yōu)化,從而讓機(jī)器人更加智能。 當(dāng)然,機(jī)器人的學(xué)習(xí)還面臨巨大的挑戰(zhàn),比如:人的關(guān)節(jié)都是全向關(guān)節(jié),而機(jī)器人不能做到這一點(diǎn),每一個關(guān)節(jié)只能向一個方向旋轉(zhuǎn)。如果我們希望把人的一個動作映射到機(jī)器人上,需要做一個推廣,使它能夠適應(yīng)機(jī)器人獨(dú)特的運(yùn)動特性。另外,我們應(yīng)用時還要考慮到采樣成本的預(yù)算,當(dāng)學(xué)習(xí)一個新的性能時,機(jī)器人必須一次學(xué)會。我們需要考慮采樣成本和比較更高級的需求,來達(dá)到對于實(shí)際機(jī)器人學(xué)習(xí)來說可用的程度。 關(guān)于人工智能會替代人類的說法已經(jīng)深入人心,曾經(jīng)引來一波恐慌,聽完英特爾研究院的工程師講解,筆者覺得那個時代還很遙遠(yuǎn),機(jī)器人需要經(jīng)過漫長的自我學(xué)習(xí)才能達(dá)到熟練理解空間和語義的階段,要實(shí)現(xiàn)真正的智能似乎還需要計算能力和存儲能力的進(jìn)一步的提高,硬件技術(shù)和軟件算法還需要很大的進(jìn)步空間。 |
|
來自: 天正恒業(yè)168 > 《待分類》