看點(diǎn):看觸景無(wú)限如何融合多維度感知數(shù)據(jù)還原真實(shí)安防場(chǎng)景。 3月9日,由智東西主辦的GTIC 2018全球AI芯片創(chuàng)新峰會(huì)在上海召開,大會(huì)邀請(qǐng)到32名重磅嘉賓到場(chǎng)分享,超過(guò)一萬(wàn)名觀眾報(bào)名,會(huì)場(chǎng)內(nèi)座無(wú)虛席,會(huì)場(chǎng)外甚至還有大量來(lái)晚的觀眾直接選擇就地觀看直播。 在這次大會(huì)中,觸景無(wú)限CEO肖洪波以“前端智能為安防產(chǎn)生新的數(shù)據(jù)價(jià)值”為題做了精彩的演講。對(duì)于安防中越來(lái)越重要的前端智能,觸景無(wú)限有著許多不同的看法, 以下是智東西整理的演講干貨。 傳統(tǒng)監(jiān)控技術(shù)無(wú)法滿足現(xiàn)有需求觸景無(wú)限創(chuàng)立于2010年,一直專注做智能感知,在2016年,觸景無(wú)限開始步入安防領(lǐng)域,致力于為安防攝像頭以及無(wú)人機(jī)等提供智能感知能力。 隨著技術(shù)的提升和市場(chǎng)的發(fā)展,如今的安防已經(jīng)和以前完全不同。首先,大量的安防數(shù)據(jù)對(duì)傳統(tǒng)安防系統(tǒng)提出挑戰(zhàn)。攝像頭的傳感器每天都會(huì)產(chǎn)生大量的數(shù)據(jù),單個(gè)高清攝像頭就需要10Mb/s的帶寬,2億攝像頭需要2Pb/s的存儲(chǔ)空間。安防數(shù)據(jù)體量非常大,大到需要5000個(gè)YouTube才能存儲(chǔ)所有攝像頭的視頻數(shù)據(jù)。 其次,傳統(tǒng)監(jiān)控技術(shù)無(wú)法滿足現(xiàn)有需求。在很多場(chǎng)景下,很多時(shí)候的監(jiān)控是存儲(chǔ)后,靠人力來(lái)做篩查,或者是攝像頭的數(shù)據(jù)傳輸?shù)皆贫耍缓笸ㄟ^(guò)云端來(lái)做計(jì)算分析。因此,傳統(tǒng)監(jiān)控技術(shù)的實(shí)時(shí)性不夠好。 想象一個(gè)無(wú)人機(jī)在飛行過(guò)程中要做周圍物體識(shí)別,通過(guò)雙目攝像頭判斷周圍距離做避障,如果我們需要把數(shù)據(jù)傳到云端,云端有可能要排隊(duì),如果附近的無(wú)人機(jī)同時(shí)也在往云端上傳數(shù)據(jù),兩邊的數(shù)據(jù)得不到及時(shí)的處理,這樣就可能會(huì)導(dǎo)致“撞機(jī)”。 此外,由于安防的發(fā)展,用在家庭里的攝像頭也越來(lái)越多了,在如家庭的場(chǎng)景中,傳統(tǒng)的服務(wù)器處理需要把這樣的非常隱私的數(shù)據(jù)聯(lián)網(wǎng)傳輸?shù)皆贫诉M(jìn)行分析計(jì)算,所以傳統(tǒng)監(jiān)控技術(shù)也無(wú)法保障一些場(chǎng)景下視頻數(shù)據(jù)的隱私性。 與此同時(shí),和傳統(tǒng)的對(duì)視頻編碼進(jìn)行有損壓縮不同,在前端很容易能獲取原始數(shù)據(jù),可以直接在原始數(shù)據(jù)上進(jìn)行處理,并且處理結(jié)果可以重新回饋到傳感器底層,可以利用智能分析的結(jié)果對(duì)底層SP( Subspace Pursuit,子空間追蹤)算法做優(yōu)化,從而獲取更好的數(shù)據(jù)質(zhì)量。 多維度感知真實(shí)世界因此,前端智能憑著實(shí)時(shí)性、隱私性、降低后端壓力和提升后端效率和質(zhì)量等優(yōu)勢(shì)成為了安防的升級(jí)趨勢(shì)之一。在會(huì)后接受智東西專訪時(shí),肖洪波也提到,未來(lái)5年會(huì)有越來(lái)越多的帶有前端感知能力的電子產(chǎn)品進(jìn)入市場(chǎng)。如何利用傳感器的感知能力挖掘更多有價(jià)值的數(shù)據(jù),將是一個(gè)重要的課題。 除了圖片、視頻外,前端智能還可以通過(guò)多個(gè)數(shù)據(jù)維度來(lái)感知自身所處的真實(shí)世界,比如聲音、測(cè)距、地理位置、激光測(cè)距、氣壓、高度等。觸景無(wú)限希望在前端把傳感器的數(shù)據(jù)融合在一起,提供多維的數(shù)據(jù),在數(shù)據(jù)的基礎(chǔ)之上再做人工智能的分析。 因?yàn)檎鎸?shí)世界中,人所觀察到的數(shù)據(jù)本身就是有關(guān)聯(lián)的而不是割裂的。人會(huì)結(jié)合多種信息綜合分析,比如把一些距離信息和圖象信息做融合,或者說(shuō)把熱感信息和圖象做融合,而當(dāng)我們有多維度數(shù)據(jù)再分析的時(shí)候,往往可以分析出更有價(jià)值的信息。 比如說(shuō)聲音的信息,前端智能讓攝像頭可以通過(guò)耳機(jī)陣列判斷聲音傳來(lái)的方向和角度,可以把現(xiàn)場(chǎng)發(fā)來(lái)的呼救、槍聲、玻璃破碎的聲音和攝像頭來(lái)進(jìn)行聯(lián)動(dòng)。這樣的話,當(dāng)發(fā)生突發(fā)事件的時(shí)候,攝像頭可以通過(guò)聲音的信息調(diào)節(jié)攝像頭拍下合適的圖片、視頻。 在前端獲取數(shù)據(jù)后,前端需要提供比較微觀的數(shù)據(jù)可測(cè)量用于未來(lái)對(duì)前端設(shè)備的預(yù)測(cè)。所謂的微觀主要是在時(shí)間的維度,在毫秒級(jí)維度對(duì)數(shù)據(jù)進(jìn)行測(cè)量。以火車站場(chǎng)景為例,當(dāng)距離很遠(yuǎn)的時(shí)候人臉是非常小的,甚至小到無(wú)法做人臉識(shí)別,這樣的數(shù)據(jù)沒(méi)有價(jià)值。而在距離很近的時(shí)候,人臉角度可能因?yàn)楣庹盏臈l件而變得不適合抓拍。因此,前端所要做的就是確定在哪一幀、哪一個(gè)點(diǎn)做合適的抓拍,這就需要前端攝像頭能根據(jù)周圍的場(chǎng)景不斷地做調(diào)整。 “在螺絲里做道場(chǎng)”:前端智能面臨三大挑戰(zhàn)前端智能和云端相比,雖然具有很多優(yōu)點(diǎn),但是同時(shí)也面臨三大挑戰(zhàn):模型參數(shù)大、實(shí)時(shí)要求高、運(yùn)算能力弱。 對(duì)此,肖洪波表示,前端智能是“在螺絲里做道場(chǎng)”,前端運(yùn)算力有限、功耗也很低,所以需要把散熱、功耗做的非常低。在運(yùn)算力有限的情況下,需要做模型壓縮、優(yōu)化,這些最后會(huì)轉(zhuǎn)化成數(shù)學(xué)上的優(yōu)化問(wèn)題,從而對(duì)整個(gè)模型進(jìn)行優(yōu)化。所以,前端嵌入式的人工智能研究是很多底層的優(yōu)化工作。 而對(duì)于這三大挑戰(zhàn),觸景無(wú)限認(rèn)為除了感知數(shù)據(jù)以外,還需引入時(shí)間維度的數(shù)據(jù)。通過(guò)帶時(shí)間維度的視頻數(shù)據(jù),可以實(shí)現(xiàn)多攝像頭之間的聯(lián)動(dòng),在前端獲得更多信息,這樣的加入時(shí)間維度的多攝像頭場(chǎng)景叫做前端攝像頭的感知陣列。 肖洪波說(shuō),通常的模型都是基于卷積神經(jīng)網(wǎng)絡(luò),用圖象處理的方式來(lái)處理視頻。實(shí)際前端處理過(guò)程當(dāng)中,會(huì)碰到大量的視頻數(shù)據(jù),而視頻數(shù)據(jù)本身是帶有時(shí)間維度的,只是以前處理的時(shí)候被忽略了。 因此通過(guò)這樣的多攝像頭的聯(lián)動(dòng),可以判斷一個(gè)人在多攝像頭里的身份,實(shí)現(xiàn)軌跡追蹤。這樣可以對(duì)未來(lái)進(jìn)行預(yù)測(cè),通過(guò)時(shí)間維度預(yù)測(cè)以后,實(shí)現(xiàn)在前端處理人工智能AI模型的優(yōu)化處理,獲得更好的處理性能。 觸景無(wú)限通過(guò)邊緣智能感知終端集群(SENS)可以實(shí)現(xiàn)多攝像頭的聯(lián)動(dòng),這是一個(gè)智能感知的模組,體積很小,大概和一塊錢人民幣硬幣一樣大,通過(guò)這個(gè)模組,可以實(shí)現(xiàn)擴(kuò)攝像頭追蹤、識(shí)別,從而形成局部的前端感知陣列。 除了多攝像頭聯(lián)動(dòng)外,感知數(shù)據(jù)的優(yōu)化也非常重要。比如,在一個(gè)非常逆光的場(chǎng)景,人臉的后面有一個(gè)非常亮的燈,人臉處于逆光環(huán)境,呈現(xiàn)在鏡頭前其實(shí)是黑的,而通過(guò)算法處理以后可以把人的臉拍的非常清楚,在非常強(qiáng)逆光的情況下也可以獲得非常清晰的圖象。 在前端,觸景無(wú)限實(shí)現(xiàn)了算法模型優(yōu)化工廠,提供嵌入式DPU、FPGA,幫助安防廠商的產(chǎn)品(例如攝像頭)獲得前端的感知能力。在2017年,觸景無(wú)限推出了前端抓拍系統(tǒng)瞬視,基于英特爾Movidius芯片打造,可以在前端實(shí)現(xiàn)不跳楨的人臉抓拍,單幀圖像可實(shí)現(xiàn)100張人臉抓拍,并且可以針對(duì)特定區(qū)域進(jìn)行圖象的優(yōu)化(比如強(qiáng)逆光)。 結(jié)語(yǔ):安防的前端智能不止人臉識(shí)別提到安防,總會(huì)第一個(gè)想到人臉識(shí)別,大家經(jīng)常會(huì)看到不同新聞中的人臉識(shí)別的算法準(zhǔn)確度將近100%的數(shù)據(jù),但是當(dāng)思考如何將AI落地安防這個(gè)問(wèn)題時(shí),要想的絕不僅僅只有狹義的人臉識(shí)別而已。 人臉識(shí)別前的數(shù)據(jù)采集如何優(yōu)化,如何抓拍到高質(zhì)量的圖片,采集后如何將多種數(shù)據(jù)智能結(jié)合分析挖掘其背后更大的價(jià)值,這些問(wèn)題都非常值得思考。 |
|
來(lái)自: 板橋胡同37號(hào) > 《芯科》