這樣就不會錯過老石的每一篇推送了 我回國之前,和我的博士導(dǎo)師深聊了一次。 問了他一個問題,現(xiàn)在FPGA領(lǐng)域最熱門的研究方向都有哪些? 他一臉壞笑的說:我必須說機器學(xué)習(xí),是吧…… 沒毛病,機器學(xué)習(xí)也好、人工智能也好、神經(jīng)網(wǎng)絡(luò)也好,的確是現(xiàn)在最火熱的研究方向。就連FPGA這個小眾領(lǐng)域,在最近幾年的國際會議上,也有大把大把的AI相關(guān)的論文。這在五六年前是很少見的。 更不用說其他芯片和硬件領(lǐng)域,特別是AI血統(tǒng)更加“純正”的GPU、以及人工智能專用芯片,近幾年更是有大量工作和創(chuàng)新不斷涌現(xiàn)出來。 如果我們站在三萬英尺高空,去俯視這些和AI相關(guān)的研究和工作,大致可以把它們分成三類: 一類是對數(shù)據(jù)的挖掘和分析,一類是對算法的改進和創(chuàng)新,一類是對硬件的思考和重構(gòu)。 就算對AI的技術(shù)細節(jié)一無所知,應(yīng)該也會知道驅(qū)動AI發(fā)展的三駕馬車:數(shù)據(jù)、算法和算力。 我們可以再飛的低一點,去重點看看人工智能硬件的發(fā)展。這時就不難發(fā)現(xiàn),人們對算力已經(jīng)開始有了不同的需求。 如果你要做訓(xùn)練,那就追求絕對的高算力。沒有什么事情是一張英偉達A100 GPU板卡搞不定的,如果有,就再來幾張。甚至可以搞個數(shù)據(jù)中心,放成百上千張GPU,讓他們的算力一起咆哮。 不過咆哮的喧囂背后,是同樣咆哮的功耗和成本。要知道,5個DGX A100系統(tǒng)組成的一個機柜,成本100萬美元,每小時消耗28kw電力。這顯然不是每個人都玩得起的。 相比之下,做推理的人卻有著不同的追求。我們之前曾經(jīng)介紹過,推動技術(shù)發(fā)展的動力,不是技術(shù)本身,而是需求。芯片行業(yè)發(fā)展的本質(zhì),就是不斷發(fā)現(xiàn)需求、滿足需求、創(chuàng)造需求的循環(huán)。 我們不是不能用A100來做移動端的推理,而是沒有足夠的預(yù)算、沒有足夠的供電、沒有足夠的面積,而且它的算力遠遠超過我們的需求。 高算力固然很香,但實際應(yīng)用里需要更多的,卻是低延時、低功耗、高靈活,以及完整的生態(tài)。 推理應(yīng)用有著更加廣泛的應(yīng)用場景,人們更多關(guān)注的是用訓(xùn)練好的模型解決特定的問題、設(shè)計自己的算法、開發(fā)自己的產(chǎn)品。還有同樣重要的,就是不能重復(fù)造輪子,能拿過來直接用的東西就拿來直接為我所用,越能快速整合現(xiàn)有的模塊,就越能專注于自己的創(chuàng)新,并且越能盡快把自己的產(chǎn)品推向市場。 所以說,推理和訓(xùn)練,在本質(zhì)上有著不同的游戲規(guī)則。 明確了游戲規(guī)則,一切就豁然開朗了。我們需要這么一種硬件,它主要針對邊緣計算的推理應(yīng)用,在兼顧算力的情況下,同時擁有低功耗、低成本、高靈活、完整生態(tài)的特點。 事實上,真正的主角并不是硬件本身,而是在它上面運行的五花八門的創(chuàng)意應(yīng)用。普通人或許永遠也沒辦法擁有一百萬美元一臺的性能猛獸,但可以在這個硬件平臺上實現(xiàn)自己思考已久、而且興奮不已的大想法。 結(jié)果,這個需求又被英偉達看到了,并且由此推出了名為Jetson的邊緣AI平臺。 事實上,Jetson并不是某種芯片,而是以板卡的形式存在。Jetson也不是某種單一類型的板卡,而是多種板卡組成的產(chǎn)品組合。從這個角度來看,也說明邊緣計算這個賽道更加細分、更加碎片化。但如果你的嗅覺足夠敏銳,也說明這里有著更多超車和創(chuàng)新的機會。這和AI訓(xùn)練一言不合就拼算力的粗魯相比,有著本質(zhì)區(qū)別。 Jetson系列的一個主要特點,就是采用了模塊化的設(shè)計,而且使用了SoM(System on Module)的設(shè)計思路。在當(dāng)前嵌入式開發(fā)板的設(shè)計領(lǐng)域,SoM的集成方法已經(jīng)越來越主流了。它最主要的特點,就是把核心板和母板分開設(shè)計,來滿足不同應(yīng)用場景的需要。 比如我們要做一個智能小車,就可以把所有和車有關(guān)的模塊都做成“母板”,包括各種接口、電機、傳動、傳感器等等,而所有和計算相關(guān)的模塊就可以直接用這個SoM核心板,兩者通過統(tǒng)一的接口和引腳相互連接。 這樣當(dāng)后期需要進行升級的時候,直接換一個引腳和外形規(guī)格兼容的SoM核心板就可以了,不用換整個系統(tǒng),方便。 Jetson最入門的產(chǎn)品,叫做Jetson Nano,它應(yīng)該也是這幾個產(chǎn)品里可玩性和性價比最高的。它集成了四核ARM Cortex-A57 CPU,128核Maxwell GPU,核心板滿級70mm x 45mm,并且提供了5W和10W兩種規(guī)格。 說到這里,就不用再多介紹了,畢竟這么低的功耗,還要什么自行車? 事實上,性能最高的Jetson AGX Xavier系列,最大功耗也只有30W,也有10W、15W的選擇。作為Jetson系列的扛把子,Xavier集成了8核ARM v8.2 CPU、512核Volta GPU、64個Tensor內(nèi)核,最高可以提供32TOPs的峰值算力,以及750Gbps的高速I/O能力。這樣的性能背后,只有100mm x 87mm的尺寸大小,所以特別適合用于工業(yè)級的邊緣計算場景。 前面剛說完,模塊化設(shè)計的好處之一是方便升級換代,例子就來了。在11月結(jié)束的GTC大會上,英偉達發(fā)布了Jetson AGX Orin,它基于Ampere架構(gòu),和Xavier保持了相同的外形尺寸,并且兩者相互引腳兼容,但算力卻提升了6倍,達到200TOPs。 之前我們說,和算力相比,我們更關(guān)注功耗和成本,這或多或少都有些不甘和無奈,畢竟誰不想魚和熊掌同時兼得呢?但現(xiàn)在既能實現(xiàn)小尺寸和低功耗,又能獲得大算力,這就讓更多之前想但又不敢想的創(chuàng)意可以得到實現(xiàn)。至少算力、尺寸和功耗,不再是主要的制約條件了。 借用英偉達副總裁兼嵌入式和邊緣計算總經(jīng)理Deepu Talla的話: Jetson AGX Orin 讓85萬名Jetson開發(fā)者和6000多家在其基礎(chǔ)上構(gòu)建商業(yè)產(chǎn)品的公司,能夠創(chuàng)建和部署以前不可能實現(xiàn)的自主機器和邊緣AI應(yīng)用。 在我的理解中,這里的“自主機器(autonomous machine)”,并不是那些具有完全自主意識的“智能機器”,而是能根據(jù)具體的需要,自動決策并完成特定功能的機器。 所以,歸根到底,還是各種需求。我們不需要做一個華而不實的水晶宮或空中樓閣,我們需要的是能解決實際問題、并且能解放人類勞動力和創(chuàng)造力的“自主機器”。如果非要給這個結(jié)論加一個限定條件,那就是有限的預(yù)算和資源,畢竟無限魔法的時候我們會無腦一直放大招。但在現(xiàn)實生活中的絕大部分情況下,這個限定條件都是滿足的。 說完了硬件,照例要再說一下軟件。 在說軟件之前,首先要說一下英偉達的“套路”。 英偉達的GPU在人工智能時代大獲成功的主要原因,不僅有GPU本身的因素,更是因為它讓廣大開發(fā)者用起來了。不管是芯片、還是什么別的產(chǎn)品,只有有人用,才能不斷發(fā)現(xiàn)問題,也才能不斷解決問題、不斷優(yōu)化,然后才會吸引更多的人用,從此形成正反饋。 除了前面說的需求循環(huán),這個“使用-迭代”循環(huán),也是驅(qū)動產(chǎn)品與技術(shù)發(fā)展的重要力量源泉。 由此我們不難想象,Jetson也有著英偉達提供的統(tǒng)一軟件堆棧,名叫Jetpack SDK。作為Jetson平臺的“靈魂”,它包含板級支持包、Linux操作系統(tǒng)、CUDA、一系列GPU加速庫,以及用于視頻分析的DeepStream SDK、用于機器人開發(fā)的Isaac SDK。 在硬件設(shè)計的時候我們不想重復(fù)造輪子,在軟件設(shè)計的時候也是這樣。用這些現(xiàn)成的加速資源,就能大大加快開發(fā)過程,并且讓開發(fā)者專注于創(chuàng)新本身,而不是把時間花在搭環(huán)境上。 在這個“使用-迭代”循環(huán)里,最重要的就是人。用戶、開發(fā)者、廠商,都是這個循環(huán)里不可或缺的部分。為了創(chuàng)造解放勞動力的“自主機器”,就必須先投入勞動力構(gòu)建生態(tài),然后再放手讓它自由生長。 說白了,生態(tài)為王。 前面說了算力與算法,其實現(xiàn)在人們的視線已經(jīng)開始更多聚焦在數(shù)據(jù)身上了。 這不僅因為仍然有海量數(shù)據(jù)尚未得到充分的挖掘和有效利用,更是因為數(shù)據(jù)本身的質(zhì)量也有很大的提升空間。 吳恩達曾經(jīng)說過: 我相信AI社區(qū)很快就會像對待構(gòu)建模型一樣,對系統(tǒng)性地改善數(shù)據(jù)產(chǎn)生興趣。 這也是為什么有這么多的公司,開始構(gòu)建“以數(shù)據(jù)為中心”的軟硬件布局的本質(zhì)原因之一。 值得一提的是,英偉達發(fā)布了用于Isaac Sim的NVIDIA Omniverse Replicator。它可以根據(jù)開發(fā)者的要求,實現(xiàn)隨機、受控、且有界的數(shù)據(jù)集,也就是讓數(shù)據(jù)本身更有意義,從而讓訓(xùn)練過程更有針對性。 小結(jié) 曾幾何時,人工智能只是科幻電影里想象。如今,它不僅成為了現(xiàn)實,更是把算力、算法、數(shù)據(jù)一步步分成了更細的研究領(lǐng)域。 我們曾經(jīng)還在性能與功耗、面積、成本之間糾結(jié),不過照現(xiàn)在的發(fā)展勢頭,這樣的糾結(jié)或許很快也不需要了。 成年人的世界里,沒有選擇題,我全都要。 (注:本文不代表老石任職單位的觀點。) 更多芯片技術(shù)解讀和資料分享,并與老石一對一交流,歡迎加入知識星球:“老石談芯-進階版”,一個關(guān)乎技術(shù)與觀點的互動社區(qū)。 |
|