英偉達又看到了一個機會

liuaqbb 2021-12-29

展開全文

這樣就不會錯過老石的每一篇推送了

我回國之前，和我的博士導(dǎo)師深聊了一次。

問了他一個問題，現(xiàn)在FPGA領(lǐng)域最熱門的研究方向都有哪些？

他一臉壞笑的說：我必須說機器學(xué)習(xí)，是吧……

沒毛病，機器學(xué)習(xí)也好、人工智能也好、神經(jīng)網(wǎng)絡(luò)也好，的確是現(xiàn)在最火熱的研究方向。就連FPGA這個小眾領(lǐng)域，在最近幾年的國際會議上，也有大把大把的AI相關(guān)的論文。這在五六年前是很少見的。

更不用說其他芯片和硬件領(lǐng)域，特別是AI血統(tǒng)更加“純正”的GPU、以及人工智能專用芯片，近幾年更是有大量工作和創(chuàng)新不斷涌現(xiàn)出來。

如果我們站在三萬英尺高空，去俯視這些和AI相關(guān)的研究和工作，大致可以把它們分成三類：

一類是對數(shù)據(jù)的挖掘和分析，一類是對算法的改進和創(chuàng)新，一類是對硬件的思考和重構(gòu)。

就算對AI的技術(shù)細節(jié)一無所知，應(yīng)該也會知道驅(qū)動AI發(fā)展的三駕馬車：數(shù)據(jù)、算法和算力。

我們可以再飛的低一點，去重點看看人工智能硬件的發(fā)展。這時就不難發(fā)現(xiàn)，人們對算力已經(jīng)開始有了不同的需求。

如果你要做訓(xùn)練，那就追求絕對的高算力。沒有什么事情是一張英偉達A100 GPU板卡搞不定的，如果有，就再來幾張。甚至可以搞個數(shù)據(jù)中心，放成百上千張GPU，讓他們的算力一起咆哮。

不過咆哮的喧囂背后，是同樣咆哮的功耗和成本。要知道，5個DGX A100系統(tǒng)組成的一個機柜，成本100萬美元，每小時消耗28kw電力。這顯然不是每個人都玩得起的。

相比之下，做推理的人卻有著不同的追求。我們之前曾經(jīng)介紹過，推動技術(shù)發(fā)展的動力，不是技術(shù)本身，而是需求。芯片行業(yè)發(fā)展的本質(zhì)，就是不斷發(fā)現(xiàn)需求、滿足需求、創(chuàng)造需求的循環(huán)。

我們不是不能用A100來做移動端的推理，而是沒有足夠的預(yù)算、沒有足夠的供電、沒有足夠的面積，而且它的算力遠遠超過我們的需求。

高算力固然很香，但實際應(yīng)用里需要更多的，卻是低延時、低功耗、高靈活，以及完整的生態(tài)。

推理應(yīng)用有著更加廣泛的應(yīng)用場景，人們更多關(guān)注的是用訓(xùn)練好的模型解決特定的問題、設(shè)計自己的算法、開發(fā)自己的產(chǎn)品。還有同樣重要的，就是不能重復(fù)造輪子，能拿過來直接用的東西就拿來直接為我所用，越能快速整合現(xiàn)有的模塊，就越能專注于自己的創(chuàng)新，并且越能盡快把自己的產(chǎn)品推向市場。

所以說，推理和訓(xùn)練，在本質(zhì)上有著不同的游戲規(guī)則。

明確了游戲規(guī)則，一切就豁然開朗了。我們需要這么一種硬件，它主要針對邊緣計算的推理應(yīng)用，在兼顧算力的情況下，同時擁有低功耗、低成本、高靈活、完整生態(tài)的特點。

事實上，真正的主角并不是硬件本身，而是在它上面運行的五花八門的創(chuàng)意應(yīng)用。普通人或許永遠也沒辦法擁有一百萬美元一臺的性能猛獸，但可以在這個硬件平臺上實現(xiàn)自己思考已久、而且興奮不已的大想法。

結(jié)果，這個需求又被英偉達看到了，并且由此推出了名為Jetson的邊緣AI平臺。

事實上，Jetson并不是某種芯片，而是以板卡的形式存在。Jetson也不是某種單一類型的板卡，而是多種板卡組成的產(chǎn)品組合。從這個角度來看，也說明邊緣計算這個賽道更加細分、更加碎片化。但如果你的嗅覺足夠敏銳，也說明這里有著更多超車和創(chuàng)新的機會。這和AI訓(xùn)練一言不合就拼算力的粗魯相比，有著本質(zhì)區(qū)別。

Jetson系列的一個主要特點，就是采用了模塊化的設(shè)計，而且使用了SoM（System on Module）的設(shè)計思路。在當(dāng)前嵌入式開發(fā)板的設(shè)計領(lǐng)域，SoM的集成方法已經(jīng)越來越主流了。它最主要的特點，就是把核心板和母板分開設(shè)計，來滿足不同應(yīng)用場景的需要。

比如我們要做一個智能小車，就可以把所有和車有關(guān)的模塊都做成“母板”，包括各種接口、電機、傳動、傳感器等等，而所有和計算相關(guān)的模塊就可以直接用這個SoM核心板，兩者通過統(tǒng)一的接口和引腳相互連接。

這樣當(dāng)后期需要進行升級的時候，直接換一個引腳和外形規(guī)格兼容的SoM核心板就可以了，不用換整個系統(tǒng)，方便。

Jetson最入門的產(chǎn)品，叫做Jetson Nano，它應(yīng)該也是這幾個產(chǎn)品里可玩性和性價比最高的。它集成了四核ARM Cortex-A57 CPU，128核Maxwell GPU，核心板滿級70mm x 45mm，并且提供了5W和10W兩種規(guī)格。

說到這里，就不用再多介紹了，畢竟這么低的功耗，還要什么自行車？

事實上，性能最高的Jetson AGX Xavier系列，最大功耗也只有30W，也有10W、15W的選擇。作為Jetson系列的扛把子，Xavier集成了8核ARM v8.2 CPU、512核Volta GPU、64個Tensor內(nèi)核，最高可以提供32TOPs的峰值算力，以及750Gbps的高速I/O能力。這樣的性能背后，只有100mm x 87mm的尺寸大小，所以特別適合用于工業(yè)級的邊緣計算場景。

前面剛說完，模塊化設(shè)計的好處之一是方便升級換代，例子就來了。在11月結(jié)束的GTC大會上，英偉達發(fā)布了Jetson AGX Orin，它基于Ampere架構(gòu)，和Xavier保持了相同的外形尺寸，并且兩者相互引腳兼容，但算力卻提升了6倍，達到200TOPs。

之前我們說，和算力相比，我們更關(guān)注功耗和成本，這或多或少都有些不甘和無奈，畢竟誰不想魚和熊掌同時兼得呢？但現(xiàn)在既能實現(xiàn)小尺寸和低功耗，又能獲得大算力，這就讓更多之前想但又不敢想的創(chuàng)意可以得到實現(xiàn)。至少算力、尺寸和功耗，不再是主要的制約條件了。

借用英偉達副總裁兼嵌入式和邊緣計算總經(jīng)理Deepu Talla的話：

Jetson AGX Orin 讓85萬名Jetson開發(fā)者和6000多家在其基礎(chǔ)上構(gòu)建商業(yè)產(chǎn)品的公司，能夠創(chuàng)建和部署以前不可能實現(xiàn)的自主機器和邊緣AI應(yīng)用。

在我的理解中，這里的“自主機器（autonomous machine）”，并不是那些具有完全自主意識的“智能機器”，而是能根據(jù)具體的需要，自動決策并完成特定功能的機器。

所以，歸根到底，還是各種需求。我們不需要做一個華而不實的水晶宮或空中樓閣，我們需要的是能解決實際問題、并且能解放人類勞動力和創(chuàng)造力的“自主機器”。如果非要給這個結(jié)論加一個限定條件，那就是有限的預(yù)算和資源，畢竟無限魔法的時候我們會無腦一直放大招。但在現(xiàn)實生活中的絕大部分情況下，這個限定條件都是滿足的。

說完了硬件，照例要再說一下軟件。

在說軟件之前，首先要說一下英偉達的“套路”。

英偉達的GPU在人工智能時代大獲成功的主要原因，不僅有GPU本身的因素，更是因為它讓廣大開發(fā)者用起來了。不管是芯片、還是什么別的產(chǎn)品，只有有人用，才能不斷發(fā)現(xiàn)問題，也才能不斷解決問題、不斷優(yōu)化，然后才會吸引更多的人用，從此形成正反饋。

除了前面說的需求循環(huán)，這個“使用-迭代”循環(huán)，也是驅(qū)動產(chǎn)品與技術(shù)發(fā)展的重要力量源泉。

由此我們不難想象，Jetson也有著英偉達提供的統(tǒng)一軟件堆棧，名叫Jetpack SDK。作為Jetson平臺的“靈魂”，它包含板級支持包、Linux操作系統(tǒng)、CUDA、一系列GPU加速庫，以及用于視頻分析的DeepStream SDK、用于機器人開發(fā)的Isaac SDK。