Nvidia發(fā)布史上最快GPU，黃仁勛在線帶貨

tangaolus 2020-05-15

展開全文

來源：內(nèi)容由半導(dǎo)體行業(yè)觀察（ID：icbank）原創(chuàng)，作者：暢秋，謝謝。

北京時間2020年5月14日，NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在加利福尼亞的家中，為NVIDIA GTC 2020揭開了該公司的首個“廚房主題演講”。這次大會NVDIA首款A(yù)mpere架構(gòu)的GPU終于面世，黃仁勛更是為史上最大的DGX A100在線帶貨，讓我們一起看看黃教主的帶貨技巧。

圖源：英偉達(dá)

Nvidia首款A(yù)mpere GPU，史上最大的7nm芯片

Nvidia昨晚發(fā)布了其下一代Ampere GPU架構(gòu)-NVDIA A100。正值大流行和對云計算需求的巨大增長之際，英偉達(dá)推出的A100正是主要用于數(shù)據(jù)中心。A100每個芯片都裝有540億個晶體管，使其成為臺積電制造的世界上最大的7納米芯片。它使用臺積電CoWoS的3D封裝技術(shù)，專為科學(xué)計算，云圖形和數(shù)據(jù)分析而構(gòu)建。

圖源：英偉達(dá)

Ampere GPU采用了新的Tensor Core AI核心，支持TF32運算，無需任何代碼改變就可以讓AI性能提升20倍，還支持FP64雙精度運算，與HPC應(yīng)用相比帶來了2.5倍的性能。在訓(xùn)練AI模型時使用32位FP傳輸高達(dá)312 TFLOPS，在INT8上可運行1,248 TOPS以進行推理。

圖源：英偉達(dá)

黃仁勛說：“ NVIDIA A100 GPU是AI性能的20倍飛躍，是從數(shù)據(jù)分析到訓(xùn)練再到推理的端到端機器學(xué)習(xí)加速器?！?“這是第一次，可以在一個平臺上加速橫向擴展和橫向擴展工作負(fù)載。NVIDIA A100將同時提高吞吐量并降低數(shù)據(jù)中心的成本?！?/p>

這還不夠，Ampere擁有一個稱為MIG的新架構(gòu)，它可以將一個GPU劃分為七個獨立的GPU，每個GPU都可以執(zhí)行各種大小的不同計算任務(wù)，以優(yōu)化使用率。

那么當(dāng)八臺A100放在一起時會發(fā)生什么？你將獲得一個DGX A100系統(tǒng)，以在特別大的數(shù)據(jù)集或超級計算集群上訓(xùn)練模型。

圖源：英偉達(dá)

DGX A100重50鎊，通過NVLink連接8個600G的GPU，它經(jīng)過一百萬次鉆孔，一公里的走線連接，總共有30000個組件組成。在DGX中，它每分鐘移動700立方英尺。

圖源：英偉達(dá)

DGX A100是一個出色的機器，A100保證了5 petaflops的性能，并且將它們與Nvidia的第三代NVLink版本結(jié)合使用。將這八個GPU結(jié)合在一起，就意味著擁有320GB的GPU內(nèi)存和12.4TB / s的內(nèi)存帶寬。它還采用了Nvidia Mellanox ConnectX-6 HDR，因此該系統(tǒng)可以以每秒3.6 TB的速度連接到其他網(wǎng)絡(luò)接口。隨著現(xiàn)代數(shù)據(jù)中心適應(yīng)日益多樣化的工作負(fù)載，Mellanox的技術(shù)將對Nvidia變得越來越重要。

黃仁勛狠狠的夸贊了Ampere架構(gòu)的優(yōu)勢，稱它不僅訓(xùn)練的快，還有著令人難以置信的推理能力，也有能力將自身分解為更多的GPU來進行擴展，無論是推理還是云計算，都有著靈活、加速和高利用率的數(shù)據(jù)中心架構(gòu)。

而且其與當(dāng)今最流行的BERT 訓(xùn)練模型相比，在經(jīng)過3年的優(yōu)化訓(xùn)練之后，基于Ampere的A100的性能是BERT模型的6倍！但晶體管預(yù)算僅增加了約70%。現(xiàn)在，Ampere是世界上最大最復(fù)雜的處理器。在數(shù)千名工程師的努力下，將Ampere集中在這一個不可思議的芯片中。DGX是NVDIA的第三代系統(tǒng)，它是世界上第一個完全集成的AI系統(tǒng)。A100可以開箱即用，且訓(xùn)練性能比Volta V100提高6倍。推理性能是Volta V100的7倍，T4的12倍！

與BERT模型訓(xùn)練能力的對比（圖源：英偉達(dá)）

所以，你既可以用DGX A100來訓(xùn)練，也可以進行推理，你甚至可以將其與56個不同的用戶共享，他們每個人都有等效的性能。

只要199000美元，OMG，買它！

好了，重點來了，那么它到底值多少錢呢？如果將其與價值10000美元最高端的服務(wù)器相比較，DGX A100是其價格的150倍。所有以上這些好的性能加一起，只要199,000美元！黃教主在線帶貨！連用兩個Incredible，Incredible的性能，Incredible的價值，買它！

圖源：英偉達(dá)

為什么一定要買它呢？假如你不買A100，而是選用NVIDIA的HGX A100主板來建立超大規(guī)模數(shù)據(jù)中心的話，它將會是下面這個樣子：

圖源：英偉達(dá)

上圖是今天典型的AI數(shù)據(jù)中心，它里面有很多DGX，與Voltas并行運行來進行訓(xùn)練等等，這個數(shù)據(jù)中心中有50個DGX和600個CPU系統(tǒng)用于AI推理和數(shù)據(jù)處理。它要花費價值1100萬美元，消耗630KW，這是什么概念呢？黃仁勛輕描淡寫到，大約是一個州的價格！

但是有了A100，就是下面這個難以置信的樣子。這就是新架構(gòu)的好處，高吞吐量與MIG實例以及數(shù)據(jù)處理能力的高度結(jié)合，將深度學(xué)習(xí)和推理等全部集中在一個計算平臺上。這樣一來，只需花費100萬美元，而且功耗28KW，僅是成本和功耗的十分之一。

圖源：英偉達(dá)

Nvidia的DGX A100系統(tǒng)已經(jīng)開始發(fā)售，其中一些最初的應(yīng)用包括在美國阿貢國家實驗室進行的對COVID-19的研究。

英偉達(dá)表示，微軟，亞馬遜，谷歌，戴爾，阿里巴巴和許多其他大型云服務(wù)提供商也計劃將單個A100 GPU整合到自己的產(chǎn)品中。黃仁勛說：“全世界所有超大規(guī)模生產(chǎn)者和計算機制造商對Ampere的采用和熱情都是前所未有的?！?“這是我們有史以來最快的新數(shù)據(jù)中心架構(gòu)發(fā)布，這是可以理解的?！?/p>

小體積的兩款邊緣AI芯片

Nvidia從非常大的DGX SuperPOD躍升到了小型EGX A100，用于處理從物聯(lián)網(wǎng)設(shè)備（無論是照相機還是智能冰箱）中的傳感器輸入的數(shù)據(jù)。

EGX A100每秒最多可以接收200GB的數(shù)據(jù)。新架構(gòu)還允許在將芯片處理的來自IoT傳感器的數(shù)據(jù)直接發(fā)送到GPU之前進行加密，從而使其更安全地應(yīng)用于醫(yī)療保健或零售業(yè)。

黃仁勛表示：“物聯(lián)網(wǎng)和AI的融合引發(fā)了“智慧一切”的革命。大型行業(yè)現(xiàn)在可以提供智能連接產(chǎn)品和服務(wù)，就像電話行業(yè)使用智能手機一樣。NVIDIA的EGX Edge AI平臺將標(biāo)準(zhǔn)服務(wù)器轉(zhuǎn)變?yōu)槲⑿停圃?，安全的AI數(shù)據(jù)中心。借助我們的AI應(yīng)用程序框架，公司可以構(gòu)建從智能零售到機器人工廠再到自動呼叫中心的AI服務(wù)?！?/p>

此外，還發(fā)布了EGX Jetson Xavier NX，EGX Jetson Xavier NX是全球體積最小、性能最強大的AI超級計算機，適用于微型服務(wù)器和邊緣智能物聯(lián)網(wǎng)盒。Jetson Xavier NX模塊是加速AI應(yīng)用的理想平臺，與被業(yè)界廣泛采用的前代產(chǎn)品Jetson TX2相比，其性能提高了10倍以上。通過運用云原生技術(shù)，開發(fā)人員即可利用這塊僅有信用卡尺寸大小的高AI功能與高計算性能的模塊。運行EGX云原生軟件堆棧的EGX Jetson Xavier NX可以快速處理來自多個高分辨率傳感器的流式數(shù)據(jù)。

具備云原生功能的Jetson Xavier NX已獲得嵌入式生態(tài)系統(tǒng)的大力支持。Jetson Xavier NX開發(fā)者套件和Jetson Xavier NX模塊現(xiàn)正通過NVIDIA分銷渠道進行發(fā)售，售價399美元。

NVIDIA開發(fā)者大會，每次都有新產(chǎn)品推出，所以還是那句話：“The More U Buy, The More U Save。”

免責(zé)聲明

以上內(nèi)容為用戶在觀察者網(wǎng)風(fēng)聞社區(qū)上傳并發(fā)布，僅代表發(fā)帖用戶觀點。