【原】亞馬遜云科技re:Invent：獨(dú)一無(wú)二的云計(jì)算

趣味科技 2024-12-06 發(fā)布于北京

展開(kāi)全文

美國(guó)當(dāng)?shù)貢r(shí)間12月2日晚，作為擁有超過(guò)6萬(wàn)名現(xiàn)場(chǎng)參會(huì)者和40萬(wàn)名線(xiàn)上參會(huì)者的全球云計(jì)算頂級(jí)盛宴，亞馬遜云科技2024 re:Invent全球大會(huì)在拉斯維加斯盛大揭幕。

作為本屆re:Invent全球大會(huì)的首場(chǎng)重頭戲，亞馬遜云科技高級(jí)副總裁Peter DeSantis的主題演講，也由此被賦予了特殊的意義。

持續(xù)不斷創(chuàng)新的源動(dòng)力

眾所周知，作為全球云計(jì)算技術(shù)的開(kāi)創(chuàng)者，亞馬遜云科技不僅在2006年3月正式推出了Amazon EC2彈性計(jì)算云服務(wù)，并且在之后超過(guò)18年的時(shí)間里，一直持續(xù)引領(lǐng)著全球云計(jì)算領(lǐng)域的技術(shù)革新。

那么問(wèn)題就來(lái)了：作為一家將創(chuàng)新寫(xiě)入DNA的科技企業(yè)，亞馬遜云科技持續(xù)不斷創(chuàng)新的源動(dòng)力究竟從何而來(lái)？

為了形象地闡述這個(gè)問(wèn)題，Peter DeSantis用亞馬遜雨林的“樹(shù)根”來(lái)對(duì)亞馬遜云科技的企業(yè)文化進(jìn)行了比喻。不是所有的樹(shù)都有樹(shù)根，然而一棵枝繁葉茂的參天大樹(shù)，必然有著扎進(jìn)土壤深處的根系，才能保證樹(shù)木即使在惡劣的環(huán)境下也能茁壯成長(zhǎng)。

“亞馬遜雨林的扶壁根系，支撐著世界上最大的樹(shù)木生長(zhǎng)在并不穩(wěn)定的土壤系統(tǒng)中。扶根可以從一棵樹(shù)的底部延伸數(shù)百英尺，并與附近的樹(shù)木互鎖構(gòu)成一個(gè)堅(jiān)實(shí)的基礎(chǔ)，來(lái)支撐這些巨大的雨林?！盤(pán)eter DeSantis說(shuō)道，“而亞馬遜云科技最獨(dú)特的事情之一，是我們的領(lǐng)導(dǎo)者能夠在細(xì)節(jié)上花費(fèi)大量時(shí)間精力，去了解客戶(hù)和服務(wù)真正發(fā)生了什么事情，從而能夠快速做出決定，甚至有可能在問(wèn)題發(fā)生之前就解決或預(yù)防它們?！?/p>

Peter DeSantis指出，亞馬遜云科技的文化是獨(dú)一無(wú)二的，它幫助企業(yè)在擴(kuò)大規(guī)模的同時(shí)，還能夠保持對(duì)安全性能、運(yùn)營(yíng)效率、成本和創(chuàng)新的堅(jiān)定關(guān)注，為客戶(hù)帶來(lái)不斷提升的云計(jì)算服務(wù)與用戶(hù)體驗(yàn)。

不斷升級(jí)的云計(jì)算基礎(chǔ)設(shè)施

通過(guò)在自研芯片和系統(tǒng)等領(lǐng)域持續(xù)不斷的創(chuàng)新，亞馬遜云科技在云計(jì)算運(yùn)營(yíng)性能、安全、成本等方面也積累了獨(dú)特能力和核心優(yōu)勢(shì)。

亞馬遜云科技計(jì)算與網(wǎng)絡(luò)副總裁David Brown指出，作為亞馬遜云科技旗下的自研芯片系列之一，2018年推出的第一代Amazon Graviton系列芯片就提供了足以媲美x86的優(yōu)異性能；隨后的Amazon Graviton2更是在廣泛的工作負(fù)載類(lèi)型中實(shí)現(xiàn)了對(duì)x86的反超；Amazon Graviton3可以為Nginx等工作負(fù)載提供高達(dá)60%的性能提升；作為迄今為止性能最強(qiáng)大的Graviton芯片，Graviton4的vCPU數(shù)量是Graviton3的3倍，計(jì)算性能也較上一代芯片提升了30%。

“在過(guò)去的兩年中，亞馬遜云科技數(shù)據(jù)中心有超過(guò)50%的新增CPU算力都運(yùn)行在Graviton之上，比其他所有類(lèi)型的CPU加起來(lái)還要多?！盌avid Brown表示。

談到Amazon Nitro系統(tǒng)時(shí)，David Brown表示，Nitro系統(tǒng)通過(guò)將大部分虛擬化功能卸載到專(zhuān)用硬件芯片上，極大簡(jiǎn)化了虛擬機(jī)監(jiān)控程序，消除了傳統(tǒng)虛擬化的性能開(kāi)銷(xiāo)。為了確保整個(gè)硬件供應(yīng)鏈的安全性，Nitro引入了硬件完整性的驗(yàn)證管控機(jī)制，從芯片制造階段開(kāi)始就對(duì)每個(gè)硬件組件進(jìn)行加密認(rèn)證，從根本上防止了硬件層面的攻擊和篡改。

David Brown指出，如果將Nitro系統(tǒng)與Graviton4芯片配合，即可創(chuàng)建一個(gè)相互鎖定的信任網(wǎng)絡(luò)，使CPU到CPU、CPU到Nitro芯片的所有連接，都可以由硬件提供安全保護(hù)。此外在存儲(chǔ)驅(qū)動(dòng)器中嵌入Nitro卡，還可以實(shí)現(xiàn)存儲(chǔ)和計(jì)算分離的架構(gòu)，使得計(jì)算和存儲(chǔ)資源能夠獨(dú)立擴(kuò)展，從而在滿(mǎn)足擴(kuò)容需求的同時(shí)，還可以減少故障范圍，加快恢復(fù)速度，提高存儲(chǔ)服務(wù)的敏捷性、可靠性和效率。

AI基礎(chǔ)設(shè)施的創(chuàng)新

在生成式AI大潮席卷全球的今天，亞馬遜云科技在AI基礎(chǔ)設(shè)施領(lǐng)域的創(chuàng)新，也理所當(dāng)然地成為了業(yè)界人士關(guān)注的焦點(diǎn)。

Peter DeSantis在主題演講中指出，伴隨著工作負(fù)荷的不斷增加，人工智能中巨量的計(jì)算負(fù)載并不能完全通過(guò)橫向擴(kuò)展（Scale out）資源來(lái)解決，而是也需要縱向擴(kuò)展單個(gè)計(jì)算單元的能力（Scale up）。如果只是單純添加服務(wù)器的話(huà)，用戶(hù)不會(huì)發(fā)現(xiàn)計(jì)算變得更快，而只是增加了成本。

強(qiáng)調(diào)了數(shù)據(jù)并行性的限制之后，Peter DeSantis提出了構(gòu)建AI基礎(chǔ)設(shè)施的兩個(gè)基本支柱：“第一，因?yàn)槲覀冇袕娜蚺恳?guī)模擴(kuò)展的限制，我們可以通過(guò)購(gòu)買(mǎi)更強(qiáng)大的服務(wù)器，來(lái)構(gòu)建更大的AI模型，這是AI基礎(chǔ)設(shè)施挑戰(zhàn)的擴(kuò)展部分；第二，盡管在構(gòu)建AI模型時(shí)存在擴(kuò)展的限制，但是我們?nèi)匀粡臉?gòu)建這些非常大的集群中獲得了很多價(jià)值，為了做好這一點(diǎn)，我們需要利用多年來(lái)一直在構(gòu)建的擴(kuò)展工具，譬如高效的數(shù)據(jù)中心、快速的擴(kuò)展、強(qiáng)大的網(wǎng)絡(luò)等等?！?/p>

Amazon Trainium2實(shí)例正式可用

作為亞馬遜云科技旗下的自研芯片系列之一，專(zhuān)門(mén)為AI工作負(fù)載而設(shè)計(jì)的Amazon Trainium系列芯片，也因?yàn)榻陙?lái)生成式AI的炙手可熱而備受關(guān)注。在本屆re:Invent大會(huì)上，Peter DeSantis也宣布基于Amazon Trainium2的Amazon Elastic Compute Cloud（Amazon EC2）Trn2實(shí)例正式可用，同時(shí)還推出了全新的Amazon EC2 Trn2 UltraServers，讓用戶(hù)能夠以?xún)?yōu)越的性?xún)r(jià)比訓(xùn)練和部署最新的AI模型，以及未來(lái)的大語(yǔ)言模型（LLM）和基礎(chǔ)模型（FM）。

Trainium2采用了先進(jìn)的封裝技術(shù)，將計(jì)算芯片和高帶寬內(nèi)存（HBM）模塊集成在一個(gè)緊湊的封裝內(nèi)，實(shí)現(xiàn)了CPU和內(nèi)存的無(wú)縫集成，不僅提高了性能，降低了延遲，而且數(shù)據(jù)交換也更加高效，同時(shí)還減少了電壓，提高了能效。

與當(dāng)前基于GPU的EC2 P5e和P5en實(shí)例相比，Amazon EC2 Trn2實(shí)例的性?xún)r(jià)比提升30-40%，配備了16個(gè)Trainium2芯片，可提供高達(dá)20.8萬(wàn)億次每秒浮點(diǎn)算力的性能，非常適合訓(xùn)練和部署具有數(shù)十億參數(shù)的大型語(yǔ)言模型（LLMs）。而Amazon EC2 Trn2 UltraServers更是配備了64個(gè)Trainium2芯片，采用亞馬遜云科技專(zhuān)有的NeuronLink超速互連技術(shù)，可提供高達(dá)83.2萬(wàn)億次每秒浮點(diǎn)算力，其計(jì)算、內(nèi)存和網(wǎng)絡(luò)能力是單一實(shí)例的四倍，能夠支持訓(xùn)練和部署超大規(guī)模的模型。

“過(guò)去我一直想把硬件帶到舞臺(tái)上，但是每年都被說(shuō)服放棄這一想法。但是今年為了向你們展示什么是超級(jí)服務(wù)器，我把它帶到了舞臺(tái)上。它能夠提供比任何當(dāng)前的EC2 AI服務(wù)器還要多5倍的計(jì)算容量和10倍的內(nèi)存。這就是你要建立一個(gè)萬(wàn)億參數(shù)AI模型所需要的服務(wù)器?！盤(pán)eter DeSantis說(shuō)道。

Amazon Bedrock低延遲優(yōu)化推理

對(duì)于許多企業(yè)和開(kāi)發(fā)者來(lái)說(shuō)，Amazon Bedrock無(wú)疑是他們擁抱生成式AI時(shí)的最佳助手。通過(guò)這項(xiàng)完全托管的服務(wù)，用戶(hù)可以非常方便地調(diào)用來(lái)自AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Mistral AI以及亞馬遜云科技的高性能基礎(chǔ)模型（FM），以及通過(guò)安全性、隱私性和負(fù)責(zé)任的AI構(gòu)建生成式AI應(yīng)用程序所需的一系列功能，使用自己的數(shù)據(jù)來(lái)構(gòu)建私人訂制的生成式AI應(yīng)用。

在本屆re:Invent大會(huì)上，Peter DeSantis宣布Amazon Bedrock推出了一項(xiàng)新的低延遲優(yōu)化推理功能。它讓用戶(hù)能夠訪(fǎng)問(wèn)亞馬遜云科技最新的AI基礎(chǔ)設(shè)施和軟件優(yōu)化技術(shù)，從而在各種領(lǐng)先的模型上獲得最佳的推理性能。

與此同時(shí)，亞馬遜云科技還與Anthropic合作推出了AI模型Claude 3.5的低延遲優(yōu)化版本，通過(guò)低延遲模式運(yùn)行Claude Haiku可提速60%。Anthropic聯(lián)合創(chuàng)始人兼首席計(jì)算官Tom Brown還宣布，下一代Claude模型將在Project Rainier上訓(xùn)練。這個(gè)集成了數(shù)十萬(wàn)個(gè)Trn2芯片的集群運(yùn)算能力是以往集群的5倍多，客戶(hù)可以用更低價(jià)格、更快速度使用更高智能的模型。

構(gòu)建更大更強(qiáng)的AI集群網(wǎng)絡(luò)

談到如何構(gòu)建大規(guī)模AI集群，Peter DeSantis認(rèn)為網(wǎng)絡(luò)是一大關(guān)鍵因素。飛速發(fā)展的生成式AI和大模型，需要更大的網(wǎng)絡(luò)帶寬，更快的獲取網(wǎng)絡(luò)資源，以及更高的可靠性。這也對(duì)網(wǎng)絡(luò)提出了更高的要求。

為了解決這一問(wèn)題，亞馬遜云科技開(kāi)發(fā)出了面向大規(guī)模AI集群的網(wǎng)絡(luò)架構(gòu)“10p10u網(wǎng)絡(luò)”。該網(wǎng)絡(luò)架構(gòu)支持對(duì)超級(jí)服務(wù)器進(jìn)行集群，因而被用于驅(qū)動(dòng)基于UltraSever或NVIDIA節(jié)點(diǎn)構(gòu)建的大規(guī)模計(jì)算集群，為數(shù)以千計(jì)的計(jì)算節(jié)點(diǎn)之間提供數(shù)十PB/s的網(wǎng)絡(luò)帶寬，延遲低于10微秒。大規(guī)模并行和高密度互連的特點(diǎn)，使得“10p10u網(wǎng)絡(luò)”可以非常方便地從少量機(jī)架快速擴(kuò)展到跨越多個(gè)數(shù)據(jù)中心的大規(guī)模集群，具備極佳的彈性。

“'10p10u網(wǎng)絡(luò)’是有史以來(lái)規(guī)模最快的網(wǎng)絡(luò)，其斜坡對(duì)我們來(lái)說(shuō)也是前所未有。在過(guò)去的12個(gè)月里我們安裝了超過(guò)300萬(wàn)個(gè)鏈接，這甚至是在許多人開(kāi)始關(guān)注我們的培訓(xùn)之前?！盤(pán)eter DeSantis說(shuō)道。同時(shí)他還表示，通過(guò)在Graviton、Nitro、存儲(chǔ)、網(wǎng)絡(luò)等核心領(lǐng)域的持續(xù)投資和創(chuàng)新，亞馬遜云科技正在構(gòu)建更大、更強(qiáng)的AI服務(wù)器集群，以更好地滿(mǎn)足客戶(hù)的需求。