在最近的臺北 ComputeX 展會期間,Arm 展示了下一代 Cortex-A 和 Cortex-X 系列 CPU 內(nèi)核 —— 以及新一代 GPU 設(shè)計,我們將看到它們從今年下半年到明年間成為產(chǎn)品。昨天的發(fā)布包括旗艦級 Cortex-X4 內(nèi)核、中核 Cortex-A720、小核 Cortex-A520 以及新一代 GPU Immortalis-G720。 Arm 最新的 CPU 內(nèi)核建立在 Armv9 及其之前的整體計算解決方案 (TCS21/22) 生態(tài)系統(tǒng)的基礎(chǔ)上。對于其 2023 的年度 IP,Arm 正在通過其 Cortex 內(nèi)核系列推出一波次要的微架構(gòu)改進,這些細(xì)微的變化旨在提高效率和性能,同時完全轉(zhuǎn)向 AArch64 64 位指令集。 除了改進 CPU 內(nèi)核外,Arm 還使用 DSU-120 對其 DynamIQ Shared Unit 內(nèi)核復(fù)合塊進行了全面升級。盡管引入的修改很細(xì)節(jié),但它們在提高結(jié)構(gòu)效率方面具有重要意義,同時進一步擴展了 Arm 的應(yīng)用范圍,支持單個塊中多達(dá) 14 個 CPU 內(nèi)核:此舉旨在使 Cortex-A/X 更適合筆記本電腦。 開發(fā)適用于從旗艦智能手機到入門型號的各種移動設(shè)備的片上系統(tǒng)(SoC)需要有細(xì)致的分級,但也需要保持一致性。例如,高通的驍龍 8 Gen2 選擇使用了 Arm 的 Cortex-X3、Cortex A715/710 和 Cortex-A510 內(nèi)核集群。有消息說 8 Gen3 等 SoC 今年還會提前迭代,準(zhǔn)備利用 Arm 的 TSC23 核心集群的力量,進一步提升下一代旗艦移動設(shè)備的性能。 Arm 最新的 DynamIQ 共享單元 DSU-120 支持集群中多達(dá) 14 個 CPU 內(nèi)核,為多種 CPU 內(nèi)核組合打開了新的大門。我們將在今年晚些時候看到高通、聯(lián)發(fā)科等廠商是如何配置它們的,一種可能的配置是 1+5+2(X4+720+520),這很可能是高端智能手機的配置。與上代 1+3+4 集群(X3+715+510)相比,Arm 聲稱在 GeekBench 6 MT 中的計算性能提升了 27%,在 Speedometer 中的提升在 33-64% 之間。 在最初的 Armv9 架構(gòu)中,Arm 通過使用其內(nèi)存標(biāo)記擴展(MTE)改進了安全性,這是一種基于硬件的實現(xiàn),使用指針身份驗證 (PA) 擴展來幫助防止內(nèi)存漏洞。多年來,基于內(nèi)存的漏洞一直是對基于硬件的安全性的威脅,而 Arm 在其 IP 中不斷試圖減少這類漏洞。作為參考,谷歌的 Chromium 項目聲稱大約 70% 的高嚴(yán)重性錯誤來自內(nèi)存。 最新 Armv9.2 架構(gòu)的相關(guān)安全功能之一是引入了新的 QARMA3 指針驗證碼 (PAC) 算法。Arm 聲稱新算法將 PAC 的 CPU 開銷降低到不到 1%,即使在小核上也是如此,這讓開發(fā)者和手機廠商更加沒有理由不啟用這種安全功能了。 Arm Cortex-X4:新一代最快 Arm 內(nèi)核 在不同 CPU 核心的升級中,大核 Cortex-X4 最引人關(guān)注。從最初的 Cortex X1 內(nèi)核開始,Arm 每次迭代中在每周期指令 (IPC) 方面都能取得兩位數(shù)的百分比性能提升,2023 年的 Cortex-X4 也是如此(13%),Cortex-X4 專用于旗艦安卓智能手機和領(lǐng)先的移動設(shè)備。 Cortex-X4 旨在為移動片上系統(tǒng)(SoC)提供頂級算力,特別適合處理大型游戲或突發(fā)負(fù)載。Cortex-X4 是 Arm 迄今為止性能最高的內(nèi)核,具有預(yù)計 3.4 GHz 時鐘速度和更大的 L2 緩存,與去年的 1 MB 相比容量翻了一番,達(dá)到 2 MB。盡管有這些改進,為提升性能核心物理尺寸仍有增加,更復(fù)雜的 X4 CPU 核心的裸片尺寸增加不到 10%(不包括額外的 L2 緩存)。 至于電源效率,Arm 聲稱與前幾代產(chǎn)品相比效率大幅提升了約 40%,不要指望看到太多芯片廠商利用這一點,因為 X 系列的主要工作是高負(fù)載。 在架構(gòu)方面,Cortex-X4 與 Cortex-X3 有相似之處,主要側(cè)重于改進現(xiàn)有架構(gòu)并優(yōu)化各種核心組件的效率。Cortex-X4 前端已重新洗牌并調(diào)整了指令獲取塊,Arm 的目標(biāo)是保持低延遲,同時在其 Cortex-X4 內(nèi)核和整個 TSC23 內(nèi)核集群中提供峰值帶寬。 Cortex-X4 前端的重大架構(gòu)變化體現(xiàn)在其調(diào)度寬度上。Cortex-X4 現(xiàn)在具有更集中的 10-wide 調(diào)度寬度,最高可達(dá) X3 的 6/8-wide 調(diào)度寬度。也就是說,盡管前端變寬了,但有效流水線長度實際上卻略微縮短了,分支預(yù)測錯誤的懲罰從 11 個周期減少到 10 個。 前端的另一個重點是指令獲取過程本身。與 Cortex-X3 相比,Arm 基本上重新設(shè)計了整個指令獲取傳送系統(tǒng),以確保整個流水線的效率更高。 最新的架構(gòu)還對 Arm 的分支預(yù)測單元進行了另一次改進,進一步提高了它們的預(yù)測準(zhǔn)確性,但這一切都不是免費的午餐,Arm 很快注意到改進后的預(yù)測器的實施成本更高。盡管如此,Arm 認(rèn)為,為了提供性能這是值得的。 再看 CPU 內(nèi)核的后端,Arm 將重點放在了執(zhí)行帶寬上。在其他變化中,Arm 將 ALU 的數(shù)量從 6 個增加到 8 個。其中 6 個是用于處理單周期 uOPS 的簡單 ALU。同時有兩個復(fù)雜的 ALU 用于處理雙周期和多周期指令,Arm 還擠進了另一個分支單元,使 Cortex-X4 從 2 個增加到 3 個,并增加了一個額外的 Integer MAC。在浮點方面,Cortex-X4 還升級了流水線浮點分頻器。 因此從某種程度上看,X4 的性能改進來自于整體的改進,芯片能夠在單個時鐘內(nèi)調(diào)度和吞吐更多指令。Cortex-X4 的目標(biāo)是在基準(zhǔn)測試和實際工作負(fù)載上提供最佳性能,并增加通過管道的任何指令集的提取帶寬。這些好處來自延遲減少和指令融合優(yōu)勢,適用于更大的指令占用空間工作負(fù)載。 Cortex-A720:高效率中核 Cortex-A720 與去年的 Cortex A715 設(shè)計相比并沒有太大變化,它首先也是 Arm 首款純 AArch64 的中核。Arm 對 A700 系列的理念主要是通過優(yōu)化提高性能,在設(shè)定的熱限制內(nèi)提供最高水平的電源效率,并針對實際用例優(yōu)化工作負(fù)載,而不是極快的基準(zhǔn)性能。 與 Cortex-X4 類似,Cortex-A720 是圍繞 Armv9.2 ISA 構(gòu)建的,Arm 優(yōu)化了其設(shè)計,使 A720 能夠在相同的功率預(yù)算內(nèi)提供比 Cortex A715 更高的性能。Arm 700 系列通常涵蓋范圍更廣的應(yīng)用并迎合各種市場,包括但不限于數(shù)字電視、智能手機和筆記本電腦。為了在更多樣化的空間中擁有更大靈活性,Arm 希望通過 Cortex-A720 充當(dāng) TSC23 核心集群的「主力」。 對于 Cortex-A720,Arm 還提供了多種配置選項。除了標(biāo)準(zhǔn)的、性能最高的選項外,Arm 還擁有所謂的「入門級」配置,可將 A720 縮小到與 Arm Cortex-A78 相同的尺寸,同時仍將整體性能提升 10%。由于一些 Arm 客戶對裸片尺寸特別嚴(yán)格,因此有必要采取此類舉措來說服他們最終轉(zhuǎn)向 Cortex-A7xx 系列和 Armv9。 Cortex-A520:小核大幅改進 Armv9.2 內(nèi)核中的第三個是 Cortex-A520,它的設(shè)計很少,但 Arm 承諾比前幾代有很大改進,尤其是在能效方面。 最大的問題解決了嗎:并沒有,Cortex-A520 不是亂序內(nèi)核設(shè)計。忠于 Arm 的小核心設(shè)計理念,它仍然是有序核心 —— 事實上,Arm 甚至在此過程中移除了 ALU。 Arm 這一代的最小內(nèi)核實際上是一個新內(nèi)核,但它更多的是對 Cortex-A510 的改進,而非全新的設(shè)計。在已發(fā)布的所有三個 Cortex Armv9.2 內(nèi)核中,它的功率面積比最低。最明顯的差異來自功率優(yōu)化,Arm 聲稱 Cortex-A520 在等進程和等頻率下的能效比之前的 Cortex-A510 內(nèi)核高 22%。Arm 的 TCS23 目錄中的小內(nèi)核主要是為執(zhí)行低強度和后臺操作任務(wù)而設(shè)計的,它可以減輕 Cortex-A720/Cortex-X4 等較大內(nèi)核的負(fù)載,從而提高集群內(nèi)的整體能效。 Arm 的許多效率提升來自于輕度的微架構(gòu)級別變化,主要圍繞實現(xiàn)數(shù)據(jù)預(yù)取和分支預(yù)測的能力。總的來說小核改動不大,但是小改動都是為了提高效率。 Immortalis-G720 GPU:性能提升 15% Armv9 Cortex 架構(gòu)連續(xù)第三年實現(xiàn)了兩位數(shù)的性能提升。除此之外,Arm 還推出了第五代 GPU。第五代架構(gòu)重新定義了部分圖形管道以減少內(nèi)存帶寬,從而實現(xiàn)了更高的游戲性能和實時 3D 應(yīng)用,同時也帶來了更流暢玩法和接近 PC 的體驗。 延遲頂點著色(DVS)是第 5 代 GPU 架構(gòu)中引入的一項新圖形功能,它重新定義了數(shù)據(jù)流,使合作伙伴能夠擴展以獲得更大的核心數(shù)量和更高的性能。 隨著我們不斷突破視覺計算的界限,全新的 Immortalis-G720 是 Arm 有史以來性能和效率最高的 GPU。它提供了 15% 的性能和效率改進。與上一代產(chǎn)品相比,新 GPU 的系統(tǒng)級效率提升了 40%,從而帶來更高質(zhì)量的圖形以及更身臨其境的視覺體驗。 除了 Immortalis-G720,Arm 還通過把新的 Arm Mali-G720 和 Mali-G620 添加到 GPU 產(chǎn)品組合中,致力于將高級圖形功能更快地引入更廣泛的消費設(shè)備市場。 在新一代 CPU 設(shè)計中,Arm 通過在臺積電 N3E 工藝上流片 Cortex-X4,邁出了與臺積電更深入合作的一大步 —— 這在業(yè)界尚屬首次。這可以確保 Arm 的生態(tài)系統(tǒng)在其處理器技術(shù)流片后準(zhǔn)備好最大化其 PPA 優(yōu)勢。 預(yù)計在今年晚些時候,基于 Arm 新架構(gòu)的移動端設(shè)備就會上市。 參考內(nèi)容: https://www./show/18871/arm-unveils-armv92-mobile-architecture-cortex-x4-a720-and-a520-64bit-exclusive https:///ai/arm-unveils-5th-generation-gpus-with-immortalis-g720/ |
|