馬斯克這次帶來了三路人馬,分別來自人形機(jī)器人 Optimus、Autopilot 以及超算 DOJO 團(tuán)隊,浩浩蕩蕩到一度在演講臺前面擠不下。最先亮相的是 Optimus,它除了能夠自由行走,也能抓取、搬動一些小型物體。此外,搭配運(yùn)用在特斯拉汽車上的同款 FSD 計算機(jī),Optimus 也擁有了一定程度的人工智能。馬斯克介紹,這款機(jī)器人即將投入生產(chǎn)使用,未來產(chǎn)量有望突破數(shù)百萬,價格將降至 2 萬美元以下。自動駕駛技術(shù)分享一直是特斯拉 AI Day 的重磅欄目,這一次 Autopilot 團(tuán)隊帶來了新的玩法:將占用網(wǎng)絡(luò)(Occupancy)引入到自動駕駛中,將現(xiàn)實(shí)世界映射到矢量空間,實(shí)現(xiàn)更好體驗的車輛規(guī)劃。與此同時,「數(shù)據(jù)驅(qū)動」也被特斯拉玩出新高度,在 30PB 的數(shù)據(jù)積累下,每 8 分鐘就能訓(xùn)練一個模型。如今,F(xiàn)SD Beta 已迭代到 10.69.2.2 版本,測試人數(shù)來到 16 萬。按照馬斯克新立下的 FLAG,今年底將向全球開放。另一邊,超算 DOJO 也傳來好消息。不僅提供超高算力,還擁有比肩英偉達(dá)的帶寬、減少延遲、節(jié)省成本等優(yōu)勢。據(jù)了解,特斯拉將于 2023 年第一季度在美國帕洛阿爾托完成七臺 EXA POD 的建設(shè)。尤為值得一提的是,如今 AI Day 也成了特斯拉的招聘宣講會,馬斯克在會上多次表示希望吸引有才能的人加入,「硅谷那些大公司可能會辜負(fù)你,但特斯拉不會,在這里,你會享受到未曾想象的自由?!?/span>「占用網(wǎng)絡(luò)」被特斯拉引入自動駕駛FSD Beta 測試人數(shù)已達(dá) 16 萬人在本屆 AI Day 上,最新亮相的特斯拉人形機(jī)器人 Optimus 無疑吸引了大量目光。就連 Autopilot 負(fù)責(zé)人 Ashok 在接棒該部分之后的演講時,也不免捏了汗,自嘲道:「我盡量做到不冷場。」盡管如此,無論從時間篇幅,還是從演講人數(shù)上來說,自動駕駛?cè)允沁@次盛會的重頭戲。與前幾屆 AI Day 側(cè)重感知技術(shù)突破交流不同,這次的分享更多聚焦在規(guī)劃/「Planning」上面。Ashok 用上面這張框圖基本概括了這次 AI Day 上有關(guān)自動駕駛的主要內(nèi)容,可以看到:左邊的訓(xùn)練基礎(chǔ)設(shè)施(Training Infra)和右邊的 AI 編譯器&推理引擎(AI Compiler& Inference),以及下方的訓(xùn)練數(shù)據(jù)(Training Data),共同輸入信息進(jìn)入神經(jīng)網(wǎng)絡(luò)(Neutral Networks)中,對占用網(wǎng)絡(luò)(Occupancy)和一些幾何形狀(Lanes and Objects)進(jìn)行分析,最后整體輸出結(jié)果,生成自動駕駛車輛的路徑規(guī)劃。以一個十字路口的通行交通流為例,當(dāng)前車輛處于待左轉(zhuǎn)進(jìn)東西方向車道的位置,而對向有行人橫穿馬路,待轉(zhuǎn)入的車道也有川流不息的車流,這時自動駕駛車輛該如何通過?從策略上來說,先讓行車流,待行人走遠(yuǎn)后再通行,無疑是最優(yōu)選擇,然而這看似平常的操作,對于僅依賴 8 顆攝像頭做感知的特斯拉來說,卻沒有那么簡單。這里面涉及許多物體(包括人)之間相互關(guān)聯(lián)的判斷,以及智能汽車應(yīng)該如何作規(guī)劃協(xié)調(diào)。特斯拉的做法是首先通過 8 個攝像頭的視頻流,形成一個基于 3D 定位的「可見空間」,即所謂的占用網(wǎng)絡(luò)區(qū)域。該區(qū)域?qū)呙璧降奈矬w邊緣用方塊顯示,類似《我的世界》游戲中對于各類建筑物的網(wǎng)格化描述,并渲染到向量空間,以此來呈現(xiàn)現(xiàn)實(shí)世界。與此同時,也有一些攝像頭覆蓋不到的地方,例如被遮擋的障礙物。這時,特斯拉 FSD 能夠通過 AI 編譯器&推理引擎,預(yù)測可能有路緣、道路上各種標(biāo)線等等。更值得一提的是,對于車輛或者人,特斯拉還考慮到他們的運(yùn)動學(xué)狀態(tài),比如說速度和加速度,來進(jìn)行多模態(tài)的預(yù)測。這相對傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)來說非常復(fù)雜,后者完全不可實(shí)現(xiàn)。自動駕駛離不開數(shù)據(jù)的「喂養(yǎng)」。對應(yīng)到特斯拉的訓(xùn)練數(shù)據(jù)上,分為三個部分:自動標(biāo)注(Auto Labeling)、仿真 (Simulation)、數(shù)據(jù)引擎(Data Engine)。據(jù) Autopilot 團(tuán)隊成員介紹,特斯拉積累了海量的視頻片段,其中的數(shù)據(jù)達(dá) 30PB,需要 10 萬個 GPU 同時工作 1 小時才能處理完。要對這些片段進(jìn)行訓(xùn)練,需要一個強(qiáng)大的標(biāo)注網(wǎng)絡(luò),不僅需要效率足夠高,還要能滿足和人類標(biāo)注一樣的高質(zhì)量、多樣性以及擴(kuò)展性要求。對此,特斯拉采用「人機(jī)合作」的方式,既使用人力標(biāo)注,也采用自動標(biāo)注。不過 Autopilot 團(tuán)隊正在加強(qiáng)自動標(biāo)注的能力,例如與占用網(wǎng)絡(luò)相結(jié)合,與運(yùn)動學(xué)信息結(jié)合,讓 FSD 變得更加智能和高效。「我們可能需要 10 萬個片段進(jìn)行標(biāo)注來訓(xùn)練 FSD,這真的像專門的標(biāo)注工廠,可以讓我們的技術(shù)基礎(chǔ)更扎實(shí)。」現(xiàn)實(shí)世界收集到的數(shù)據(jù)不足以覆蓋所有場景,要完善 FSD 的功能,還需要做仿真模擬。Autopilot 團(tuán)隊成員介紹,目前特斯拉僅用 5 分鐘時間,就可以生成與現(xiàn)實(shí)世界非常接近的虛擬場景,他還以舊金山街道地圖為例,包括地面標(biāo)線、行人車輛、信號燈,甚至樹木樹葉也能隨時換景。此外,針對城市、郊區(qū)、農(nóng)村不同地區(qū),也能建立十分逼真的道路場景。而如果由人工來繪制設(shè)計,或許需要一兩周甚至幾個月時間。數(shù)據(jù)引擎也是本屆 AI Day 上自動駕駛技術(shù)的一大亮點(diǎn)。按照 Autopilot 成員 Kate Park 的說法,數(shù)據(jù)引擎是將通過將數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò),提高確定性,以更好地去解決現(xiàn)實(shí)世界的預(yù)測問題。她引入了一個如何判斷交叉路口轉(zhuǎn)彎處的車輛是否停止的問題:如果車輛在拐彎的地方速度降低,該如何應(yīng)對,能否判定為停車。對此,特斯拉創(chuàng)建了許多網(wǎng)絡(luò)進(jìn)行評估,針對這一問題收集了 1.4 萬個類似的視頻,或來自當(dāng)前車隊,或來自仿真模擬,添加到訓(xùn)練集中,以幫助自動駕駛車輛做更好的預(yù)測和判斷。從其演示的視頻中可以看到,特斯拉用不同顏色標(biāo)注了不同轉(zhuǎn)彎處的車輛行駛情況?!讣t色或許意味著是處于停止?fàn)顟B(tài),從結(jié)果來看,我們當(dāng)前判斷已經(jīng)不錯了?!?/span>事實(shí)上,以上所有這些功能都已在特斯拉最新的 FSD Beta 10.69.2.2 上推送。據(jù)了解,目前特斯拉 FSD Beta 的測試人數(shù)已經(jīng)擴(kuò)充到 16 萬人,而在去年這一數(shù)據(jù)還僅為 2000 人。Ashok 表示,特斯拉持續(xù)一年,以 7 天訓(xùn)練 75,000 個神經(jīng)網(wǎng)絡(luò)模型的節(jié)奏推進(jìn)研發(fā),基本上相當(dāng)于每 8 分鐘就訓(xùn)練了一個模型。與此同時,馬斯克也透露,按照這樣的速度,特斯拉可以在 2022 年年底向不限于美國和加拿大在內(nèi)的全球推出 FSD。「我們在技術(shù)層面已經(jīng)做好了,可以適應(yīng)任一國家的不同的路況。」至于監(jiān)管審批上的問題,特斯拉也正在和各地保持密切溝通。按照馬斯克此前的描述,F(xiàn)SD 的測試人群將在今年年底擴(kuò)大至 100 萬人。 DOJO 蓄勢待發(fā),降本增效打英偉達(dá) 作為特斯拉云端訓(xùn)練的超級計算機(jī),DOJO 無疑是特斯拉 AI DAY 的壓軸大作。 馬斯克曾在 2019 年首次提到 DOJO 的概念: DOJO 是性能野獸,能夠處理海量的數(shù)據(jù),用于「無人監(jiān)管」式的標(biāo)注和訓(xùn)練,相當(dāng)于是無需人工對訓(xùn)練數(shù)據(jù)集進(jìn)行標(biāo)注,系統(tǒng)能夠自行通過樣本間的統(tǒng)計規(guī)模對樣本集進(jìn)行分析,進(jìn)而提高效率。 言外之意,DOJO 的使命是如何用最高的效率,訓(xùn)練特斯拉的純視覺自動駕駛。 在去年特斯拉 AI Day 和 Hot Chips 34 會議上,特斯拉先后披露了 DOJO 的架構(gòu)、細(xì)節(jié)參數(shù),包括建立主機(jī) CPU 與訓(xùn)練處理之間橋梁的接口處理器(DIP),以及 AI 算力高達(dá) 362TFLOPs 的 D1 芯片等等。時隔一年,特斯拉不僅帶來更具有象征意義的研究成果,并計劃在 2023 年第一季度正式量產(chǎn) DOJO EXA POD。特斯拉 Autopilot 硬件工程副總裁 Pete Bannon 表示,DOJO 相較于去年的工作測試,今年的進(jìn)度主要在于 DOJO 背后如何將芯片組成、以及更加高效的編譯。「省時、省力、省成本、省空間」,EXA POD 的出現(xiàn)便是遵循了馬斯克強(qiáng)調(diào)的第一性原理。簡單來說,如果將 DOJO 視為一個超算集群,那么 EXA POD 可以視為這個集群當(dāng)中的一組成員。一個 EXA POD 將由兩層計算托盤和存儲系統(tǒng)組成,每一層托盤包括 6 顆 D1 芯片、20 個接口處理器,包含 1.3TB 的高速 SRAM、13TB 的高帶寬 DRAM,以及 1.1 EFLOP 的算力。除此之外,為了解決 EXA POD 極限的高集成度帶來的熱膨脹系數(shù)(CET)問題,特斯拉曾在 24 個月內(nèi)迭代了 14 個版本,最終采用了自研的電壓調(diào)節(jié)模組(VRM),降低了超過 50% 的 CTE,并擴(kuò)大 3 倍以上的性能指標(biāo)。特斯拉工程師表示,EXA POD 在具有人工智能訓(xùn)練超高算力的同時,擁有擴(kuò)展帶寬、減少延遲、節(jié)省成本等優(yōu)勢。比如在 Batch Norm Results 測試上,EXA POD 相比 GPU 有數(shù)量級的延遲優(yōu)勢。其次在跑經(jīng)典圖像項目 RESNET-50 上,EXA POD 的計算能力超越英偉達(dá) A100。最后在跑自動標(biāo)注算法測試上,EXA POD 以倍增的性能超越英偉達(dá) A100。一個 EXA POD 相當(dāng)于六個 GPU 的成本,四個 EXA POD 可以替代 72 個 GPU RACKS,相當(dāng)于在同樣的成本下,EXA POD 的性能高 4 倍,能耗比高 1.3 倍,空間縮小 5 倍。總而言之,特斯拉 DOJO 的研發(fā)進(jìn)度其實(shí)已經(jīng)接近尾聲。這也意味著馬斯克再一次清晰勾勒出 FSD 的最終形態(tài),畢竟對于那些無數(shù)的邊緣場景,只能通過真實(shí)世界的視覺 AI 來解決,AI 芯片只能算是錦上添花。這也是馬斯克曾經(jīng)認(rèn)清的一個事實(shí):只有解決了真實(shí)世界的 AI 問題,才能解決自動駕駛問題——除非擁有很強(qiáng)的 AI 能力以及超強(qiáng)算力,否則根本沒辦法。以 Alpha Go 專攻圍棋為例,在經(jīng)過人工參與調(diào)整和標(biāo)注的訓(xùn)練,進(jìn)而擊敗全球圍棋高手。而 DOJO 可以視為專攻自動駕駛領(lǐng)域的 Alpha Go,通過深度學(xué)習(xí)和分析海量的特斯拉車隊數(shù)據(jù),DOJO 可以自動處理標(biāo)注數(shù)據(jù)、自動尋找問題最優(yōu)解。按照規(guī)劃,特斯拉將于 2023 年第一季度在美國帕洛阿爾托完成七臺 EXA POD 的建設(shè)。這意味著 DOJO 超級計算機(jī)將成為世界上最強(qiáng)大的超級計算機(jī)之一,能夠?qū)⑿枰ㄙM(fèi)數(shù)月的標(biāo)注工作縮減至一周。「至少可以幫助你用更少的錢,更快地訓(xùn)練模型的在線服務(wù)?!棺詈篑R斯克補(bǔ)充道,DOJO 超級計算機(jī)將來會像 Amazon Web 服務(wù)一樣,通過付費(fèi)的形式提供給其他用戶在云端使用。僅僅一年時間,特斯拉就不僅把去年的人形機(jī)器人彩蛋變?yōu)楝F(xiàn)實(shí),包括背后的工程技術(shù)、開發(fā)邏輯、成本費(fèi)用等等,特斯拉背后的工程師團(tuán)隊已經(jīng)信心滿滿。值得一提的是,特斯拉人形機(jī)器人的感知和技術(shù)部分基本沿用特斯拉 FSD 方案,包括特斯拉 D1 芯片集成的系統(tǒng)作為」大腦「,以及面部八顆 Autopilot 攝像頭。特斯拉工程師表示,特斯拉人形機(jī)器人通過頭部的攝像頭采集感知數(shù)據(jù),再通過 FSD 視覺算法進(jìn)行識別,從而行走、執(zhí)行指令等等。言外之意,特斯拉人形機(jī)器人并不是按照傳統(tǒng)程序單一的執(zhí)行指令,而是通過 AI 模型自主學(xué)習(xí)。正如馬斯克所言,通過 AI Day,我們希望外界對特斯拉的認(rèn)知能夠超越電動車,我們是 real-world AI(人工智能)領(lǐng)域的時代先鋒。」活動現(xiàn)場,馬斯克也再次重申特斯拉舉辦 AI Day 活動和展示機(jī)器人原型產(chǎn)品,「是為了說服像你們這種全世界最有才華的人加入特斯拉,幫助我們把它變成現(xiàn)實(shí)。確實(shí),對于這樣一家火力無限的公司,特斯拉或許已經(jīng)是一個新時代名詞。
|