都說自己能實現(xiàn)自動駕駛數(shù)據(jù)閉環(huán),是否是紙上談兵?來源:ADS智庫 | 首圖圖源:網(wǎng)絡(luò) | 編輯:ADS智庫
全文 4000+ 字,預(yù)計閱讀 15-20 分鐘本文就“自動駕駛數(shù)據(jù)閉環(huán)”話題整理了一些來自知乎、各家官網(wǎng)及網(wǎng)絡(luò)公開信息,還摻雜了部分個人觀點/看法,僅供參考,歡迎討論~
導(dǎo)讀
1 數(shù)據(jù)閉環(huán)介紹
1.1 什么是數(shù)據(jù)閉環(huán)? | 1.2 數(shù)據(jù)閉環(huán)核心模塊介紹
2 數(shù)據(jù)閉環(huán)案例
2.1 Tesla | 2.2 Waymo | 2.3 英偉達 | 2.4 百度 | 2.5 禾多 | 2.6 華為
3 數(shù)據(jù)閉環(huán)難點
3.1 量產(chǎn) | 3.2 合規(guī) | 3.3 數(shù)據(jù)管理 | 3.4 數(shù)據(jù)標注及后續(xù)處理 數(shù)據(jù)閉環(huán)本身不算一個新概念,互聯(lián)網(wǎng)早期便有廣泛應(yīng)用,一個典型的例子:各 App 的“用戶體驗改進計劃”。自動駕駛系統(tǒng)除代碼外,還有 AI 模型,其數(shù)據(jù)閉環(huán)在傳統(tǒng)數(shù)據(jù)閉環(huán)方式上引入了模型問題的相關(guān)模塊。其最核心的兩個意義:增效、降本。
自動駕駛中的數(shù)據(jù)閉環(huán),是指算法研發(fā)由 case-driven 轉(zhuǎn)向 data-driven 的核心步驟。大概整理了下數(shù)據(jù)閉環(huán)的鏈路,如下圖所示:- 鏈路中的環(huán)節(jié)包含工具鏈路通和算法開發(fā)兩部分。
- 算法開發(fā)主要有數(shù)據(jù)挖掘數(shù)據(jù)標注、模型優(yōu)化這三部分。
- 這里面數(shù)據(jù)標注中的自動標注,即 AutoLabeling 是目前數(shù)據(jù)閉環(huán)中最為核心的部分。
- 數(shù)據(jù)挖掘和模型優(yōu)化,也是需要攻克和解決的點,只不過從成本和效率上,目前優(yōu)先級沒有自動標注高。
數(shù)據(jù)閉環(huán)核心部分介紹——AutoLabeling 方案1.2.1 Pipeline
目標檢測任務(wù)的主要 pipeline 流程包含目標檢測、軌跡生成、軌跡優(yōu)化三部分。其中目標檢測模型 MOT 算法,都有比較成熟的算法,所以 AutoLabeling 中創(chuàng)新點主要體現(xiàn)在軌跡優(yōu)化這個步驟。1.2.2 學(xué)術(shù)界的 SOTA
目前關(guān)于 AutoLabeling 的完整方案方面的論文不是很多,這里面比較有代表性的有:谷歌Waymo在2021年發(fā)表的:《Offboard 3D Object Detection from Point Cloud Sequences》
Uber的ATG(Advanced Technology Group)在2021年發(fā)表的:《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》
Open MMLab在2022年發(fā)表的:《MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection》
下面對這三篇文章做了個簡單地總結(jié)和對比:
1.2.3 Auto4D的軌跡優(yōu)化
Size Branch: 累積全軌跡點(時域信息忽略),BEV編碼,得到全局的穩(wěn)定size。
Update:基于最近corner align,更新全軌跡的box屬性。
Path Branch:累積全軌跡點(保留時域信息,但時域和高度channel合并),BEV編碼,得到相鄰幀位移
1.2.4 Offboard3D的軌跡優(yōu)化處理
動靜態(tài)判斷:box中心點方差<1m/s^2,首尾幀中心點偏移<1m,則為靜態(tài),否則為動態(tài)。
靜態(tài)軌跡優(yōu)化:前背景分割網(wǎng)絡(luò)對box周圍的原始點進行分割,box回歸網(wǎng)絡(luò)得到box屬性(基于PointNet)
動態(tài)軌跡優(yōu)化:對于點進行前背景分割+點序列編碼,對于框進行序列編碼,最后加2層box回歸網(wǎng)絡(luò)。
1.2.5 MPPNet
選取代理點:每個框均勻選擇代理點(4x4x4)
單幀提取特征:提取幾何特征、運動特征
組內(nèi)特征編碼:x、y、z、c通道分割使用MLP進行feature mixing
組間特征編碼:使用Former結(jié)構(gòu),共享K、V,進行feature mixing
3D檢測頭:使用Tranformer Decoder
億歐統(tǒng)計了 2023 年具備自動駕駛數(shù)據(jù)閉環(huán)能力的“智駕做題家”團隊,如下:主機廠:tesla、小鵬、阿維塔
自動駕駛解決方案/零部件供應(yīng)商:Momenta、小馬智行、華為智能車BU、文遠知行、易航智能、德賽西威、馭勢科技、禾多科技、宏景智駕、天瞳威視、領(lǐng)駿科技、蘑菇車聯(lián)、智行者科技、福瑞泰克、覺非科技、知行科技、毫末智行、MINIEYE、均勝智能、東軟睿馳、四維圖新、輕舟智航、中海庭、智協(xié)慧同
芯片供應(yīng)商:地平線、黑芝麻智能、芯馳科技、英偉達
數(shù)據(jù)服務(wù)商:云測數(shù)據(jù)、曼孚科技、奧鵬Appen、格物鈦、景聯(lián)文科技、海天瑞聲、世紀互聯(lián)、整數(shù)智能、杉巖數(shù)據(jù)
云服務(wù)供應(yīng)商:亞馬遜AWS、華為云、百度智能云、阿里云、火山引擎
本文介紹其中 6 家企業(yè)的自動駕駛數(shù)據(jù)閉環(huán)方案。
Tesla 以 Autopilot 數(shù)據(jù)引擎框架為核心,基于車端傳感器獲取數(shù)據(jù)后,在數(shù)據(jù)管理平臺上,首先經(jīng)過單元測試確認模型誤差,然后經(jīng)過數(shù)據(jù)清洗與標注,最后完成模型訓(xùn)練與部署,整體架構(gòu)如下圖所示。
相較于 Tesla,Waymo 引入了數(shù)據(jù)挖掘、主動學(xué)習(xí)、自動標注等模塊,但基本的框架相差無幾。獲得數(shù)據(jù)來源后,通過數(shù)據(jù)標注獲得數(shù)據(jù)真值,其中涉及到數(shù)據(jù)篩選、挖掘和主動學(xué)習(xí),模型優(yōu)化完成測試后,進行發(fā)布或部署。
英偉達在自動駕駛開發(fā)建立的機器學(xué)習(xí)平臺 MAGLEV,也是基于閉環(huán)的模型迭代:其中有 smart 的數(shù)據(jù)選擇、數(shù)據(jù)標準、模型搜索、訓(xùn)練、評估、調(diào)試和部署。
- 一個是中間層小環(huán),數(shù)據(jù)產(chǎn)生之后,經(jīng)過數(shù)據(jù)管理平臺,包括一些仿真測試、仿真云、再到車端部署,實現(xiàn)仿真的場景。
- 另一個是外面的大環(huán),主要做一些數(shù)據(jù)管理的工作,經(jīng)過標準、加工、模型訓(xùn)練以及最后的車端部署,來實現(xiàn)這樣一個大環(huán)。
將上面的數(shù)據(jù)閉環(huán)鏈路拆解到架構(gòu)層來看,可以把自動駕駛的數(shù)據(jù)研發(fā)分為如下五層:從最底下的基礎(chǔ)設(shè)施,到中間的 PaaS 工具鏈,再到上面的一些 AI 運營服務(wù)。禾多基于完全自研工具鏈,形成了從數(shù)據(jù)采集、數(shù)據(jù)仿真到場景庫搭建、系統(tǒng)測試的完整閉環(huán),打通了基于數(shù)據(jù)驅(qū)動的自動駕駛系統(tǒng)升級閉環(huán)鏈路。
華為云提供了三層加速方案,包括訓(xùn)練加速、數(shù)據(jù)加速、算力加速,自動駕駛算法能夠高效被訓(xùn)練、被推理,也能形成整個數(shù)據(jù)端到端的閉環(huán)。
華為云依托 "1+3+M+N" 全球汽車產(chǎn)業(yè)云基礎(chǔ)設(shè)施布局,即全球 1 張車用存算網(wǎng)、3 個超大數(shù)據(jù)中心構(gòu)建汽車專區(qū)、M 個分布式車聯(lián)網(wǎng)節(jié)點、N 個汽車專用數(shù)據(jù)接入點,助力企業(yè)打造數(shù)據(jù)傳輸、存儲、計算、專業(yè)合規(guī)基礎(chǔ)設(shè)施,助推智能駕駛持續(xù)發(fā)展。華為開發(fā)者大會上,張平安表示:華為盤古大模型 3.0 是一個完全面向行業(yè)的大模型系列,包括 5+N+X 三層架構(gòu),其中第二層的 L1 層是 N 個行業(yè)的大模型,既可以提供使用行業(yè)公開數(shù)據(jù)訓(xùn)練的行業(yè)通用大模型,包括政務(wù),金融,制造,礦山,氣象等;也可以基于行業(yè)客戶的自有數(shù)據(jù),在盤古的 L0 和 L1 上,為客戶訓(xùn)練自己的專有大模型。自動駕駛技術(shù)及平臺能力已逐漸成熟,但數(shù)據(jù)安全監(jiān)管、數(shù)據(jù)閉環(huán)“長尾”問題、工具鏈、訓(xùn)練算力、成本等影響高階自動駕駛商業(yè)化落地的關(guān)鍵挑戰(zhàn)仍在。過去一兩年,國內(nèi)大部分車廠都是從 0-1 建立數(shù)據(jù)閉環(huán)的過程。未來數(shù)據(jù)閉環(huán)會從 1.0 向 2.0 方向演進。1.0 是最基礎(chǔ)的功能,客戶的典型訴求是能把數(shù)據(jù)閉環(huán)跑通,2.0 就要關(guān)注數(shù)據(jù)閉環(huán)的效率和成本。難點主要介紹 4 個方面:量產(chǎn)、合規(guī)和數(shù)據(jù)管理平臺、數(shù)據(jù)標注及后續(xù)處理針對數(shù)據(jù)傳輸以及數(shù)據(jù)特點,數(shù)據(jù)采集車和量產(chǎn)車有以下不同點。
| | |
| | 車輛規(guī)模小但單車數(shù)據(jù)量大
|
| 車端軌跡偏轉(zhuǎn)插件和圖商密鑰加密無線上傳的模式
| 單條數(shù)據(jù)量小,但數(shù)據(jù)量巨大
|
目前行業(yè)來看,數(shù)據(jù)采集車上采集的數(shù)據(jù)用于自動駕駛功能/算法開發(fā)(深度學(xué)習(xí)模型迭代),而量產(chǎn)車上主要采集的是系統(tǒng)診斷通訊數(shù)據(jù)、自動駕駛系統(tǒng)存在故障的數(shù)據(jù)以及由于車型變化影響自動駕駛算法功能的車型差異視頻數(shù)據(jù)。量產(chǎn)車上回傳的大量數(shù)據(jù),需要系統(tǒng)具備高效的文件傳輸能力以及充足的算力,就目前行業(yè)現(xiàn)狀來看,還沒有哪家企業(yè)具備處理或回傳大量數(shù)據(jù)的能力。合規(guī)分為測繪合規(guī)和隱私合規(guī):測繪合規(guī)主要涉及到采集國家地理信息時的合規(guī),隱私合規(guī)主要涉及到采集用戶隱私相關(guān)數(shù)據(jù)的合規(guī)。自從 2022 年 830 新規(guī)之后,無論是量產(chǎn)車、采集車還是測試車,自動駕駛相關(guān)的道路數(shù)據(jù)采集都屬于測繪成果數(shù)據(jù)。關(guān)于隱私合規(guī)、測繪合規(guī)的國家要求可以參考下表: | | | | |
| | | | |
| | 軍事區(qū)域 專用的鐵軌或者道路大型民用設(shè)施 限高、限重、限寬標牌 | | |
國家對于車載攝像頭、高精定位、激光雷達等傳感器采集的數(shù)據(jù)還有嚴格的合規(guī)要求:測繪的合規(guī)流程很復(fù)雜(例如:采集的數(shù)據(jù)還需要車端脫敏、加密等合規(guī)處理),資質(zhì)又難于獲?。浑[私合規(guī)方面國家給出的限定條款相對寬泛,企業(yè)在量產(chǎn)車上采集數(shù)據(jù),需要用戶授權(quán)。這對海量自動駕駛數(shù)據(jù)的脫敏帶來了巨大挑戰(zhàn)。
數(shù)據(jù)管理平臺承擔(dān)著高階輔助駕駛/自動駕駛域的數(shù)據(jù)注入、數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)管理服務(wù)。可以為高階輔助駕駛/自動駕駛研發(fā)過程中的 corner case 問題分析、感知模型訓(xùn)練、數(shù)據(jù)標注、仿真場景、評測驗證等提供數(shù)據(jù)支撐,是衡量高階輔助駕駛/自動駕駛研發(fā)能力和水平的關(guān)鍵。
自動駕駛系統(tǒng)規(guī)?;慨a(chǎn)后,各企業(yè)將面臨海量數(shù)據(jù)風(fēng)暴,且自動化程度越高,所需的數(shù)據(jù)存儲量越大。急劇增加的數(shù)據(jù)量給存儲空間以及數(shù)據(jù)處理的速度都帶來了挑戰(zhàn)。無論是量產(chǎn)車數(shù)采,還是數(shù)據(jù)采集車數(shù)采,自動駕駛視頻采集量都很大,而且采集的視頻需要盡可能的還原真實場景數(shù)據(jù),因此,每天采集的數(shù)據(jù)量大概是 TB 級別,數(shù)據(jù)海量。即使采用自動化標注工具進行標注后,由于目前的標注工具準確度不夠高,還需要人工進行校驗、修改。數(shù)據(jù)標注面臨如下幾個問題:
人工標注的標準很難保證一致性,存在精度偏差。
在海量數(shù)據(jù)量的情況下,人工標注需要很大工作量,很難保證標注結(jié)果完全準確。
除了海量數(shù)據(jù),自動駕駛需要標注的特征種類繁多,這也給數(shù)據(jù)處理增加難度。
合規(guī)問題(車輛安全)-->數(shù)據(jù)脫敏、加密困難等自動駕駛數(shù)據(jù)量大-->數(shù)據(jù)接入困難,數(shù)據(jù)存儲困難,數(shù)據(jù)標注及后續(xù)處理困難,模型訓(xùn)練及迭代困難等1. 自動駕駛數(shù)據(jù)閉環(huán)過去幾年是“從無到有”,現(xiàn)在及未來是“從有到精”。 2. 自動駕駛鏈路很長,功能側(cè)仍有很多技術(shù)問題需要解決,大部分都是功能探索為主,平臺與系統(tǒng)建設(shè)為輔?;隍?qū)動研發(fā)及運營模式的角度來看,目前并沒有真正意義上的閉環(huán),都是局部閉環(huán),大部分都需要手動工作,例如:數(shù)據(jù)標注。3. 實現(xiàn)自動化數(shù)據(jù)閉環(huán)之路還很長,我們看到了它的進步,更期盼它能更好的實現(xiàn)增效、降本。1. 自動駕駛數(shù)據(jù)閉環(huán)及 AutoLabeling 方案介紹https://www.zhihu.com/question/552466858/answer/27921011202. 自動駕駛數(shù)據(jù)閉環(huán):實現(xiàn)高階自動駕駛的必由之路https://zhuanlan.zhihu.com/p/5779508983. 自動駕駛數(shù)據(jù)閉環(huán)系列之一:理想豐滿,現(xiàn)實骨感
https://mp.weixin.qq.com/s/A4bLFRdIfYwG81LBanJDYg4. 自動駕駛數(shù)據(jù)閉環(huán),2023智駕量產(chǎn)新戰(zhàn)場
https://mp.weixin.qq.com/s/v1i8ZSnSCfJag7MbnhzgTA
5. 數(shù)據(jù)閉環(huán)(一),落地道路上的三大難點https://mp.weixin.qq.com/s/5tEe5WkTR35P0b7wM9f6EQ<- 推 薦 閱 讀 ->
【聲明】除文內(nèi)特殊聲明外,本公眾號內(nèi)所有文章編寫或轉(zhuǎn)載的目的僅用于學(xué)習(xí)和交流,不予以商用,不代表本號觀點及立場。本公眾號內(nèi)資訊及正文引用圖片均由個人公眾號 ADS 智庫六耳基于官網(wǎng)或公開信息梳理或引用。本公眾號所引用及轉(zhuǎn)載內(nèi)容版權(quán)均歸原作者所有,凡是注明來源 “ XXX ADS 智庫 ” 或作者為 “ XXX 六耳、XXX ADS 智庫 ” 的文章轉(zhuǎn)載或引用時請注明來源 ADS 智庫。若有版權(quán)或其他任何問題請聯(lián)系六耳( 微信號:adas_miao ),本號將及時處理。