【原】如果讓AlphaGo去開車……

cheyunwang 2020-09-11

展開全文

今天下午，在連勝兩局之后，谷歌阿爾法狗（AlphaGo）拿下賽點(diǎn)，以五局三勝的成績戰(zhàn)勝圍棋職業(yè)九段選手李世石。目前勝負(fù)已定，但是接下來幾天，雙方還會完成余下的兩場比賽。和其他圍棋比賽不同的是，這次的獲勝選手因?yàn)椴煌ㄇ楦?，沒有表露半點(diǎn)喜悅。

谷歌阿爾法狗（AlphaGo）是專門開發(fā)出來進(jìn)行圍棋對弈的人工智能。這場圍棋競技是機(jī)器首次與九段棋士對決，被不少人認(rèn)為具有里程碑意義。一個腦洞大開的問題是，既然阿爾法狗已經(jīng)如此智能，如果教會它開車，是不是比人類更厲害？

阿爾法狗為什么強(qiáng)？

其實(shí)人機(jī)對弈的故事并非第一個。不少人都會提起1997年IBM研制的超級電腦“深藍(lán)”與國際象棋世界冠軍卡斯帕羅夫的那場對決。當(dāng)時“深藍(lán)”在標(biāo)準(zhǔn)比賽時限內(nèi)以3.5:2.5的累計(jì)積分擊敗了人類選手斯帕羅夫，其設(shè)計(jì)者許峰雄曾經(jīng)提到，一般的國際象棋手能想到后7步就很不錯了，但“深藍(lán)”能想到12步，甚至40步遠(yuǎn)。正是計(jì)算機(jī)強(qiáng)于人類大腦的計(jì)算能力，讓它在棋盤的全局走勢上看得更遠(yuǎn)，成為取勝的決定性優(yōu)勢。

△象棋（上）和圍棋（下）的算法圖對比

簡單來說，“深藍(lán)”下棋時，會不斷演算每一步落子，嘗試不同方法，接著選出一個最好的結(jié)果，最后落子。這種“窮舉法”對象棋而言行之有效，但是觀察上面象棋和圍棋的算法圖不難發(fā)現(xiàn)，圍棋的落子空間和下棋步數(shù)要復(fù)雜很多，計(jì)算堪稱指數(shù)爆炸級，同樣的暴力搜索對計(jì)算機(jī)而言，難以實(shí)現(xiàn)。

現(xiàn)在阿爾法狗連贏李世石3局，那么和“深藍(lán)”相比，它到底強(qiáng)在哪里？

關(guān)于這個問題，車云菌請教了地平線聯(lián)合創(chuàng)始人兼算法副總裁黃暢，具有圍棋功底的他看來，阿爾法狗具有了類似人類棋手的“棋感”策略(Policy)。這在以往與人對弈的人工智能中尚未出現(xiàn)，因此堪稱里程碑意義。

所謂“棋感”策略，類似一種決策經(jīng)驗(yàn)。人類棋手在長期學(xué)習(xí)和磨練中，逐漸培養(yǎng)出的一種直覺。根據(jù)棋盤上當(dāng)下的棋局分布，判斷出落子的大致范圍。黃暢向車云菌解釋，棋感策略讓阿爾法狗無需暴力分析所有方法，而是把運(yùn)算能力集中到幾種最可能情況，大大減少運(yùn)算量。

更深一步的算法層面，黃暢對整套大框架提取了阿爾法狗的三大亮點(diǎn)：

第一，基于深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得強(qiáng)大的棋感策略和盤面評估能力。

第二，讓兩只阿爾法狗對弈，用增強(qiáng)學(xué)習(xí)算法持續(xù)提升棋感策略和盤面評估能力。

第三，將棋感策略和盤面評估能力進(jìn)行巧妙的結(jié)合，用蒙特卡洛搜索得到對弈中的最優(yōu)方案。

值得注意的是，此處提到的增強(qiáng)式學(xué)習(xí)是一種訓(xùn)練過程，并且和以往常見的監(jiān)督式學(xué)習(xí)框架存在差異。監(jiān)督式學(xué)習(xí)框架需要更多人工介入，如果想讓機(jī)器認(rèn)識杯子，就必須搜集足夠多的杯子后告訴機(jī)器，由機(jī)器提取特征學(xué)習(xí)后掌握。而增強(qiáng)式學(xué)習(xí)，黃暢打了個比方，更像是馴獸員訓(xùn)練小狗，不用告訴它把抬起爪子，只要通過做對了有肉吃這種交互，積累反復(fù)嘗試學(xué)會這個動作。黃暢認(rèn)為，這是一種更加理想的人工智能學(xué)習(xí)模式，因?yàn)樗璧娜斯じ深A(yù)更少。

到此略作小結(jié)，通過訓(xùn)練，阿爾法狗最終依靠全盤計(jì)算的能力獲勝，但棋感的獲得讓它更好地發(fā)揮了全盤計(jì)算的優(yōu)勢。當(dāng)然，也因?yàn)檫@位選手沒有任何情感，所以在一些考驗(yàn)心理素質(zhì)的部分，優(yōu)于人類對手并略勝一籌。

如果讓阿爾法狗去開車……

既然有了棋感，不免讓人聯(lián)想到駕控感。假如人類駕駛員面對一個彎道，操控時擰過方向盤的角度，踩下剎車的力度判斷，都會包含著一種人類駕駛經(jīng)驗(yàn)。阿爾法狗的“棋感”，有沒有辦法遷移到自動駕駛中去？

黃暢給出的答案是，“很有可能”。

如果用阿爾法狗“棋感”部分的算法框架訓(xùn)練自動駕駛汽車，應(yīng)該也能在規(guī)劃控制上大大提升。但是和阿爾法狗的訓(xùn)練過程一樣，自動駕駛車的人工智能需要一遍又一遍地在各種情況下開車駕駛，通過增強(qiáng)式學(xué)習(xí)，直到像小狗看到食物伸出爪子一樣，處理每個彎道像老司機(jī)一樣自然。

在現(xiàn)實(shí)中，讓自動駕駛汽車實(shí)地訓(xùn)練極其危險且成本高昂，因此需要借助自動駕駛模擬器。黃暢介紹，目前有很多做得非常不錯的模擬器，只要讓負(fù)責(zé)自動駕駛的人工智能在其中不斷演練，也能進(jìn)行學(xué)習(xí)。“打賽車電動”也能訓(xùn)練，這和真實(shí)路測相比更加安全高效。

BUT，就像開車不全靠是駕控感一樣，阿爾法狗這項(xiàng)意義非凡的能力，還不足以讓它完成整套自動駕駛。假如用阿爾法狗的整個框架作為底層，設(shè)計(jì)出的無人駕駛系統(tǒng)，未必強(qiáng)于人類。因?yàn)槟壳白詣玉{駛的瓶頸，在于感知部分而非控制。黃暢認(rèn)為，目前自動駕駛研究的感知能力才僅僅接近技術(shù)可用，尚未考慮成本、量產(chǎn)等因素。

阿爾法狗擁有感知能力。在與李世石的對弈現(xiàn)場，它可以利用計(jì)算機(jī)視覺“看懂”19*19整塊棋盤上的黑白子位置。但是和滿足自動駕駛所需的算法相比，這還遠(yuǎn)遠(yuǎn)不夠。自動駕駛汽車在路上行駛時，要獲得360°全方位感知的能力。并且對于強(qiáng)光、弱光、雨雪等天氣，都能從容應(yīng)對。黃暢表示，這對算法提出的要求是不小的挑戰(zhàn)，而且除了算法本身，你還要不少優(yōu)質(zhì)的傳感器設(shè)備，此處涉及的傳感器融合，又是一個大課題。

車云小結(jié)：

阿爾法狗使用谷歌云計(jì)算服務(wù)器，并通過光纜網(wǎng)絡(luò)連接韓國比賽現(xiàn)場，車云菌在采訪中關(guān)于運(yùn)行算法的硬件仍然龐大這個問題，請教了黃暢。黃暢表示，單機(jī)還是依靠服務(wù)器只是量變，還不是這次比賽需要關(guān)注的重點(diǎn)，硬件發(fā)展迅速，未來在手機(jī)大小的設(shè)備上完成運(yùn)算不會太遠(yuǎn)，這一點(diǎn)在自動駕駛汽車上也同樣適用。算法上的突破才是質(zhì)變，也是這次人機(jī)對弈中阿爾法狗帶來的最出色表演。