DOI:10.3969/ j.issn.1673?3819.2018.02.001 摘 要:AlphaGo 的出現(xiàn)使得深度學習模型受到廣泛關注。深度學習以其出色的特征提取、多層學習和表達能力,為 軍事智能決策支持系統(tǒng)的研究提供了新的思路。介紹了深度學習關鍵技術,通過回顧國內外軍事智能決策支持系 統(tǒng)的發(fā)展歷程,介紹了深度學習在軍事領域的應用,分析了智能輔助決策技術的發(fā)展趨勢以及面臨的挑戰(zhàn),并進行 了總結和展望。 關鍵詞:軍事; 人工智能; 深度學習; 決策支持系統(tǒng); 神經(jīng)網(wǎng)絡 近年來,AlphaGo、AlphaGo Zero 在深度學習方面取得突破性成果,令世人驚嘆,深度學習已被廣泛關注并應用到眾多領域,尤其在識別、推薦、決策等方面展現(xiàn)出了巨大優(yōu)勢。為推進我軍智能化建設,2016 年3 月,《中國軍事科學》編輯部組織舉辦了“圍棋人機大戰(zhàn)與軍事指揮決策智能化” 研討會[1] 。會議廣泛探討了AlphaGo 對于指揮決策智能化的啟示,深入研究了推動我軍走向智能化建設的措施。2017 年9 月,“賽諸葛”全國兵棋推演大賽隆重舉行,中科院自動化所研發(fā)的AI 系統(tǒng)“CASIA?先知V1?? 0”首次戰(zhàn)勝了人類選手,展示出深度學習等人工智能技術在對抗博弈領域的強大能力。眾所周知,軍事決策是軍事領域中最復雜、最具挑戰(zhàn)的活動,并由此促進了軍事輔助決策支持技術的產(chǎn)生和發(fā)展??梢灶A見,深度學習技術的不斷進步必將對軍事智能輔助決策領域產(chǎn)生深刻而重大的影響。本文回顧了深度學習與軍事智能決策支持系統(tǒng)的發(fā)展歷程,探討了深度學習在智能決策應用中的重難點問題,展望了基于深度學習的軍事智能決策支持系統(tǒng)的建設和發(fā)展前景。 1 深度學習 1. 1 基本原理 深度學習是由人工神經(jīng)網(wǎng)絡發(fā)展而來。Hinton[2]等人在2006 年首次提出了基于深度置信網(wǎng)絡的無監(jiān)督概率生成模型,闡述了深度學習的基本原理。深度學習以數(shù)據(jù)和算力為支撐,通過搭建含有多個隱層的神經(jīng)網(wǎng)絡,對外部輸入數(shù)據(jù)進行特征提取,進而從中獲取所需信息。這樣的模型具有很高的存儲效率,而線性增加的神經(jīng)元數(shù)目可以使其表達按指數(shù)級增加大量信息。隨著大數(shù)據(jù)時代的到來以及計算能力的不斷發(fā)展,人工神經(jīng)網(wǎng)絡在近十年間取得了長足進步,促進了深度學習的快速發(fā)展,由此也使得人工智能從之前必須借助人類的階段向前邁出了一步。 1.2 深度學習發(fā)展沿革 深度學習的發(fā)展大致可分為三個階段。第一階段,以20 世紀80 年代出現(xiàn)的BP 算法[3] 為起點。直到現(xiàn)在,BP 算法都是神經(jīng)網(wǎng)絡模型中很常用的參數(shù)學習方法。然而,由于當時的計算性能有限,且樣本數(shù)據(jù)較為匱乏,僅僅使用BP 算法并不能有效解決局部極值和梯度彌散等問題,這使得神經(jīng)網(wǎng)絡的研究發(fā)展緩慢,一度被學界拋棄。2006 年,Hinton 提出了無監(jiān)督深度置信網(wǎng)絡訓練方法,以此為標志,深度學習進入了第二階段。Hinton 的主要思想是先通過自學習方法進行訓練,然后在自動編碼器上進行有監(jiān)督訓練,實現(xiàn)對參數(shù)的微調。這一時期,隨著硬件技術不斷更新和數(shù)據(jù)規(guī)模不斷增大,深度神經(jīng)網(wǎng)絡模型開始受到業(yè)界的普遍關注,進而在多個領域中得到了發(fā)展。2012 年,Hinton課題組構建的CNN 網(wǎng)絡AlexNet[4] 在ImageNet 圖像識別比賽中一舉奪冠,其分類性能遠遠超過第二名,使得CNN 吸引了眾多研究者的關注。以這一年為界限,深度學習進入第三階段。卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、進化神經(jīng)網(wǎng)絡等模型的優(yōu)勢逐漸顯現(xiàn),打開了人工智能新世界的大門。具有良好的大數(shù)據(jù)處理能力的深度學習模型,不僅在模式識別、信息檢索、自然語言處理等多個人工智能領域都取得了重大突破,還可以對復雜模式進行分類,從而在決策問題中產(chǎn)生了巨大影響。 1. 3 經(jīng)典模型 深度學習發(fā)展至今取得了令人驚嘆的成就,得益于以深度置信網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等為主流的深度學習模型的深入發(fā)展。下面對這些經(jīng)典模型進行簡要介紹。 1)深度置信網(wǎng)絡(Deep Belief Network,DBN)是由 多層隨機因變量組成的概率生成模型,能夠更加有效地使用未經(jīng)標注的數(shù)據(jù),并通過產(chǎn)生式預訓練,有效解決深度神經(jīng)網(wǎng)絡中的過擬合和欠擬合等問題[5] ,如圖1所示。該模型具有很好的靈活性和可擴展性,受到廣大研究者們的熱切關注。 2)卷積神經(jīng)網(wǎng)絡[6] (Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡模型,且輸入端不再需要特殊處理,這些特點讓它更多被應用在大型圖像處理任務中, 如圖2 所示。Hinton 團隊的AlexNet 利用Dropout、激活函數(shù)等方法,結合GPU 并行處理技術,使得算法性能大大超過了傳統(tǒng)模型;Kaiming He[7?9] 的相關研究解決了計算層次訓練問題,實現(xiàn)了對目標像素級別的識別,使準確率達到了新高。 3)遞歸神經(jīng)網(wǎng)絡[10] (Recursive Neural Network)在循環(huán)過程中可以記住此前已經(jīng)處理過的數(shù)據(jù)信息,如圖3 所示。這一模型更加適合文本、語音識別等序列數(shù)據(jù)的建模問題。然而,傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡由于梯度彌散和梯度爆炸等問題,很難捕捉長時相關性。LSTM 模型[11] 引入了自循環(huán)的思想,解決了長時依賴的訓練問題,之后出現(xiàn)的GRU[12] 等改進模型,在預測文本和語音識別中也表現(xiàn)出了很好的效果。 1.4 深度強化學習 上述經(jīng)典模型從本質上講是分類和識別算法,難以解決決策和控制問題,由此,深度強化學習等新算法便應運而生。深度強化學習[13] ( Deep ReinforcementLearning,DRL)是在訓練中進行試錯,通過獎勵和懲罰反饋神經(jīng)網(wǎng)絡,從而得到更好的策略模型。需注意的是,價值網(wǎng)絡和策略網(wǎng)絡是相互依賴的,給定其中一個函數(shù)都會導致另一個函數(shù)的變化。引入Q?Learning 算法的DQN[13] 很好地結合了兩者,實現(xiàn)了從感知到動作的端對端學習,比如讓AI 玩游戲,在看到遮蔽物時立即做出避讓動作等。同時,它在更新網(wǎng)絡時,隨機抽取過去的學習經(jīng)歷,這使其不僅能夠學習到當前的經(jīng)歷,還能學習到過去的經(jīng)歷,甚至是別人的經(jīng)歷。AlphaGo就采取了DQN 算法,在自我博弈中實現(xiàn)獎勵積累的最大化,由此得出在各個狀態(tài)下最好的走法選擇。這一算法更加符合人類在現(xiàn)實世界中的決策思維,被廣泛應用在智能機器人的控制、棋類對弈、游戲通關、汽車自動駕駛等多類決策和控制問題中。2017 年12 月,DeepMind 公布了Alpha 系列的最新成果AlphaZero[14] ,它采取了簡化算法的策略,擁有了比AlphaGo Zero 更好的泛化能力,可使用完全相同的算法和超參數(shù),在不需要人類知識的情況下,完全依靠自我博弈,在國際象棋、日本將棋、圍棋三種不同的棋類游戲中,均只需幾小時進行模型訓練,便可戰(zhàn)勝各自領域的頂尖AI 程序;Ruslan 在2017 年NIPS 研討會中提出了將記憶引入深度強化學習的思想,利用位置感知記憶方法,防止過多的記憶重寫,從而提高記憶效率,這讓學習模型在不同環(huán)境下都能夠擁有優(yōu)異的表現(xiàn)。以上兩者,不論是AlphaZero 的算法簡化,還是Ruslan 引入記憶的策略,都反映出DRL 的前沿研究主要集中于模型的泛化能力和性能上的提升上。 2 軍事智能決策支持系統(tǒng)發(fā)展現(xiàn)狀 2. 1 軍事智能決策支持系統(tǒng) 智能決策支持系統(tǒng)( Intelligent Decision SupportSystems, IDSS)是指在計算機的輔助下,綜合運用現(xiàn)代決策理論和人工智能技術,結合了管理決策科學、信息科學與運籌學等學科,依托人類知識庫,通過邏輯推理來幫助解決現(xiàn)實問題的決策支持系統(tǒng),如圖4 所示。在軍事領域,主要應用于輔助決策,實現(xiàn)對情報處理、態(tài)勢分析、方案確定和計劃擬制的輔助支持。下面分別對美軍和我國國內相關情況進行簡要介紹。 2. 2 美軍相關研究 軍事決策支持系統(tǒng)這一概念最先由美軍提出,旨在通過各種技術的實現(xiàn),輔助指揮員做出及時和正確的判斷并實施決策控制。比如,美國防空混成旅射擊指揮輔助決策系統(tǒng)[15] 可通過捕捉圖像、控制管理傳感器,實現(xiàn)分析戰(zhàn)場態(tài)勢、制定計劃、作戰(zhàn)模擬等功能,具有決策快速、準確客觀的特點;美軍于2004 年開展的實時作戰(zhàn)智能決策制定計劃(Real-time Adversarial In?telligence and Decisionmaking,RAID)[16] ,希望能夠實時根據(jù)戰(zhàn)場態(tài)勢自動生成可行的行動方案;2007 年,美國防部DARPA 機構啟動了“深綠” 計劃(Deep Green,DG)[17] ,致力于對未來可能發(fā)生的各種情況做出預測,為指揮決策提供支持。“深綠”起初的目標是用于旅級作戰(zhàn),其核心技術是實時態(tài)勢仿真,而戰(zhàn)場復雜態(tài)勢的不確定性所導致的組合爆炸問題則成了難以攻克的瓶頸,該項目于2011 年暫停。 2009 年至2014 年,DARPA 啟動了一系列面向作戰(zhàn)的研究項目,如Mind??s Eye 計劃研發(fā)一種根據(jù)視覺信息進行態(tài)勢認知和推理系統(tǒng);TRACE 計劃采用智能算法解決對抗條件下態(tài)勢目標的識別判斷;DBM 則面向空中戰(zhàn)場的輔助決策,主要解決戰(zhàn)場態(tài)勢認知、行動決策生成以及僚機的無人駕駛等現(xiàn)實難題;TEAM-US利用機器的優(yōu)勢幫助人類做出最佳選擇,從而大大提升認知的速度和精度。2016 年6 月,美國辛辛那提大學開發(fā)的人工智能系統(tǒng)“阿爾法”,在空戰(zhàn)模擬對抗中,戰(zhàn)勝了經(jīng)驗豐富的空軍上校。該系統(tǒng)從傳感器的信息搜集、分析處理到做出正確的判斷和選擇,整個過程不到1 毫秒,這使其在戰(zhàn)斗中大大提高了戰(zhàn)斗機的生存能力和指揮協(xié)調能力。2016 年底, 美軍啟動Commander??s Virtual Staff 項目,用以應對大數(shù)據(jù)和復雜戰(zhàn)場態(tài)勢,從而為指揮員提供作戰(zhàn)全過程的輔助決策?!吧罹G”失敗的主要原因是由于當時的數(shù)據(jù)處理能力不足,從而導致傳統(tǒng)人工智能方法在解決態(tài)勢認知問題時存在瓶頸。而阿爾法的成功,則證明了以深度學習為代表的現(xiàn)代人工智能技術,在面對大數(shù)據(jù)和復雜的戰(zhàn)場環(huán)境時,可以突破瓶頸。 2.3 國內相關研究 長期以來,國內在該領域也取得了不少成果,較為成熟的主要以專家系統(tǒng)、多智能體系統(tǒng)(MAS)等為主。專家系統(tǒng)是基于專業(yè)知識進行推理分析,用以解決特定領域問題的智能系統(tǒng)。如戰(zhàn)術導彈方案設計智能優(yōu)化系統(tǒng)可以通過專家知識,判別方案的優(yōu)劣,實現(xiàn)對戰(zhàn)術導彈方案的有效評估;解放軍理工大學研制的軍事運籌輔助決策系統(tǒng)[18] ,可自動生成作戰(zhàn)方案,演示戰(zhàn)斗過程,評估戰(zhàn)場效果等;軍事科學院研發(fā)的“進攻一號”軍事專家支持系統(tǒng)[19] ,建立了4000 多條規(guī)則和一個定性與定量相結合的高效推理機制,能夠自動生成作戰(zhàn)決心的參考方案,輔助指揮員定下決心。近些年來,MAS 由于在處理復雜系統(tǒng)問題方面具有顯著優(yōu)勢,因此在決策支持系統(tǒng)中也被普遍應用。楊萍[20] 等提出的基于MAS 的導彈機動方案輔助決策系統(tǒng),通過加入人機交互模塊,能夠根據(jù)任務要求和戰(zhàn)場態(tài)勢規(guī)劃行動方案,并對方案進行評估、修正;陳華東[21] 等提出的網(wǎng)絡中心戰(zhàn)中基于MAS 的分布式輔助決策研究方法,采用合同網(wǎng)協(xié)議對武器目標分配的流程進行研究,取得了很好的效果;空中軍事打擊智能決策支持系統(tǒng)[22] 利用多智能體技術,輔助生成空中軍事打擊行動決策方案,并進行仿真和評估。 然而,戰(zhàn)場環(huán)境的瞬息萬變和難以量化的各類因素成為智能決策的最大障礙,專家系統(tǒng)和傳統(tǒng)的機器學習方法難以應對戰(zhàn)爭中的不確定性以及非線性問題,處理高緯度大數(shù)據(jù)的能力也非常有限。比如在專家系統(tǒng)中,規(guī)則與規(guī)則之間的相互關系并不突出,規(guī)則的使用不夠靈活,系統(tǒng)更加依賴于規(guī)則的完整性和準確性。當規(guī)則庫膨脹到一定規(guī)模后,每增加一條新規(guī)則都可能會與先前的規(guī)則庫產(chǎn)生沖突,規(guī)則庫的維護難度也將大幅提高,這讓基于規(guī)則的專家系統(tǒng)很難處理現(xiàn)今所面臨的復雜戰(zhàn)場態(tài)勢。雖然基于傳統(tǒng)機器學習方法以及基于MAS 等方法的決策支持系統(tǒng),在一定程度上能解決專家系統(tǒng)遇到的瓶頸,但這類系統(tǒng)普遍存在以下問題:1)知識處理能力差。根據(jù)應用領域的不同,其知識的表示方式和獲取策略具有很大差異,且預處理過程對最終結果影響很大;2)協(xié)調統(tǒng)一性差。傳統(tǒng)的機器學習方法通常將復雜問題拆分成若干子問題,各個子系統(tǒng)之間的溝通協(xié)調將直接影響到系統(tǒng)的正確決策;3)適應能力差。以往研究成果中,系統(tǒng)的推理機制是靜態(tài)的,是針對各自領域預先設定好的搜索策略和推理策略進行決策,因而難以應對實際戰(zhàn)場環(huán)境的快速變化;4)人機交互差。在人機結合過程中遇到困難較大,計算機難以準確理解用戶需求,用戶不能及時獲取計算機的解答,且難以對系統(tǒng)加入啟發(fā)信息。 可見,盡管在軍事決策支持系統(tǒng)方面的研究已經(jīng)有了不少成果,但在實際應用中還存在較大差距,傳統(tǒng)模型在知識表示、推理預測、指揮控制等方面都具有一定的局限性,這為正在快速發(fā)展的深度學習提供了廣闊的發(fā)展空間。 3 深度學習在輔助決策中的應用 隨著大數(shù)據(jù)時代的到來,軍事決策面對的數(shù)據(jù)量與日俱增,數(shù)據(jù)格式和類別多樣龐雜,使決策支持面臨新的挑戰(zhàn)?;谏窠?jīng)網(wǎng)絡架構的深度學習模型,能夠有效地處理和分析大數(shù)據(jù),相較于傳統(tǒng)方法,無論是圖像、語音、文本的識別能力,還是推理、分析、判斷能力,都擁有顯著優(yōu)勢。 3. 1 深度學習在軍事領域的探索 目前,國內開展了一系列基于深度學習的軍事決策輔助技術的研究,尤其在特征提取方面,解決了諸如雷達識別、無人機目標識別、智能火控等領域的相關問題。孫志軍等人提出了一種基于深度學習的邊際Fisher 特征提取算法(DMFA)[23] ,改善了傳統(tǒng)的MFA算法對非線性特征的提取能力,提高了雷達識別準確率;鐘南[24] 等人將深度學習引入到海上無人機目標識別技術中,提出了一種基于卷積神經(jīng)網(wǎng)絡和空間轉換網(wǎng)絡相結合的解決思路,對物體平移、縮放、旋轉情況進行校正,然后通過分塊化卷積神經(jīng)網(wǎng)絡給出類別及位置,提高了目標識別準確率。良好的模式識別能力是實施智能輔助決策的重要前提,而現(xiàn)代戰(zhàn)爭的信息量正呈指數(shù)型速度增長,快速、準確的數(shù)據(jù)處理能力顯得尤為重要。深度學習正是具備了出色的特征提取和表達能力,被越來越多的研究者運用到識別和分類等研究中。上述研究對于戰(zhàn)場目標識別領域的應用進行了探索,結合深度學習模型在戰(zhàn)場高緯度數(shù)據(jù)的特征提取,提出了可行的方法,在一定程度上提高了識別的準確率。 由于戰(zhàn)場態(tài)勢信息的不確定性和戰(zhàn)場復雜性,相比于圍棋、自動駕駛等應用,作戰(zhàn)輔助決策面臨的情況更加復雜。研究發(fā)展智能決策支持系統(tǒng),首要解決的就是戰(zhàn)場態(tài)勢認知問題。卜令娟[25] 、曾清[26] 、王楊[27]等人針對戰(zhàn)場大數(shù)據(jù)的特點,提出了關于戰(zhàn)場態(tài)勢評估的新思路,但這些研究僅僅是對大數(shù)據(jù)的預處理,不能挖掘出深層信息。結合深度學習模型的特點和優(yōu)勢,國內展開了基于深度學習的戰(zhàn)場態(tài)勢評估方面的相關研究。朱豐[28] 等人分析了深度學習與大數(shù)據(jù)的相關性,闡述了將深度學習引入戰(zhàn)場態(tài)勢感知的優(yōu)勢,提出了戰(zhàn)場態(tài)勢評估深度學習模型構建方法的新思路;郭圣明、賀筱媛、胡曉峰[29] 等人采用復雜網(wǎng)絡和深度學習技術,分別在智能化體系評估和威脅判斷方面進行了初步探索;歐微[30?31] 等人構建了基于棧式自編碼器的意圖識別模型,根據(jù)戰(zhàn)場目標狀態(tài)呈現(xiàn)出的時序特征,提出了一種基于時序編碼的方法,并比較了不同網(wǎng)絡參數(shù)和訓練方法對識別準確率的影響效果。榮明、楊鏡宇[32] 等人通過強化學習和價值網(wǎng)絡,構建了戰(zhàn)略威懾決策模型,與AlphaGo 原理類似,使用了蒙特卡洛算法實現(xiàn)對威懾博弈樹的搜索。戰(zhàn)場態(tài)勢的判斷和作戰(zhàn)意圖的理解是態(tài)勢認知面臨的主要挑戰(zhàn)。上述研究運用深度學習理論,通過實驗和論證提出了合理的解決方案,對戰(zhàn)場態(tài)勢認知問題進行了初步的探索,提出了新思路。可以看到,綜合運用大數(shù)據(jù)和深度學習等技術來理解和認知戰(zhàn)場態(tài)勢具有很大的潛在價值,當然也面臨諸多困難。 3.2 深度學習應用面臨的難題 從過去的成果中可以看出,深度學習在以目標識別為主的情報分析中表現(xiàn)良好,顯著優(yōu)于傳統(tǒng)機器學習方法。但若要定下正確的作戰(zhàn)決心、制定科學的行動計劃并付諸實施,其重要前提是準確理解當前的戰(zhàn)場態(tài)勢,有效預測下一階段態(tài)勢變化趨勢。這一問題是智能系統(tǒng)輔助決策中的首要難題,也是深度學習面臨的極大挑戰(zhàn)。 盡管AlphaGo 基于深度學習和大數(shù)據(jù)的方法為智能指揮決策帶來了希望,但必須說明的是,AlphaGo 在棋盤上所解決的博弈問題與實際的戰(zhàn)爭具有很大的差別:1)信息完備性不同。AlphaGo 獲取的信息是完備的,即圍棋的走法約為2?? 08×10170 種可能,而戰(zhàn)場態(tài)勢中獲取的信息是不完備的,甚至是虛假的,在這種缺失信息的“戰(zhàn)爭迷霧”中,人工智能又該如何決策? 2)規(guī)則不同。棋盤內的規(guī)則是固定的,對戰(zhàn)具有一致性,而戰(zhàn)爭中的敵我雙方并不會按照一致的規(guī)則出招。3)訓練樣本不同。最初版本的AlphaGo 是從3000 萬人類招法和3000 萬局自我對弈中達到職業(yè)選手水平,而已有且可用的戰(zhàn)爭和演習數(shù)據(jù)無法達到這樣的規(guī)模。這些不同都給深度學習在作戰(zhàn)智能輔助決策領域的應用帶來了困難和挑戰(zhàn)。 從上述的差別中可以看出,一方面,深度學習在解決態(tài)勢理解問題上,是以數(shù)據(jù)作為支撐的,戰(zhàn)場態(tài)勢的復雜性以及對戰(zhàn)的不一致性使得訓練數(shù)據(jù)的有效規(guī)模異常龐大,我們難以得到上千萬場戰(zhàn)爭的真實數(shù)據(jù)來訓練模型,數(shù)據(jù)稀疏問題便會伴隨而來,因此,未來的研究重點應放在小樣本數(shù)據(jù)的態(tài)勢特征提取上。另一方面,態(tài)勢特征提取的難點在于從不確定性中找到確定性規(guī)律,機器在這方面的能力遠遠不及人類,因此,如果要使機器具備人類智能的認知能力,就需將深度學習與多種算法進行有效融合。 3. 3 基于深度學習的輔助決策 目前,自動駕駛技術因采用深度學習模型而取得了突破性進展。為了理解深度學習在輔助決策方面的應用,不妨從自動駕駛的決策技術中尋找答案。從信息復雜度的角度考慮,自動駕駛所面臨的動態(tài)環(huán)境分析比圍棋要復雜得多。比如,系統(tǒng)需要根據(jù)實施圖像分析出天氣、交通標志、道路情況等信息,還要預測周圍車輛和行人的行動,甚至需要判斷前車若是新手司機,則應加大車距等。這種通過對環(huán)境進行分析、判斷、預測,再到最終的決策,與復雜的戰(zhàn)場態(tài)勢理解有著相似之處。在作戰(zhàn)環(huán)境中,復雜的氣象、地形等諸多因素都會對敵我雙方的行動決策產(chǎn)生影響,而對敵方行動的準確預測更是做出正確決策的重要依據(jù)?,F(xiàn)在的深度學習普遍采用端到端的算法,即從傳感器輸入直接到控制器的輸出。然而這樣的方法使深層網(wǎng)絡成了“黑匣子”,失去了透明性,讓網(wǎng)絡僅僅依賴于概率進行推理,即數(shù)據(jù)的相關性,而非更加符合人類思維的因果關系。 舉個例子,輸入樣本為哈士奇和愛斯基摩犬的照片,通過深度學習對二者進行分類。起初的測試結果非常好,但后來通過測試進行深入分析時發(fā)現(xiàn),系統(tǒng)更多通過對背景的區(qū)分而并非狗本身的特征進行分類。這是因為在訓練樣本中,愛斯基摩犬的照片背景幾乎都是冰天雪地,而哈士奇則相反。試想,這樣的理解若應用到作戰(zhàn)決策中,將會有多致命。目前,深度學習在實際應用中的表現(xiàn)要遠遠好于傳統(tǒng)方法,其普遍使用的策略是通過加大數(shù)據(jù)量和運算能力得到更好的效果,但對于基礎算法的深入研究并不多,這使得目前的深度學習在一些領域顯示出不足和短板,埋下了諸如哈士奇和愛斯基摩犬分類中的隱患。因此,在樣本規(guī)模有限的條件下,我們需要更加理性、更加符合人類思維的決策機制。 基于上述觀點,對于深度學習在軍事智能輔助決策領域的研究,首先,應對作戰(zhàn)領域的大數(shù)據(jù)進一步發(fā)展。深度學習目前的研究與大數(shù)據(jù)是密不可分的,然而包括演習在內的作戰(zhàn)數(shù)據(jù),真正能夠實際使用的數(shù)據(jù)規(guī)模還遠遠達不到深度神經(jīng)網(wǎng)絡的訓練需求,目前的研究更多應用兵棋的推演數(shù)據(jù)來訓練網(wǎng)絡,從數(shù)據(jù)的有效性上看,難以證明在實際作戰(zhàn)中的價值。其次,深度學習技術,尤其在認知智能方面需要取得突破。作戰(zhàn)同下棋有著巨大的差別,作戰(zhàn)數(shù)據(jù)不是標準化的“棋譜”,而對于機器而言,過去發(fā)生的戰(zhàn)爭在現(xiàn)代化戰(zhàn)爭中沒有太大的指導意義。那么如何讓人工智能在現(xiàn)有數(shù)據(jù)的基礎上,從認知層面真正理解和分析戰(zhàn)場態(tài)勢,提高從小樣本中學習知識的能力,將是該領域研究的終極目標。再次,對于深層神經(jīng)網(wǎng)絡的運行機制還需要進一步的研究和改進,來破解深度神經(jīng)網(wǎng)絡的“黑匣子”問題。數(shù)據(jù)驅動決策的推理機制應由數(shù)據(jù)相關性向因果關系轉變,讓機器具備同人類一樣從小樣本數(shù)據(jù)中進行學習的能力,通過因果關系進行預測將更加具有實際意義。 因此,在軍事智能輔助決策的應用中,應當更加合理地運用深度學習,AlphaGo 以及IBM 的“沃森”等人工智能系統(tǒng),均融合了多種手段,而深度學習只是一個工具。從發(fā)展歷史中看,深度學習可以很好地應對大數(shù)據(jù)的特征提取,但淺層的概率統(tǒng)計模型在特征清晰的情況下,也可以取得很好的效果。另外,“沃森”中的規(guī)則運用和“深藍”的暴力搜索,以及AlphaGo 中的強化學習和蒙特卡洛樹搜索策略等都在各自領域中有著自身的優(yōu)勢??梢?,傳統(tǒng)的機器學習模型不應因深度學習的快速發(fā)展而拋棄,混合方法才是未來人工智能的大勢所趨。 4 結束語 自2006 年以來,深度置信網(wǎng)絡模型、激活函數(shù)、正則化、Dropout 等概念陸續(xù)被提出,深度學習模型在解決梯度消失以及過擬合等問題上得到不斷改善,這讓神經(jīng)網(wǎng)絡煥發(fā)出新的生機。近年來,高性能GPU 和TPU 的出現(xiàn),降低了計算成本,大數(shù)據(jù)的持續(xù)增溫也讓更加復雜的深層網(wǎng)絡模型成為可能。目前,基于深度學習的軍事智能輔助技術還處于起步階段,面對具有不確定性、變化速度快、非線性、復雜性、高緯度、多空間等特點的戰(zhàn)爭復雜系統(tǒng),傳統(tǒng)的輔助決策手段已難以滿足未來作戰(zhàn)決策的需求。相比較其他機器學習方法,深度學習應用在輔助決策中的優(yōu)勢可歸納為以下幾點:1)內部神經(jīng)元結構決定了它在解決非線性問題上具有很強的表達能力;2)具有強大的特征提取能力,更加適應從大數(shù)據(jù)中提取特征;3)具有良好的遷移學習能力,一個訓練好的深度神經(jīng)網(wǎng)絡經(jīng)過一定修改就可以在另一問題中得到不錯的表現(xiàn);4)其分布式的并行結構大大提高了運算效率;5)具備多層學習能力,可以發(fā)現(xiàn)神經(jīng)元之間的深層聯(lián)系,可以從大數(shù)據(jù)中提取出深層含義,發(fā)現(xiàn)很多人類都無法發(fā)現(xiàn)的新方法,使智能決策獲得自我創(chuàng)新的能力。由此可見,深度學習更加適合應對大數(shù)據(jù),它所具備的優(yōu)點可以改善傳統(tǒng)輔助決策技術的局限性,因此,將深度學習應用于軍事智能輔助決策將具有重要研究價值。 本文回顧了深度學習的發(fā)展歷程,概述了目前較為流行的幾種模型,結合軍事智能決策支持系統(tǒng)的發(fā)展和深度學習在該領域的研究成果,闡述了深度學習模型應用在智能輔助決策研究中的優(yōu)勢和面臨的挑戰(zhàn),以下對基于深度學習的軍事智能決策支持進行展望。 4.1 大數(shù)據(jù)和無監(jiān)督學習 Google 之所以能夠引領人工智能領域前沿,除技術創(chuàng)新外,更為重要的一個原因是Google 擁有非常雄厚的數(shù)據(jù)資源。未來戰(zhàn)場態(tài)勢信息規(guī)模大、種類多、緯度高,戰(zhàn)爭已進入大數(shù)據(jù)時代。因此,加強我軍作戰(zhàn)數(shù)據(jù)建設,構建規(guī)模宏大、類別齊全、關系清晰的作戰(zhàn)數(shù)據(jù)體系是提高智能決策能力的前提。同時,推進深度學習的研究重點從傳統(tǒng)的有監(jiān)督學習和大型標注樣本特征提取向無監(jiān)督學習和小數(shù)據(jù)集泛化能力上轉變,使基于深度學習的軍事智能決策支持系統(tǒng)能夠從輸入的數(shù)據(jù)中抽取出其中所包含的模式和規(guī)則,從而不斷提高智能化能力和水平。 4. 2 強化學習和自我博弈 DeepMind 團隊科研成果表明,采用了強化學習策略的深度學習系統(tǒng)不僅可以下圍棋、玩視頻游戲,還可以在多種任務執(zhí)行中與人類匹敵。目前,該團隊已將目標轉向“星際爭霸Ⅱ”。和圍棋不同,這款復雜的戰(zhàn)爭策略游戲更加接近實際的戰(zhàn)爭決策,在作戰(zhàn)決策中,除了復雜的態(tài)勢分析,通常還要考慮到時序性問題,這使得運算代價劇增。因此,對于戰(zhàn)爭復雜系統(tǒng),以目前的技術手段和硬件水平,能否像AlphaGo 一樣進行大量的自我博弈還是未知,或許需要其他的算法來解決深度神經(jīng)網(wǎng)絡無法解決的問題。但我們要認識到,“星際爭霸Ⅱ”的自主決策一旦取得突破,將意味著真正智能化的作戰(zhàn)決策不再遙遠。 參考文獻: [1] 《中國軍事科學》編輯部.圍棋人機大戰(zhàn)與軍事指揮決策智能化研討會觀點綜述[J].中國軍事科學,2016(2): 147?152. [2] Hinton G, Salakhutdinov R. Reducing the Dimensionalityof Data with Neural Networks [ J]. Science, 2006, 313(5786):504?507. [3] Rumelhart D, Hinton G, Williams R. Learningrepresenta?tions by back?propagating errors[J]. Nature,1986,323 (6088): 533?536. [4]?。耍颍椋瑁澹觯螅耄?A, Sutskever I, Hinton G. Imagenet classifica?tion with deep convolutional neural networks[C] ∥Ad?vances in Neural Information Processing Systems, LakeTahoe;MIT Press, 2012: 1097?1105. [5]?。停铮瑁幔恚澹?A, Hinton G, Penn G. Understanding how deepbelief networks perform acoustic modeling[A]. In Pro?ceedings of International Conference on Acoustics Speechand Signal Processing[C], 2012. [6]?。蹋澹?H, Grosse R, Ranganath R, et al. Unsupervisedlearning of hierarchical representations with convolutionaldeep belief networks[J]. Communications of the ACM,2011, 54(10): 95?103. [7]?。耍幔椋恚椋睿?He, Xiangyu Zhang, Shaoqing Ren, et al. Deepresidual learning for image recognition[C]∥Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Las Vegas:IEEE,2016. [8]?。樱瑁幔铮瘢椋睿?Ren, Kaiming He, Ross Girshick, et al. FasterR?CNN:Towards Real?Time Object Detection with RegionProposal Networks[A]. IEEE Transactions on Pattern A?nalysis and Machine Intelligence[C], 2016. [9] Kaiming He, Gkioxari G, Dollar P, et al. Mask R?CNN[A]. IEEE International Conference on Computer Vision[C], 2017. [10] Pollack J B.Recursive distributed representations[J]. Ar?tificial Intelligence, 1990,46(1): 77?105. [11] Hochreiter S, Schmidhuber J. Long short?term memory[J]. Neural Computation, 1997,9(8): 1735?1780. [12] Cho K, Van Merrienboer B, Bahdanau D, et al. On theproperties of neural machine translation: Encoder?decoderapproaches[C]. ArXiv e?prints, 2014,abs/1409?? 1259. [13] Mnih V, Kavukcuoglu K, Silver D, et al. Human?levelcontrol through deep reinforcement learning[J]. Nature,2015,518(7540):529?533. [14] David S,Thomas H,Julian S,et al.Mastering Chess andShogi by Self?Play with a General Reinforcement LearningAlgorithm[EB/ OL]. (2017?12?05). http:∥ arxiv. org/pdf/1712?? 01815.pdf. [15] Payne T P, Edwards P. Interface agents that learn: an in?vestigation of learning issue in a multi?agent interface[J].Applied Artificial Intelligence, 1997,11(1): 1?32. [16] 鄧江湖,趙武奎,盧詩驕.中美軍隊輔助決策系統(tǒng)現(xiàn)狀比較[J].兵工自動化,2006,25(10):15?16. [17] Surdu J R. The Deep Green Concept[C]∥Processing ofthe 2008 Spring Simulation Multiconference. SpringSim2008,Ottawa,Canade,2008:623?631. [18] 丁國勤,孟衛(wèi)東.后勤保障指揮決策系統(tǒng)結構設計研究[J].后勤工程學院學報,2005,21(1):29?34. [19] 胡桐清,陳亮.軍事智能輔助決策的理論與實踐[J].軍事系統(tǒng)工程,1995(Z1):3?10. [20] 楊萍,等.基于多Agent 的導彈機動方案輔助決策系統(tǒng)體系結構研究[J].軍事運籌與系統(tǒng)工程,2006,20(4):15?19. [21] 陳華東,等.網(wǎng)絡中心戰(zhàn)中基于MAS 的分布式輔助決策[J].火力指揮控制,2010,35(10):11?14. [22] 王立華,徐洸.空中軍事打擊智能決策支持系統(tǒng)研究[A].第十一屆中國管理科學學術年會論文集[C].2009: 168?172. [23] 孫志軍,薛磊,許陽明.基于深度學習的邊際Fisher 分析提取算法[ J]. 電子與信息學報, 2013, 35 (4):805?811. [24] 鐘南,張建偉,馬連軼,等.基于深度學習的海上無人機目標識別算法研究[J].數(shù)字軍工,2016(3):43?46. [25] 卜令娟,劉俊,邱黃亮,等.戰(zhàn)場通用態(tài)勢估計本體模型的構建[C]∥第二屆中國指揮控制大會論文集———發(fā)展中的指揮與控制,2014:138?142. [26] 曾清,施慧杰,杜陽華.聯(lián)合作戰(zhàn)戰(zhàn)場態(tài)勢一致性評估[J].指揮控制與仿真,2014,36(1):5?8. [27] 王楊.戰(zhàn)場態(tài)勢目標識別與態(tài)勢意圖預測的算法研究[D].無錫:江南大學,2015. [28] 朱豐,胡曉峰.基于深度學習的戰(zhàn)場態(tài)勢評估綜述與研究展望[J].軍事運籌與系統(tǒng)工程,2016,30(3):22?27. [29] 郭圣明,賀筱媛,胡曉峰,等.軍用信息系統(tǒng)智能化的挑戰(zhàn)與趨勢[ J]. 控制理論與應用, 2016, 33 ( 12):1562?1571. [30] 歐微,柳少軍,賀筱媛,等.基于時序特征編碼的目標戰(zhàn)術意圖識別算法[J].指揮控制與仿真,2016,38(6):36?41. [31] 歐微,柳少軍,賀筱媛,等.戰(zhàn)場對敵目標戰(zhàn)術意圖智能識別模型研究[J].計算機仿真,2017,34(9):10?14+19. [32] 榮明,楊鏡宇.基于深度學習的戰(zhàn)略威懾決策模型研究[J].指揮與控制學報,2017,3(1):44?47. [33] Silver D, Huang A, Maddison C. Mastering the game ofGo with deep neural networks and tree search[J]. Natrue,2016,529(7584): 484?489. [34] LeCun Y, Bengio Y, Hinton G. Deep learning.Nature,2015,521(7553): 436?444. [35] 胡曉峰,賀筱媛,徐旭林.大數(shù)據(jù)時代對建模仿真的挑戰(zhàn)與思考———中國科協(xié)第81 期新觀點新學說學術沙龍綜述[J].中國科學:信息科學,2014,44(5):676?692. [36] 胡曉峰.軍事指揮信息系統(tǒng)中的機器智能:現(xiàn)狀與趨勢[J].人民論壇·學術前沿,2016(15):22?34. [37] 胡曉峰,榮明.作戰(zhàn)決策輔助向何處去———“深綠”計劃的啟示與思考[J].指揮與控制學報,2016,2(1):22?25. [38] 姚慶鍇,柳少軍,賀筱媛,等.戰(zhàn)場目標作戰(zhàn)意圖識別問題研究與展望[J]. 指揮與控制學報,2017,3 (2):127?131. [39] 鄭書奎,吳琳,賀筱媛.基于深度學習的兵棋演習數(shù)據(jù)特征提取方法研究[J].指揮與控制學報,2016,2(3):194?201. [40] 郭若冰,司光亞,賀筱媛.迎接智能化時代軍事指揮面臨的新挑戰(zhàn)———全軍“戰(zhàn)爭復雜性與信息化戰(zhàn)爭模擬”研討會觀點綜述[J]. 中國軍事科學,2016(5):149?156. [41] 胡侯立,魏維,胡蒙娜.深度學習算法的原理及應用[J].信息技術,2015(2):175?177. [42] 段艷杰,呂宜生,張杰,等.深度學習在控制領域的研究現(xiàn)狀與展望[J].自動化學報,2016,42(5):643?654. [43] 金欣.“深綠”及AlphaGo 對指揮與控制智能化的啟示[J].指揮與控制學報,2016,2(3):202?207. |
|