一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Deepmind AlphaStar 如何戰(zhàn)勝人類職業(yè)玩家【中科院自動化所深度解析】

 taotao_2016 2019-01-27

來源:德先生

作者:朱圓恒,唐振韜,李偉凡,趙冬斌


北京時間2019年1月25日2時,DeepMind在倫敦向世界展示了他們的最新成果——星際爭霸2人工智能AlphaStar[1] 。


圖1. DeepMind AlphaStar挑戰(zhàn)星際人類職業(yè)玩家直播畫面

 

比賽共11局,直播展示的是去年12月期間AlphaStar挑戰(zhàn)Liquid team職業(yè)玩家TLO和MANA的部分比賽錄像,分別有5局。最后一局為AlphaStar對戰(zhàn)MaNa的現(xiàn)場直播。比賽采用固定天梯比賽地圖、神族對抗神族的形式。


圖2. 比賽地圖、游戲版本、對戰(zhàn)種族信息


結(jié)果自然是AlphaStar大比分碾壓式勝利,在2018年12月10日以5:0擊敗TLO,12月19日以5:0擊敗MaNa。但是當(dāng)天現(xiàn)場表演賽上AlphaStar卻不敵MaNa。最終,AlphaStar取得了10-1的絕佳成績,堪稱世界上第一個擊敗星際爭霸頂級職業(yè)玩家的人工智能。


星際爭霸


星際爭霸是由暴雪娛樂公司開發(fā)的一款經(jīng)典即時戰(zhàn)略游戲。與國際象棋、Atari游戲、圍棋不同,星際爭霸具有以下幾個難點:


1、 博弈——星際爭霸具有豐富的策略博弈過程,沒有單一的最佳策略。因此,智能體需要不斷的探索,并根據(jù)實際情況謹(jǐn)慎選擇對局策略。


2、 非完全信息——戰(zhàn)爭迷霧和鏡頭限制使玩家不能實時掌握全場局面信息和迷霧中的對手策略。


3、 長期規(guī)劃——與國際象棋和圍棋等不同,星際爭霸的因果關(guān)系并不是實時的,早期不起眼的失誤可能會在關(guān)鍵時刻暴露。


4、 實時決策——星際爭霸的玩家隨著時間的推移不斷的根據(jù)實時情況進行決策動作。


5、 巨大動作空間——必須實時控制不同區(qū)域下的數(shù)十個單元和建筑物,并且可以組成數(shù)百個不同的操作集合。因此由小決策形成的可能組合動作空間巨大。


6、 三種不同種族——不同的種族的宏機制對智能體的泛化能力提出挑戰(zhàn)。


圖3. 直播中組織者分析Atari,圍棋,星際三者在信息獲取程度、玩家數(shù)量、動作空間、動作次數(shù)的不同,難度呈現(xiàn)逐漸提升

 

正因為這些困難與未知因素,星際爭霸不僅成為風(fēng)靡世界的電子競技,也同時是對人工智能巨大的挑戰(zhàn)。


評估AlphaStar戰(zhàn)力


星際爭霸中包含神族、人族、蟲族三種選擇,不同種族有不同的作戰(zhàn)單位、生產(chǎn)機制和科技機制,因而各個種族間存在戰(zhàn)術(shù)制衡。為了降低任務(wù)訓(xùn)練所需時間,并避免不同種族間客觀存在的不平衡性,AlphaStar以神族對陣神族為特定訓(xùn)練場景,固定使用天梯地圖-CatalystLE為訓(xùn)練和對決地圖。


面對蟲族職業(yè)玩家TLO和排名更加靠前的神族職業(yè)玩家MaNa的輪番挑戰(zhàn),AlphaStar憑借近乎無解的追獵微觀操作和鳳凰技能單位的配合,能在絕大多數(shù)人類玩家都認(rèn)為嚴(yán)重受到克制的兵種不朽下,在正面戰(zhàn)場上反敗為勝扭轉(zhuǎn)戰(zhàn)局,并最終兵不血刃的橫掃人類職業(yè)玩家,取得了星際爭霸AI當(dāng)前最佳的表現(xiàn)水平,在實時戰(zhàn)略游戲上取得了里程碑式的意義。


圖4. 追獵者相互克制兵種關(guān)系


AlphaStar是如何訓(xùn)練的?


AlphaStar的行為是由一個深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生。網(wǎng)絡(luò)的輸入來自游戲原始的接口數(shù)據(jù),包括單位以及它們的屬性,輸出則是一組指令,這些指令構(gòu)成了游戲的可行動作。網(wǎng)絡(luò)的具體結(jié)構(gòu)包括處理單位信息的變換器(transformer),深度LSTM核(deep LSTM core),基于指針網(wǎng)絡(luò)(pointer network)的自動回歸策略頭(auto-regressive policy head),和一個集中式價值評估基準(zhǔn)(centralised value baseline)。這些組成元件是目前最先進的人工智能方法之一。DeepMind將這些技術(shù)組合在一起,有信心為機器學(xué)習(xí)領(lǐng)域中普遍存在的一些問題,包括長期序列建模、大規(guī)模輸出空間如翻譯、語言建模、視覺表示等,提供一種通用的結(jié)構(gòu)。


AlphaStar權(quán)重的訓(xùn)練同樣是使用新型的多智能體學(xué)習(xí)算法。研究者首先是使用暴雪發(fā)布的人類匿名對戰(zhàn)數(shù)據(jù),對網(wǎng)絡(luò)權(quán)重進行監(jiān)督訓(xùn)練,通過模仿來學(xué)習(xí)星際天梯上人類玩家的微觀、宏觀策略。這種模擬人類玩家的方式讓初始的智能體能夠以95%的勝率打敗星際內(nèi)置電腦AI精英模式(相當(dāng)于人類玩家黃金級別水平)。


在這初始化之后,DeepMind使用了一種全新的思路進一步提升智能體的水平。星際本身是一種不完全信息的博弈問題,策略空間非常巨大,幾乎不可能像圍棋那樣通過樹搜索的方式確定一種或幾種勝率最大的下棋方式。一種星際策略總是會被別一種策略克制,關(guān)鍵是如何找到最接近納什均衡的智能體。為此,DeepMind設(shè)計了一種智能體聯(lián)盟(league)的概念,將初始化后每一代訓(xùn)練的智能體都放到這個聯(lián)盟中。新一代的智能體需要要和整個聯(lián)盟中的其它智能體相互對抗,通過強化學(xué)習(xí)訓(xùn)練新智能體的網(wǎng)絡(luò)權(quán)重。這樣智能體在訓(xùn)練過程中會持續(xù)不斷地探索策略空間中各種可能的作戰(zhàn)策略,同時也不會將過去已經(jīng)學(xué)到的策略遺忘掉。


圖5. 在使用人類數(shù)據(jù)初始化智能體后,DeepMind構(gòu)建了一個智能體聯(lián)盟,在每一代都將強化學(xué)習(xí)得到的智能體放入這個聯(lián)盟中,每個智能體要和聯(lián)盟中其它的智能體做對抗學(xué)習(xí)。最終從聯(lián)盟中水平靠前的幾個智能體中選取一個和MaNa對抗。

 

這種思路最早出現(xiàn)在DeepMind另一項工作——種群強化學(xué)習(xí)(population-based reinforcement learning)。這與AlphaGo明顯的不同在于:AlphaGo讓當(dāng)前智能體與歷史智能體對抗,然后只對當(dāng)前智能體的權(quán)重做強化學(xué)習(xí)訓(xùn)練;而種群強化學(xué)習(xí)則是讓整個種群內(nèi)的智能體相互對抗,根據(jù)結(jié)果每個智能體都要進行學(xué)習(xí),從而不只是最強的智能體得到了提升,它的所有可能的對手都有所提升,整個種群都變得更加智能。


圖6. 隨著聯(lián)盟中對智能體的訓(xùn)練,整個聯(lián)盟的最強水平和整體水平都得到了提升,最終超過了人類玩家MaNa和TLO(神族)在MMR下的評分。圖中縱坐標(biāo)給出的是Match Making Rate (MMR),是一種對玩家水平的有效評估,圖中橫線對應(yīng)暴雪對線上玩家水平的分級。

 

此外DeepMind還宣稱,每個智能體不只是簡單地和聯(lián)盟其它智能體相互對抗學(xué)習(xí),而是有針對性、有目的性的學(xué)習(xí)。例如通過內(nèi)在激勵的調(diào)整,有些智能體只考慮打敗某種類型的競爭對手,而另一些智能體則是要盡可能地?fù)魯》N群的大部分智能體。這就需要在整體訓(xùn)練過程中不斷地調(diào)整每個智能體的目標(biāo)。


權(quán)重的訓(xùn)練使用了新型的強化學(xué)習(xí)——離策略執(zhí)行-評價(off-policy actor-critic)算法,結(jié)合了經(jīng)驗回放(experience replay)、自我模仿學(xué)習(xí)(self-imitation learning)、和策略蒸餾(policy distillation)。這些技術(shù)保證了訓(xùn)練的穩(wěn)定性和有效性。


圖7. 黑點代表了和MaNa對戰(zhàn)所選擇的智能體。大圖給出了該智能體在訓(xùn)練過程中策略的變化情況。其它彩色點代表了不同策略對應(yīng)的智能體,并顯示出了不同時期不同策略被選中和MaNa智能體對抗的概率。尺寸越大,被選中概率越大。左下圖給出了不同訓(xùn)練時期MaNa智能體出兵組成變化。


硬件部分


為了訓(xùn)練AlphaStar,DeepMind調(diào)動了Google的v3云TPU。構(gòu)建了高度可拓展的分布式訓(xùn)練方式,支持?jǐn)?shù)千個智能體群并行訓(xùn)練。整個AlphaStar智能體聯(lián)盟訓(xùn)練了14天,每個智能體調(diào)用了16個TPU。在訓(xùn)練期間,每個智能體經(jīng)歷了相當(dāng)于正常人類要玩200年的游戲時長。最終的AlphaStar智能體集成了聯(lián)盟當(dāng)中最有效策略的組合,并且可以在單塊桌面級GPU上運行。


AlphaStar是如何玩游戲的?


在比賽時AlphaStar通過其界面直接與星際爭霸游戲引擎交互,獲得地圖上可以觀察的所有信息,也可稱為全局信息。它并沒有輸入移動視角的視野圖像。不過對比賽錄像的分析表明AlphaStar隱式地學(xué)到了注意力集中機制。平均而言,AlphaStar的動作指令每分鐘會在前線和運營之間切換30次,這與MANA和TLO等人類玩家的切屏行為非常相近。


圖8. 與MaNa第二場比賽中AlphaStar的神經(jīng)網(wǎng)絡(luò)可視化。從智能體的角度顯示了它對游戲的理解,左下角起為游戲的輸入,神經(jīng)網(wǎng)絡(luò)的激活可視化,智能體的主要操作位置,局勢評估,生產(chǎn)建造。

 

在12月份的比賽之后,DeepMind開發(fā)了第二版的AlphaStar。加入了移動視角機制,使其只能感知當(dāng)前屏幕上的視野信息,并且動作位置僅限于當(dāng)前區(qū)域。結(jié)果表明AlphaStar同樣能在移動視角輸入下迅速提升性能,緊緊追趕全局輸入的性能,最終結(jié)果幾乎一致。


DeepMind一共訓(xùn)練了兩種智能體,一個使用原始全局輸入,一個使用移動視角輸入。它們都首先使用人類數(shù)據(jù)監(jiān)督學(xué)習(xí)初始化,然后使用上述強化學(xué)習(xí)過程和第一版學(xué)好的智能體聯(lián)盟對抗。使用使用視角輸入的智能體幾乎與全局輸入的一樣強大。在DeepMind的內(nèi)部排行榜上超過7000MMR(遠(yuǎn)高于MaNa的MMR)。然而在直播比賽當(dāng)中,MaNa戰(zhàn)勝了移動視角的智能體。DeepMind分析認(rèn)為該智能體只訓(xùn)練了七天的時間,還沒有達(dá)到它的最高水平,希望在不久的將來會對收斂結(jié)果做進一步評測。


圖9. 以整個地圖信息為輸入和以移動視角為輸入兩種智能體訓(xùn)練的提升效果比較。兩者都是不完全信息,存在戰(zhàn)爭迷霧遮擋敵方單位的情況。只不過前者是將所有可視單位的信息放在全局地圖上作為輸入,后者是只將玩家局部視野內(nèi)的單位信息作為輸入。因此后者需要智能體在游戲過程中不斷調(diào)整局部視野的范圍,確保有用信息的輸入。

 

眾多觀戰(zhàn)者另一個關(guān)心的問題是AlphaStar的平均每分鐘操作數(shù)(Actions Per Minute, APM)。計算機可以利用強大的計算能力,在短時間集中大量的操作,遠(yuǎn)超過人類的極限能力。就算是頂級職業(yè)玩家,APM也僅有數(shù)百,遠(yuǎn)遠(yuǎn)低于現(xiàn)有的對戰(zhàn)機器人。如自動悍馬2000,可以獨立控制每個單元,APM維持在數(shù)萬以上。


在TLO和MANA的比賽當(dāng)中,AlphaStar的平均APM為280,盡管其操作更為精確,但APM明顯低于大部分職業(yè)玩家。同時,AlphaStar從觀察到行動之間存在350毫秒的延遲。


圖10. 對戰(zhàn)時AlphaStar,TLO(神族),MaNa三者的APM比較

 

綜上,DeepMind認(rèn)為AlphaStar對MaNa和TLO的勝利依靠的是卓越的宏觀機制和微觀戰(zhàn)略決策,而不是單純的靠閃爍追獵Blink。


AlphaStar優(yōu)缺點分析


AlphaStar優(yōu)勢


1) 戰(zhàn)勝職業(yè)玩家


AlphaStar的成功在星際爭霸游戲乃至整個實時戰(zhàn)略游戲具有里程碑式的意義,不僅在于第一次正式擊敗人類職業(yè)玩家,更在于這套深度強化學(xué)習(xí)框架在不完全依賴于規(guī)則腳本的基礎(chǔ)上,通過監(jiān)督學(xué)習(xí)、模仿訓(xùn)練、種群提升、和后期強化學(xué)習(xí)來提升智能體的作戰(zhàn)能力。這套研究思路和方法一樣適用于其他的實時戰(zhàn)略游戲。


2) 微觀操作卓越


即使在兵種對抗處于劣勢的情況下,AlphaStar依靠精準(zhǔn)的微操決策控制能力,仍然可以在形勢不利的局面下反敗為勝,化逆境為順境。表現(xiàn)了實時戰(zhàn)略游戲的一種雖然簡單粗暴但較為直接的解決方式,證明了深度強化學(xué)習(xí)探索到較優(yōu)可行解的能力。


3) 利用地形優(yōu)勢的感知能力


在戰(zhàn)爭局勢不利的情況下,準(zhǔn)確作出戰(zhàn)略撤退,并分散撤退到具有較高地勢的關(guān)口四周。利用峽口因素精確作出包夾的動作行為,形成對敵方的封鎖及包抄,從而為局勢逆轉(zhuǎn)提供條件,具備較強的地形感知能力和利用性。

 

AlphaStar不足


1) 硬件資源需求高


單個智能體訓(xùn)練需要16個V3版本(最新版,運算次數(shù)為V2版本的8倍)的云TPU,以Alpha League訓(xùn)練完成的10類智能體作為保守估計,至少需要上百塊TPU作為硬件計算支持,帶來的硬件基礎(chǔ)成本使普通開發(fā)者難以承受。


2) 魯棒性仍不足


在最后一場直播中可見,由于AlphaStar無法根據(jù)敵人騷擾意圖分散安排兵力部署防守本方基地,致使被人類玩家戲耍來回拉扯全軍大部隊,從而始終無法對人類玩家發(fā)起進攻,使人類玩家有足夠時間生產(chǎn)大量的反追獵兵種(不朽),最終導(dǎo)致比賽的失利。


3) 地圖場景較為簡單


本次使用CatalstLE為兩人小地圖,沒有多余的隨機起始點,因而AlphaStar不需要派偵察部隊偵察敵人確定位置,減小了環(huán)境的不確定性,簡化了整體的不完全信息性。并且小地圖使智能體偏向于使用RUSH類戰(zhàn)術(shù),使探索策略的復(fù)雜性顯著降低。


4) 微操APM峰值過高


不同于普通人類玩家,AlphaStar的APM不具有冗余重復(fù)性,每次都為有效操作(EPM)。普通人類玩家的EPM平均大約只有80左右,只有在交戰(zhàn)過程中短暫的20秒到30秒左右的時間達(dá)到EPM 200以上。但AlphaStar在使用近乎無解的閃爍追獵戰(zhàn)術(shù)EPM估計能達(dá)到1000左右,顯然對于人類玩家并不公平。


5) 后期表現(xiàn)未知


根據(jù)此次比賽公開的錄像表現(xiàn),AlphaStar大部分時刻采取追獵者攻擊、騷擾或防御等動作,尚未觀察到其他更為高級的兵種操作,并且沒有出現(xiàn)滿人口滿科技樹的情況,因而AlphaStar的后期表現(xiàn)能力存在較大疑問。


總評:從開放的11組視頻對戰(zhàn)資源分析,AlphaStar可以在局勢不利的情況下,憑借卓越的微操控制能力、地形利用能力和多兵種整體協(xié)同配合能力,有效逆轉(zhuǎn)戰(zhàn)局,實現(xiàn)扭虧為盈。但是在最后一場現(xiàn)場直播中,AlphaStar出現(xiàn)了明顯的作戰(zhàn)缺陷,始終無法合理分配兵力保護基地,被人類玩家來回拉扯戰(zhàn)場,錯過了進攻的最佳時機,導(dǎo)致最終失利??v觀本次人機對抗,雖然在限制Bot的APM部分做的不太到位,只限制其APM的均值而沒對峰值限制,但與2017年在韓國世宗大學(xué)舉辦的星際人機對抗(同樣沒對電腦APM作限制)以Bot的慘敗相比較,本次的AlphaStar是真正意義上在全尺度地圖上擊敗了星際爭霸人類職業(yè)玩家,可謂進步顯著。


星際爭霸AI的研究進展簡介


星際爭霸是由暴雪娛樂公司于1998年公開發(fā)售,為實時戰(zhàn)略游戲的典型代表,深受廣大游戲玩家的歡迎并創(chuàng)造一列歷史先河。與此同時,隨著BWAPI,TorchCraft,SC2LE等開源API (Application Interface)的發(fā)布,眾多研究者和工程師們紛紛對星際爭霸展開了深入研究。


圖11. 2017年星際人機對抗(腳本Bot)與2019年星際人機對抗(AI Bot)

 

早期的搜索型算法(如α-β搜索,MCTS樹搜索)已經(jīng)被廣泛用于完成星際中動作攻擊選擇任務(wù)和建筑生產(chǎn)序列規(guī)劃任務(wù)。并隨著計算資源及性能的不斷提升,演化計算、深度神經(jīng)網(wǎng)絡(luò)、深度強化學(xué)習(xí)(AlphaStar的主要采用方法)等方法正發(fā)揮著越來越顯著的作用。圖11表示了近些年人工智能算法在星際爭霸的子任務(wù)中的具體應(yīng)用。其中以強化學(xué)習(xí)為代表的計算智能算法在星際爭霸領(lǐng)域取得了一系列顯著的突破性進展。在特定場景的星際微操任務(wù)下,多智能體強化學(xué)習(xí)方法如阿里的Peng等提出的基于雙向RNN的BicNet[3] ,牛津大學(xué)Foerster等提出的基于反事實機制的COMA[4] , 自動化所Shao等提出的基于SARSA(λ)和權(quán)重共享的PS-MAGDS[5] 等方法表現(xiàn)突出,能有效處理多智能體間信譽分配的問題。而在宏觀序列生產(chǎn)預(yù)測任務(wù),自動化所Tang等基于卷積神經(jīng)網(wǎng)絡(luò)的前向Q學(xué)習(xí)方法[6] 能幫助智能體找到最佳的生產(chǎn)序列,提升智能體的環(huán)境適應(yīng)性,從而擊敗內(nèi)置AI。分層強化學(xué)習(xí)方法可以在需要長期規(guī)劃的任務(wù)問題上解決獎賞反饋稀疏的問題,以騰訊的TStarBot[7] 為代表的層級強化學(xué)習(xí)證明了該方法能在標(biāo)準(zhǔn)天梯地圖中完整地完成AI的整套系統(tǒng)性學(xué)習(xí)任務(wù)。


圖12. 計算智能算法在星際爭霸中的應(yīng)用環(huán)境[2]

 

AlphaStar同樣采用深度強化學(xué)習(xí)作為其核心訓(xùn)練方法,并與他的“哥哥”AlphaGo具有相似之處,都采用人類對戰(zhàn)數(shù)據(jù)作預(yù)訓(xùn)練模仿學(xué)習(xí)。但為了滿足實時性要求,AlphaStar舍棄了搜索模塊,只讓神經(jīng)網(wǎng)絡(luò)輸出發(fā)揮作用,是一種更為純粹的“深度強化學(xué)習(xí)”方法。


結(jié)束語


從AlphaStar的表現(xiàn)來看,人工智能半只腳已經(jīng)踏上了實時對戰(zhàn)游戲的頂峰。然而另外半只腳能否踏上去還要看能否解決現(xiàn)存的后期乏力、魯棒性差的問題。近年來隨著國際象棋、Atari游戲、圍棋、德州撲克等一一被征服,人工智能在不斷挑戰(zhàn)人類智力領(lǐng)域的統(tǒng)治力。反之人類研究者也在不斷推動和挖掘人工智能的極限。人工智能是否有極限?下一個將會被征服的領(lǐng)域會是什么?讓我們拭目以待。


[1]  AlphaStar: Mastering the Real-Time Strategy Game StarCraft II. DeepMind. https:///blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

[2]  Z. Tang, et al., “A Review of Computational Intelligence for StarCraft AI,” SSCI-18, 2018.

[3]  P. Peng, et al., “Multiagent bidirectionally-coordinated nets for learning to play StarCraft combat games,” arXiv, 2017.

[4]  J. Foerster, et al., “Counterfactual multi-agent policy gradients,” AAAI-18, 2018. 

[5]  K. Shao, et al., “StarCraft micromanagement with reinforcement learning and curriculum transfer learning,” IEEE Transactions on Emerging Topics in Computational Intelligence, 2018. 

[6]  Z. Tang, et al., “Reinforcement learning for buildorder production in StarCraft II,” ICIST-18, 2018.

[7]  P. Sun, et al. 'Tstarbots: Defeating the cheating level builtin ai in starcraft ii in the full game.' arXiv, 2018


未來智能實驗室是人工智能學(xué)家與科學(xué)院相關(guān)機構(gòu)聯(lián)合成立的人工智能,互聯(lián)網(wǎng)和腦科學(xué)交叉研究機構(gòu)。


未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)云腦研究計劃,構(gòu)建互聯(lián)網(wǎng)(城市)云腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲一区二区三区精选| 久久碰国产一区二区三区| 久久99午夜福利视频| 白丝美女被插入视频在线观看| 91人人妻人人爽人人狠狠| 日韩特级黄片免费在线观看 | 国产亚洲中文日韩欧美综合网| 欧美午夜一级特黄大片| 最新午夜福利视频偷拍| 69精品一区二区蜜桃视频| 嫩草国产福利视频一区二区| 在线观看视频国产你懂的| 午夜福利黄片免费观看| 亚洲国产婷婷六月丁香| 98精品永久免费视频| 成人精品亚洲欧美日韩| 成人免费观看视频免费| 香港国产三级久久精品三级| 人人爽夜夜爽夜夜爽精品视频| 亚洲国产成人av毛片国产| 激情图日韩精品中文字幕| 五月情婷婷综合激情综合狠狠| 中文日韩精品视频在线| 国产精品欧美激情在线| 精品女同一区二区三区| 日韩欧美一区二区不卡视频| 欧美午夜伦理在线观看| 后入美臀少妇一区二区| 精品人妻一区二区三区四在线| 久草精品视频精品视频精品| 成年女人下边潮喷毛片免费| 精品人妻一区二区三区在线看| 国产av大片一区二区三区| 久久综合狠狠综合久久综合| 精品欧美日韩一区二区三区| 日本成人三级在线播放| 精品少妇一区二区视频| 亚洲欧美日本视频一区二区| 中文字幕在线五月婷婷| 经典欧美熟女激情综合网| 久久经典一区二区三区|