新智元編譯 來源: 譯者:王楠、劉小芹、胡祥杰 新智元啟動新一輪大招聘:COO、執(zhí)行總編、主編、高級編譯、主筆、運(yùn)營總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開放。 簡歷投遞:jobs@aiera.com.cn HR 微信:13552313024 新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎金。 加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。 【新智元導(dǎo)讀】OpenAI 昨天發(fā)布 OpenAI Universe, 根據(jù)其官方博客的介紹,這是一個能在幾乎所有環(huán)境中衡量和訓(xùn)練 AI 通用智能水平的開源平臺,當(dāng)下的目標(biāo)是讓 AI 智能體能像人一樣使用計算機(jī)。目前,Universe 已經(jīng)有1000種訓(xùn)練環(huán)境,由微軟、英偉達(dá)等公司參與建設(shè)。研究人員介紹說,Universe 從李飛飛等人創(chuàng)立的 ImageNet 上獲得啟發(fā),希望把 ImageNet 在降低圖像識別錯誤率上的成功經(jīng)驗引入到通用人工智能的研究上來,取得實質(zhì)進(jìn)展。 繼今年 4 月發(fā)布 OpenAI Gym 之后,OpenAI 昨天又推出了新平臺—— Universe: 一個用于訓(xùn)練解決通用問題 AI 的基礎(chǔ)架構(gòu)。 根據(jù)官博介紹,Universe 是一個能在世界上所有的游戲、網(wǎng)站和其他應(yīng)用中,衡量和訓(xùn)練 AI 通用智能的軟件平臺。 Universe 要讓 AI 智能體能像人一樣使用計算機(jī):通過看顯示屏,操作虛擬鍵盤和鼠標(biāo)。我們必須全方位地訓(xùn)練 AI 系統(tǒng),解決我們想要它們解決的問題,而 Universe 則讓我們能夠訓(xùn)練單一的智能體,執(zhí)行任何人類能使用計算機(jī)來完成的任務(wù)。 今年 4 月,OpenAI 發(fā)布了 OpenAI Gym,后者是一套用于開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具。有了 Universe,任何程序都能被接入(be turned into)到 OpenAI Gym 的環(huán)境中。Universe 通過在 VNC 遠(yuǎn)程桌面后自動啟動程序來運(yùn)作,不需要任何特殊的程序接口、源代碼或 bot API。 OpenAI 當(dāng)前發(fā)布的版本含有 1000 個環(huán)境,包括 Flash 游戲、瀏覽器任務(wù)(browser tasks),以及像 slither.io 和 GTA V 這樣的游戲。還有更多這類環(huán)境可供訓(xùn)練強(qiáng)化學(xué)習(xí),幾乎所有都能在 Universe 運(yùn)行,使用 universe Phython 庫運(yùn)行
我們的目標(biāo)是開發(fā)單一的一個 AI 智能體,使其能夠靈活運(yùn)用過去在 Universe 中的經(jīng)驗,快速在陌生和困難的環(huán)境中取得掌控權(quán),這也是通往通用智能的重要一步。 你可以以很多種方式參與 OpenAI Universe:授權(quán) OpenAI 使用你的游戲、在 Universe 不同任務(wù)中訓(xùn)練智能體,以及接下來即將推出的整合新游戲,以及讓智能體玩這些新的游戲。 Universe 部分參與單位,完整列表見文末 人工智能領(lǐng)域在過去幾年中取得了快速進(jìn)展。計算機(jī)現(xiàn)在可以以前所未有的精度查看、聽取和翻譯語言。計算機(jī)也在學(xué)習(xí)生成圖像、聲音和文本。強(qiáng)化學(xué)習(xí)系統(tǒng) AlphaGo 擊敗了人類世界圍棋冠軍。然而,盡管取得了所有這些進(jìn)步,目前的 AI 系統(tǒng)仍然屬于“狹義AI”——可以在特定領(lǐng)域?qū)崿F(xiàn)超人的表現(xiàn),但缺乏在該領(lǐng)域外合理執(zhí)行任務(wù)的能力。例如,AlphaGo可以輕松地在圍棋上擊敗你,但你不能期望讓它陪你一起玩其他游戲。 具有一般問題解決能力的系統(tǒng)——類似于擁有人類常識,讓智能體能夠快速解決新的困難任務(wù)——目前仍然是不存在的。一個顯而易見的挑戰(zhàn)是,現(xiàn)在的智能體還不能將其經(jīng)驗攜帶到新的任務(wù)中。在標(biāo)準(zhǔn)訓(xùn)練制度下,智能體從零開始初始化,隨機(jī)抽取數(shù)千萬試驗中的一個,經(jīng)過不斷試錯、學(xué)會重復(fù)行為,最終得到有益的結(jié)果。如果要向通用 AI 智能體取得進(jìn)展,我們必須讓智能體經(jīng)歷一系列不同的任務(wù),以便它們能夠發(fā)展出關(guān)于世界的知識和解決問題的策略,以便在新任務(wù)中有效地重復(fù)使用這些東西。 Universe 通過一個通用的接口適用于各種場景:智能體通過捕捉屏幕的像素生成對鍵盤和鼠標(biāo)的命令來操作遠(yuǎn)程桌面。場景需要 VNC 服務(wù)器,universe 庫將智能體轉(zhuǎn)換為 VNC 客戶端。 Universe 的設(shè)計目標(biāo)是支持單個的 Python 進(jìn)程,以每秒60幀的速度并行驅(qū)動20個場景。每個屏幕的緩沖區(qū)是 1024×768,因此用外部進(jìn)程直接讀取每一幀需要3GB/s的內(nèi)存帶寬。我們用 Go 寫了一個面向批處理的VNC服務(wù)器,它可以作為Python共享庫加載,并且逐步更新每個場景的一對緩沖區(qū)。在嘗試了許多 VNC 服務(wù)器、編碼器和無證書協(xié)議選項的組合之后,現(xiàn)在的組合能以60幀/秒的速度驅(qū)動幾十個場景,延遲是100毫秒——這些延遲幾乎都是服務(wù)器端編碼引起的。 以下是我們當(dāng)前實現(xiàn)的一些重要特性: 通用性。智能體可以使用這個接口(最初是為人類設(shè)計的)與現(xiàn)有的任何計算機(jī)程序交互,而不需要仿真器或接入程序內(nèi)部。例如,智能體可以玩任何一款計算機(jī)游戲,與終端交互,瀏覽網(wǎng)頁,使用 CAD 軟件制圖,使用圖片編輯軟件或者編輯電子表格,等等。 熟悉性。由于人們已經(jīng)非常熟悉這些像素/鍵盤/鼠標(biāo)的界面,人們可以輕松操作universe的任何場景。我們可以使用人類表現(xiàn)作為有意義的基準(zhǔn),只需簡單地保存 VNC 流量記錄跟蹤人類的演示。我們發(fā)現(xiàn),在轉(zhuǎn)換到增強(qiáng)學(xué)習(xí)為給定的激勵函數(shù)進(jìn)行優(yōu)化前,這些演示在對使用行為克隆(即使用監(jiān)督學(xué)習(xí)模擬人類行為)的合理策略的智能體進(jìn)行初始化時非常有用。 以 VNC 作為標(biāo)準(zhǔn)。VNC 的許多實現(xiàn)都可以在線使用,而且包括 OSX 在內(nèi)的一些實現(xiàn)已經(jīng)默認(rèn)封裝到常見的操作系統(tǒng)中。在 JavaScript 中甚至有允許用戶提供演示而無需安裝任何新軟件的 VNC 實現(xiàn)——這對 Amazon Mechanical Turk 之類的服務(wù)非常重要。 易于調(diào)試。我們可以在智能體正在訓(xùn)練或評估時進(jìn)行調(diào)試,只需將 VNC 客戶端附加到共享環(huán)境的 VNC 桌面。還可以保存 VNC 流量供以后分析。 我們都很驚訝 VNC 的作用如此強(qiáng)大。隨著我們的游戲更大型,我們將開始使用額外的后端技術(shù)。但初步的跡象表明,現(xiàn)有的實現(xiàn)能夠更好:設(shè)置正確的話,用戶能夠以每秒20幀的速率在公共互聯(lián)網(wǎng)上運(yùn)行 GTA V。 我們已經(jīng)在Universe中加入了大量的運(yùn)行環(huán)境,并且,我們認(rèn)為這僅僅是一個開始。每一個環(huán)境都被打包成一個Docker圖像,包含了兩個服務(wù)器,來與外部的環(huán)境進(jìn)行溝通:VNC服務(wù)器會向顯示器發(fā)出信號,并接收鍵盤或者鼠標(biāo)發(fā)出的指令;WebSocket 服務(wù)器會發(fā)出強(qiáng)化學(xué)習(xí)任務(wù)所反饋的信號(以及所有的輔助信息,比如文本或者診斷),此外,還會接收控制信息(比如要運(yùn)行的具體環(huán)境ID)。 Atari 游戲 Universe 包含Arcade 學(xué)習(xí)環(huán)境中的2600種Atari游戲。這些環(huán)境現(xiàn)在在quay.io/openai/universe.gym-core 的Docker 圖像上異步運(yùn)行,并允許智能體在網(wǎng)絡(luò)之上進(jìn)行連接,這意味著智能體必須要處理延時和低幀率。通過在云上的局部網(wǎng)絡(luò)上運(yùn)行,我們通??梢赃_(dá)到60幀每秒,觀察滯后20毫秒,行動滯后10毫秒。在整個公共的互聯(lián)網(wǎng)上,能降到20幀每秒,觀察滯后80毫秒,行動滯后30毫秒。 Flash 游戲 在 Universe 的擴(kuò)展上,我們把Flash 游戲作為一個起始點,這些游戲在互聯(lián)網(wǎng)上幾乎是無處不在dd ,總體上特征比Atari 要豐富得多,但是個體上依然非常簡單。我們已經(jīng)篩選了超過3萬個游戲,并預(yù)計,還有一個數(shù)量級的游戲沒有收錄。 最初發(fā)布的 Universe 包含了1000個Flash 游戲(其中有100個有回饋函數(shù)),在獲得所有權(quán)持有者的同意之后,我們把它們發(fā)布在了 quay.io/openai/universe.flashgames Doker image上。此圖像開啟TigerVNC服務(wù)器并啟動Python控制服務(wù)器,該控制服務(wù)器使用Selenium將所需游戲的Chrome瀏覽器打開到容器內(nèi)頁面,并自動點擊啟動游戲所需的任何菜單。
提取回饋 雖然沒有回饋函數(shù)的環(huán)境可用于無監(jiān)督學(xué)習(xí),或者用于生成類人的展示,但是,強(qiáng)化學(xué)習(xí)(RL)需要回饋函數(shù)。與Atari游戲不同,我們不能簡單地從對內(nèi)存的處理中讀取成功的標(biāo)準(zhǔn),并且,關(guān)于每一個游戲如何儲存這些信息,其中還有很多的變量。 幸運(yùn)的是,許多游戲都會有顯示在屏幕上的得分情況,這可以當(dāng)成是一個回饋函數(shù),只要我們能合理地解釋這些分?jǐn)?shù)。雖然現(xiàn)成的OCR(例如Tesseract)在具有干凈背景的標(biāo)準(zhǔn)字體上表現(xiàn)很好,但它在許多游戲中常常遇到多樣字體,移動背景,動畫或遮擋物體等難題。 我們開發(fā)了一個基于卷積神經(jīng)網(wǎng)絡(luò)的OCR模型,該模型在Docker容器的Python控制器中運(yùn)行,解析得分(通過VNC自循環(huán)維護(hù)的屏幕緩沖區(qū)),并通過WebSocket通道將其傳遞給智能體。 我們的得分OCR模型發(fā)揮了作用。人類積分等級員提供了分?jǐn)?shù)的上下界限。 OCR模型以每秒60幀的速度解析分?jǐn)?shù)。 瀏覽器任務(wù) 在人類集體的努力下,現(xiàn)在互聯(lián)網(wǎng)已經(jīng)被建設(shè)成一個關(guān)于信息的巨大寶藏,用于人類的視覺消費。Universe 包含了給予瀏覽的環(huán)境,這些環(huán)境要求AI 智能體能讀、導(dǎo)航,像人類一樣使用網(wǎng)站、顯示器、鍵盤和鼠標(biāo)。 目前,我們的智能體主要學(xué)習(xí)與常見的用戶交互元素(如按鈕,列表和滑塊)進(jìn)行交互,但是將來他們可以完成更復(fù)雜的任務(wù),例如在互聯(lián)網(wǎng)上查找他們不知道的事情,管理電子郵件或日歷,完成Khan Academy課程,或者完成亞馬遜 Mechanical Turk 和CrowdFlower 等任務(wù)。 Mini World of Bits 我們首先計劃創(chuàng)建一個新的基準(zhǔn),能在一個簡單的設(shè)定下,捕捉瀏覽器交互中的一個的一個顯要難題。我們把這個基準(zhǔn)稱為 Mini World of Bits. 我們認(rèn)為這可以跟MNIST類比,并且認(rèn)為,能夠掌握這些環(huán)境為模型和訓(xùn)練技術(shù)提供了有價值的信息,這些技術(shù)將在整個網(wǎng)站和更復(fù)雜的任務(wù)上有良好的表現(xiàn)。我們最初的Mini World of Bits 基準(zhǔn)包括80個環(huán)境,從簡單(例如,點擊特定按鈕)到困難(例如,在模擬電子郵件客戶端中回復(fù)聯(lián)系人)都有。 現(xiàn)實世界中的瀏覽任務(wù)。我們已經(jīng)開始在更加具有現(xiàn)實意義的瀏覽任務(wù)上進(jìn)行研究。智能體在獲得一份說明書后,開始在網(wǎng)頁上執(zhí)行一系列任務(wù)。一個這樣的環(huán)境交給智能體一個具體的任務(wù):預(yù)定航班。要求其操縱用戶界面以搜索航班。 (我們使用這些網(wǎng)站的緩存記錄,以避免發(fā)送垃圾郵件,或預(yù)訂大量真實的航班)。 未來的融合 這種基礎(chǔ)設(shè)施是通用的:我們可以集成任何可以在Docker容器(最方便)或Windows虛擬機(jī)(不太方便)中運(yùn)行的游戲,網(wǎng)站或應(yīng)用程序。我們希望獲得整個研究社區(qū)的幫助,繼續(xù)延伸Universe環(huán)境的廣度,包括完成合作伙伴的游戲、Android應(yīng)用程序(模擬器可以在Docker內(nèi)部運(yùn)行)、fold.it、Unity游戲、HTML5游戲、在線教育游戲等等,以及別人能想到的任何事。 微軟的Malmo團(tuán)隊將與Universe集成,我們也期待著支持其他AI框架。 OpenAI 研究員還在文章中表示,研究進(jìn)步要求對其水平進(jìn)行有實際意義的衡量。在接下來的幾周內(nèi),他們將發(fā)布一個遷移學(xué)習(xí)基準(zhǔn),允許研究人員確定他們是否在機(jī)器的通用問題解決能力研究方面取得進(jìn)展。 “Universe 從計算機(jī)視覺 ImageNet 數(shù)據(jù)集的發(fā)展中獲得靈感。李飛飛和她的合作者故意把 ImageNet 的基準(zhǔn)設(shè)計為幾乎不可能做到的,但圖像識別的錯誤率從2010年的28%迅速下降到2016年的3%,達(dá)到(在某些情況下甚至超過)人類的水平。如果AI社區(qū)在Universe 上也一樣發(fā)展的話,那么我們在研究普適性的、通用的人工智能系統(tǒng)上,將會取得真正的進(jìn)展。” 負(fù)責(zé)人及鳴謝
以下單位是 Universe 關(guān)鍵合作伙伴:EA, Valve, Microsoft, NVIDIA, Kongregate, Newgrounds, Yacht Club Games, Zachtronics, Ludeon Studios, Monomi Park, 2D Boy, Adam Reagle, Alvin Team, Rockspro, Anubhav Sharma, Arkadium, Beast Games, Char Studio, Droqen, Percy Pea, deeperbeige, Denny Menato, Dig Your Own Grave, Free World Group, Gamesheep, Hamumu Software, Hemisphere Games, Icy Lime, Insane Hero, inRegular Games, JackSmack, Nocanwin, Joe Willmott, Johnny Two Shoes, The Gamest Studio, László Cziglédszky, Madalin Games, Martian Games, Mateusz Skutnik, Mikalay Radchuk, Neutronized, Nitrome, ooPixel, PacoGames, Pixelante, Plemsoft, Rob Donkin, robotJam, Rumble Sushi 3D, SFB Games, Simian Logic, Smiley Gamer, Sosker, tequibo, kometbomb, ThePodge, Vasco Freitas, Vitality Games, Wolve Games, Xform Games, XGen Studios 關(guān)于如何操作使用 OpenAI Universe 的介紹以及其他具體內(nèi)容,可以訪問官方博客介紹網(wǎng)頁:https:///blog/universe/ 【OpenAI Universe】https://universe./ (責(zé)編:WF) 新智元招聘 職位 運(yùn)營總監(jiān) 職位年薪:36- 50萬(工資+獎金) 工作地點:北京-海淀區(qū) 所屬部門:運(yùn)營部 匯報對象:COO 下屬人數(shù):2人 年齡要求:25 歲 至 35 歲 性別要求:不限 工作年限:3 年以上 語 言:英語6級(海外留學(xué)背景優(yōu)先) 職位描述
崗位要求
新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號。 |
|