盡管經(jīng)過 60 多年的發(fā)展,人工智能行業(yè)已經(jīng)取得了突破性的進(jìn)展,且被廣泛應(yīng)用在經(jīng)濟(jì)社會的方方面面,但構(gòu)建與人類價值觀一致的人工智能系統(tǒng),仍然是一個尚未解決的問題。 如今,一項(xiàng)來自英國人工智能公司 DeepMind 的最新研究,或許能為人工智能行業(yè)從業(yè)者解決這一問題提供一個全新的思路。 據(jù)介紹,DeepMind 的人工智能系統(tǒng)在一個 4 人在線經(jīng)濟(jì)游戲中,通過向 4000 多人學(xué)習(xí)以及在計(jì)算機(jī)模擬中學(xué)習(xí),不僅學(xué)會了制定如何重新分配公共資金的政策,而且表現(xiàn)十分優(yōu)異,戰(zhàn)勝了其他人類玩家。 該游戲涉及玩家決定是保留一筆貨幣捐贈,還是與其他人分享,以實(shí)現(xiàn)集體利益。 相關(guān)研究論文以“Human-centred mechanism design with Democratic AI”為題,于 7 月 5 日在線發(fā)表在權(quán)威科學(xué)期刊 Nature Human Behaviour 上。 (來源:Nature Human Behaviour) 她還表示,民主不僅僅是讓你最喜歡的政策得到最好的執(zhí)行——它是創(chuàng)造一個過程,公民可以在這個過程中平等地相互接觸和商議(事情)。 如今,機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)解決了生物醫(yī)學(xué)的主要問題,并幫助人類應(yīng)對環(huán)境挑戰(zhàn)。然而,人工智能在幫助人類設(shè)計(jì)公平和繁榮社會方面的應(yīng)用還有待開發(fā)。 在經(jīng)濟(jì)學(xué)和博弈論中,被稱為機(jī)制設(shè)計(jì)的領(lǐng)域研究如何最優(yōu)地控制財富、信息或權(quán)力在受到激勵的行為者之間的流動,以實(shí)現(xiàn)預(yù)期目標(biāo)。 在此工作中,研究團(tuán)隊(duì)試圖證明:深度強(qiáng)化學(xué)習(xí)(RL)代理可以用來設(shè)計(jì)一種經(jīng)濟(jì)機(jī)制,這種經(jīng)濟(jì)機(jī)制能夠得到被激勵人群的偏好。 在這個游戲中,玩家一開始擁有不同數(shù)量的錢,必須決定貢獻(xiàn)多少來幫助更好地發(fā)展一個公共基金池,并最終獲得一部分作為回報,且會涉及反復(fù)決定是保留一筆貨幣捐贈,還是與其他玩家分享,以獲得潛在的集體利益。 研究團(tuán)隊(duì)訓(xùn)練了一個深度強(qiáng)化學(xué)習(xí)代理,來設(shè)計(jì)一個重新分配機(jī)制,即在財富平等和不平等的情況下將資金分享給玩家。 共享收益通過兩種不同的再分配機(jī)制返還給玩家,一種是由該人工智能系統(tǒng)設(shè)計(jì)的,另一種是由人類設(shè)計(jì)的。 圖|游戲設(shè)計(jì)(來源:Nature Human Behaviour) 相比于“平等主義”方法(不管每個玩家貢獻(xiàn)多少都平均分配資金)和“自由主義”方法(根據(jù)每個玩家的貢獻(xiàn)占公共資金的比例分配資金),該政策從人類玩家手上贏得了更多的選票。 同時,該政策也糾正了最初的財富失衡,制止了玩家的“搭便車”行為,除非玩家貢獻(xiàn)出大約一半的啟動資金,否則他們幾乎不會得到任何回報。 但是,研究團(tuán)隊(duì)也警告道,他們的研究成果并不代表“人工智能治理”(AI government)的配方(recipe),他們也不打算為政策制定專門構(gòu)建一些由人工智能驅(qū)動的工具。 在此次工作中,研究團(tuán)隊(duì)使用人工智能技術(shù)來從頭學(xué)習(xí)重新分配方案,這種方法減輕了人工智能研究人員——他們自己可能有偏見或不代表更廣泛的人群——選擇一個領(lǐng)域特定目標(biāo)進(jìn)行優(yōu)化的負(fù)擔(dān)。 這一研究工作也提出了幾個問題,其中一些在理論上具有挑戰(zhàn)性。例如,有人可能會問,把強(qiáng)調(diào)民主目標(biāo)作為一種價值校準(zhǔn)的方法是否是個好主意。該人工智能系統(tǒng)可能繼承了其他民主方法的一種傾向,即“以犧牲少數(shù)人為代價賦予多數(shù)人權(quán)利”。考慮到人們迫切擔(dān)心人工智能的部署方式可能會加劇社會中現(xiàn)有的偏見、歧視或不公平,這一點(diǎn)尤為重要。 (來源:Pixabay) 此外,如果是口頭向玩家解釋這些機(jī)制,而不是通過經(jīng)驗(yàn)學(xué)習(xí),他們的反應(yīng)是否會有所不同。大量文獻(xiàn)表明,當(dāng)機(jī)制是“根據(jù)描述”而不是“根據(jù)經(jīng)驗(yàn)”時,人們的行為有時會有所不同,特別是對于冒險的選擇。然而,人工智能設(shè)計(jì)的機(jī)制可能并不總是可以用語言表達(dá)的,在這種情況下觀察到的行為似乎可能完全取決于研究團(tuán)隊(duì)所采用的描述的選擇。 在論文的最后,研究團(tuán)隊(duì)還強(qiáng)調(diào),這一研究結(jié)果并表示他們支持某種形式的“人工智能治理”,即自主代理在沒有人工干預(yù)的情況下做出政策決定。 他們希望,該方法的進(jìn)一步開發(fā)將提供有助于以真正符合人類的方式解決現(xiàn)實(shí)世界問題的工具。 參考鏈接: https://www./articles/s41562-022-01383-x https://www./publications/human-centred-mechanism-design-with-democratic-ai https://www./article/2327107-deepminds-ai-develops-popular-policy-for-distributing-public-money/ 熱門視頻推薦 |
|