李子李子短信
發(fā)表于 今天09:08
“為什么這個圖像識別的人工智能(AI),老把男人認(rèn)成女人?” 趙潔玉發(fā)現(xiàn)這個問題的時候,正摩拳擦掌地準(zhǔn)備開始自己第一個獨(dú)立研究。那時,她剛加入弗吉尼亞大學(xué)計算機(jī)系攻讀人工智能機(jī)器學(xué)習(xí)方向的博士,她的導(dǎo)師文森特·奧都涅茨(Vicente Ordó?ez)扔給了她這個乍看有點(diǎn)哭笑不得的課題。 這年頭面部識別其實(shí)已經(jīng)不是很難的事情了,分辨男女更算不上什么世紀(jì)難題,準(zhǔn)確率應(yīng)該很高才對。當(dāng)然,趙潔玉手頭的AI任務(wù)要稍微難一點(diǎn)兒,不是分辨證件照,而是要辨認(rèn)場景復(fù)雜的生活照,可就連相機(jī)里的小小程序都能極為準(zhǔn)確地找到畫面中的人臉而自動對焦,多點(diǎn)兒背景對AI來說能算什么難題呢? 然而正是這些背景,以一種意料之外情理之中的方式扭曲了AI的“認(rèn)知”。趙潔玉發(fā)現(xiàn),男人被認(rèn)成女人的圖片有一些共同點(diǎn)——都是站在廚房里、或者在做家務(wù)。 把男人認(rèn)成女人的 AI。圖片來源:參考文獻(xiàn)1 她很快意識到,這并不是程序bug,也不是識別算法或者特征提取出了毛病,而是人工智能總把女人和某些特定的元素聯(lián)系在一起,在下達(dá)判斷時被這些元素帶跑了。換句話說,這是一個會“性別歧視”的AI:它認(rèn)為站在廚房里的就“該”是女人。 這樣的歧視是怎么產(chǎn)生的呢?也很簡單。如果你成長在一個“男主外、女主內(nèi)”的社會,那么你便會天然地認(rèn)為女人就該操持家務(wù)。AI也一樣,不過它“認(rèn)識世界”的途徑、也是歧視的來源,是它的“教學(xué)資料”——用于訓(xùn)練人工智能進(jìn)行圖像識別的數(shù)據(jù)庫。關(guān)于性別的偏見不僅在數(shù)據(jù)庫里普遍存在,而且還會被人工智能所放大。 為什么會出現(xiàn)這種情況?怎么解決?趙潔玉和團(tuán)隊(duì)圍繞著這兩個問題寫就的論文《男人也愛購物:使用語料庫級別的限制法降低性別偏差》在自然語言處理2017年的年會上獲得了最佳長論文獎,整個人工智能領(lǐng)域也開始逐漸意識到這個問題。 數(shù)據(jù)庫的偏差從何而來?趙潔玉和實(shí)驗(yàn)室團(tuán)隊(duì)選取了兩個具有代表性的圖像訓(xùn)練數(shù)據(jù)集,一個是華盛頓大學(xué)開發(fā)的ImSitu,一個是微軟和Facebook等大公司支持的MSCOCO,每個數(shù)據(jù)集里面都有超過10萬張圖片。他們發(fā)現(xiàn),一些標(biāo)簽和性別綁定的程度十分突出,比如站在廚房里、做家務(wù)、照看小孩子的就被認(rèn)為是女性,開會、辦公、從事體育運(yùn)動的則是男性。單個圖片看起來都很正常,然而大量的此類照片累積成了肉眼可見的偏見。有超過45%的動詞和37%的名詞,會展現(xiàn)超過2:1的性別比例偏差。 性別歧視也僅僅只是偏見其中的一個方面。一張來自印度海得拉巴的印式婚紗,在圖像識別的人工智能眼里,成了歐洲中世紀(jì)的鎖子甲。為什么?因?yàn)锳I的概念里婚紗是白色的西式婚紗,而并不“認(rèn)識”第三世界的文化。 左邊為海得拉巴婚紗,右邊為鎖子甲。 這是谷歌大腦實(shí)驗(yàn)室成員、斯坦福大學(xué)的史蕾雅·珊卡爾(Shreya Shankar)的研究對象——目前最知名的圖像識別訓(xùn)練數(shù)據(jù)集,擁有超過120萬張圖片的谷歌ImageNet。她發(fā)現(xiàn),用ImageNet訓(xùn)練出來的人工智能,同樣是識別帶有“婚紗”元素的圖像,來自美國和澳大利亞的圖像準(zhǔn)確率和置信度非常高——絕大多數(shù)圖片都能得到機(jī)器自信且正確的答案;然而來自巴基斯坦和埃塞俄比亞的圖片則沒有這種待遇。在識別美國和第三世界的圖像內(nèi)容的時候,人工智能總是“選擇性失明”。 珊卡爾用地點(diǎn)標(biāo)簽為這些數(shù)據(jù)做了分類,發(fā)現(xiàn)ImageNet的圖像,有45%來自美國,超過60%來自最主要的6個歐美國家。而中國和印度加起來有全球三分之一的人口,卻只有數(shù)據(jù)集里區(qū)區(qū)3%的數(shù)據(jù)量。在這樣的數(shù)據(jù)集訓(xùn)練下的AI,在面對來自“第三世界”的任務(wù)時,就仿佛進(jìn)了大觀園的劉姥姥,眼前全是稀奇事兒。 對于各地區(qū)的圖像識別置信度的分布,越往右越高。埃塞爾比亞和巴基斯坦的圖片置信度相對更差。圖片來源:參考文獻(xiàn)2 數(shù)據(jù)集的偏差,在形成的過程中就已經(jīng)在積累了。 數(shù)據(jù)集的目的,是訓(xùn)練機(jī)器的進(jìn)行圖像識別——例如ImageNet 的圖像就圍繞著1000多個類別展開,每一張圖片都有一個類別標(biāo)簽。但是為每個標(biāo)簽選擇的圖像,卻會在無意中反映互聯(lián)網(wǎng)的刻板印象。趙潔玉告訴我,大部分?jǐn)?shù)據(jù)庫的圖片都來源于搜索引擎,然后再通過人工給這些圖片加上標(biāo)簽,標(biāo)注里面都有些啥(比如一個香蕉的圖片,那么標(biāo)簽里面就會有水果,食物,香蕉等文字)。這樣做的原因很好理解:程序無法直接感知到現(xiàn)實(shí)事物,只能“看”到現(xiàn)成的數(shù)字化圖像,而互聯(lián)網(wǎng)搜索引擎應(yīng)該是最不帶偏見、最誠實(shí)的圖像來源了吧? 但搜索引擎體現(xiàn)的“誠實(shí)”卻讓人驚愕——比如,在谷歌上搜“black girl”,第一屏有絕大部分都是色情圖(后來谷歌把這個問題修復(fù)了);哈佛大學(xué)的計算機(jī)系教授拉譚雅·斯威尼(Latanya Sweeney)發(fā)現(xiàn),在搜索引擎上搜典型的黑人名字,搜索引擎會有超過80%的概率在搜索建議里提供“逮捕”“犯罪”等詞匯,而沒有種族特征的卻只有不到30%。歸根結(jié)底,搜索引擎反應(yīng)的并不是現(xiàn)實(shí),而是它的使用者對現(xiàn)實(shí)的理解,這些關(guān)于種族與性別的理解不可避免地天生就有值得商榷的內(nèi)容——你以為你輸入的是“黑人”,但得出的內(nèi)容卻是“黑人罪犯”。 “數(shù)學(xué)上沒有所謂‘公平’的概念,”英國巴斯大學(xué)計算機(jī)系教授喬安娜·布萊森(Joanna Bryson)說,“偏見,只是機(jī)器從數(shù)據(jù)中拾取的規(guī)律(regularity)而已。”在人工智能和機(jī)器學(xué)習(xí)的范疇里,“偏見”并不是一個帶有價值判斷的詞匯。然而,在涉及到現(xiàn)實(shí)應(yīng)用的領(lǐng)域,情況就不一樣了?,F(xiàn)在的機(jī)器,當(dāng)然不具備體會情感或者故意施加偏見的能力,只是誠實(shí)地反映了數(shù)據(jù)庫、乃至社會中真實(shí)存在的偏見,而這些反映有時候并不是我們想要的。 更關(guān)鍵的問題在于,現(xiàn)有的機(jī)器訓(xùn)練方式,很可能會放大這些偏見和歧視。 機(jī)器如何放大數(shù)據(jù)庫的偏見?你可能有這樣的經(jīng)歷:剛在購物網(wǎng)站上購買了5kg的洗衣液,推薦算法就在“你可能喜歡”的側(cè)欄里,給你推薦8個品牌25種其它洗衣液——“這是要我開洗衣店”? 大規(guī)模商業(yè)應(yīng)用的推薦算法不夠“智能”也許有其苦衷,但哪怕學(xué)術(shù)界頂尖的技術(shù)也難逃類似的坑:算法似乎太過在意你的輸入,把原始數(shù)據(jù)太當(dāng)真了。如果數(shù)據(jù)質(zhì)量很高,那自然不是問題;但現(xiàn)在原始數(shù)據(jù)里已經(jīng)有了偏見,算法就會進(jìn)一步把它放大。 趙潔玉團(tuán)隊(duì)用MSCOCO和ImSitu數(shù)據(jù)集訓(xùn)練的人工智能,在對一般的圖片進(jìn)行預(yù)測的時候,會體現(xiàn)出比數(shù)據(jù)集本身更大的偏差——比如,在imSitu數(shù)據(jù)集中,“下廚”和女性聯(lián)系起來的頻率為66%,男性有33%;然而,被這個數(shù)據(jù)集訓(xùn)練過的人工智能,預(yù)測下廚和女性聯(lián)系起來的比率被放大到了84%,男性則只有區(qū)區(qū)16%。 為什么呢?她在研究中使用的算法模型,一方面直接通過辨認(rèn)圖像的特征,提取圖像里的元素標(biāo)簽,另一方面會根據(jù)各個標(biāo)簽之間的聯(lián)系來判定究竟哪個元素出現(xiàn)的概率最大,這也是大信息量的圖像識別中十分常用的思路。而問題就在于,如果要通過現(xiàn)有的聯(lián)系來進(jìn)行識別,那么機(jī)器可能會在訓(xùn)練中將現(xiàn)有的聯(lián)系夸大,從而在不那么確定的情況下,給出一個‘更可能靠近“正確答案”的結(jié)果。 趙潔玉給我打了個比方:“當(dāng)算法只通過圖像里的特征來判定,給出的預(yù)測是有50%的可能圖片里面是男性,但也有50%可能是女性;但在訓(xùn)練它的數(shù)據(jù)庫中,有90%的圖片都將女性和廚房聯(lián)系在一起。那么綜合圖像特征、聯(lián)系兩方面信息之后,機(jī)器便會得出結(jié)論,說圖片里是女性?!?/p> 機(jī)器容易犯的另外一個錯,是將大部分?jǐn)?shù)據(jù)的特征當(dāng)做一般的特征來處理——上文中用ImageNet訓(xùn)練出來的數(shù)據(jù)庫就很可能犯“美國加歐洲就是全世界”的錯誤。這會對數(shù)據(jù)中的少數(shù)非常不利。如果讓AI判斷一個人是男人還是女人,而用于訓(xùn)練這個AI的數(shù)據(jù)庫里有98%的男人,只有2%的女人。經(jīng)過訓(xùn)練的AI即使可以識別所有男人、完全不管那2%的女人,那也能有98%的準(zhǔn)確度。但是那2%的女人,對機(jī)器就等同于不存在了。 而如果不管不顧實(shí)際情況,只埋頭訓(xùn)練的話,能將現(xiàn)有數(shù)據(jù)庫的偏差夸張到什么程度呢?來自MIT和卡耐基梅隆大學(xué)的兩個學(xué)者訓(xùn)練了一個AI,它能夠通過不同數(shù)據(jù)庫的風(fēng)格和內(nèi)容,識別來自不同數(shù)據(jù)庫的圖片,比如Caltech101里的汽車都是橫著的,MSRC里常常是寬闊的草坪上擺著一個物體。這意味著,若一個數(shù)據(jù)庫里面出現(xiàn)了哪怕一點(diǎn)點(diǎn)的偏見,也會被算法忠實(shí)地反映出來,夸大到一般情況中——用Caltech101訓(xùn)練出來的AI,一定認(rèn)為世界上絕大部分的車都是橫著的才“正?!?。 不同數(shù)據(jù)庫里的車的“典型”樣子。圖片來源:參考文獻(xiàn)3 這在技術(shù)領(lǐng)域被稱為“過擬合”,很大程度上和人工智能的訓(xùn)練方式有關(guān)。MIT和卡耐基梅隆的研究者認(rèn)為,現(xiàn)在的圖像識別開發(fā)者,往往會陷入盲目追求“準(zhǔn)確度”的陷阱里去;訓(xùn)練出來的模型,在某一個數(shù)據(jù)庫上的精確度可以達(dá)到非常高,從而給人“我的AI特牛逼”的錯覺,然而在現(xiàn)實(shí)中難免會吃癟。這就好比我本來是個臉盲,又恰好是日本大型偶像組合AKB48的忠實(shí)粉絲,里面的幾百個妹子我都認(rèn)識。但是把我放到一般人群中,我又兩眼一抹黑,只好對著剛認(rèn)識不久的人露出陌生的微笑。長期泡在年輕妹子里,對老年人和男性的識別能力反而降低了。 誠然,在AI訓(xùn)練的過程中,數(shù)據(jù)可以說是最重要的一環(huán)。但數(shù)據(jù)不是萬能的,對數(shù)據(jù)的洞察同樣關(guān)鍵?!皬拇罅康臄?shù)據(jù)中挖掘并洞察人性”——這是趙潔玉的導(dǎo)師奧都涅茨的興趣所在。只有這樣,才能從根本上提高機(jī)器在人類社會中工作的能力。 人或許是機(jī)器最大的局限社會的信息化、互聯(lián)網(wǎng)的飛速發(fā)展給我們帶來了海量的數(shù)據(jù),你想得到的、想不到的,都被機(jī)器清清楚楚地掌握著。在你打開社交網(wǎng)站的時候,機(jī)器就把合適的廣告推到了你面前,只因?yàn)槟闱耙惶煊霉雀杷阉髁诉@個產(chǎn)品的信息;上傳照片到Facebook,你和你的朋友都會被自動打上標(biāo)簽,只因?yàn)槊娌孔R別算法早已悄悄掃描過了有你們的每一幅照片。 然而,對于數(shù)據(jù)的挖掘和理解,始終有著各種各樣的局限。機(jī)器的錯誤、歧視和偏見,也來自“缺根筋”的人——技術(shù)人員擁有了大量的數(shù)據(jù),用機(jī)器強(qiáng)大的運(yùn)算能力調(diào)教出了精妙的算法,但卻對數(shù)據(jù)、乃至數(shù)據(jù)背后的社會現(xiàn)實(shí)缺乏考慮。 珊卡爾舉了一個讓人啼笑皆非的例子——她所在的斯坦福計算機(jī)系的一個教授開發(fā)了一個聲稱能夠“通過面部特征識別同性戀”的人工智能。消息傳出,社會上一片嘩然。且不論這個算法若是放入現(xiàn)實(shí)中,會為歧視和偏見提供怎樣的方便;關(guān)鍵是,這個人工智能在現(xiàn)實(shí)中真的成立嗎?“這位教授使用的數(shù)據(jù),都來自在調(diào)查里公開出柜的人,還有大量的同性戀根本沒有公開自己的性向?!鄙嚎栐谝黄┪闹袑懙溃叭绻胍孀R一個人是否真的是生物意義上的同性戀,這個算法沒有任何意義。” 另一個例子是,一個醫(yī)療團(tuán)隊(duì)使用AI輔助診斷病人的血液樣本(這可以說是目前人工智能最有開發(fā)潛力的方向之一),但卻發(fā)現(xiàn)AI診斷出陽性結(jié)果的數(shù)量大大超出了預(yù)料。難道其實(shí)人人都有???結(jié)果卻令人啼笑皆非:數(shù)據(jù)庫使用健康志愿者的血液作為對照,但這些志愿者幾乎都是年輕的大學(xué)生,而醫(yī)院里的病人年齡明顯偏大。最后,人工智能把老年血當(dāng)成了有病的血。這樣的錯誤人類也會犯,但只需上幾門醫(yī)學(xué)統(tǒng)計學(xué)的課程就可糾正;教會AI懂得這種偏差,卻仿佛遙遙無期。 這還僅僅是學(xué)術(shù)領(lǐng)域的問題,現(xiàn)實(shí)中關(guān)于數(shù)據(jù)庫的棘手事兒更多。“在機(jī)器學(xué)習(xí)研究的領(lǐng)域里,數(shù)據(jù)庫還是相對比較‘干凈‘的,”一名在人工智能領(lǐng)域供職的朋友對我說,“各種類型的數(shù)據(jù)都比較理想化,比如圖片的標(biāo)簽、圖片的分類等等,都相對規(guī)范。然而在商業(yè)領(lǐng)域采集到的數(shù)據(jù),很多都非常潦草,訓(xùn)練出來的算法也有很大問題?!鄙虡I(yè)公司要么購買昂貴的數(shù)據(jù)庫,要么就花上大量的人力手動打標(biāo)簽,從這個角度上講,人工智能的背后,其實(shí)一點(diǎn)也不智能?!袄M(jìn),垃圾出”(Garbage in,Garbage out),是業(yè)界對于糟爛數(shù)據(jù)庫訓(xùn)練出糟爛智能的吐槽——很多時候,甚至是自嘲。 這些進(jìn)入商業(yè)應(yīng)用的人工智能使用了什么樣的數(shù)據(jù)庫?數(shù)據(jù)庫中的偏見是否會影響人工智能的判斷?數(shù)據(jù)庫如何收集數(shù)據(jù),如何標(biāo)注已有的偏見,業(yè)界有沒有標(biāo)準(zhǔn)?社會對此缺乏相應(yīng)的考察,而機(jī)器學(xué)習(xí)本身也存在著大量不透明的境況,特別是在神經(jīng)網(wǎng)絡(luò)“無監(jiān)督學(xué)習(xí)”的發(fā)展趨勢下,連開發(fā)者自己都不知道自己的 AI 究竟在干什么。 我們不知道一個進(jìn)行簡歷篩選的智能,會不會將女性的簡歷扔進(jìn)垃圾堆;也不知道給一個人的借貸信用打分的人工智能,是否會將出生地作為黑歷史納入考慮。作為一個希望在計算機(jī)領(lǐng)域發(fā)展的女性,趙潔玉也會擔(dān)心這樣的問題?!叭绻阌脷v年計算機(jī)系的入學(xué)數(shù)據(jù)訓(xùn)練一個人工智能,”她說,“那么機(jī)器一定會得出‘女性成不了優(yōu)秀的計算機(jī)工程師‘的結(jié)果。這對女工程師來說非常不公平。” 而少數(shù)族裔、少數(shù)團(tuán)體所面臨的尷尬,就如同珊卡爾的研究中的海得拉巴婚紗一樣——被主流數(shù)據(jù)庫訓(xùn)練出來的人工智能,對少數(shù)群體的情況往往兩眼一抹黑。現(xiàn)實(shí)中,大量的智能應(yīng)用都誕生自灣區(qū)——這是一個經(jīng)濟(jì)極其發(fā)達(dá)的城市帶,開發(fā)者大部分是白人中青年男性,而這個小小的地方,正決定著服務(wù)整個世界的人工智能的數(shù)據(jù)和算法。國內(nèi)北上廣深杭的互聯(lián)網(wǎng)從業(yè)者,也難免對三四線城市和鄉(xiāng)村充滿了輕蔑,一廂情愿地相信著大城市的社會規(guī)律。而結(jié)果卻是,那些沒有話語權(quán)的群體和地域,可能會在將來更加嚴(yán)重地被邊緣化,這并不是開放、平等的互聯(lián)網(wǎng)最初所期冀的結(jié)果。 給機(jī)器一個公平的未來?“沒有事實(shí)上的技術(shù)中立。對機(jī)器來說,中立的就是占統(tǒng)治地位的?!眲虼髮W(xué)未來研究所教授魯恩·奈如普(Rune Nyrup)如是說。人工智能并不能從數(shù)據(jù)中習(xí)得什么是公平、什么是美德,也不懂什么是歧視、什么是丑惡。說到底,我們現(xiàn)在的人工智能,還遠(yuǎn)遠(yuǎn)沒到理解“抽象”的地步。 被人類盲目追捧的機(jī)器,似乎不會“犯錯”——這是因?yàn)闄C(jī)器是穩(wěn)定的,只會出現(xiàn)“異?!?。但這種異常,其實(shí)就是一直固執(zhí)不停地犯錯。如何避免呢?這也跟人類的教育有相似之處——提供更好的教材,或者老師需要格外注意教學(xué)方式。毫無疑問,我們需要更好的、盡可能減少偏見的數(shù)據(jù)庫;然而得到面面俱到、沒有偏差的數(shù)據(jù)庫非常困難、且成本高昂,那么訓(xùn)練人工智能的技術(shù)人員,能夠?qū)赡艿钠钣兴J(rèn)識。并用技術(shù)方式去調(diào)整、彌合這個偏差,也是十分必要的。 趙潔玉正在做的研究,就是如何調(diào)偏。她設(shè)計的算法,會衡量數(shù)據(jù)庫的性別元素和偏見狀況,并用它來糾正識別的預(yù)測結(jié)果。在這個糾偏算法的幫助下,機(jī)器在性別方面的識別偏見減少了40%以上。 而在糾偏的研究中,趙潔玉也慢慢領(lǐng)會了一個技術(shù)人員與社會公平之間的聯(lián)系。她自認(rèn)并不是那類積極在社交網(wǎng)絡(luò)上參與政治議題的年輕人,但卻會更多地在技術(shù)領(lǐng)域注意到數(shù)據(jù)中的“少數(shù)”,思考他們是否得到了數(shù)據(jù)和算法的一視同仁?!澳愕乃惴ǖ谋憩F(xiàn)好,是不是因?yàn)閮?yōu)勢群體強(qiáng)大?弱勢群體在你的算法中被考慮到了嗎?”趙潔玉說。 而從根本上說,那些被機(jī)器無意拾取的偏見,都以性別刻板印象的形式,長期存在于我們自己周圍,需要我們保持審視的態(tài)度。作為一個從事人工智能研究的女性,即使已經(jīng)走入了領(lǐng)域最頂尖的學(xué)府深造,卻依舊會面對別人詫異的目光。“經(jīng)常會聽到別人說,‘女孩子學(xué)CS(Computer Science,計算機(jī)科學(xué)),一定很辛苦吧’?!壁w潔玉對我說。這些無心的、甚至是贊揚(yáng)的話,卻讓自己聽了覺得不對勁?!懊髅鞔蠹叶际且粯拥陌 !?/p> 的確,我們需要不厭其煩告訴機(jī)器的,或許也需要不厭其煩地告訴我們自己。 (編輯:Ent) 參考文獻(xiàn):
|
|