人工智能系統(tǒng)中存在著偏見,但是有偏見的算法系統(tǒng)并不是一個(gè)新現(xiàn)象。隨著包括司法和健康等領(lǐng)域在內(nèi)的各種組織都在采用人工智能技術(shù),人們開始關(guān)注對基于人工智能的決策缺乏問責(zé)制和偏見。從人工智能研究人員和軟件工程師到產(chǎn)品領(lǐng)導(dǎo)者和消費(fèi)者,各種各樣的利益相關(guān)者都參與到人工智能流水線中。在人工智能、數(shù)據(jù)集以及政策和權(quán)利領(lǐng)域的必要專業(yè)知識,可以共同揭示偏見,但是,這些利益相關(guān)者之間并不是統(tǒng)一可用的。因此,人工智能系統(tǒng)中的偏見會在不明顯的情況下復(fù)合。 例如,機(jī)器學(xué)習(xí)開發(fā)人員,他們被要求: 對數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,從幾個(gè)可用的模型中選擇正確的模型,調(diào)整參數(shù),調(diào)整模型體系結(jié)構(gòu)以適應(yīng)應(yīng)用程序的需求。假設(shè)一個(gè)機(jī)器學(xué)習(xí)開發(fā)者被委托開發(fā)一個(gè)人工智能模型來預(yù)測哪些貸款會違約。由于沒有意識到訓(xùn)練數(shù)據(jù)中的偏差,工程師可能會無意中只使用驗(yàn)證的準(zhǔn)確性來訓(xùn)練模型。假設(shè)培訓(xùn)數(shù)據(jù)中包含了太多違約的年輕人。在這種情況下,該模型很可能對年輕人在應(yīng)用于測試數(shù)據(jù)時(shí)的違約行為做出類似的預(yù)測。因此,機(jī)器學(xué)習(xí)的開發(fā)人員有必要了解可能潛入人工智能流水線的各種偏差以及導(dǎo)致的偏見。 在人工智能系統(tǒng)中定義、檢測、測量和減少偏見并不是一件容易的事情,而且是一個(gè)熱門的研究領(lǐng)域。各國政府、非營利組織和各行業(yè)都在做出許多努力,包括執(zhí)行法規(guī)以解決與偏見有關(guān)的問題。認(rèn)識和解決各種社會機(jī)構(gòu)中的偏見,需要經(jīng)過不斷的努力,以確保計(jì)算系統(tǒng)的設(shè)計(jì),以解決這些問題。 這里不對設(shè)計(jì)公平的人工智能算法提出建設(shè)性思考,而是在實(shí)踐方面,在數(shù)據(jù)創(chuàng)建,數(shù)據(jù)分析和評估的過程中,關(guān)注偏差與偏見的問題形成,,具體包括:
典型的人工智能流水線從數(shù)據(jù)創(chuàng)建階段開始: (1)收集數(shù)據(jù); (2)對數(shù)據(jù)進(jìn)行注釋或標(biāo)記; (3)將數(shù)據(jù)準(zhǔn)備或處理成其他管道可以使用的格式。讓我們分析在每個(gè)步驟中如何引入了不同類型的偏差。 數(shù)據(jù)集創(chuàng)建偏差在數(shù)據(jù)集的創(chuàng)建過程中,可能會出現(xiàn)特定類型的偏差。 采樣偏差通過選擇特定類型的實(shí)例而不是其他類型的數(shù)據(jù)集所產(chǎn)生的偏差稱為采樣偏差。這是最常見的數(shù)據(jù)集偏差類型之一。例如,圖像數(shù)據(jù)集更喜歡街景或自然場景。人臉識別算法可能會得到更多淺膚色人臉的照片,從而導(dǎo)致識別深膚色人臉的偏差。因此,采樣偏差可能導(dǎo)致學(xué)習(xí)算法的泛化能力變差。 測量偏差測量偏差是由于人類測量中的誤差,或者由于人們在獲取數(shù)據(jù)時(shí)的某些固有習(xí)慣而引起的。例如,考慮圖像和視頻數(shù)據(jù)集的創(chuàng)建,其中的圖像或視頻可能反映了攝影師使用的技術(shù)。一些攝影師可能傾向于以類似的方式拍攝物體; 因此,數(shù)據(jù)集可能只包含特定角度的物體視圖。這種類型的測量偏差稱為捕獲偏差。 測量偏差的另一個(gè)來源可能是用于捕獲數(shù)據(jù)集的設(shè)備誤差。例如,用于捕捉圖像的相機(jī)可能存在缺陷,導(dǎo)致圖像質(zhì)量差,從而導(dǎo)致有偏見的結(jié)果。這些類型的偏見又被廣泛地歸類為設(shè)備偏見。 當(dāng)在創(chuàng)建數(shù)據(jù)集時(shí)使用代理而不是真實(shí)值時(shí),可能會出現(xiàn)第三種測量偏差。例如,把醫(yī)生和用藥用來作為醫(yī)療條件等的指標(biāo)。 標(biāo)簽偏差標(biāo)簽偏差與標(biāo)簽過程中的不一致性有關(guān)。不同的標(biāo)注者有著不同的樣式和偏好,這些都反映在創(chuàng)建的標(biāo)簽中。當(dāng)不同的標(biāo)注者為同一類型的對象分配不同的標(biāo)簽時(shí),標(biāo)簽偏見的一個(gè)常見例子就出現(xiàn)了。 當(dāng)評價(jià)者的主觀偏見影響標(biāo)簽時(shí),另一種類型的標(biāo)簽偏見也會發(fā)生。例如,在詮釋文本中所體驗(yàn)到的情感任務(wù)中,標(biāo)注者的主觀偏好,如他們的文化、信仰和內(nèi)省能力,可能會使標(biāo)簽產(chǎn)生偏見。確認(rèn)偏見,即人類傾向于搜索、解釋、關(guān)注和記憶信息以確認(rèn)自己的先入之見,與這種類型的標(biāo)簽偏見密切相關(guān)。因此,標(biāo)簽可能是根據(jù)先前的信念而不是客觀的評估來分配的。 第三種類型的標(biāo)簽偏見可能產(chǎn)生于峰終效應(yīng)。這是一種與記憶相關(guān)的認(rèn)知偏見,人們在判斷一段經(jīng)歷時(shí),主要基于他們在經(jīng)歷的頂峰(即最激烈的時(shí)刻)和結(jié)束時(shí)的感受,而不是基于這段經(jīng)歷每一時(shí)刻的總和或平均值。例如,在分配標(biāo)簽時(shí),一些標(biāo)準(zhǔn)者可能更重視對話的最后一部分,而不是整個(gè)會話。 否定集偏差否定集偏差定義為由于沒有足夠的代表“世界其他地方”的樣本而引入數(shù)據(jù)集的結(jié)果。數(shù)據(jù)集定義一個(gè)現(xiàn)象(例如,對象,場景,事件)不僅僅是根據(jù)它是什么(正面的實(shí)例) ,還根據(jù)它不是什么(負(fù)面的實(shí)例)。因此,分類器可能在檢測負(fù)實(shí)例方面表現(xiàn)不佳。 問題定義產(chǎn)生的偏差偏見還會根據(jù)問題的定義而產(chǎn)生。假設(shè)一家銀行想使用人工智能來預(yù)測客戶的信用可靠性。為了做到這一點(diǎn),必須以一種可以“預(yù)測或估計(jì)”的方式來定義信用可靠性這個(gè)問題,可以根據(jù)公司的需要來制定,比如說,最大化利潤率或最大化得到償還的貸款數(shù)量。然而,這些決定是出于各種商業(yè)原因,而不是公平或歧視。 信用可靠性例子也可以被認(rèn)為是一種框架效應(yīng)偏差。基于問題是如何表述的以及信息是如何呈現(xiàn)的,所得到的結(jié)果可能是不同的,甚至可能是有偏見的。因此,基于問題及其成功度量的定義方式,可能會產(chǎn)生偏差。 與算法/數(shù)據(jù)分析有關(guān)的偏差在算法或數(shù)據(jù)分析過程中可能會出現(xiàn)幾種類型的偏差。 樣本選擇偏差樣本選擇偏差是通過選擇個(gè)體、群體或數(shù)據(jù)進(jìn)行分析而引起的,這種方式使得樣本不能代表要分析的總體。特別地,樣本選擇偏差是在數(shù)據(jù)分析過程中由于對數(shù)據(jù)集中的某些變量(例如,特定的膚色、性別等)進(jìn)行調(diào)節(jié)而產(chǎn)生的,這反過來又會產(chǎn)生虛假的相關(guān)性。例如,在分析母親身份對工資的影響時(shí),如果僅限于已經(jīng)就業(yè)的婦女,那么由于條件作用在就業(yè)婦女身上,測量的效果就會有偏差。常見的樣本選擇偏差類型包括伯克森悖論和樣本截?cái)唷?/p> 混雜偏差在人工智能模型中,如果算法沒有考慮數(shù)據(jù)中的所有信息,或者沒有考慮特征和目標(biāo)輸出之間的關(guān)聯(lián),從而學(xué)習(xí)了錯誤的關(guān)系,就會產(chǎn)生偏差?;祀s偏差源于影響輸入和輸出的常見原因。一種特殊類型的混雜偏差是省略變量,它發(fā)生在一些相關(guān)的特征沒有包含在分析中。這也與模型欠擬合問題有關(guān)。 另一種類型的混雜偏見是代理變量。即使決策時(shí)不考慮敏感變量,分析中使用的某些其他變量也可以作為這些敏感變量的“代理”。例如,郵政編碼可能表示民族,因?yàn)槟硞€(gè)民族的人可能主要居住在某個(gè)地區(qū)。這種偏見通常也被稱為間接偏見或間接歧視。 與設(shè)計(jì)有關(guān)的偏查有時(shí),由于算法的限制或系統(tǒng)的其他限制(如計(jì)算能力) ,也會出現(xiàn)偏差。在這個(gè)類別中一個(gè)值得注意的是算法偏差,它可以被定義為僅由算法誘導(dǎo)或添加的偏差。依賴于隨機(jī)性來公平分配結(jié)果的軟件并不是真正的隨機(jī),例如,通過將所選內(nèi)容向列表末尾或開頭的選項(xiàng)傾斜,結(jié)果可能會有偏差。 另一種與設(shè)計(jì)相關(guān)的偏差是排名偏差。例如,搜索引擎顯示每個(gè)屏幕三個(gè)結(jié)果,可以理解為前三個(gè)結(jié)果的特權(quán)稍多于后三個(gè)。排名偏差也與表示偏差密切相關(guān),這種偏差源于這樣一個(gè)事實(shí),即你只能收到呈現(xiàn)給用戶的內(nèi)容反饋。即使在那些已經(jīng)顯示的內(nèi)容中,收到用戶反饋的可能性也會受到該內(nèi)容顯示位置的影響。 與評價(jià)/驗(yàn)證相關(guān)的偏差有幾種類型的偏差源于人類評價(jià)者的固有偏差,以及在選擇這些評價(jià)者時(shí)的偏差。 人類評估偏差通常,人工評估者被用來驗(yàn)證人工智能模型的性能。諸如確認(rèn)偏差、峰終效應(yīng)和先驗(yàn)信念(如文化)等現(xiàn)象會在評估中產(chǎn)生偏差。人類評估者也會受到他們能回憶多少信息的限制,這可能會導(dǎo)致召回偏差。 樣本處理偏差例如,在推薦系統(tǒng)中,一些特定的觀眾(例如,那些說某種語言的人)可能會看到一則廣告,而另一些則不會。因此,觀察到的影響將不能代表對一般人群的真正影響。在選擇性地對一些人群進(jìn)行某種處理的過程中引入的偏差稱為樣本處理偏差。 驗(yàn)證和測試的數(shù)據(jù)偏差一般而言,與數(shù)據(jù)集創(chuàng)建階段有關(guān)的偏差也可能出現(xiàn)在模型評估階段。此外,評估偏差可能來自于選擇不適當(dāng)?shù)幕鶞?zhǔn)/數(shù)據(jù)集進(jìn)行測試。 盡管在人工智能領(lǐng)域做了大量的研究工作來應(yīng)對與偏見相關(guān)的挑戰(zhàn),但是一些差距阻礙了進(jìn)步。 研究與實(shí)踐之間的差距已經(jīng)提出了解決數(shù)據(jù)集偏見問題的方法,新的數(shù)據(jù)集也在強(qiáng)調(diào)保持多樣性。例如,臉部多樣性數(shù)據(jù)集包括近100萬張從知識共享數(shù)據(jù)集中提取的人臉圖像,這些圖像是專門為了實(shí)現(xiàn)膚色、臉部結(jié)構(gòu)、年齡和性別之間的統(tǒng)計(jì)平等而組合起來的。 “機(jī)器學(xué)習(xí)中的公平性”是一個(gè)活躍的研究領(lǐng)域。還有一些開放源碼工具,如 IBM 的 AI Fairness 3605,有助于檢測和減少不必要的算法偏差。盡管做出了這些努力,但仍然存在明顯的差距。 為了減少人工智能系統(tǒng)中潛在的偏見,已經(jīng)提出了一些實(shí)踐指南。例如,建議使用具有詳細(xì)文檔的已發(fā)布模型,并鼓勵透明度,需要創(chuàng)建特定于領(lǐng)域的教育資源、指標(biāo)、流程和工具。 對機(jī)器學(xué)習(xí)開發(fā)者的建議雖然不可能消除所有的偏見來源,但是采取某些預(yù)防措施,可以減少一些偏見問題。以下建議可以幫助機(jī)器學(xué)習(xí)開發(fā)者識別潛在的偏見來源,并幫助避免不必要的偏見引入:
小結(jié)從數(shù)據(jù)集的創(chuàng)建到問題的形成,從數(shù)據(jù)分析到結(jié)果的評估,人工智能流水線中可能出現(xiàn)各種偏差。一些經(jīng)驗(yàn)準(zhǔn)則,可以幫助機(jī)器學(xué)習(xí)開發(fā)人員識別潛在的偏見來源,以及避免引入不必要的偏見。 |
|