【原】AI系統(tǒng)中的偏差與偏見

DuerOS布道師 2021-07-18

展開全文

人工智能系統(tǒng)中存在著偏見，但是有偏見的算法系統(tǒng)并不是一個(gè)新現(xiàn)象。隨著包括司法和健康等領(lǐng)域在內(nèi)的各種組織都在采用人工智能技術(shù)，人們開始關(guān)注對基于人工智能的決策缺乏問責(zé)制和偏見。從人工智能研究人員和軟件工程師到產(chǎn)品領(lǐng)導(dǎo)者和消費(fèi)者，各種各樣的利益相關(guān)者都參與到人工智能流水線中。在人工智能、數(shù)據(jù)集以及政策和權(quán)利領(lǐng)域的必要專業(yè)知識，可以共同揭示偏見，但是，這些利益相關(guān)者之間并不是統(tǒng)一可用的。因此，人工智能系統(tǒng)中的偏見會在不明顯的情況下復(fù)合。

例如，機(jī)器學(xué)習(xí)開發(fā)人員，他們被要求: 對數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理，從幾個(gè)可用的模型中選擇正確的模型，調(diào)整參數(shù)，調(diào)整模型體系結(jié)構(gòu)以適應(yīng)應(yīng)用程序的需求。假設(shè)一個(gè)機(jī)器學(xué)習(xí)開發(fā)者被委托開發(fā)一個(gè)人工智能模型來預(yù)測哪些貸款會違約。由于沒有意識到訓(xùn)練數(shù)據(jù)中的偏差，工程師可能會無意中只使用驗(yàn)證的準(zhǔn)確性來訓(xùn)練模型。假設(shè)培訓(xùn)數(shù)據(jù)中包含了太多違約的年輕人。在這種情況下，該模型很可能對年輕人在應(yīng)用于測試數(shù)據(jù)時(shí)的違約行為做出類似的預(yù)測。因此，機(jī)器學(xué)習(xí)的開發(fā)人員有必要了解可能潛入人工智能流水線的各種偏差以及導(dǎo)致的偏見。

在人工智能系統(tǒng)中定義、檢測、測量和減少偏見并不是一件容易的事情，而且是一個(gè)熱門的研究領(lǐng)域。各國政府、非營利組織和各行業(yè)都在做出許多努力，包括執(zhí)行法規(guī)以解決與偏見有關(guān)的問題。認(rèn)識和解決各種社會機(jī)構(gòu)中的偏見，需要經(jīng)過不斷的努力，以確保計(jì)算系統(tǒng)的設(shè)計(jì)，以解決這些問題。

這里不對設(shè)計(jì)公平的人工智能算法提出建設(shè)性思考，而是在實(shí)踐方面，在數(shù)據(jù)創(chuàng)建，數(shù)據(jù)分析和評估的過程中，關(guān)注偏差與偏見的問題形成，，具體包括:

人工智能流水線中的偏差分類。提供了各種類型偏差的結(jié)構(gòu)組織，錨定在從數(shù)據(jù)創(chuàng)建和問題制定到數(shù)據(jù)準(zhǔn)備與分析的各個(gè)階段。
面向研究與實(shí)踐之間差距的建設(shè)性思路。分析在現(xiàn)實(shí)世界中實(shí)施研究的相關(guān)挑戰(zhàn)，并列出了填補(bǔ)這一空白的建議，希望可以幫助機(jī)器學(xué)習(xí)的開發(fā)者測試各種各樣的偏差。

典型的人工智能流水線從數(shù)據(jù)創(chuàng)建階段開始: (1)收集數(shù)據(jù); (2)對數(shù)據(jù)進(jìn)行注釋或標(biāo)記; (3)將數(shù)據(jù)準(zhǔn)備或處理成其他管道可以使用的格式。讓我們分析在每個(gè)步驟中如何引入了不同類型的偏差。

數(shù)據(jù)集創(chuàng)建偏差

在數(shù)據(jù)集的創(chuàng)建過程中，可能會出現(xiàn)特定類型的偏差。

采樣偏差

通過選擇特定類型的實(shí)例而不是其他類型的數(shù)據(jù)集所產(chǎn)生的偏差稱為采樣偏差。這是最常見的數(shù)據(jù)集偏差類型之一。例如，圖像數(shù)據(jù)集更喜歡街景或自然場景。人臉識別算法可能會得到更多淺膚色人臉的照片，從而導(dǎo)致識別深膚色人臉的偏差。因此，采樣偏差可能導(dǎo)致學(xué)習(xí)算法的泛化能力變差。

測量偏差

測量偏差是由于人類測量中的誤差，或者由于人們在獲取數(shù)據(jù)時(shí)的某些固有習(xí)慣而引起的。例如，考慮圖像和視頻數(shù)據(jù)集的創(chuàng)建，其中的圖像或視頻可能反映了攝影師使用的技術(shù)。一些攝影師可能傾向于以類似的方式拍攝物體; 因此，數(shù)據(jù)集可能只包含特定角度的物體視圖。這種類型的測量偏差稱為捕獲偏差。

測量偏差的另一個(gè)來源可能是用于捕獲數(shù)據(jù)集的設(shè)備誤差。例如，用于捕捉圖像的相機(jī)可能存在缺陷，導(dǎo)致圖像質(zhì)量差，從而導(dǎo)致有偏見的結(jié)果。這些類型的偏見又被廣泛地歸類為設(shè)備偏見。

當(dāng)在創(chuàng)建數(shù)據(jù)集時(shí)使用代理而不是真實(shí)值時(shí)，可能會出現(xiàn)第三種測量偏差。例如，把醫(yī)生和用藥用來作為醫(yī)療條件等的指標(biāo)。

標(biāo)簽偏差

標(biāo)簽偏差與標(biāo)簽過程中的不一致性有關(guān)。不同的標(biāo)注者有著不同的樣式和偏好，這些都反映在創(chuàng)建的標(biāo)簽中。當(dāng)不同的標(biāo)注者為同一類型的對象分配不同的標(biāo)簽時(shí)，標(biāo)簽偏見的一個(gè)常見例子就出現(xiàn)了。

當(dāng)評價(jià)者的主觀偏見影響標(biāo)簽時(shí)，另一種類型的標(biāo)簽偏見也會發(fā)生。例如，在詮釋文本中所體驗(yàn)到的情感任務(wù)中，標(biāo)注者的主觀偏好，如他們的文化、信仰和內(nèi)省能力，可能會使標(biāo)簽產(chǎn)生偏見。確認(rèn)偏見，即人類傾向于搜索、解釋、關(guān)注和記憶信息以確認(rèn)自己的先入之見，與這種類型的標(biāo)簽偏見密切相關(guān)。因此，標(biāo)簽可能是根據(jù)先前的信念而不是客觀的評估來分配的。

第三種類型的標(biāo)簽偏見可能產(chǎn)生于峰終效應(yīng)。這是一種與記憶相關(guān)的認(rèn)知偏見，人們在判斷一段經(jīng)歷時(shí)，主要基于他們在經(jīng)歷的頂峰(即最激烈的時(shí)刻)和結(jié)束時(shí)的感受，而不是基于這段經(jīng)歷每一時(shí)刻的總和或平均值。例如，在分配標(biāo)簽時(shí)，一些標(biāo)準(zhǔn)者可能更重視對話的最后一部分，而不是整個(gè)會話。

否定集偏差

否定集偏差定義為由于沒有足夠的代表“世界其他地方”的樣本而引入數(shù)據(jù)集的結(jié)果。數(shù)據(jù)集定義一個(gè)現(xiàn)象(例如，對象，場景，事件)不僅僅是根據(jù)它是什么(正面的實(shí)例) ，還根據(jù)它不是什么(負(fù)面的實(shí)例)。因此，分類器可能在檢測負(fù)實(shí)例方面表現(xiàn)不佳。

問題定義產(chǎn)生的偏差

偏見還會根據(jù)問題的定義而產(chǎn)生。假設(shè)一家銀行想使用人工智能來預(yù)測客戶的信用可靠性。為了做到這一點(diǎn)，必須以一種可以“預(yù)測或估計(jì)”的方式來定義信用可靠性這個(gè)問題，可以根據(jù)公司的需要來制定，比如說，最大化利潤率或最大化得到償還的貸款數(shù)量。然而，這些決定是出于各種商業(yè)原因，而不是公平或歧視。

信用可靠性例子也可以被認(rèn)為是一種框架效應(yīng)偏差。基于問題是如何表述的以及信息是如何呈現(xiàn)的，所得到的結(jié)果可能是不同的，甚至可能是有偏見的。因此，基于問題及其成功度量的定義方式，可能會產(chǎn)生偏差。

與算法/數(shù)據(jù)分析有關(guān)的偏差

在算法或數(shù)據(jù)分析過程中可能會出現(xiàn)幾種類型的偏差。

樣本選擇偏差

樣本選擇偏差是通過選擇個(gè)體、群體或數(shù)據(jù)進(jìn)行分析而引起的，這種方式使得樣本不能代表要分析的總體。特別地，樣本選擇偏差是在數(shù)據(jù)分析過程中由于對數(shù)據(jù)集中的某些變量(例如，特定的膚色、性別等)進(jìn)行調(diào)節(jié)而產(chǎn)生的，這反過來又會產(chǎn)生虛假的相關(guān)性。例如，在分析母親身份對工資的影響時(shí)，如果僅限于已經(jīng)就業(yè)的婦女，那么由于條件作用在就業(yè)婦女身上，測量的效果就會有偏差。常見的樣本選擇偏差類型包括伯克森悖論和樣本截?cái)唷?/p>

混雜偏差

在人工智能模型中，如果算法沒有考慮數(shù)據(jù)中的所有信息，或者沒有考慮特征和目標(biāo)輸出之間的關(guān)聯(lián)，從而學(xué)習(xí)了錯誤的關(guān)系，就會產(chǎn)生偏差?；祀s偏差源于影響輸入和輸出的常見原因。一種特殊類型的混雜偏差是省略變量，它發(fā)生在一些相關(guān)的特征沒有包含在分析中。這也與模型欠擬合問題有關(guān)。

另一種類型的混雜偏見是代理變量。即使決策時(shí)不考慮敏感變量，分析中使用的某些其他變量也可以作為這些敏感變量的“代理”。例如，郵政編碼可能表示民族，因?yàn)槟硞€(gè)民族的人可能主要居住在某個(gè)地區(qū)。這種偏見通常也被稱為間接偏見或間接歧視。

與設(shè)計(jì)有關(guān)的偏查

有時(shí)，由于算法的限制或系統(tǒng)的其他限制(如計(jì)算能力) ，也會出現(xiàn)偏差。在這個(gè)類別中一個(gè)值得注意的是算法偏差，它可以被定義為僅由算法誘導(dǎo)或添加的偏差。依賴于隨機(jī)性來公平分配結(jié)果的軟件并不是真正的隨機(jī)，例如，通過將所選內(nèi)容向列表末尾或開頭的選項(xiàng)傾斜，結(jié)果可能會有偏差。

另一種與設(shè)計(jì)相關(guān)的偏差是排名偏差。例如，搜索引擎顯示每個(gè)屏幕三個(gè)結(jié)果，可以理解為前三個(gè)結(jié)果的特權(quán)稍多于后三個(gè)。排名偏差也與表示偏差密切相關(guān)，這種偏差源于這樣一個(gè)事實(shí)，即你只能收到呈現(xiàn)給用戶的內(nèi)容反饋。即使在那些已經(jīng)顯示的內(nèi)容中，收到用戶反饋的可能性也會受到該內(nèi)容顯示位置的影響。

與評價(jià)/驗(yàn)證相關(guān)的偏差

有幾種類型的偏差源于人類評價(jià)者的固有偏差，以及在選擇這些評價(jià)者時(shí)的偏差。

人類評估偏差

通常，人工評估者被用來驗(yàn)證人工智能模型的性能。諸如確認(rèn)偏差、峰終效應(yīng)和先驗(yàn)信念(如文化)等現(xiàn)象會在評估中產(chǎn)生偏差。人類評估者也會受到他們能回憶多少信息的限制，這可能會導(dǎo)致召回偏差。

樣本處理偏差

例如，在推薦系統(tǒng)中，一些特定的觀眾(例如，那些說某種語言的人)可能會看到一則廣告，而另一些則不會。因此，觀察到的影響將不能代表對一般人群的真正影響。在選擇性地對一些人群進(jìn)行某種處理的過程中引入的偏差稱為樣本處理偏差。

驗(yàn)證和測試的數(shù)據(jù)偏差

一般而言，與數(shù)據(jù)集創(chuàng)建階段有關(guān)的偏差也可能出現(xiàn)在模型評估階段。此外，評估偏差可能來自于選擇不適當(dāng)?shù)幕鶞?zhǔn)/數(shù)據(jù)集進(jìn)行測試。

盡管在人工智能領(lǐng)域做了大量的研究工作來應(yīng)對與偏見相關(guān)的挑戰(zhàn)，但是一些差距阻礙了進(jìn)步。

研究與實(shí)踐之間的差距

已經(jīng)提出了解決數(shù)據(jù)集偏見問題的方法，新的數(shù)據(jù)集也在強(qiáng)調(diào)保持多樣性。例如，臉部多樣性數(shù)據(jù)集包括近100萬張從知識共享數(shù)據(jù)集中提取的人臉圖像，這些圖像是專門為了實(shí)現(xiàn)膚色、臉部結(jié)構(gòu)、年齡和性別之間的統(tǒng)計(jì)平等而組合起來的。

“機(jī)器學(xué)習(xí)中的公平性”是一個(gè)活躍的研究領(lǐng)域。還有一些開放源碼工具，如 IBM 的 AI Fairness 3605，有助于檢測和減少不必要的算法偏差。盡管做出了這些努力，但仍然存在明顯的差距。

為了減少人工智能系統(tǒng)中潛在的偏見，已經(jīng)提出了一些實(shí)踐指南。例如，建議使用具有詳細(xì)文檔的已發(fā)布模型，并鼓勵透明度，需要創(chuàng)建特定于領(lǐng)域的教育資源、指標(biāo)、流程和工具。

對機(jī)器學(xué)習(xí)開發(fā)者的建議

雖然不可能消除所有的偏見來源，但是采取某些預(yù)防措施，可以減少一些偏見問題。以下建議可以幫助機(jī)器學(xué)習(xí)開發(fā)者識別潛在的偏見來源，并幫助避免不必要的偏見引入:

納入特定領(lǐng)域的知識對于界定和發(fā)現(xiàn)偏見至關(guān)重要。理解數(shù)據(jù)集中各種特征之間的結(jié)構(gòu)依賴關(guān)系非常重要。通常，繪制一個(gè)結(jié)構(gòu)圖來說明感興趣的各種特性及其相互依賴關(guān)系是有幫助的。這可以幫助我們找到偏見的來源。
同樣重要的是，要根據(jù)應(yīng)用程序了解哪些數(shù)據(jù)特征被認(rèn)為是敏感的。例如，年齡可能是決定誰能得到貸款的一個(gè)敏感特征，但不一定決定誰能得到醫(yī)療服務(wù)。此外，可能有一些代理特征，雖然不被認(rèn)為是敏感特征，但仍可能編碼敏感信息，從而使預(yù)測出現(xiàn)偏差。
用于分析的數(shù)據(jù)集應(yīng)盡可能代表真相。因此，在構(gòu)建具有代表性的數(shù)據(jù)集時(shí)必須小心謹(jǐn)慎。
必須明確適當(dāng)?shù)臉?biāo)準(zhǔn)，以便為數(shù)據(jù)作標(biāo)注。規(guī)則的定義必須盡可能使標(biāo)注者獲得一致的標(biāo)簽。
確定所有可能與目標(biāo)特征有關(guān)的特征是重要的。省略與目標(biāo)特性有依賴關(guān)系的變量會導(dǎo)致有偏差的估計(jì)。
與輸入和輸出相關(guān)的特征可能導(dǎo)致有偏差的評估。在這種情況下，重要的是通過適當(dāng)?shù)臄?shù)據(jù)調(diào)節(jié)和選擇輸入的隨機(jī)化策略來消除這些偏差的來源。
將數(shù)據(jù)分析限制在數(shù)據(jù)集的某些部分，可能會導(dǎo)致不必要的選擇偏差。因此，在選擇用于分析的數(shù)據(jù)子集時(shí)，必須注意不要引入樣本選擇偏差。
在驗(yàn)證 a/b 測試等模型的性能時(shí)，必須注意防止引入樣本處理偏差。換言之，在測試模型的性能時(shí)，測試條件不應(yīng)局限于總體的某個(gè)子集。

小結(jié)

從數(shù)據(jù)集的創(chuàng)建到問題的形成，從數(shù)據(jù)分析到結(jié)果的評估，人工智能流水線中可能出現(xiàn)各種偏差。一些經(jīng)驗(yàn)準(zhǔn)則，可以幫助機(jī)器學(xué)習(xí)開發(fā)人員識別潛在的偏見來源，以及避免引入不必要的偏見。