評(píng)估：識(shí)別和測(cè)量AI風(fēng)險(xiǎn) | 遠(yuǎn)望譯品

小飛俠cawdbof0 2023-08-27 發(fā)布于北京

展開(kāi)全文

評(píng)估：識(shí)別和測(cè)量AI風(fēng)險(xiǎn)

本文摘自《推進(jìn)人工智能（AI）問(wèn)責(zé)制》| 遠(yuǎn)望譯品

一旦定義了AI系統(tǒng)的范圍、情境、參與者和評(píng)估標(biāo)準(zhǔn)，就有必要評(píng)估其可能帶來(lái)的風(fēng)險(xiǎn)，這些風(fēng)險(xiǎn)可能導(dǎo)致AI系統(tǒng)不可信。這個(gè)流程包括識(shí)別或發(fā)現(xiàn)風(fēng)險(xiǎn)、分析可能導(dǎo)致這些風(fēng)險(xiǎn)發(fā)生的機(jī)制，并評(píng)估其發(fā)生的可能性和嚴(yán)重程度。

本節(jié)概括了評(píng)估可信AI中的概念、過(guò)程和措施，其中一些內(nèi)容在不同程度上與多項(xiàng)原則有關(guān)聯(lián)。例如，因?yàn)椤皽?zhǔn)確性”可能影響生產(chǎn)力，進(jìn)而與“造福人類(lèi)和地球”原則相關(guān)；作為系統(tǒng)層面評(píng)估標(biāo)準(zhǔn)，也可能與“魯棒性和安全性”相關(guān)。為了避免重復(fù)，這種多方面的概念和措施將在其最相關(guān)的原則下出現(xiàn)。

1 造福人類(lèi)和地球

引導(dǎo)AI的發(fā)展和使用，使其造福人民和地球至關(guān)重要。可信AI可以促進(jìn)包容性增長(zhǎng)、可持續(xù)發(fā)展、社會(huì)福祉和全球發(fā)展目標(biāo)的實(shí)現(xiàn)。在教育、健康、交通、農(nóng)業(yè)、環(huán)境和可持續(xù)城市等領(lǐng)域，AI可以用于社會(huì)福祉，并為實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)（SDGs）做出貢獻(xiàn)（OECD，2022）。

在整個(gè)AI系統(tǒng)的生命周期中，AI參與者和利益相關(guān)者可以、并且應(yīng)該促進(jìn)具有適當(dāng)安全保障的AI的發(fā)展和部署，以實(shí)現(xiàn)有益的結(jié)果?？鐚W(xué)科、多利益相關(guān)者的合作和社會(huì)對(duì)話有助于對(duì)這些有益結(jié)果進(jìn)行定義、有助于以最佳方式實(shí)現(xiàn)這些有益結(jié)果（OECD，2022）。

確保AI系統(tǒng)造福人類(lèi)和地球意味著：評(píng)估和改善其性能、準(zhǔn)確性及可持續(xù)性，還應(yīng)包括對(duì)經(jīng)濟(jì)包容性和社會(huì)福祉的下游風(fēng)險(xiǎn)進(jìn)行評(píng)估。相關(guān)概念包括：

l準(zhǔn)確性：指的是AI系統(tǒng)執(zhí)行其開(kāi)發(fā)任務(wù)的能力，例如將信息歸類(lèi)到正確類(lèi)別，或進(jìn)行驗(yàn)證后的預(yù)測(cè)和推薦?？梢酝ㄟ^(guò)錯(cuò)誤率或類(lèi)似于'預(yù)期的泛化性能'（Arlot和Celisse，2010）指標(biāo)來(lái)量化系統(tǒng)的準(zhǔn)確性。提高系統(tǒng)的準(zhǔn)確性和性能可以提高生產(chǎn)力、促進(jìn)經(jīng)濟(jì)增長(zhǎng)，從而可能增進(jìn)福祉（例如通過(guò)改善與健康相關(guān)的因素）并降低財(cái)務(wù)和環(huán)境成本。

l可持續(xù)性：近年來(lái)，用于訓(xùn)練AI模型的計(jì)算能力呈指數(shù)增長(zhǎng)，影響到數(shù)據(jù)中心的工作負(fù)荷和能源消耗。一方面，數(shù)據(jù)科學(xué)和AI芯片制造的進(jìn)步以及新型的計(jì)算架構(gòu)使得更高效的AI模型成為可能，這些模型可以利用較小的訓(xùn)練數(shù)據(jù)集并進(jìn)行較少的訓(xùn)練運(yùn)行，使得計(jì)算資源得到更加可持續(xù)的使用。同時(shí)，算力也受益于數(shù)據(jù)中心清潔能源供電的增長(zhǎng)（Strier、Clark和Khareghani，2022）

另一方面，就通用AI（包括大型語(yǔ)言模型(LLMs)）和特定目的AI之間的權(quán)衡仍在進(jìn)行中。LLMs需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算能力，并且比特定目的AI消耗更多能源。因此，應(yīng)該權(quán)衡好高能耗和AI系統(tǒng)所帶來(lái)益處之間的關(guān)系（Bender等，2021）。

l社會(huì)福祉和經(jīng)濟(jì)包容性：在適當(dāng)?shù)那闆r下，AI參與者應(yīng)該評(píng)估其AI系統(tǒng)可能對(duì)社會(huì)福祉和經(jīng)濟(jì)包容性產(chǎn)生的下游影響，包括對(duì)弱勢(shì)人群（尤其是兒童和弱勢(shì)群體）的影響和負(fù)外部性，以及對(duì)就業(yè)質(zhì)量和自動(dòng)化潛力的影響。

2 以人為本的價(jià)值觀和公平性

AI應(yīng)該基于以人為本的價(jià)值觀進(jìn)行開(kāi)發(fā)，包括人權(quán)、基本自由、平等、公平、法治、社會(huì)正義、數(shù)據(jù)保護(hù)和隱私、消費(fèi)者權(quán)益和商業(yè)公平 (OECD，2022）。

一些AI系統(tǒng)的使用對(duì)人權(quán)產(chǎn)生影響，包括人權(quán)（如《世界人權(quán)宣言》中所定義的）和以人為本的價(jià)值觀可能會(huì)被故意或者意外侵犯的風(fēng)險(xiǎn)。因此，在AI系統(tǒng)中推廣“權(quán)利和價(jià)值觀的一致性”（即設(shè)計(jì)中采取適當(dāng)?shù)谋Ｕ洗胧┓浅Ｖ匾?，包括適應(yīng)環(huán)境的人類(lèi)干預(yù)、監(jiān)督和救濟(jì)的能力。這種方法可以確保AI系統(tǒng)在運(yùn)行過(guò)程中保護(hù)和促進(jìn)人權(quán)，并與以人為本的價(jià)值觀保持一致。遵循民主價(jià)值觀可以增強(qiáng)公眾對(duì)AI的信任，并支持其在減少歧視或其他不公平以及不平等方面的應(yīng)用 (OECD，2022）。

人權(quán)影響評(píng)估（HRIAs）、人權(quán)盡職調(diào)查、人類(lèi)決策以及人類(lèi)參與AI過(guò)程（即“人在回環(huán)”方法）、道德行為準(zhǔn)則、質(zhì)量標(biāo)簽和認(rèn)證等措施在促進(jìn)以人為中心的價(jià)值觀和公平性方面起到了作用（OECD，2022）。對(duì)這些措施的三類(lèi)AI風(fēng)險(xiǎn)包括：（1）偏見(jiàn)和歧視風(fēng)險(xiǎn)；（2）隱私和數(shù)據(jù)治理風(fēng)險(xiǎn)；以及（3）對(duì)其他人權(quán)和民主價(jià)值的風(fēng)險(xiǎn)。

偏見(jiàn)與歧視

AI系統(tǒng)可能會(huì)持續(xù)傳遞偏見(jiàn)、排斥，并對(duì)弱勢(shì)和少數(shù)群體產(chǎn)生不平等的影響，例如少數(shù)族裔、兒童、老年人以及教育水平較低或技能較低的人群。在某些訓(xùn)練數(shù)據(jù)集中，女性的邊緣化也可能導(dǎo)致輸出偏倚的結(jié)果。由于缺乏低收入和中等收入國(guó)家的特定數(shù)據(jù)來(lái)訓(xùn)練AI系統(tǒng)，且因?yàn)檫@些國(guó)家在整體AI產(chǎn)業(yè)中的邊緣化，不平等影響帶來(lái)的風(fēng)險(xiǎn)尤為顯著。公平意味著AI應(yīng)當(dāng)賦予社會(huì)中的所有成員權(quán)力，并幫助減少偏見(jiàn)和排斥。在整個(gè)AI系統(tǒng)的生命周期中，發(fā)現(xiàn)偏見(jiàn)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)（見(jiàn)框3.1）。偏見(jiàn)的來(lái)源包括（IDB-OECD，2021；Barocas和Selbst，2016）：

l歷史偏見(jiàn)：訓(xùn)練數(shù)據(jù)中現(xiàn)有的模式，例如社會(huì)偏見(jiàn)。

l表征偏見(jiàn)（和有限特征）：由于缺少屬性、樣本量不足或子群體數(shù)據(jù)完全或部分缺失而導(dǎo)致的信息不完整。

l測(cè)量偏見(jiàn)：在模型中省略（或包含）應(yīng)該（或不應(yīng)該）包含的變量，包括作為受保護(hù)屬性或群體的替代指標(biāo)（例如，將社區(qū)作為種族的替代指標(biāo)）。

l方法學(xué)和評(píng)估偏見(jiàn)：在度量指標(biāo)的定義（例如，對(duì)目標(biāo)人群的錯(cuò)誤假設(shè)）、模型驗(yàn)證和校準(zhǔn)以及結(jié)果評(píng)估方面出現(xiàn)的錯(cuò)誤。

l監(jiān)控偏見(jiàn)和樣本偏差：在監(jiān)控過(guò)程中對(duì)系統(tǒng)結(jié)果解釋不恰當(dāng)，初始偏見(jiàn)隨時(shí)間累積并偏向于訓(xùn)練數(shù)據(jù)，或者數(shù)據(jù)捕捉方式臨時(shí)發(fā)生變化。

l反饋循環(huán)和流行度偏見(jiàn)：推薦算法容易受到流行度偏見(jiàn)的影響，即少數(shù)熱門(mén)項(xiàng)目會(huì)頻繁推薦給用戶(hù)。這會(huì)形成反饋循環(huán)，頻繁推薦的項(xiàng)目會(huì)得到更多的反應(yīng)，從而被更頻繁地推薦。

3.1 錯(cuò)誤、偏見(jiàn)和噪音的技術(shù)注解

系統(tǒng)誤差是模型預(yù)測(cè)值與正在估計(jì)的變量的真實(shí)值之間的差異。偏見(jiàn)是指：錯(cuò)誤在系統(tǒng)性地偏向于特定的數(shù)據(jù)子集或特定的亞群體。例如，如果某個(gè)變量的預(yù)測(cè)值在數(shù)據(jù)中的某個(gè)亞組中始終較低，例如女性在同等資質(zhì)的情況下與男性在等價(jià)職位上的薪資，那么該薪資變量存在偏見(jiàn)。相反，噪音是指錯(cuò)誤是隨機(jī)的。

來(lái)源：IDB-OECD (2021[21]）.

不同的利益相關(guān)者對(duì)公平和公正有不同的觀點(diǎn)，在作為社會(huì)技術(shù)系統(tǒng)的AI應(yīng)用中，需要超越技術(shù)專(zhuān)家的專(zhuān)業(yè)知識(shí)來(lái)診斷和減輕偏見(jiàn)（OECD，2022年）。個(gè)體公平意味著類(lèi)似的個(gè)體應(yīng)該被類(lèi)似地對(duì)待；而群體公平意味著如果將人口分為不同的群體（例如通過(guò)群體的受保護(hù)屬性分類(lèi)），那么AI系統(tǒng)的結(jié)果不應(yīng)該有所不同。

一系列重要的文獻(xiàn)領(lǐng)域致力于實(shí)施數(shù)學(xué)公平度指標(biāo)，來(lái)評(píng)估模型對(duì)亞群體的公正性（IDB-OECD，2021；Chouldechova，2017；Kleinberg、Mullainathan和Raghavan，2016；Corbett-Davies等，2017；Koshiyama等，2021）。不同的公平度指標(biāo)導(dǎo)致了對(duì)系統(tǒng)中的偏見(jiàn)的評(píng)估方式有所不同。例如：

l機(jī)會(huì)平等：是否屬于受保護(hù)群體并不影響AI系統(tǒng)的輸出。這一概念常用的數(shù)學(xué)術(shù)語(yǔ)為平均差（Bellamy等，2018年）。

l結(jié)果平等或統(tǒng)計(jì)平等：受保護(hù)群體（例如性別或種族）的每個(gè)分段必須獲得相同輸出比例。普遍接受應(yīng)用于這一概念的數(shù)學(xué)術(shù)語(yǔ)為統(tǒng)計(jì)均等差異（Bellamy等，2018年）。

l反事實(shí)公正：如果在受保護(hù)屬性的值發(fā)生變化時(shí)（例如在種族或性別發(fā)生變化時(shí)），AI系統(tǒng)的輸出保持不變，認(rèn)為該系統(tǒng)是公平的。

選擇AI公平度量標(biāo)準(zhǔn)時(shí)，應(yīng)該考慮到使用情境，并且選擇的理由應(yīng)該存檔（IDB-OECD, 2021[21]）。實(shí)際上，適用于所有問(wèn)題的單一AI公平度量標(biāo)準(zhǔn)并不存在。而且，遵守某個(gè)定義通常意味著，無(wú)法完全遵守其他定義（Chouldechova, 2017[23]）。因此，遵守給定的公平度量標(biāo)準(zhǔn)并不一定能保證AI系統(tǒng)的結(jié)果是公平的。

隱私和數(shù)據(jù)治理

除非與人權(quán)、基本價(jià)值觀和民主價(jià)值觀一致，否則AI系統(tǒng)可能會(huì)引發(fā)或加劇權(quán)力和信息獲取的不對(duì)稱(chēng)性，例如雇主和員工、企業(yè)和消費(fèi)者、政府和公民之間的不對(duì)稱(chēng)性（EU-HLEG, 2019）。

當(dāng)AI系統(tǒng)涉及知識(shí)產(chǎn)權(quán)時(shí)，必須保護(hù)系統(tǒng)模型及其參數(shù)的知識(shí)產(chǎn)權(quán)。此外，在醫(yī)療應(yīng)用和其他應(yīng)用中，訓(xùn)練數(shù)據(jù)的隱私需要得到保護(hù)。AI系統(tǒng)中的數(shù)據(jù)保護(hù)指的是防止暴露模型及其訓(xùn)練數(shù)據(jù)的（De Cristofaro, 2020[29]）。應(yīng)建立數(shù)據(jù)治理機(jī)制，以確保用于訓(xùn)練模型的數(shù)據(jù)的質(zhì)量和完整性；數(shù)據(jù)在系統(tǒng)部署環(huán)境中的相關(guān)性；數(shù)據(jù)訪問(wèn)協(xié)議；以及模型處理數(shù)據(jù)的能力，以保護(hù)隱私和敏感信息。包括：

l隱私和數(shù)據(jù)保護(hù)：AI系統(tǒng)在其生命周期內(nèi)應(yīng)尊重隱私和數(shù)據(jù)保護(hù)（OECD, 2019），包括用戶(hù)提供的信息和通過(guò)與系統(tǒng)互動(dòng)生成的用戶(hù)數(shù)據(jù)。還應(yīng)該制定數(shù)據(jù)訪問(wèn)和處理協(xié)議，明確誰(shuí)可以訪問(wèn)和刪除數(shù)據(jù)，以及在哪些情況下可以這樣做（Butterworth, 2018）。

l模型安全性：可以根據(jù)以下幾個(gè)方面來(lái)評(píng)估AI模型的安全性和隱私性：（1）惡意行為者可能擁有的訪問(wèn)級(jí)別，從“黑盒”（即對(duì)模型沒(méi)有任何了解）到“完全透明”（即對(duì)模型及其訓(xùn)練數(shù)據(jù)有完全的信息）；（2）攻擊可能發(fā)生的階段（例如實(shí)在AI訓(xùn)練期間還是推理期間）；以及（3）是否可能發(fā)生出于“好奇”被動(dòng)型攻擊或完全惡意的主動(dòng)型攻擊（De Cristofaro, 2020）。

隱私和數(shù)據(jù)治理的風(fēng)險(xiǎn)可能在數(shù)據(jù)和模型層面上產(chǎn)生，也可能在二者的交叉點(diǎn)上產(chǎn)生，同時(shí)在人類(lèi)和AI系統(tǒng)之間的交互過(guò)程中也可能產(chǎn)生。評(píng)估這些風(fēng)險(xiǎn)的方法包括：

l數(shù)據(jù)層面：數(shù)據(jù)保護(hù)影響評(píng)估是評(píng)估風(fēng)險(xiǎn)的標(biāo)準(zhǔn)程序（Bieker等，2016）。這一程序在一些法域中已被法律正式化，包括歐盟和英國(guó)（圖3.1）。評(píng)估應(yīng)考慮到數(shù)據(jù)污染的風(fēng)險(xiǎn)，即訓(xùn)練數(shù)據(jù)被惡意操控以影響模型行為（Tan和Shokri，2019）。

l模型層面：模型層面上的隱私和數(shù)據(jù)保護(hù)風(fēng)險(xiǎn)包括試圖推斷模型參數(shù)并構(gòu)建“仿冒”版本或副本的嘗試。旨在提取模型的完整副本或等效版本，或復(fù)制其某些功能的技術(shù)可以幫助AI從業(yè)者評(píng)估模型層面上的漏洞（Ateniese等，2015；Tramèr等，2016；Orekondy、Schiele和Fritz，2019）。

l數(shù)據(jù)和模型層面的交叉點(diǎn)：風(fēng)險(xiǎn)包括通過(guò)與模型的交互對(duì)人口或訓(xùn)練數(shù)據(jù)集中某些成員進(jìn)行推斷。評(píng)估漏洞程度的技術(shù)包括：統(tǒng)計(jì)披露（Dwork和Naor，2010）；模型反演（Fredrikson、Jha和Ristenpart，2015）；推斷類(lèi)別代表（Hitaj、Ateniese和Perez-Cruz，2017）；以及成員資格和屬性推斷（Shokri等，2017；Ganju等，2018；Melis等，2019）。

l人類(lèi)與AI的交互：培訓(xùn)、清單和驗(yàn)證過(guò)程可以幫助識(shí)別由開(kāi)發(fā)者或用戶(hù)的無(wú)意行為或缺乏行為引起的隱私和數(shù)據(jù)治理風(fēng)險(xiǎn)，從而影響了人類(lèi)和系統(tǒng)之間的交互。

圖3.1. 英國(guó)信息專(zhuān)員辦公室（ICO）對(duì)數(shù)據(jù)保護(hù)的定性評(píng)級(jí)

基于顏色編碼的對(duì)AI系統(tǒng)在數(shù)據(jù)層面上對(duì)隱私和數(shù)據(jù)治理的風(fēng)險(xiǎn)進(jìn)行評(píng)估

來(lái)源：ICO (2022[42]).

先進(jìn)的隱私增強(qiáng)技術(shù)（例如同態(tài)加密、安全多方計(jì)算和差分隱私）以及新型的訓(xùn)練方法（例如使用多個(gè)組織的數(shù)據(jù)進(jìn)行聯(lián)邦機(jī)器學(xué)習(xí)）可以用來(lái)保護(hù)AI系統(tǒng)并增強(qiáng)其隱私性（OECD, 2022[20]; De Cristofaro, 2020[29]）。這些減輕措施的影響根據(jù)情境和其他變量而異，需要在系統(tǒng)級(jí)別進(jìn)行測(cè)試。此外，新興的數(shù)據(jù)治理模型（如數(shù)據(jù)共享池、數(shù)據(jù)合作社和數(shù)據(jù)信托）可以幫助預(yù)防隱私風(fēng)險(xiǎn)并促進(jìn)數(shù)據(jù)治理的民主化（Micheli et al., 2020[43]）。

人權(quán)和民主價(jià)值觀

AI“可能在社會(huì)和經(jīng)濟(jì)內(nèi)部以及不同社會(huì)和經(jīng)濟(jì)之間產(chǎn)生不均等的效應(yīng)，特別涉及經(jīng)濟(jì)變動(dòng)、競(jìng)爭(zhēng)、勞工市場(chǎng)轉(zhuǎn)型、不平等以及對(duì)民主和人權(quán)、隱私和數(shù)據(jù)保護(hù)、數(shù)字安全的影響”（OECD，2019[5]）。AI既可以支持實(shí)現(xiàn)人權(quán)，也可能創(chuàng)造新的風(fēng)險(xiǎn)，使人權(quán)可能被故意或意外地侵犯。人權(quán)法律，結(jié)合其他法律和制度結(jié)構(gòu)，可以作為一種工具，幫助確保以人為本的AI（信息框 3.2）。

3.2 人權(quán)與AI

國(guó)際人權(quán)是指包括《國(guó)際人權(quán)公約》在內(nèi)的一系列國(guó)際法律，以及在過(guò)去70年里在世界各地發(fā)展起來(lái)的地區(qū)人權(quán)體系。人權(quán)設(shè)立了基于人的尊嚴(yán)、自治、平等和法治等價(jià)值觀的普遍最低標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)以及與之相關(guān)的法律機(jī)制為各國(guó)創(chuàng)造了具有法律約束力的義務(wù)，要求它們尊重、保護(hù)和履行人權(quán)。國(guó)際人權(quán)還要求那些被剝奪或侵犯權(quán)利的人能夠獲得救濟(jì)。

近期的政府間法律文書(shū)，如聯(lián)合國(guó)（UN）《企業(yè)和人權(quán)導(dǎo)則》（OHCHR，2011[44]），也涉及私人行為者在人權(quán)背景下的責(zé)任。這些文書(shū)賦予私人行為者尊重人權(quán)的責(zé)任。此外，經(jīng)濟(jì)合作與發(fā)展組織（OECD）針對(duì)跨國(guó)企業(yè)的《OECD跨國(guó)企業(yè)指南》（OECD，2011[45]）也包含了關(guān)于人權(quán)的章節(jié)。

具體的人權(quán)包括平等、非歧視、言論和結(jié)社自由、隱私以及經(jīng)濟(jì)、社會(huì)和文化權(quán)利，如教育或健康。人權(quán)還與更廣泛的倫理關(guān)切和與AI相關(guān)的其他法規(guī)領(lǐng)域重疊，如個(gè)人數(shù)據(jù)保護(hù)或產(chǎn)品安全法。然而，這些領(lǐng)域的范圍通常不同。

來(lái)源：OECD (2019）.

人權(quán)框架為發(fā)現(xiàn)和管理AI對(duì)人權(quán)的風(fēng)險(xiǎn)創(chuàng)造了義務(wù)，包括邊緣化和弱勢(shì)群體的權(quán)利。這可以通過(guò)人權(quán)盡職調(diào)查（如人權(quán)影響評(píng)估）來(lái)實(shí)現(xiàn)。人權(quán)影響評(píng)估可以識(shí)別AI系統(tǒng)生命周期中參與者未能預(yù)見(jiàn)的風(fēng)險(xiǎn)。為此，它關(guān)注的是人權(quán)的附帶影響，而不是技術(shù)或其輸出的優(yōu)化。人權(quán)影響評(píng)估或類(lèi)似的風(fēng)險(xiǎn)管理過(guò)程可以在AI系統(tǒng)的整個(gè)生命周期中通過(guò)設(shè)計(jì)來(lái)確保對(duì)人權(quán)的尊重（OECD，2019[46]）。應(yīng)在每個(gè)生命周期階段和系統(tǒng)的環(huán)境、范圍、性質(zhì)和目的發(fā)生變化時(shí)進(jìn)行定期的人權(quán)影響評(píng)估（歐洲理事會(huì)，2019[47]）。

人權(quán)影響評(píng)估（HARIA）的實(shí)例包括加拿大的算法影響評(píng)估（AIA），這是加拿大財(cái)政委員會(huì)關(guān)于自動(dòng)化決策的指令的強(qiáng)制性工具，以及荷蘭議會(huì)對(duì)任何旨在支持公共和私營(yíng)部門(mén)決策的算法強(qiáng)制實(shí)施的“人權(quán)與算法”（IAMA）影響評(píng)估。此外， OECD AI系統(tǒng)分類(lèi)中有關(guān)“造福人民和星球”這一部分囊括了一個(gè)樣本清單，用于評(píng)估AI系統(tǒng)對(duì)福祉、選定的人權(quán)和民主價(jià)值的潛在影響（OECD，2022）。

人權(quán)影響評(píng)估還應(yīng)評(píng)估由數(shù)據(jù)標(biāo)注和數(shù)據(jù)豐富實(shí)踐引發(fā)的風(fēng)險(xiǎn)。多項(xiàng)研究（Gray和Suri，2019；PAI，2021）強(qiáng)調(diào)，數(shù)據(jù)豐富實(shí)踐中，勞工的采集和執(zhí)行條件通常缺乏透明性，從而可能導(dǎo)致對(duì)工人的不當(dāng)對(duì)待。這是與AI行為者的問(wèn)責(zé)制直接相關(guān)的問(wèn)題，也會(huì)影響到訓(xùn)練數(shù)據(jù)的質(zhì)量。丹麥人權(quán)研究所的指導(dǎo)和工具箱說(shuō)明了如何使用人權(quán)影響評(píng)估來(lái)評(píng)估和解決商業(yè)活動(dòng)對(duì)人權(quán)的負(fù)面影響。

在考慮與人權(quán)和民主價(jià)值有關(guān)的其他風(fēng)險(xiǎn)時(shí)，應(yīng)考慮AI系統(tǒng)的部署如何影響利益相關(guān)方群體的權(quán)力分配和平衡，以及其對(duì)人類(lèi)行為的影響，例如通過(guò)操控和大規(guī)模極化意見(jiàn)。盡管識(shí)別此類(lèi)宏觀級(jí)別的風(fēng)險(xiǎn)可能具有挑戰(zhàn)性，但它對(duì)于AI生態(tài)系統(tǒng)中的問(wèn)責(zé)至關(guān)重要。

不同人權(quán)之間可能存在權(quán)衡取舍。為了調(diào)和這些權(quán)衡，國(guó)際人權(quán)法允許對(duì)不同的權(quán)利和自由進(jìn)行限制，如果這些限制符合合法性、合法性、比例和必要性的'三部分測(cè)試'。人權(quán)影響評(píng)估（HRIAs）可以在AI系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)階段促進(jìn)平衡這種權(quán)衡。例如，該評(píng)估可以檢查所選擇的設(shè)計(jì)是否符合適用法律，并且是否在各種人權(quán)和不同利益相關(guān)者的潛在影響下是相稱(chēng)和必要的（Arai-Takahashi，2002年; Greer，2004年）。

3 透明度與可解釋性

可解釋性與可理解性

能夠清晰地、有意義地解釋AI系統(tǒng)的結(jié)果，對(duì)于建立和維護(hù)用戶(hù)的信任至關(guān)重要（Longo等人，2020）。可解釋性指：AI系統(tǒng)應(yīng)該就其預(yù)測(cè)、推薦或決策的影響因素和決策過(guò)程提供明晰且易于理解的信息（OECD，2022）。

可解釋的AI系統(tǒng)意味著，用戶(hù)可以理解、挑戰(zhàn)或質(zhì)疑AI輸出的結(jié)果，可以要求賠償，并且能夠通過(guò)人機(jī)界面進(jìn)行學(xué)習(xí)，這對(duì)用戶(hù)是有益的。開(kāi)發(fā)人員和其他AI參與者也能從中受益，因?yàn)樗麄兡軌蜃R(shí)別系統(tǒng)問(wèn)題，修復(fù)系統(tǒng)，并通過(guò)包括理解因果關(guān)系在內(nèi)的問(wèn)題對(duì)系統(tǒng)進(jìn)行更深入地了解。AI缺乏可解釋性可能導(dǎo)致利益相關(guān)者無(wú)法對(duì)AI系統(tǒng)的輸出結(jié)果進(jìn)行質(zhì)疑，也無(wú)法修復(fù)系統(tǒng)中的錯(cuò)誤。可解釋性的要求細(xì)節(jié)可能因地點(diǎn)或用例而異，同時(shí)也要考慮適用的法律法規(guī)。因此，對(duì)于給定系統(tǒng)，同一技術(shù)或方法在不同情境中可能不適用。可理解性的概念與可解釋性密切相關(guān)（見(jiàn)信息框3.3）。

3.3 可解釋性VS可理解性

AI領(lǐng)域中，對(duì)可解釋性（explainability）和可理解性（interpretability）的定義一直在不斷演變。根據(jù)當(dāng)前的趨勢(shì)，可解釋性指的是準(zhǔn)確描述導(dǎo)致算法輸出的機(jī)制或?qū)崿F(xiàn)的能力。而可理解性則指的是人類(lèi)是否能夠從系統(tǒng)的輸出中推導(dǎo)出特定用例的含義。

有多種方法可以生成和提供對(duì)AI系統(tǒng)輸出結(jié)果的解釋和說(shuō)明?？山忉屝院涂衫斫庑怨ぞ吆图夹g(shù)可以是可以是模型綁定的（model-specific），即基于特定模型，也可以是模型無(wú)關(guān)的（model-agnostic），即可以應(yīng)用于任何模型；可以是局部的，也可以是全局的（Hall, 2019; Molnar, Casalicchio and Bischl, 2020）：

l模型綁定（model-specific ）工具VS.模型無(wú)關(guān)（model-agnostic ）工具：模型綁定技術(shù)可以應(yīng)用于單一類(lèi)別或類(lèi)型的算法，例如線性模型中的p值；而模型無(wú)關(guān)技術(shù)適用于多種類(lèi)型的算法，例如對(duì)不可知模型的局部解釋?zhuān)↙IME）。

l局部技術(shù)VS.全局技術(shù)：局部可解釋性技術(shù)能夠詳細(xì)說(shuō)明模型如何得出特定的預(yù)測(cè)，例如，在圖像分類(lèi)中，顯示對(duì)像素子集產(chǎn)生最大影響的部分，例如使用夏普利值（Shapley values）等技術(shù)；而全局技術(shù)則可以詳細(xì)說(shuō)明模型整體上對(duì)哪些特征重要，例如使用評(píng)估特征或變量重要性的技術(shù)。

透明度和可追溯性

透明度是指披露責(zé)任，確保人們知曉在預(yù)測(cè)、推薦或決策中使用了AI，或在互動(dòng)中使用了AI（例如聊天機(jī)器人）。隨著AI應(yīng)用的廣泛普及，在某些情況下，披露的可取性、有效性或可行性可能會(huì)受到影響（OECD，2022）。透明度還意味著讓人們能夠理解AI系統(tǒng)在應(yīng)用領(lǐng)域中是如何開(kāi)發(fā)、訓(xùn)練、運(yùn)營(yíng)和部署的，以便用戶(hù)和消費(fèi)者可以作出更明智的選擇。透明度也指向包括監(jiān)管機(jī)構(gòu)和審計(jì)師在內(nèi)提供有意義信息的能力，并有能力闡明其提供了何種數(shù)據(jù)和輸出，以及為何做出此種輸出的原因。因此，透明度不一定需要擴(kuò)展到對(duì)源代碼、其他專(zhuān)有代碼或數(shù)據(jù)集披露的層面，因?yàn)檫@些操作可能在技術(shù)上過(guò)于復(fù)雜，不適于對(duì)結(jié)果的理解。源代碼和數(shù)據(jù)集（包括商業(yè)秘密）也可能受到知識(shí)產(chǎn)權(quán)法規(guī)的限制（OECD，2022）。

AI的可追溯性指：在AI系統(tǒng)的開(kāi)發(fā)過(guò)程中，需要保持對(duì)數(shù)據(jù)、過(guò)程、代碼和其他元素的完整記錄?？勺匪菪酝ǔ：wAI系統(tǒng)的一個(gè)元素或組件的詳細(xì)信息，例如輸入數(shù)據(jù)或模型，這對(duì)于系統(tǒng)審計(jì)是必不可少的。

總而言之，透明度可以被理解為圍繞AI系統(tǒng)提供信息和披露，而可追溯性是在部署前、部署期間和后期跟蹤AI系統(tǒng)的能力（OECD，2022；IDB-OECD，2021）。缺乏透明度和可追溯性可能會(huì)阻礙對(duì)AI系統(tǒng)及其使用的信任度，并減弱對(duì)其輸出的問(wèn)責(zé)。

在每個(gè)生命周期階段記錄風(fēng)險(xiǎn)管理過(guò)程和決策有助于透明度、可追溯性和AI問(wèn)責(zé)（表 3.1）。

表 3.1.評(píng)估AI系統(tǒng)生命周期各階段透明度和可追溯性示例

所處AI系統(tǒng)生命周期的階段	記錄示例
計(jì)劃和設(shè)計(jì)	有關(guān)AI系統(tǒng)的目標(biāo)、預(yù)期用戶(hù)以及因?yàn)锳I使用和可預(yù)見(jiàn)型的濫用而受到影響的利益相關(guān)者的信息
收集和處理數(shù)據(jù)	數(shù)據(jù)源，包括數(shù)據(jù)集元數(shù)據(jù)、數(shù)據(jù)收集過(guò)程和數(shù)據(jù)處理信息
構(gòu)建和使用模型	完整的、經(jīng)過(guò)文檔化的代碼，包括必要的庫(kù)及其適用版本
驗(yàn)證和確認(rèn)	有關(guān)如何執(zhí)行代碼以保證輸出的可再現(xiàn)性的信息，包括詳細(xì)參數(shù)和計(jì)算要求的文檔
部署	有關(guān)如何使用模型輸出結(jié)果的信息
運(yùn)行和監(jiān)控	有關(guān)監(jiān)控策略的信息，包括性能指標(biāo)、閾值、預(yù)期模型行為和緩解措施；有關(guān)模型的缺陷、限制和偏差的信息，以及是否及以何種方式向相關(guān)利益相關(guān)者傳達(dá)的信息

來(lái)源：根據(jù)IDB-OECD（2021年）調(diào)整。

4 魯棒性與安全性

培養(yǎng)人們對(duì)AI的信任，解決AI系統(tǒng)的安全挑戰(zhàn)至關(guān)重要。在該語(yǔ)境中，魯棒性指的是具有耐久性或克服不利條件的能力，包括抵御數(shù)字安全風(fēng)險(xiǎn)并且保持性能水平。AI系統(tǒng)在其生命周期內(nèi)，不應(yīng)生成不合理的安全風(fēng)險(xiǎn)，包括物理安全風(fēng)險(xiǎn)，無(wú)論是在正常使用條件下還是在可預(yù)見(jiàn)的誤用條件下。涉及消費(fèi)者保護(hù)等領(lǐng)域的法律法規(guī)確定了何為不合理的安全風(fēng)險(xiǎn)。政府應(yīng)與利益相關(guān)者協(xié)商決定，這些法律法規(guī)在何種程度上適用于AI系統(tǒng)（OECD，2022年）。

魯棒性和安全性問(wèn)題在AI中相互關(guān)聯(lián)。例如，當(dāng)數(shù)字安全風(fēng)險(xiǎn)未得到適當(dāng)管理時(shí)，數(shù)字安全可能會(huì)影響互聯(lián)產(chǎn)品（如汽車(chē)和家用電器）的安全性。

與AI的魯棒性和安全性相關(guān)的技術(shù)概念包括：

l抵御攻擊的韌性：針對(duì)軟件和硬件漏洞（例如數(shù)據(jù)中毒，如篡改訓(xùn)練數(shù)據(jù)以產(chǎn)生不良結(jié)果）和操作錯(cuò)誤（例如數(shù)據(jù)泄漏，如在訓(xùn)練數(shù)據(jù)集中包含了驗(yàn)證集或測(cè)試數(shù)據(jù)；或雙重使用，如濫用系統(tǒng)）的自我保護(hù)水平。對(duì)抗魯棒性衡量了AI系統(tǒng)在最壞情況下的表現(xiàn)（Carlini等，2019；IDB-OECD，2021年）。

l通用安全和備用計(jì)劃：出現(xiàn)問(wèn)題時(shí)的保障措施。所需的安全水平取決于AI系統(tǒng)風(fēng)險(xiǎn)的嚴(yán)重性。'形式驗(yàn)證'（Qin等，2019年）是有意義的，因?yàn)樗荚谕ㄟ^(guò)數(shù)學(xué)方式檢查系統(tǒng)行為是否滿(mǎn)足給定的屬性或規(guī)范（例如安全性）。

l可靠性（一致的預(yù)期行為和結(jié)果）、可重復(fù)性（同一團(tuán)隊(duì)在相同的實(shí)驗(yàn)設(shè)置下使用相同的實(shí)驗(yàn)裝置可以獲得相同的結(jié)果）、可復(fù)制性（不同團(tuán)隊(duì)在相同的實(shí)驗(yàn)設(shè)置下使用相同的實(shí)驗(yàn)裝置可以獲得相同的結(jié)果）、可再現(xiàn)性（在給定相同輸入和使用相同方法的情況下，兩個(gè)動(dòng)作的結(jié)果（例如模型的兩個(gè)輸出）之間的接近性）和可預(yù)測(cè)性（使利益相關(guān)者對(duì)系統(tǒng)的輸出能夠做出可靠的假設(shè)）（Almenzar等，2022）。

基于價(jià)值觀的原則之間的相互作用和權(quán)衡

越來(lái)越多人開(kāi)始認(rèn)識(shí)到，與基于價(jià)值觀的AI原則相關(guān)的程序和技術(shù)屬性之間存在權(quán)衡和互動(dòng)。例如：消除偏見(jiàn)可能會(huì)導(dǎo)致系統(tǒng)精度下降，這是其性能的一個(gè)組成部分；使模型更易于解釋可能會(huì)影響系統(tǒng)性能和隱私；改善隱私可能會(huì)限制評(píng)估AI系統(tǒng)不良影響的能力。

權(quán)衡決策的優(yōu)化取決于多個(gè)因素，尤其是使用案例領(lǐng)域、監(jiān)管環(huán)境、以及使用AI系統(tǒng)的組織的價(jià)值觀和風(fēng)險(xiǎn)容忍度。在這個(gè)背景下，風(fēng)險(xiǎn)容忍度是指“組織或利益相關(guān)者為實(shí)現(xiàn)其目標(biāo)而愿意承擔(dān)風(fēng)險(xiǎn)的準(zhǔn)備程度或容量”（NIST，2022 ）。權(quán)衡需要在特定背景下進(jìn)行分析和平衡。

與可信AI原則相關(guān)的程序和技術(shù)屬性之間最常見(jiàn)的權(quán)衡因素和相關(guān)概念包括：

l可解釋性VS.性能：關(guān)于模型的可解釋性和性能之間的權(quán)衡已經(jīng)得到廣泛探討（Goethals、Martens和Evgeniou，2022[61]；Koshiyama、Firoozye和Treleaven，2020[62]；ICO-Alan Turing研究所，2020[63]；Babic等，2019[64]；OECD，2022[1]）。正在開(kāi)發(fā)“可解釋性設(shè)計(jì)”工具和方法來(lái)實(shí)現(xiàn)這種權(quán)衡。圖3.2通過(guò)期望的可解釋性和性能水平將算法進(jìn)行了分類(lèi)。但也存在例外情況，例如當(dāng)數(shù)據(jù)進(jìn)行預(yù)處理并包含非線性特征時(shí)，線性模型的可解釋性會(huì)受到影響。

圖3.2. 通過(guò)可解釋性和性能對(duì)算法進(jìn)行分類(lèi)的映射圖解

注：基于文獻(xiàn)的估計(jì)，僅供說(shuō)明目的。

l公正性VS.性能：公正性/偏見(jiàn)和性能之間的權(quán)衡是一個(gè)重要的爭(zhēng)議話題（Feldman等人，2015[66]；Kleinberg、Mullainathan和Raghavan，2016[24]；Zafar等人，2019[67]）。例如，模型設(shè)計(jì)師和開(kāi)發(fā)者可以通過(guò)采用統(tǒng)計(jì)均等和準(zhǔn)確性等指標(biāo)來(lái)定義偏見(jiàn)和性能的可接受界限。這些界限可以通過(guò)與業(yè)務(wù)和終端用戶(hù)聯(lián)絡(luò)、以及分析在應(yīng)用領(lǐng)域中普遍采用的最佳實(shí)踐、標(biāo)準(zhǔn)或法規(guī)來(lái)確定。

l可解釋性VS.隱私：人們?cè)絹?lái)越期望AI模型既具有可解釋性又具有隱私保護(hù)性。例如，通過(guò)識(shí)別不必要的變量（Goldsteen等人，2020[68]）的特征重要性圖表技術(shù)，可以在解釋模型的內(nèi)部工作原理的同時(shí)、最小化所需的個(gè)人數(shù)據(jù)。

l隱私VS.公正性：相關(guān)問(wèn)題是隱私和公正性之間的權(quán)衡。為了給所有受保護(hù)的群體或?qū)傩蕴峁┫嗤男阅埽降腁I系統(tǒng)需要高度透明和可解釋性，這可能會(huì)以隱私為代價(jià)。反之亦然：隱私的級(jí)別越高，審查AI系統(tǒng)并確保其公平性就越困難。新興的數(shù)據(jù)治理方法和隱私技術(shù)可以幫助緩解這種權(quán)衡的難度。

l透明度VS.安全性：透明度和安全性之間存在權(quán)衡：系統(tǒng)越透明，攻擊它就越容易（Erdélyi和Goldsmith，2022[69]）。

l可持續(xù)性VS.性能：通常情況下，大AI模型（指參數(shù)和計(jì)算負(fù)荷）比較小模型表現(xiàn)更好，但需要更多能源。

在AI原則相關(guān)的所有程序和技術(shù)屬性之間進(jìn)行權(quán)衡通常是困難的，也不總是理想的。權(quán)衡分析目的是將應(yīng)用程序、用例和法律道德背景之間的平衡進(jìn)行優(yōu)化。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：小飛俠cawdbof0 > 《智能》

舉報(bào)/認(rèn)領(lǐng)