評(píng)估:識(shí)別和測(cè)量AI風(fēng)險(xiǎn) 本文摘自《推進(jìn)人工智能(AI)問(wèn)責(zé)制》| 遠(yuǎn)望譯品 一旦定義了AI系統(tǒng)的范圍、情境、參與者和評(píng)估標(biāo)準(zhǔn),就有必要評(píng)估其可能帶來(lái)的風(fēng)險(xiǎn),這些風(fēng)險(xiǎn)可能導(dǎo)致AI系統(tǒng)不可信。這個(gè)流程包括識(shí)別或發(fā)現(xiàn)風(fēng)險(xiǎn)、分析可能導(dǎo)致這些風(fēng)險(xiǎn)發(fā)生的機(jī)制,并評(píng)估其發(fā)生的可能性和嚴(yán)重程度。 本節(jié)概括了評(píng)估可信AI中的概念、過(guò)程和措施,其中一些內(nèi)容在不同程度上與多項(xiàng)原則有關(guān)聯(lián)。例如,因?yàn)椤皽?zhǔn)確性”可能影響生產(chǎn)力,進(jìn)而與“造福人類(lèi)和地球”原則相關(guān);作為系統(tǒng)層面評(píng)估標(biāo)準(zhǔn),也可能與“魯棒性和安全性”相關(guān)。為了避免重復(fù),這種多方面的概念和措施將在其最相關(guān)的原則下出現(xiàn)。 1 造福人類(lèi)和地球
引導(dǎo)AI的發(fā)展和使用,使其造福人民和地球至關(guān)重要。可信AI可以促進(jìn)包容性增長(zhǎng)、可持續(xù)發(fā)展、社會(huì)福祉和全球發(fā)展目標(biāo)的實(shí)現(xiàn)。在教育、健康、交通、農(nóng)業(yè)、環(huán)境和可持續(xù)城市等領(lǐng)域,AI可以用于社會(huì)福祉,并為實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)(SDGs)做出貢獻(xiàn)(OECD,2022)。 在整個(gè)AI系統(tǒng)的生命周期中,AI參與者和利益相關(guān)者可以、并且應(yīng)該促進(jìn)具有適當(dāng)安全保障的AI的發(fā)展和部署,以實(shí)現(xiàn)有益的結(jié)果??鐚W(xué)科、多利益相關(guān)者的合作和社會(huì)對(duì)話有助于對(duì)這些有益結(jié)果進(jìn)行定義、有助于以最佳方式實(shí)現(xiàn)這些有益結(jié)果(OECD,2022)。 確保AI系統(tǒng)造福人類(lèi)和地球意味著:評(píng)估和改善其性能、準(zhǔn)確性及可持續(xù)性,還應(yīng)包括對(duì)經(jīng)濟(jì)包容性和社會(huì)福祉的下游風(fēng)險(xiǎn)進(jìn)行評(píng)估。相關(guān)概念包括: l準(zhǔn)確性:指的是AI系統(tǒng)執(zhí)行其開(kāi)發(fā)任務(wù)的能力,例如將信息歸類(lèi)到正確類(lèi)別,或進(jìn)行驗(yàn)證后的預(yù)測(cè)和推薦??梢酝ㄟ^(guò)錯(cuò)誤率或類(lèi)似于'預(yù)期的泛化性能'(Arlot和Celisse,2010)指標(biāo)來(lái)量化系統(tǒng)的準(zhǔn)確性。提高系統(tǒng)的準(zhǔn)確性和性能可以提高生產(chǎn)力、促進(jìn)經(jīng)濟(jì)增長(zhǎng),從而可能增進(jìn)福祉(例如通過(guò)改善與健康相關(guān)的因素)并降低財(cái)務(wù)和環(huán)境成本。 l可持續(xù)性:近年來(lái),用于訓(xùn)練AI模型的計(jì)算能力呈指數(shù)增長(zhǎng),影響到數(shù)據(jù)中心的工作負(fù)荷和能源消耗。一方面,數(shù)據(jù)科學(xué)和AI芯片制造的進(jìn)步以及新型的計(jì)算架構(gòu)使得更高效的AI模型成為可能,這些模型可以利用較小的訓(xùn)練數(shù)據(jù)集并進(jìn)行較少的訓(xùn)練運(yùn)行,使得計(jì)算資源得到更加可持續(xù)的使用。同時(shí),算力也受益于數(shù)據(jù)中心清潔能源供電的增長(zhǎng)(Strier、Clark和Khareghani,2022) 另一方面,就通用AI(包括大型語(yǔ)言模型(LLMs))和特定目的AI之間的權(quán)衡仍在進(jìn)行中。LLMs需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算能力,并且比特定目的AI消耗更多能源。因此,應(yīng)該權(quán)衡好高能耗和AI系統(tǒng)所帶來(lái)益處之間的關(guān)系(Bender等,2021)。 l社會(huì)福祉和經(jīng)濟(jì)包容性:在適當(dāng)?shù)那闆r下,AI參與者應(yīng)該評(píng)估其AI系統(tǒng)可能對(duì)社會(huì)福祉和經(jīng)濟(jì)包容性產(chǎn)生的下游影響,包括對(duì)弱勢(shì)人群(尤其是兒童和弱勢(shì)群體)的影響和負(fù)外部性,以及對(duì)就業(yè)質(zhì)量和自動(dòng)化潛力的影響。 2 以人為本的價(jià)值觀和公平性
AI應(yīng)該基于以人為本的價(jià)值觀進(jìn)行開(kāi)發(fā),包括人權(quán)、基本自由、平等、公平、法治、社會(huì)正義、數(shù)據(jù)保護(hù)和隱私、消費(fèi)者權(quán)益和商業(yè)公平 (OECD,2022)。 一些AI系統(tǒng)的使用對(duì)人權(quán)產(chǎn)生影響,包括人權(quán)(如《世界人權(quán)宣言》中所定義的)和以人為本的價(jià)值觀可能會(huì)被故意或者意外侵犯的風(fēng)險(xiǎn)。因此,在AI系統(tǒng)中推廣“權(quán)利和價(jià)值觀的一致性”(即設(shè)計(jì)中采取適當(dāng)?shù)谋U洗胧┓浅V匾?,包括適應(yīng)環(huán)境的人類(lèi)干預(yù)、監(jiān)督和救濟(jì)的能力。這種方法可以確保AI系統(tǒng)在運(yùn)行過(guò)程中保護(hù)和促進(jìn)人權(quán),并與以人為本的價(jià)值觀保持一致。遵循民主價(jià)值觀可以增強(qiáng)公眾對(duì)AI的信任,并支持其在減少歧視或其他不公平以及不平等方面的應(yīng)用 (OECD,2022)。 人權(quán)影響評(píng)估(HRIAs)、人權(quán)盡職調(diào)查、人類(lèi)決策以及人類(lèi)參與AI過(guò)程(即“人在回環(huán)”方法)、道德行為準(zhǔn)則、質(zhì)量標(biāo)簽和認(rèn)證等措施在促進(jìn)以人為中心的價(jià)值觀和公平性方面起到了作用(OECD,2022)。對(duì)這些措施的三類(lèi)AI風(fēng)險(xiǎn)包括:(1)偏見(jiàn)和歧視風(fēng)險(xiǎn);(2)隱私和數(shù)據(jù)治理風(fēng)險(xiǎn);以及(3)對(duì)其他人權(quán)和民主價(jià)值的風(fēng)險(xiǎn)。 偏見(jiàn)與歧視 AI系統(tǒng)可能會(huì)持續(xù)傳遞偏見(jiàn)、排斥,并對(duì)弱勢(shì)和少數(shù)群體產(chǎn)生不平等的影響,例如少數(shù)族裔、兒童、老年人以及教育水平較低或技能較低的人群。在某些訓(xùn)練數(shù)據(jù)集中,女性的邊緣化也可能導(dǎo)致輸出偏倚的結(jié)果。由于缺乏低收入和中等收入國(guó)家的特定數(shù)據(jù)來(lái)訓(xùn)練AI系統(tǒng),且因?yàn)檫@些國(guó)家在整體AI產(chǎn)業(yè)中的邊緣化,不平等影響帶來(lái)的風(fēng)險(xiǎn)尤為顯著。公平意味著AI應(yīng)當(dāng)賦予社會(huì)中的所有成員權(quán)力,并幫助減少偏見(jiàn)和排斥。 在整個(gè)AI系統(tǒng)的生命周期中,發(fā)現(xiàn)偏見(jiàn)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)(見(jiàn)框3.1)。偏見(jiàn)的來(lái)源包括(IDB-OECD,2021;Barocas和Selbst,2016): l歷史偏見(jiàn):訓(xùn)練數(shù)據(jù)中現(xiàn)有的模式,例如社會(huì)偏見(jiàn)。 l表征偏見(jiàn)(和有限特征):由于缺少屬性、樣本量不足或子群體數(shù)據(jù)完全或部分缺失而導(dǎo)致的信息不完整。 l測(cè)量偏見(jiàn):在模型中省略(或包含)應(yīng)該(或不應(yīng)該)包含的變量,包括作為受保護(hù)屬性或群體的替代指標(biāo)(例如,將社區(qū)作為種族的替代指標(biāo))。 l方法學(xué)和評(píng)估偏見(jiàn):在度量指標(biāo)的定義(例如,對(duì)目標(biāo)人群的錯(cuò)誤假設(shè))、模型驗(yàn)證和校準(zhǔn)以及結(jié)果評(píng)估方面出現(xiàn)的錯(cuò)誤。 l監(jiān)控偏見(jiàn)和樣本偏差:在監(jiān)控過(guò)程中對(duì)系統(tǒng)結(jié)果解釋不恰當(dāng),初始偏見(jiàn)隨時(shí)間累積并偏向于訓(xùn)練數(shù)據(jù),或者數(shù)據(jù)捕捉方式臨時(shí)發(fā)生變化。 l反饋循環(huán)和流行度偏見(jiàn):推薦算法容易受到流行度偏見(jiàn)的影響,即少數(shù)熱門(mén)項(xiàng)目會(huì)頻繁推薦給用戶(hù)。這會(huì)形成反饋循環(huán),頻繁推薦的項(xiàng)目會(huì)得到更多的反應(yīng),從而被更頻繁地推薦。
不同的利益相關(guān)者對(duì)公平和公正有不同的觀點(diǎn),在作為社會(huì)技術(shù)系統(tǒng)的AI應(yīng)用中,需要超越技術(shù)專(zhuān)家的專(zhuān)業(yè)知識(shí)來(lái)診斷和減輕偏見(jiàn)(OECD,2022年)。個(gè)體公平意味著類(lèi)似的個(gè)體應(yīng)該被類(lèi)似地對(duì)待;而群體公平意味著如果將人口分為不同的群體(例如通過(guò)群體的受保護(hù)屬性分類(lèi)),那么AI系統(tǒng)的結(jié)果不應(yīng)該有所不同。 一系列重要的文獻(xiàn)領(lǐng)域致力于實(shí)施數(shù)學(xué)公平度指標(biāo),來(lái)評(píng)估模型對(duì)亞群體的公正性(IDB-OECD,2021;Chouldechova,2017;Kleinberg、Mullainathan和Raghavan,2016;Corbett-Davies等,2017;Koshiyama等,2021)。不同的公平度指標(biāo)導(dǎo)致了對(duì)系統(tǒng)中的偏見(jiàn)的評(píng)估方式有所不同。例如: l機(jī)會(huì)平等:是否屬于受保護(hù)群體并不影響AI系統(tǒng)的輸出。這一概念常用的數(shù)學(xué)術(shù)語(yǔ)為平均差(Bellamy等,2018年)。 l結(jié)果平等或統(tǒng)計(jì)平等:受保護(hù)群體(例如性別或種族)的每個(gè)分段必須獲得相同輸出比例。普遍接受應(yīng)用于這一概念的數(shù)學(xué)術(shù)語(yǔ)為統(tǒng)計(jì)均等差異(Bellamy等,2018年)。 l反事實(shí)公正:如果在受保護(hù)屬性的值發(fā)生變化時(shí)(例如在種族或性別發(fā)生變化時(shí)),AI系統(tǒng)的輸出保持不變,認(rèn)為該系統(tǒng)是公平的。 選擇AI公平度量標(biāo)準(zhǔn)時(shí),應(yīng)該考慮到使用情境,并且選擇的理由應(yīng)該存檔(IDB-OECD, 2021[21])。實(shí)際上,適用于所有問(wèn)題的單一AI公平度量標(biāo)準(zhǔn)并不存在。而且,遵守某個(gè)定義通常意味著,無(wú)法完全遵守其他定義(Chouldechova, 2017[23])。因此,遵守給定的公平度量標(biāo)準(zhǔn)并不一定能保證AI系統(tǒng)的結(jié)果是公平的。 隱私和數(shù)據(jù)治理 除非與人權(quán)、基本價(jià)值觀和民主價(jià)值觀一致,否則AI系統(tǒng)可能會(huì)引發(fā)或加劇權(quán)力和信息獲取的不對(duì)稱(chēng)性,例如雇主和員工、企業(yè)和消費(fèi)者、政府和公民之間的不對(duì)稱(chēng)性(EU-HLEG, 2019)。 當(dāng)AI系統(tǒng)涉及知識(shí)產(chǎn)權(quán)時(shí),必須保護(hù)系統(tǒng)模型及其參數(shù)的知識(shí)產(chǎn)權(quán)。此外,在醫(yī)療應(yīng)用和其他應(yīng)用中,訓(xùn)練數(shù)據(jù)的隱私需要得到保護(hù)。AI系統(tǒng)中的數(shù)據(jù)保護(hù)指的是防止暴露模型及其訓(xùn)練數(shù)據(jù)的(De Cristofaro, 2020[29])。應(yīng)建立數(shù)據(jù)治理機(jī)制,以確保用于訓(xùn)練模型的數(shù)據(jù)的質(zhì)量和完整性;數(shù)據(jù)在系統(tǒng)部署環(huán)境中的相關(guān)性;數(shù)據(jù)訪問(wèn)協(xié)議;以及模型處理數(shù)據(jù)的能力,以保護(hù)隱私和敏感信息。包括: l隱私和數(shù)據(jù)保護(hù):AI系統(tǒng)在其生命周期內(nèi)應(yīng)尊重隱私和數(shù)據(jù)保護(hù)(OECD, 2019),包括用戶(hù)提供的信息和通過(guò)與系統(tǒng)互動(dòng)生成的用戶(hù)數(shù)據(jù)。還應(yīng)該制定數(shù)據(jù)訪問(wèn)和處理協(xié)議,明確誰(shuí)可以訪問(wèn)和刪除數(shù)據(jù),以及在哪些情況下可以這樣做(Butterworth, 2018)。 l模型安全性:可以根據(jù)以下幾個(gè)方面來(lái)評(píng)估AI模型的安全性和隱私性:(1)惡意行為者可能擁有的訪問(wèn)級(jí)別,從“黑盒”(即對(duì)模型沒(méi)有任何了解)到“完全透明”(即對(duì)模型及其訓(xùn)練數(shù)據(jù)有完全的信息);(2)攻擊可能發(fā)生的階段(例如實(shí)在AI訓(xùn)練期間還是推理期間);以及(3)是否可能發(fā)生出于“好奇”被動(dòng)型攻擊或完全惡意的主動(dòng)型攻擊(De Cristofaro, 2020)。 隱私和數(shù)據(jù)治理的風(fēng)險(xiǎn)可能在數(shù)據(jù)和模型層面上產(chǎn)生,也可能在二者的交叉點(diǎn)上產(chǎn)生,同時(shí)在人類(lèi)和AI系統(tǒng)之間的交互過(guò)程中也可能產(chǎn)生。評(píng)估這些風(fēng)險(xiǎn)的方法包括: l數(shù)據(jù)層面:數(shù)據(jù)保護(hù)影響評(píng)估是評(píng)估風(fēng)險(xiǎn)的標(biāo)準(zhǔn)程序(Bieker等,2016)。這一程序在一些法域中已被法律正式化,包括歐盟和英國(guó)(圖3.1)。評(píng)估應(yīng)考慮到數(shù)據(jù)污染的風(fēng)險(xiǎn),即訓(xùn)練數(shù)據(jù)被惡意操控以影響模型行為(Tan和Shokri,2019)。 l模型層面:模型層面上的隱私和數(shù)據(jù)保護(hù)風(fēng)險(xiǎn)包括試圖推斷模型參數(shù)并構(gòu)建“仿冒”版本或副本的嘗試。旨在提取模型的完整副本或等效版本,或復(fù)制其某些功能的技術(shù)可以幫助AI從業(yè)者評(píng)估模型層面上的漏洞(Ateniese等,2015;Tramèr等,2016;Orekondy、Schiele和Fritz,2019)。 l數(shù)據(jù)和模型層面的交叉點(diǎn):風(fēng)險(xiǎn)包括通過(guò)與模型的交互對(duì)人口或訓(xùn)練數(shù)據(jù)集中某些成員進(jìn)行推斷。評(píng)估漏洞程度的技術(shù)包括:統(tǒng)計(jì)披露(Dwork和Naor,2010);模型反演(Fredrikson、Jha和Ristenpart,2015);推斷類(lèi)別代表(Hitaj、Ateniese和Perez-Cruz,2017);以及成員資格和屬性推斷(Shokri等,2017;Ganju等,2018;Melis等,2019)。 l人類(lèi)與AI的交互:培訓(xùn)、清單和驗(yàn)證過(guò)程可以幫助識(shí)別由開(kāi)發(fā)者或用戶(hù)的無(wú)意行為或缺乏行為引起的隱私和數(shù)據(jù)治理風(fēng)險(xiǎn),從而影響了人類(lèi)和系統(tǒng)之間的交互。 圖3.1. 英國(guó)信息專(zhuān)員辦公室(ICO)對(duì)數(shù)據(jù)保護(hù)的定性評(píng)級(jí) 基于顏色編碼的對(duì)AI系統(tǒng)在數(shù)據(jù)層面上對(duì)隱私和數(shù)據(jù)治理的風(fēng)險(xiǎn)進(jìn)行評(píng)估 來(lái)源:ICO (2022[42]). 先進(jìn)的隱私增強(qiáng)技術(shù)(例如同態(tài)加密、安全多方計(jì)算和差分隱私)以及新型的訓(xùn)練方法(例如使用多個(gè)組織的數(shù)據(jù)進(jìn)行聯(lián)邦機(jī)器學(xué)習(xí))可以用來(lái)保護(hù)AI系統(tǒng)并增強(qiáng)其隱私性(OECD, 2022[20]; De Cristofaro, 2020[29])。這些減輕措施的影響根據(jù)情境和其他變量而異,需要在系統(tǒng)級(jí)別進(jìn)行測(cè)試。此外,新興的數(shù)據(jù)治理模型(如數(shù)據(jù)共享池、數(shù)據(jù)合作社和數(shù)據(jù)信托)可以幫助預(yù)防隱私風(fēng)險(xiǎn)并促進(jìn)數(shù)據(jù)治理的民主化(Micheli et al., 2020[43])。 人權(quán)和民主價(jià)值觀 AI“可能在社會(huì)和經(jīng)濟(jì)內(nèi)部以及不同社會(huì)和經(jīng)濟(jì)之間產(chǎn)生不均等的效應(yīng),特別涉及經(jīng)濟(jì)變動(dòng)、競(jìng)爭(zhēng)、勞工市場(chǎng)轉(zhuǎn)型、不平等以及對(duì)民主和人權(quán)、隱私和數(shù)據(jù)保護(hù)、數(shù)字安全的影響”(OECD,2019[5])。AI既可以支持實(shí)現(xiàn)人權(quán),也可能創(chuàng)造新的風(fēng)險(xiǎn),使人權(quán)可能被故意或意外地侵犯。人權(quán)法律,結(jié)合其他法律和制度結(jié)構(gòu),可以作為一種工具,幫助確保以人為本的AI(信息框 3.2)。
人權(quán)框架為發(fā)現(xiàn)和管理AI對(duì)人權(quán)的風(fēng)險(xiǎn)創(chuàng)造了義務(wù),包括邊緣化和弱勢(shì)群體的權(quán)利。這可以通過(guò)人權(quán)盡職調(diào)查(如人權(quán)影響評(píng)估)來(lái)實(shí)現(xiàn)。人權(quán)影響評(píng)估可以識(shí)別AI系統(tǒng)生命周期中參與者未能預(yù)見(jiàn)的風(fēng)險(xiǎn)。為此,它關(guān)注的是人權(quán)的附帶影響,而不是技術(shù)或其輸出的優(yōu)化。人權(quán)影響評(píng)估或類(lèi)似的風(fēng)險(xiǎn)管理過(guò)程可以在AI系統(tǒng)的整個(gè)生命周期中通過(guò)設(shè)計(jì)來(lái)確保對(duì)人權(quán)的尊重(OECD,2019[46])。應(yīng)在每個(gè)生命周期階段和系統(tǒng)的環(huán)境、范圍、性質(zhì)和目的發(fā)生變化時(shí)進(jìn)行定期的人權(quán)影響評(píng)估(歐洲理事會(huì),2019[47])。 人權(quán)影響評(píng)估(HARIA)的實(shí)例包括加拿大的算法影響評(píng)估(AIA),這是加拿大財(cái)政委員會(huì)關(guān)于自動(dòng)化決策的指令的強(qiáng)制性工具,以及荷蘭議會(huì)對(duì)任何旨在支持公共和私營(yíng)部門(mén)決策的算法強(qiáng)制實(shí)施的“人權(quán)與算法”(IAMA)影響評(píng)估。此外, OECD AI系統(tǒng)分類(lèi)中有關(guān)“造福人民和星球”這一部分囊括了一個(gè)樣本清單,用于評(píng)估AI系統(tǒng)對(duì)福祉、選定的人權(quán)和民主價(jià)值的潛在影響(OECD,2022)。 人權(quán)影響評(píng)估還應(yīng)評(píng)估由數(shù)據(jù)標(biāo)注和數(shù)據(jù)豐富實(shí)踐引發(fā)的風(fēng)險(xiǎn)。多項(xiàng)研究(Gray和Suri,2019;PAI,2021)強(qiáng)調(diào),數(shù)據(jù)豐富實(shí)踐中,勞工的采集和執(zhí)行條件通常缺乏透明性,從而可能導(dǎo)致對(duì)工人的不當(dāng)對(duì)待。這是與AI行為者的問(wèn)責(zé)制直接相關(guān)的問(wèn)題,也會(huì)影響到訓(xùn)練數(shù)據(jù)的質(zhì)量。丹麥人權(quán)研究所的指導(dǎo)和工具箱說(shuō)明了如何使用人權(quán)影響評(píng)估來(lái)評(píng)估和解決商業(yè)活動(dòng)對(duì)人權(quán)的負(fù)面影響。 在考慮與人權(quán)和民主價(jià)值有關(guān)的其他風(fēng)險(xiǎn)時(shí),應(yīng)考慮AI系統(tǒng)的部署如何影響利益相關(guān)方群體的權(quán)力分配和平衡,以及其對(duì)人類(lèi)行為的影響,例如通過(guò)操控和大規(guī)模極化意見(jiàn)。盡管識(shí)別此類(lèi)宏觀級(jí)別的風(fēng)險(xiǎn)可能具有挑戰(zhàn)性,但它對(duì)于AI生態(tài)系統(tǒng)中的問(wèn)責(zé)至關(guān)重要。 不同人權(quán)之間可能存在權(quán)衡取舍。為了調(diào)和這些權(quán)衡,國(guó)際人權(quán)法允許對(duì)不同的權(quán)利和自由進(jìn)行限制,如果這些限制符合合法性、合法性、比例和必要性的'三部分測(cè)試'。人權(quán)影響評(píng)估(HRIAs)可以在AI系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)階段促進(jìn)平衡這種權(quán)衡。例如,該評(píng)估可以檢查所選擇的設(shè)計(jì)是否符合適用法律,并且是否在各種人權(quán)和不同利益相關(guān)者的潛在影響下是相稱(chēng)和必要的(Arai-Takahashi,2002年; Greer,2004年)。 3 透明度與可解釋性
可解釋性與可理解性 能夠清晰地、有意義地解釋AI系統(tǒng)的結(jié)果,對(duì)于建立和維護(hù)用戶(hù)的信任至關(guān)重要(Longo等人,2020)。可解釋性指:AI系統(tǒng)應(yīng)該就其預(yù)測(cè)、推薦或決策的影響因素和決策過(guò)程提供明晰且易于理解的信息(OECD,2022)。 可解釋的AI系統(tǒng)意味著,用戶(hù)可以理解、挑戰(zhàn)或質(zhì)疑AI輸出的結(jié)果,可以要求賠償,并且能夠通過(guò)人機(jī)界面進(jìn)行學(xué)習(xí),這對(duì)用戶(hù)是有益的。開(kāi)發(fā)人員和其他AI參與者也能從中受益,因?yàn)樗麄兡軌蜃R(shí)別系統(tǒng)問(wèn)題,修復(fù)系統(tǒng),并通過(guò)包括理解因果關(guān)系在內(nèi)的問(wèn)題對(duì)系統(tǒng)進(jìn)行更深入地了解。AI缺乏可解釋性可能導(dǎo)致利益相關(guān)者無(wú)法對(duì)AI系統(tǒng)的輸出結(jié)果進(jìn)行質(zhì)疑,也無(wú)法修復(fù)系統(tǒng)中的錯(cuò)誤。可解釋性的要求細(xì)節(jié)可能因地點(diǎn)或用例而異,同時(shí)也要考慮適用的法律法規(guī)。因此,對(duì)于給定系統(tǒng),同一技術(shù)或方法在不同情境中可能不適用。可理解性的概念與可解釋性密切相關(guān)(見(jiàn)信息框3.3)。
有多種方法可以生成和提供對(duì)AI系統(tǒng)輸出結(jié)果的解釋和說(shuō)明??山忉屝院涂衫斫庑怨ぞ吆图夹g(shù)可以是可以是模型綁定的(model-specific),即基于特定模型,也可以是模型無(wú)關(guān)的(model-agnostic),即可以應(yīng)用于任何模型;可以是局部的,也可以是全局的(Hall, 2019; Molnar, Casalicchio and Bischl, 2020): l模型綁定(model-specific )工具VS.模型無(wú)關(guān)(model-agnostic )工具:模型綁定技術(shù)可以應(yīng)用于單一類(lèi)別或類(lèi)型的算法,例如線性模型中的p值;而模型無(wú)關(guān)技術(shù)適用于多種類(lèi)型的算法,例如對(duì)不可知模型的局部解釋?zhuān)↙IME)。 l局部技術(shù)VS.全局技術(shù):局部可解釋性技術(shù)能夠詳細(xì)說(shuō)明模型如何得出特定的預(yù)測(cè),例如,在圖像分類(lèi)中,顯示對(duì)像素子集產(chǎn)生最大影響的部分,例如使用夏普利值(Shapley values)等技術(shù);而全局技術(shù)則可以詳細(xì)說(shuō)明模型整體上對(duì)哪些特征重要,例如使用評(píng)估特征或變量重要性的技術(shù)。 透明度和可追溯性 透明度是指披露責(zé)任,確保人們知曉在預(yù)測(cè)、推薦或決策中使用了AI,或在互動(dòng)中使用了AI(例如聊天機(jī)器人)。隨著AI應(yīng)用的廣泛普及,在某些情況下,披露的可取性、有效性或可行性可能會(huì)受到影響(OECD,2022)。透明度還意味著讓人們能夠理解AI系統(tǒng)在應(yīng)用領(lǐng)域中是如何開(kāi)發(fā)、訓(xùn)練、運(yùn)營(yíng)和部署的,以便用戶(hù)和消費(fèi)者可以作出更明智的選擇。透明度也指向包括監(jiān)管機(jī)構(gòu)和審計(jì)師在內(nèi)提供有意義信息的能力,并有能力闡明其提供了何種數(shù)據(jù)和輸出,以及為何做出此種輸出的原因。因此,透明度不一定需要擴(kuò)展到對(duì)源代碼、其他專(zhuān)有代碼或數(shù)據(jù)集披露的層面,因?yàn)檫@些操作可能在技術(shù)上過(guò)于復(fù)雜,不適于對(duì)結(jié)果的理解。源代碼和數(shù)據(jù)集(包括商業(yè)秘密)也可能受到知識(shí)產(chǎn)權(quán)法規(guī)的限制(OECD,2022)。 AI的可追溯性指:在AI系統(tǒng)的開(kāi)發(fā)過(guò)程中,需要保持對(duì)數(shù)據(jù)、過(guò)程、代碼和其他元素的完整記錄??勺匪菪酝ǔ:wAI系統(tǒng)的一個(gè)元素或組件的詳細(xì)信息,例如輸入數(shù)據(jù)或模型,這對(duì)于系統(tǒng)審計(jì)是必不可少的。 總而言之,透明度可以被理解為圍繞AI系統(tǒng)提供信息和披露,而可追溯性是在部署前、部署期間和后期跟蹤AI系統(tǒng)的能力(OECD,2022;IDB-OECD,2021)。缺乏透明度和可追溯性可能會(huì)阻礙對(duì)AI系統(tǒng)及其使用的信任度,并減弱對(duì)其輸出的問(wèn)責(zé)。 在每個(gè)生命周期階段記錄風(fēng)險(xiǎn)管理過(guò)程和決策有助于透明度、可追溯性和AI問(wèn)責(zé)(表 3.1)。 表 3.1.評(píng)估AI系統(tǒng)生命周期各階段透明度和可追溯性示例
來(lái)源:根據(jù)IDB-OECD(2021年)調(diào)整。 4 魯棒性與安全性
培養(yǎng)人們對(duì)AI的信任,解決AI系統(tǒng)的安全挑戰(zhàn)至關(guān)重要。在該語(yǔ)境中,魯棒性指的是具有耐久性或克服不利條件的能力,包括抵御數(shù)字安全風(fēng)險(xiǎn)并且保持性能水平。AI系統(tǒng)在其生命周期內(nèi),不應(yīng)生成不合理的安全風(fēng)險(xiǎn),包括物理安全風(fēng)險(xiǎn),無(wú)論是在正常使用條件下還是在可預(yù)見(jiàn)的誤用條件下。涉及消費(fèi)者保護(hù)等領(lǐng)域的法律法規(guī)確定了何為不合理的安全風(fēng)險(xiǎn)。政府應(yīng)與利益相關(guān)者協(xié)商決定,這些法律法規(guī)在何種程度上適用于AI系統(tǒng)(OECD,2022年)。 魯棒性和安全性問(wèn)題在AI中相互關(guān)聯(lián)。例如,當(dāng)數(shù)字安全風(fēng)險(xiǎn)未得到適當(dāng)管理時(shí),數(shù)字安全可能會(huì)影響互聯(lián)產(chǎn)品(如汽車(chē)和家用電器)的安全性。 與AI的魯棒性和安全性相關(guān)的技術(shù)概念包括: l抵御攻擊的韌性:針對(duì)軟件和硬件漏洞(例如數(shù)據(jù)中毒,如篡改訓(xùn)練數(shù)據(jù)以產(chǎn)生不良結(jié)果)和操作錯(cuò)誤(例如數(shù)據(jù)泄漏,如在訓(xùn)練數(shù)據(jù)集中包含了驗(yàn)證集或測(cè)試數(shù)據(jù);或雙重使用,如濫用系統(tǒng))的自我保護(hù)水平。對(duì)抗魯棒性衡量了AI系統(tǒng)在最壞情況下的表現(xiàn)(Carlini等,2019;IDB-OECD,2021年)。 l通用安全和備用計(jì)劃:出現(xiàn)問(wèn)題時(shí)的保障措施。所需的安全水平取決于AI系統(tǒng)風(fēng)險(xiǎn)的嚴(yán)重性。'形式驗(yàn)證'(Qin等,2019年)是有意義的,因?yàn)樗荚谕ㄟ^(guò)數(shù)學(xué)方式檢查系統(tǒng)行為是否滿(mǎn)足給定的屬性或規(guī)范(例如安全性)。 l可靠性(一致的預(yù)期行為和結(jié)果)、可重復(fù)性(同一團(tuán)隊(duì)在相同的實(shí)驗(yàn)設(shè)置下使用相同的實(shí)驗(yàn)裝置可以獲得相同的結(jié)果)、可復(fù)制性(不同團(tuán)隊(duì)在相同的實(shí)驗(yàn)設(shè)置下使用相同的實(shí)驗(yàn)裝置可以獲得相同的結(jié)果)、可再現(xiàn)性(在給定相同輸入和使用相同方法的情況下,兩個(gè)動(dòng)作的結(jié)果(例如模型的兩個(gè)輸出)之間的接近性)和可預(yù)測(cè)性(使利益相關(guān)者對(duì)系統(tǒng)的輸出能夠做出可靠的假設(shè))(Almenzar等,2022)。 基于價(jià)值觀的原則之間的相互作用和權(quán)衡 越來(lái)越多人開(kāi)始認(rèn)識(shí)到,與基于價(jià)值觀的AI原則相關(guān)的程序和技術(shù)屬性之間存在權(quán)衡和互動(dòng)。例如:消除偏見(jiàn)可能會(huì)導(dǎo)致系統(tǒng)精度下降,這是其性能的一個(gè)組成部分;使模型更易于解釋可能會(huì)影響系統(tǒng)性能和隱私;改善隱私可能會(huì)限制評(píng)估AI系統(tǒng)不良影響的能力。 權(quán)衡決策的優(yōu)化取決于多個(gè)因素,尤其是使用案例領(lǐng)域、監(jiān)管環(huán)境、以及使用AI系統(tǒng)的組織的價(jià)值觀和風(fēng)險(xiǎn)容忍度。在這個(gè)背景下,風(fēng)險(xiǎn)容忍度是指“組織或利益相關(guān)者為實(shí)現(xiàn)其目標(biāo)而愿意承擔(dān)風(fēng)險(xiǎn)的準(zhǔn)備程度或容量”(NIST,2022 )。權(quán)衡需要在特定背景下進(jìn)行分析和平衡。 與可信AI原則相關(guān)的程序和技術(shù)屬性之間最常見(jiàn)的權(quán)衡因素和相關(guān)概念包括: l可解釋性VS.性能:關(guān)于模型的可解釋性和性能之間的權(quán)衡已經(jīng)得到廣泛探討(Goethals、Martens和Evgeniou,2022[61];Koshiyama、Firoozye和Treleaven,2020[62];ICO-Alan Turing研究所,2020[63];Babic等,2019[64];OECD,2022[1])。正在開(kāi)發(fā)“可解釋性設(shè)計(jì)”工具和方法來(lái)實(shí)現(xiàn)這種權(quán)衡。圖3.2通過(guò)期望的可解釋性和性能水平將算法進(jìn)行了分類(lèi)。但也存在例外情況,例如當(dāng)數(shù)據(jù)進(jìn)行預(yù)處理并包含非線性特征時(shí),線性模型的可解釋性會(huì)受到影響。 圖3.2. 通過(guò)可解釋性和性能對(duì)算法進(jìn)行分類(lèi)的映射圖解 注:基于文獻(xiàn)的估計(jì),僅供說(shuō)明目的。 l公正性VS.性能:公正性/偏見(jiàn)和性能之間的權(quán)衡是一個(gè)重要的爭(zhēng)議話題(Feldman等人,2015[66];Kleinberg、Mullainathan和Raghavan,2016[24];Zafar等人,2019[67])。例如,模型設(shè)計(jì)師和開(kāi)發(fā)者可以通過(guò)采用統(tǒng)計(jì)均等和準(zhǔn)確性等指標(biāo)來(lái)定義偏見(jiàn)和性能的可接受界限。這些界限可以通過(guò)與業(yè)務(wù)和終端用戶(hù)聯(lián)絡(luò)、以及分析在應(yīng)用領(lǐng)域中普遍采用的最佳實(shí)踐、標(biāo)準(zhǔn)或法規(guī)來(lái)確定。 l可解釋性VS.隱私:人們?cè)絹?lái)越期望AI模型既具有可解釋性又具有隱私保護(hù)性。例如,通過(guò)識(shí)別不必要的變量(Goldsteen等人,2020[68])的特征重要性圖表技術(shù),可以在解釋模型的內(nèi)部工作原理的同時(shí)、最小化所需的個(gè)人數(shù)據(jù)。 l隱私VS.公正性:相關(guān)問(wèn)題是隱私和公正性之間的權(quán)衡。為了給所有受保護(hù)的群體或?qū)傩蕴峁┫嗤男阅埽降腁I系統(tǒng)需要高度透明和可解釋性,這可能會(huì)以隱私為代價(jià)。反之亦然:隱私的級(jí)別越高,審查AI系統(tǒng)并確保其公平性就越困難。新興的數(shù)據(jù)治理方法和隱私技術(shù)可以幫助緩解這種權(quán)衡的難度。 l透明度VS.安全性:透明度和安全性之間存在權(quán)衡:系統(tǒng)越透明,攻擊它就越容易(Erdélyi和Goldsmith,2022[69])。 l可持續(xù)性VS.性能:通常情況下,大AI模型(指參數(shù)和計(jì)算負(fù)荷)比較小模型表現(xiàn)更好,但需要更多能源。 在AI原則相關(guān)的所有程序和技術(shù)屬性之間進(jìn)行權(quán)衡通常是困難的,也不總是理想的。權(quán)衡分析目的是將應(yīng)用程序、用例和法律道德背景之間的平衡進(jìn)行優(yōu)化。 |
|
來(lái)自: 小飛俠cawdbof0 > 《智能》