當算法操控人類：數(shù)據(jù)算法對大部分人是“黑箱”

阿里山圖書館 2020-03-16

展開全文

生活在我們這個時代的人恐怕大多聽說過算法。打開微信，我們經常會看到定向發(fā)送的廣告；在網(wǎng)店買書，后面會有一系列向你推薦的相關圖書；打開網(wǎng)頁，最顯著位置是推薦給你的閱讀鏈接。這是一個數(shù)據(jù)時代，大數(shù)據(jù)時代，也是算法時代。

《被算法操控的生活》的作者是來自英國、定居瑞典的一位數(shù)學教授，策劃編輯知道我是數(shù)學科班出身，而且從事金融科技研究，所以請我?guī)兔纯?。?shù)學家寫科普書，本身就是個賣點，我印象中除了數(shù)學教材，很少有讀過數(shù)學教授寫的暢銷書。這本書有很多有趣的例子，有些觀點值得我們思考。

個人數(shù)據(jù)涉及個人隱私，對個人數(shù)據(jù)的分析同樣會暴露個人隱私：消費者畫像和廣告定向投放是合法的嗎？我認為這取決于個人數(shù)據(jù)分析到底能夠達到什么效果。這類算法一般是采用主成分分析和回歸分析，這兩種方法本身并不是非常尖端，很多社交網(wǎng)站都在使用，比如臉書、推特等，主要用來對用戶進行分類。我們日常上網(wǎng)的各種活動其實都屬于個人行為數(shù)據(jù)，在網(wǎng)站都留下了記錄，如實反映了我們的生活狀態(tài)。比如我們發(fā)布的內容、點贊、信息分享等，都與個人行為、觀點、喜好、智商和個性有關聯(lián)。利用算法和這些累積的海量數(shù)據(jù)(22.190, -0.20, -0.89%)，可以從最冷靜、最理性的角度審視每一個人。

我們大腦也會對別人形成看法，但是大腦只能處理最多3個維度，而計算機依靠算法則可以快速在數(shù)百個維度上對每個人進行分類。理論上，人的行為數(shù)據(jù)可以用來追蹤我們的每一個情緒，并在消費選擇、人際關系和工作機會等方面進行預測，這類數(shù)據(jù)越多，分類越可靠。社交網(wǎng)絡收集和分析用戶的這些數(shù)據(jù)，目前還沒有法律方面的清晰規(guī)定，在倫理層面上是有爭議的。一個大家關注的案例是劍橋分析公司操縱選舉事件。該公司被指控用網(wǎng)絡定向營銷和小范圍民意調查數(shù)據(jù)影響選民。2019年7月，臉書就此事繳納了50億美元罰款，是迄今全球最大規(guī)模的隱私違規(guī)罰款。

各類市場研究和數(shù)據(jù)分析公司和幾十年前研究人員采用的方法并沒有區(qū)別，就是用精心設計的算法在每個維度計算排序或概率，只是現(xiàn)在使用的數(shù)據(jù)量要大得多，甚至是采用大數(shù)據(jù)。在這種規(guī)模下，人們不得不借助電腦和算法進行分析。比如臉書的回歸算法對近2萬人的點贊數(shù)據(jù)進行分析，在9次里有8次成功預測了個人的政治立場，準確率和可靠性非常高。比如一個喜歡Lady Gaga，星巴克和鄉(xiāng)村音樂的人更有可能是共和黨人。這樣共和黨人為了贏得支持，就應該把關注點放在喝星巴克咖啡的人身上。

收集用戶的社交網(wǎng)絡數(shù)據(jù)，根據(jù)目標人群的個性特點定制符合特定受眾觀點和喜好的內容進行投放，進而引導目標人群改變行為，如果算法發(fā)展到這個水平，顯然會侵犯到個人權利范圍。定向投放信息包括廣告，既可能對特定受眾有益，也可能讓對方感到不安全甚至被冒犯。當算法利用個人數(shù)據(jù)能夠對個人行為和喜好做出準確度高達85%的預測情況下，個人數(shù)據(jù)的使用是否合理合法就變成了突出問題。我個人認為基于搜索算法的這種商業(yè)模式必須先征得個人同意。

數(shù)據(jù)算法對大部分人是“黑箱”，其實目前人工智能發(fā)展的階段也存在同樣問題，比如深度學習，很可能無意中將人類社會普遍存在的各種歧視問題引入算法之中。算法歧視會使社會差距拉得更大，嚴重影響社會公平。書中給出很多算法缺陷的例子，以選舉預測為例，人工進行的抽樣調查要比算法更接近實際結果。蓋洛普民意調查美國總統(tǒng)選舉的誤差，從1940年代到2020年前，一直在降低，現(xiàn)在基本在5%以下。而算法所做的預測的最差情況和黑猩猩扔飛鏢相近，最好也只能達到60%左右。數(shù)據(jù)算法也有被人鉆空子的時候，比如在圖書銷售方面，利用一些搜索優(yōu)化算法漏洞排在榜單前列的圖書，確實提高了銷量，但是結果卻可能是讀者反饋評分越來越低。同樣方法可以提高學術論文的引用量，將這個指標作為考核學術成果的唯一標準，必然會造成學術界的反向激勵和逆淘汰現(xiàn)狀。我們應該了解其中可能存在的問題，避免被誤導或操縱。

編輯 ∑Gemini