生活在我們這個時代的人恐怕大多聽說過算法。打開微信,我們經常會看到定向發(fā)送的廣告;在網(wǎng)店買書,后面會有一系列向你推薦的相關圖書;打開網(wǎng)頁,最顯著位置是推薦給你的閱讀鏈接。這是一個數(shù)據(jù)時代,大數(shù)據(jù)時代,也是算法時代。 《被算法操控的生活》的作者是來自英國、定居瑞典的一位數(shù)學教授,策劃編輯知道我是數(shù)學科班出身,而且從事金融科技研究,所以請我?guī)兔纯?。?shù)學家寫科普書,本身就是個賣點,我印象中除了數(shù)學教材,很少有讀過數(shù)學教授寫的暢銷書。這本書有很多有趣的例子,有些觀點值得我們思考。 個人數(shù)據(jù)涉及個人隱私,對個人數(shù)據(jù)的分析同樣會暴露個人隱私:消費者畫像和廣告定向投放是合法的嗎?我認為這取決于個人數(shù)據(jù)分析到底能夠達到什么效果。這類算法一般是采用主成分分析和回歸分析,這兩種方法本身并不是非常尖端,很多社交網(wǎng)站都在使用,比如臉書、推特等,主要用來對用戶進行分類。我們日常上網(wǎng)的各種活動其實都屬于個人行為數(shù)據(jù),在網(wǎng)站都留下了記錄,如實反映了我們的生活狀態(tài)。比如我們發(fā)布的內容、點贊、信息分享等,都與個人行為、觀點、喜好、智商和個性有關聯(lián)。利用算法和這些累積的海量數(shù)據(jù)(22.190, -0.20, -0.89%),可以從最冷靜、最理性的角度審視每一個人。 我們大腦也會對別人形成看法,但是大腦只能處理最多3個維度,而計算機依靠算法則可以快速在數(shù)百個維度上對每個人進行分類。理論上,人的行為數(shù)據(jù)可以用來追蹤我們的每一個情緒,并在消費選擇、人際關系和工作機會等方面進行預測,這類數(shù)據(jù)越多,分類越可靠。社交網(wǎng)絡收集和分析用戶的這些數(shù)據(jù),目前還沒有法律方面的清晰規(guī)定,在倫理層面上是有爭議的。一個大家關注的案例是劍橋分析公司操縱選舉事件。該公司被指控用網(wǎng)絡定向營銷和小范圍民意調查數(shù)據(jù)影響選民。2019年7月,臉書就此事繳納了50億美元罰款,是迄今全球最大規(guī)模的隱私違規(guī)罰款。 各類市場研究和數(shù)據(jù)分析公司和幾十年前研究人員采用的方法并沒有區(qū)別,就是用精心設計的算法在每個維度計算排序或概率,只是現(xiàn)在使用的數(shù)據(jù)量要大得多,甚至是采用大數(shù)據(jù)。在這種規(guī)模下,人們不得不借助電腦和算法進行分析。比如臉書的回歸算法對近2萬人的點贊數(shù)據(jù)進行分析,在9次里有8次成功預測了個人的政治立場,準確率和可靠性非常高。比如一個喜歡Lady Gaga,星巴克和鄉(xiāng)村音樂的人更有可能是共和黨人。這樣共和黨人為了贏得支持,就應該把關注點放在喝星巴克咖啡的人身上。 收集用戶的社交網(wǎng)絡數(shù)據(jù),根據(jù)目標人群的個性特點定制符合特定受眾觀點和喜好的內容進行投放,進而引導目標人群改變行為,如果算法發(fā)展到這個水平,顯然會侵犯到個人權利范圍。定向投放信息包括廣告,既可能對特定受眾有益,也可能讓對方感到不安全甚至被冒犯。當算法利用個人數(shù)據(jù)能夠對個人行為和喜好做出準確度高達85%的預測情況下,個人數(shù)據(jù)的使用是否合理合法就變成了突出問題。我個人認為基于搜索算法的這種商業(yè)模式必須先征得個人同意。 數(shù)據(jù)算法對大部分人是“黑箱”,其實目前人工智能發(fā)展的階段也存在同樣問題,比如深度學習,很可能無意中將人類社會普遍存在的各種歧視問題引入算法之中。算法歧視會使社會差距拉得更大,嚴重影響社會公平。書中給出很多算法缺陷的例子,以選舉預測為例,人工進行的抽樣調查要比算法更接近實際結果。蓋洛普民意調查美國總統(tǒng)選舉的誤差,從1940年代到2020年前,一直在降低,現(xiàn)在基本在5%以下。而算法所做的預測的最差情況和黑猩猩扔飛鏢相近,最好也只能達到60%左右。數(shù)據(jù)算法也有被人鉆空子的時候,比如在圖書銷售方面,利用一些搜索優(yōu)化算法漏洞排在榜單前列的圖書,確實提高了銷量,但是結果卻可能是讀者反饋評分越來越低。同樣方法可以提高學術論文的引用量,將這個指標作為考核學術成果的唯一標準,必然會造成學術界的反向激勵和逆淘汰現(xiàn)狀。我們應該了解其中可能存在的問題,避免被誤導或操縱。 |
|
來自: 阿里山圖書館 > 《中科院數(shù)學所》