實(shí)際上,當(dāng)翻閱AI文本時(shí),不難發(fā)現(xiàn)其中會(huì)有很多亂碼和不連貫的句子。這項(xiàng)技術(shù)的關(guān)鍵難度在于能否生成適合人類閱讀習(xí)慣,表意清晰的AI文本。
近日學(xué)術(shù)出版商Springer Nature公布了第一本使用機(jī)器學(xué)習(xí)生成的研究書籍《鋰離子電池: 機(jī)器生成的當(dāng)前研究摘要》,它概述了鋰離子電池領(lǐng)域的最新研究成果。 Springer Nature和法蘭克福的歌德大學(xué)共同開發(fā)了機(jī)器學(xué)習(xí)算法Beta Write,使用機(jī)器學(xué)習(xí)集成相似的聚類分析,將海量的文獻(xiàn)連貫的排列起來,并創(chuàng)建出簡(jiǎn)潔的文章摘要,將論文摘要和原文鏈接生成書籍,幫助讀者盡快獲取系列論文的重要內(nèi)容,還有助于讀者進(jìn)一步閱讀原始文章。 我們一起來看看AI寫書水平怎么樣: 上圖原文:隔膜的厚度和孔狀結(jié)構(gòu)應(yīng)該嚴(yán)格管控,為了滿足這兩項(xiàng)功能,機(jī)械強(qiáng)度和離子導(dǎo)電率之間應(yīng)達(dá)到良好的平衡??谞罱Y(jié)構(gòu)和材料的多孔性對(duì)于電池中分離器的性能也至關(guān)重要。 什么是機(jī)器學(xué)習(xí)?傳統(tǒng)的計(jì)算機(jī)編程只能重復(fù)性的運(yùn)行一種程序,只要不改變編程信息,程序運(yùn)行就永遠(yuǎn)不會(huì)發(fā)生改變。而機(jī)器學(xué)習(xí)是從示例中學(xué)習(xí)的軟件,不需要人為的編寫機(jī)器學(xué)習(xí)的運(yùn)行程序,通過提供大量的相關(guān)數(shù)據(jù)來訓(xùn)練它們,當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到一定量的時(shí)候,機(jī)器學(xué)習(xí)算法就能自動(dòng)通過數(shù)據(jù)中的重復(fù)信息總結(jié)出答案。不斷的訓(xùn)練也能不斷的提高機(jī)器學(xué)習(xí)的算法能力。 例如,你想教會(huì)機(jī)器算法“什么是貓”,就需要將大量貓的圖片輸入算法中標(biāo)記為“貓”,再將一些錯(cuò)誤的圖片標(biāo)記為“不是貓”。大量的數(shù)據(jù)訓(xùn)練后,機(jī)器算法就能通過這些數(shù)據(jù)中的重復(fù)性信息來做出判斷,當(dāng)你向程序提出“什么是貓”的問題時(shí),它將向你展示正確答案。 機(jī)器學(xué)習(xí)如何生成書籍?機(jī)器學(xué)習(xí)算法總結(jié)了2016年到2018年三年所發(fā)表的53000多篇關(guān)于鋰電子電池的研究論文,找出150多篇權(quán)威研究論文,并將這些論文的摘要進(jìn)行集合,同時(shí)將引用的文章鏈接附在摘要后,幫助讀者進(jìn)一步閱讀原始的文章。 提取海量文本中高質(zhì)量的內(nèi)容形成連貫的摘要,對(duì)于人類科學(xué)家來說是一個(gè)巨大的挑戰(zhàn),需要大量的時(shí)間和精力閱讀成千上萬的論文。而這本書中的摘要由機(jī)器學(xué)習(xí)通過算法完成,AI 的自動(dòng)掃描和總結(jié)輸出,讓科學(xué)家們把更多時(shí)間用在重要的研究上。 AI生成文本還存在許多問題機(jī)器學(xué)習(xí)的蓬勃發(fā)展極大地提高了計(jì)算機(jī)產(chǎn)生書面文字的能力,但這些輸出仍然受到嚴(yán)重限制。AI生成的文本是根據(jù)數(shù)據(jù)形成的統(tǒng)一的公式化內(nèi)容,無法像人類一樣創(chuàng)造更具連貫性和平衡性的內(nèi)容。所以像AI生成的小說或詩歌等內(nèi)容更傾向于是一種格式,而不是創(chuàng)造令人信服并喜歡的引人入勝的閱讀體驗(yàn)。 實(shí)際上,當(dāng)翻閱AI文本時(shí),不難發(fā)現(xiàn)其中會(huì)有很多亂碼和不連貫的句子。這項(xiàng)技術(shù)的關(guān)鍵難度在于能否生成適合人類閱讀習(xí)慣,表意清晰的AI文本。 卡內(nèi)基梅隆大學(xué)人機(jī)交互研究的副教授Jeff Bigham認(rèn)為,把高質(zhì)量的文本連貫的輸入系統(tǒng),再由系統(tǒng)生成具有可讀性的摘要并不是困難的事情,關(guān)鍵難點(diǎn)在于機(jī)器學(xué)習(xí)算法是否具備自動(dòng)提煉摘要的能力。 此外,AI生成文本還涉及到倫理方面的問題。比如:誰是機(jī)器生成內(nèi)容的創(chuàng)始人?算法的開發(fā)者能被視為生成作品的作者嗎?誰對(duì)機(jī)器生成的內(nèi)容負(fù)責(zé)? 機(jī)器學(xué)習(xí)算法發(fā)展到今天所做的更多的還是提出問題,而不是解決問題。新技術(shù)出現(xiàn)帶來的是一系列新技術(shù)本身發(fā)展和其他相關(guān)的引申問題。 目前機(jī)器學(xué)習(xí)算法已經(jīng)成功地開發(fā)出了第一個(gè)可以生成書籍的原型,但它對(duì)大型文本語料庫的精煉摘要仍然不完善,解釋文本、句法和短語關(guān)聯(lián)有時(shí)看起來仍然很笨拙。雖然為了凸顯機(jī)器生產(chǎn)內(nèi)容這一技術(shù)的突破,研究人員不會(huì)手動(dòng)潤(rùn)色或復(fù)制編輯任何文本,但是這也同時(shí)表明了機(jī)器學(xué)習(xí)還有很長(zhǎng)的路要走。 目前,這本書還有需要優(yōu)化改進(jìn)的地方,但這是AI在自然的語言輸出方面新的嘗試,這種不完美不能否定這一技術(shù)在機(jī)器學(xué)習(xí)領(lǐng)域的新成就。 結(jié)語:無限算法或?qū)⒏淖兪澜?/span>機(jī)器學(xué)習(xí)生成書籍的技術(shù)會(huì)給我們的工作和生活帶來極大的便利,如果你告訴系統(tǒng)“將過去4年的生物工程研究總結(jié)成一個(gè)50頁報(bào)告”幾分鐘后它就會(huì)把準(zhǔn)確的內(nèi)容發(fā)送給你?;谖谋镜撵`活性,你甚至可以使用西班牙語、韓語或其他任何語言向它發(fā)送請(qǐng)求。 機(jī)器學(xué)習(xí)給AI發(fā)展帶來了新的可能,AI技術(shù)的進(jìn)步改變著我們的生活,無限的算法也將給世界帶來無限的可能。 (原文來自:TechCrunch、TheVergeA、SpringerNature;智東西編譯整理) |
|