軟件質(zhì)量報(bào)道 編者薦語: 謝濤老師也是“AI+軟件研發(fā)數(shù)字峰會(huì)(AiDD)”技術(shù)委員會(huì)成員之一,一直致力于提升國內(nèi)軟件工程教育水平和實(shí)踐能力。 以下文章來源于CSDN ,作者何苗 CSDN. 成就一億技術(shù)人 【CSDN 編者按】生成式 AI 的爆發(fā)已經(jīng)開始改變很多行業(yè)的工作方式,但對(duì)于軟件工程來說,轉(zhuǎn)型早就開始。一位頂級(jí)華人學(xué)者在一篇16年前的經(jīng)典論文中就已嘗試用智能化的方式解決特定的軟件工程領(lǐng)域的問題,在之后的十幾年,這篇智能化軟件開發(fā)領(lǐng)域的早期經(jīng)典代表作引領(lǐng)著無數(shù)技術(shù)人在軟件工程領(lǐng)域開疆拓土。 對(duì)話嘉賓: 謝濤 北京大學(xué)講席教授 北京大學(xué)講席教授、計(jì)算機(jī)學(xué)院軟件科學(xué)與工程系主任,歐洲科學(xué)院外籍院士、國際計(jì)算機(jī)學(xué)會(huì)(ACM)會(huì)士、電氣電子工程師學(xué)會(huì)(IEEE)會(huì)士、美國科學(xué)促進(jìn)會(huì)(AAAS)會(huì)士、中國計(jì)算機(jī)學(xué)會(huì)(CCF)會(huì)士。主要研究領(lǐng)域包括軟件工程,系統(tǒng)軟件,軟件安全,可信人工智能。 蔣濤 CSDN 創(chuàng)始人&董事長(zhǎng) 25 年軟件開發(fā)經(jīng)驗(yàn),曾領(lǐng)導(dǎo)開發(fā)了巨人手寫電腦、金山詞霸和超級(jí)解霸。 1999 年創(chuàng)辦 CSDN(China Software Developer Network)。CSDN 是專業(yè)的中文 IT 技術(shù)社區(qū),目前注冊(cè)會(huì)員超過 4300 萬,涵蓋 90% 國內(nèi) IT 開發(fā)從業(yè)人員。 2011 年創(chuàng)辦極客幫創(chuàng)投,作為懂技術(shù)的投資人,先后投資了聚合數(shù)據(jù)、巨杉數(shù)據(jù)庫、傳智播客、樂動(dòng)卓越(我叫 MT)、IT 桔子等 100 余家高科技創(chuàng)業(yè)公司。被投項(xiàng)目中 SequoiaDB 巨杉數(shù)據(jù)庫作為業(yè)界領(lǐng)先的金融級(jí)分布式關(guān)系型數(shù)據(jù)庫產(chǎn)品,連續(xù)兩年入選 Gartner 數(shù)據(jù)庫報(bào)告,傳智播客、檸檬微趣已于 2019 年、2017 年分別申報(bào)中小板和創(chuàng)業(yè)板上市,淘手游也被貴州省列為第一批科創(chuàng)板備案名單。 責(zé)編 | 何苗 出品 | CSDN(ID:CSDNnews) 2021 年,一篇發(fā)表于 ASE 2007 的經(jīng)典論文,讓 ASE 將「最有影響力論文」獎(jiǎng)項(xiàng)頒給了北京大學(xué)講席教授謝濤和當(dāng)時(shí)的博士生 Suresh Thummalapenta。ASE 與 ICSE、ESEC/FSE 并列為軟件工程三大國際頂會(huì),在 ASE 歷年最有影響力論文獎(jiǎng)獲獎(jiǎng)作者中,謝濤是首批華人作者。 這篇論文中,謝濤與學(xué)生提出用機(jī)器學(xué)習(xí)提高軟件研發(fā)效能的方法,將大規(guī)模的代碼搜索、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘結(jié)合。這也讓他成為最早開展智能化軟件工程研究的學(xué)者之一。 海外求學(xué)與執(zhí)教的 14 年后,謝濤尋得契機(jī)回到北大任講席教授,繼續(xù)高水平科研工作。作為最早開展智能化軟件工程研究的學(xué)者之一,他對(duì) AI 及其應(yīng)用的認(rèn)知深入底層,對(duì)于 AI 新秀 ChatGPT,他表示:“ChatGPT 是模式上的大進(jìn)步。它可以不停地對(duì)話,讓用戶把真正想要的東西表達(dá)清楚,僅僅是把需求搞清楚這一個(gè)點(diǎn),就能讓 AI 的效果和可用性往前邁一大步。”他相信未來中國也能夠做出自己的 ChatGPT。 近兩三年在智能化軟件工程領(lǐng)域,大模型得到了極大關(guān)注。Copilot 的驚艷首發(fā),讓大家看到大模型在代碼生成、代碼審查、代碼缺陷檢測(cè)等方面的巨大潛力。再加上 ChatGPT 的拿手交互式對(duì)話,AI 技術(shù)為基礎(chǔ)軟件的發(fā)展提供了哪些新的方向和機(jī)會(huì)?對(duì)國產(chǎn)基礎(chǔ)軟件行業(yè)的發(fā)展有著怎樣的展望?我們將從 CSDN 創(chuàng)始人&董事長(zhǎng)蔣濤與北京大學(xué)講席教授謝濤的深度對(duì)話中為大家悉數(shù)呈現(xiàn)。 視頻內(nèi)容收錄于今日頭條科學(xué)頻道聯(lián)合中國計(jì)算機(jī)學(xué)會(huì)(CCF)推出的“這很科學(xué)”之《科學(xué)真言》系列視頻。 視頻地址: 對(duì)話實(shí)錄: 蔣濤:當(dāng)前人工智能自動(dòng)生成代碼方面的發(fā)展?fàn)顩r如何? 謝濤:代碼自動(dòng)生成就是把實(shí)現(xiàn)用戶所需功能的代碼自動(dòng)生成出來。假設(shè)用戶需要一個(gè)快速排序算法的實(shí)現(xiàn)(給定的輸入是一個(gè)整型數(shù)組)。把這個(gè)需求以自然語言的方式給到代碼自動(dòng)生成系統(tǒng)后,系統(tǒng)就可自動(dòng)生成實(shí)現(xiàn)快速排序算法的代碼。這是一種比較常見形式。 除此之外還有其他的生成形式。還是以排序功能為例,此時(shí)給到代碼自動(dòng)生成系統(tǒng)的是一個(gè)形式化需求規(guī)約,其表達(dá)給定輸入為任意整型數(shù)組,輸出為一個(gè)對(duì)其經(jīng)過排序后得到的數(shù)組。系統(tǒng)就自動(dòng)生成實(shí)現(xiàn)排序功能的代碼,并不限定使用哪種排序算法。 如今代碼補(bǔ)全(也叫代碼續(xù)寫)是產(chǎn)業(yè)界軟件開發(fā)常用的一種工具輔助。類似于大家使用輸入法工具感受到的,打出前幾個(gè)字,后面工具就會(huì)自動(dòng)提示下文。代碼補(bǔ)全是代碼自動(dòng)生成當(dāng)前在產(chǎn)業(yè)界已經(jīng)落地的主要應(yīng)用場(chǎng)景之一。但從使用上,兩者有一些本質(zhì)的區(qū)別。代碼自動(dòng)生成可以在使用者讀不懂被生成的代碼或者不知道自己要寫什么樣代碼的情況下使用,而代碼補(bǔ)全通常要求使用者知道自己要敲什么代碼,AI 只是讓敲代碼更快些。 蔣濤:代碼自動(dòng)生成已經(jīng)在基于人工智能的代碼補(bǔ)全的基礎(chǔ)上更進(jìn)一步。隨著微軟的 GitHub 發(fā)布 Copilot,各大公司也都推出代碼自動(dòng)生成引擎,DeepMind 曾發(fā)布 AI 編程系統(tǒng) Alpha Code,但沒有引起太大反響,是因?yàn)樵摷夹g(shù)有一定局限性嗎? 謝濤:這里有好幾個(gè)局限性,也是科研攻關(guān)的重點(diǎn)。 要讓代碼自動(dòng)生成在某個(gè)軟件企業(yè)內(nèi)部落地,可能需要針對(duì)該企業(yè)軟件開發(fā)的本地特點(diǎn)再學(xué)習(xí)、再訓(xùn)練,以便更好地提供定制化服務(wù),要做好并不容易,不過我相信將來都可以解決。當(dāng)前用于代碼生成任務(wù)評(píng)估的常用數(shù)據(jù)集 HumanEval 是一個(gè)自包含的數(shù)據(jù)集,其中代碼通常沒有去調(diào)用第三方庫等。但在真實(shí)開發(fā)場(chǎng)景里,所寫的代碼很可能會(huì)去調(diào)用一些第三方庫或是自己寫的庫。 如果要生成的代碼調(diào)用了企業(yè)內(nèi)部的庫,就可以通過上述的再學(xué)習(xí)、再訓(xùn)練去應(yīng)對(duì),但要想效果好并不容易。 另外,所生成代碼的簡(jiǎn)單性、可理解性目前也沒有很好地解決。如果能有機(jī)制去確認(rèn)所生成的代碼完全正確,而不用使用者去看它、改它,就能在使用過程中省下很多時(shí)間。除了人肉眼看代碼外,如何保障生成代碼完全正確?或許可以提供一些測(cè)試用例,但它不一定能完備,代碼僅僅是通過了測(cè)試用例也不能讓人放心。當(dāng)然,也可以提供形式化需求規(guī)約并使用定理證明來證明所生成代碼符合給定的規(guī)約,不過這么做需要較大的人力投入,并且對(duì)其支撐的工具也尚未成熟到能應(yīng)對(duì)較大規(guī)模、產(chǎn)業(yè)實(shí)踐中的代碼。 蔣濤:寫完代碼或生成出來的代碼能用 AI 判定其質(zhì)量嗎? 謝濤:產(chǎn)業(yè)界已經(jīng)開始做這樣的嘗試,例如基于大數(shù)據(jù)或 AI研發(fā)出一個(gè)自動(dòng)代碼審查的工具。一些企業(yè)已經(jīng)部署了這類工具,以數(shù)據(jù)驅(qū)動(dòng)的方式來去輔助人工代碼審查。除了代碼審查外,AI 也可以助力測(cè)試任務(wù)。不過這些仍然是開放性的問題,需要長(zhǎng)期攻關(guān)才能讓落地效果足夠好。 蔣濤:人工智能越來越強(qiáng),會(huì)不會(huì)把普通人的飯碗搶了?甚至把程序員自己的飯碗也搶了?哪一類的程序員可能受到威脅? 謝濤:寫代碼時(shí)思考、設(shè)計(jì)較少的程序員崗位會(huì)受到威脅,比如傳統(tǒng)意義上的“碼農(nóng)”。代碼自動(dòng)生成在特定領(lǐng)域效果很好,比如面向終端用戶編程的一些領(lǐng)域。具體來說,BI 部門要緊張了,原先依賴于數(shù)據(jù)分析師根據(jù)數(shù)據(jù)分析需求去寫 SQL 語句、可視化腳本等,現(xiàn)在自然語言翻譯到 SQL 語句效果已經(jīng)做得很好。在各種軟件工程任務(wù)比如軟件測(cè)試上,將來測(cè)試數(shù)據(jù)生成、測(cè)試預(yù)言生成等都可以被 AI 去自動(dòng)化,前提條件是有足夠多足夠高質(zhì)量的數(shù)據(jù)去喂給 AI。不過,研發(fā)基礎(chǔ)軟件等復(fù)雜軟件的軟件工程師應(yīng)該不用發(fā)愁,因?yàn)檫@些研發(fā)工作太復(fù)雜了,應(yīng)該不會(huì)受到 AI 的威脅。 蔣濤:人工智能不僅是程序員的幫手,還會(huì)干掉一部分人重復(fù)性的工作。一些數(shù)據(jù)分析的工作,可能會(huì)逐漸被機(jī)器人取代,研發(fā)基礎(chǔ)軟件的工程師則不必過于擔(dān)憂。什么是基礎(chǔ)軟件?國內(nèi)發(fā)展現(xiàn)狀如何? 謝濤:業(yè)界對(duì)基礎(chǔ)軟件的定義范圍不盡相同,但基本共識(shí)是包括操作系統(tǒng)、編程語言、編譯器、數(shù)據(jù)庫管理系統(tǒng)、辦公軟件以及瀏覽器在內(nèi)。廣義的基礎(chǔ)軟件還包括一些開發(fā)工具、測(cè)試運(yùn)維工具等。辦公軟件因?yàn)樘S昧耍以诠ぷ髦刑幱陉P(guān)鍵位置,因此也成為了底座之一,現(xiàn)在被認(rèn)為是基礎(chǔ)軟件重要部分。此外,一些工業(yè)軟件支撐著工業(yè)應(yīng)用的底座,也被包含在特定行業(yè)的基礎(chǔ)軟件里。 國產(chǎn)基礎(chǔ)軟件有很多子領(lǐng)域存在卡脖子的情況,比如操作系統(tǒng),廣義的工業(yè)軟件 MATLAB 等等。也許大家要問 Linux、Android 等很多操作系統(tǒng)都是開源,怎么就被卡脖子了?很大一部分原因在于生態(tài)上的限制,導(dǎo)致其話語權(quán)不在我方。 國產(chǎn)操作系統(tǒng)近幾十年發(fā)展良好,國家也一直在支持。但現(xiàn)在主流國產(chǎn)操作系統(tǒng)的“心”(內(nèi)核)還是 Linux,盡管我國程序員與企業(yè)在 Linux 內(nèi)核的貢獻(xiàn)比例很大,甚至國內(nèi)大廠華為對(duì) Linux 內(nèi)核的貢獻(xiàn)如今位列第一,但是回到上述關(guān)鍵詞——話語權(quán),還是呈現(xiàn)貢獻(xiàn)者多但核心決策人員話語權(quán)少的狀況。但我國在大數(shù)據(jù)、 AI、云原生等相關(guān)的開源新興領(lǐng)域有一定話語權(quán)。中國新一代技術(shù)力量正迎頭趕上,企業(yè)的發(fā)展常常等不及其他人來引領(lǐng),就自得投入并孕育出不錯(cuò)的研發(fā)核心人才,也因此在新興領(lǐng)域有些建樹。 蔣濤:如何定義基礎(chǔ)軟件的核心人才? 謝濤:有這樣一個(gè)例子。回北大之前,我曾在 UIUC(University of Illinois at Urbana-Champaign,縮寫為 UIUC)計(jì)算機(jī)系任教。該系有個(gè) 2005 年畢業(yè)的博士名叫 Chris Lattner,他的博士生導(dǎo)師 Vikram Adve 也是我的前同事,他們推出的 LLVM 構(gòu)架編譯器與 GCC 并列為三大編譯器之一。Chris Lattner 后來被稱為 LLVM 之父。他的導(dǎo)師告訴我, Chris 在讀博期間就研制了 LLVM 編譯器的基礎(chǔ)設(shè)施,畢業(yè)后他就打定主意要去產(chǎn)業(yè)界,并且展現(xiàn)了很強(qiáng)的能力,拿下很多 offer,最終進(jìn)入了蘋果。Chris 當(dāng)時(shí)的想法是:“誰允許和支持我繼續(xù)把 LLVM 發(fā)揚(yáng)光大,我就去哪兒!”Apple 全力支持了此事,所以 LLVM 后面發(fā)展勢(shì)頭很好。這里我們可以看到基礎(chǔ)軟件核心人才身上的特點(diǎn)。 蔣濤:人工智能的應(yīng)用如今也非常廣泛,水能載舟亦能覆舟,AI 成為了一部分人的幫手,也成為了一些不法分子手里的利器。央視曾曝光詐騙集團(tuán)利用人工智能技術(shù)讓機(jī)器人打詐騙電話,撥出 1700 萬通電話,最后有 80 多萬人上當(dāng),總計(jì)騙取 1.8 億,而被騙的人從電話里根本分辨不出是機(jī)器人的聲音。有沒有 AI 技術(shù)可以輔助識(shí)別機(jī)器人騷擾電話,保護(hù)普通群眾? 謝濤:大數(shù)據(jù)、AI技術(shù)越來越多被詐騙團(tuán)伙等犯罪分子利用,使廣大用戶受害的事件層出不窮,要對(duì)其進(jìn)行絕對(duì)防治是很難的。就像安全領(lǐng)域的攻和防的關(guān)系,我們只能通過提高詐騙門檻來一定程度去防治。目前 AI 技術(shù)已經(jīng)使得發(fā)動(dòng)攻擊、詐騙的行動(dòng)變得門檻很低,也能做出很逼真的機(jī)器人合成聲,以及非常逼真的交談內(nèi)容。對(duì)于普通大眾用戶來說確實(shí)挺難防這些 AI 詐騙的手段。 以我的親身經(jīng)歷為例分享一下防騙心得。有騙子曾以短信詢問我某個(gè)業(yè)內(nèi)同行的電話號(hào)碼。這種詢問途徑其實(shí)不太常見,一般人不會(huì)直接就發(fā)短信來詢問另一個(gè)人的電話號(hào)碼。我們可以認(rèn)真分析,如果一件事情所發(fā)生的途徑并不自然且不常見,那么很可能就會(huì)有問題,要多加小心。 蔣濤:現(xiàn)在高仿技術(shù)越來越強(qiáng),Deep Fake 可以在視頻里換臉,高仿技術(shù)現(xiàn)在能做到什么樣的程度?怎么樣甄別高仿網(wǎng)站或者 App? 謝濤:仿冒的網(wǎng)站、App、郵箱、微信,詐騙短信、電話等,從照片內(nèi)容來看是防不勝防,詐騙分子會(huì)做得很逼真。普通用戶要學(xué)會(huì)看來源,看一些外圍的信息。比如說看網(wǎng)站的 URL 鏈接。有些電子郵件里面包含網(wǎng)站鏈接時(shí),它字面顯示出來的鏈接和你復(fù)制粘貼到瀏覽器里的鏈接有可能是不一樣的。有一次我收。有一次一個(gè)郵件要求我重設(shè)某賬戶的密碼,由于我對(duì)軟件安全比較敏感,因此沒有直接點(diǎn)擊郵件內(nèi)的網(wǎng)址鏈接,而是復(fù)制粘貼這個(gè)鏈接至瀏覽器出來,這時(shí)就很快發(fā)現(xiàn)了網(wǎng)址有問題。因此,養(yǎng)成慎重打開鏈接的習(xí)慣很重要。 對(duì)于不懂 IT 的老年人,有一個(gè)針對(duì)移動(dòng)應(yīng)用或網(wǎng)站老年人用戶的方向——適老化改造,探索怎么樣才能讓移動(dòng)應(yīng)用或網(wǎng)站等對(duì)老年人用戶更友好。例如,首先技術(shù)上要有防詐騙手段支撐,包括 UI 設(shè)計(jì)、報(bào)警提醒等措施。在使用 AI模型到這些場(chǎng)景的時(shí)候,參數(shù)要設(shè)置成更大程度去保護(hù)老年人用戶,因?yàn)樗麄儽或_的成功概率更高。從老年人用戶自身的角度來看,接到一個(gè)電話要先看看來源是哪里,現(xiàn)在智能手機(jī)可自動(dòng)標(biāo)注來源,老年人要注重去看這些細(xì)節(jié),不要太輕信一些來源不明的信息或者是電話。 |
|