https://www.toutiao.com/article/7181669988107911735/?log_from=763a2a5a5c6c3_1679754126822 更成熟的AI更破圈的技術狂歡(AlphaTensor改進了目前最優(yōu)的4*4矩陣乘法) 2022 年在此起彼伏的咳嗽聲中接近尾聲,這一年,AIGC 成為人工智能領域最大黑馬,ScienceAI 有了更多實際落地的應用,這一年我們經(jīng)歷了各大廠商縮減預算、裁撤員工,也體驗了絕處逢生的技術狂歡…… 今天,我們將通過這篇文章,與各位同行共同回顧 2022 年那些人工智能領域具有突破性意義的研發(fā)成果。 data2vec 語音、視覺及文本自監(jiān)督學習的通用框架 發(fā)布機構:Meta AI 發(fā)布時間:2022 年 1 月 項目地址: https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec data2vec 是一個大一統(tǒng)的多模態(tài)自監(jiān)督學習模型,可以以較高的性能處理圖像、文本、語音等任務。 12 月 16 日 data2vec 2.0 發(fā)布,與現(xiàn)有的計算機視覺自監(jiān)督算法相比,相同精度下速度快了 16 倍。 data2vec 2.0 原理簡介 AlphaCode 競賽級別代碼生成 AI 發(fā)布機構:DeepMind 發(fā)布時間:2022 年 2 月 項目地址: https://github.com/deepmind/code_contests AlphaCode 借助大型語言模型,依據(jù)問題的語言描述構建代碼。在 Codeforces 挑戰(zhàn)賽中,AlphaCode 擊敗了 46% 的參賽者。該研究不僅登上了 Science 封面,還被該雜志評入年度十大科學突破。 AlphaCode 概覽 Dall·E 2 文本到圖像的生成工具 發(fā)布機構:OpenAI 發(fā)布時間:2022 年 4 月 項目地址:https:///dall-e-2/ Dall·E 2 依據(jù)文本描述,可以創(chuàng)建更加具有現(xiàn)實主義色彩的藝術圖像。與 OpenAI 2021 年發(fā)布的 Dall·E 相比,Dall·E 2 可以生成更真實、更準確的圖像,且分辨率提高了 4 倍。 An astronaut riding a horse in a photorealistic styleDall·E 2 生成的圖像示例 Gato 全能型智能體 發(fā)布機構:DeepMind 發(fā)布時間:2022 年 5 月 項目地址: https://www./blog/a-generalist-agent Gato 是一個全能型智能體,可以玩雅達利游戲、對圖像進行描述、聊天以及根據(jù)上下文決定輸出文本、關節(jié)扭力或其他 token。 這種通用模型解決所有任務類似人工智能,最終或超過特定于專門領域的模型。 ESM Fold 蛋白質結構預測模型 發(fā)布機構:Meta AI 發(fā)布時間:2022 年 7 月 項目地址: https://github.com/facebookresearch/esm ESM Fold 是一個預測蛋白質序列的模型,能夠直接進行高準確度、端對端、原子層級結構預測。它僅使用單個輸入序列,只需查看單個蛋白質序列,這極大加快了推理速度。 用 ESM Fold 進行單序列結構預測 Make-A-Video 依據(jù)文本生成視頻的 AI 系統(tǒng) 發(fā)布機構:MetaAI 發(fā)布時間:2022 年 9 月 項目地址:https://udio/ Make-A-Video 是一個文本-視頻生成模型,它通過帶有文字描述的圖像,來學習常用的描述方式,同時使用無標簽視頻,了解和學習移動方式。 Make-A-Video 生成的視頻風格多樣,對文本還原度高,是生成短視頻方面的 SOTA 模型。 依據(jù)文本描述生成視頻的部分示例 改進矩陣乘法,提升計算速度 發(fā)布機構:DeepMind 發(fā)布時間:2022 年 10 月 項目地址: https://github.com/deepmind/alphatensor AlphaTensor 改進了目前最優(yōu)的 4*4 矩陣乘法,并且進一步提升了其他 70 余種不同大小矩陣乘法計算速度。該成果登上了 Nature 封面,被 Scinece 雜志評入年度十大科學突破。 AlphaTensor 架構一覽 Magic 3D text-to-3D content 創(chuàng)建工具 發(fā)布機構:NVIDIA 發(fā)布時間:2022 年 11 月 項目地址: https:///Magic3D/ NVIDIA 入局 AIGC,憑文字描述就可生成 3D Mesh 模型。它結合 image conditioning 技術以及基于文本提示的編輯方法,提供了一個控制 3D 合成的新思路,使得創(chuàng)建高質量 3D Mesh 模型成為可能。 Magic 3D 通過兩個階段創(chuàng)建 text-to-3D content ChatGPT 超級對話模型 發(fā)布機構:OpenAI 發(fā)布時間:2022 年 11 月 項目地址: https:///blog/chatgpt/ ChatGPT 的訓練使用了 RLHF (Reinforcement Learning from Human Feedback),與 InstructGPT 使用的方法相同,僅在數(shù)據(jù)收集設置上有細微差別。 ChatGPT 可以像人類一樣聊天交流,完成撰寫郵件、視頻腳本、文案、翻譯及代碼等任務。自上線以來,引起了海內(nèi)外無數(shù)開發(fā)者的爭相試用和熱烈討論,堪稱 2022 年開發(fā)人員參與度最高的技術項目。 ChatGPT 訓練過程概覽 Point·E 依據(jù)文本描述生成 3D 點云 發(fā)布機構:OpenAI 發(fā)布時間:2022 年 12 月 項目地址: https://github.com/openai/point-e 用 Point·E 依據(jù)文本提示生成 3D 點云的過程分為三個步驟: 1、依據(jù)文本提示,生成一個合成視圖 (synthetic view) 2、依據(jù)合成視圖,生成 coarse point cloud (1024 point) 3、基于低分辨率點云和合成視圖,生成 fine point cloud (4096 Point) 利用 Point·E 單卡 1 分鐘生成 3D 點云,text-to 3D 告別高算力消耗時代。 冬去春來,暢想 20232022 即將畫上句點,2023 注定是充滿未知的一年,AIGC 領域會有哪些新成果?ScienceAI 將如何應對基礎科學與 AI 交叉帶來的挑戰(zhàn)?芯片研發(fā)、國產(chǎn)操作系統(tǒng),又會產(chǎn)生哪些新突破? 你對 2023 年人工智能領域的技術和應用有哪些預判,歡迎留言交流討論~ |
|
來自: 山峰云繞 > 《數(shù)理化天文自然科學工程》