騰訊研究院AI速遞 20240607

江海博覽 2024-06-15 發(fā)布于浙江

展開全文

生成式AI

一、高通亮出AI PC軟硬件全家桶，聯(lián)手微軟建立AI PC新標準

1. 高通攜手微軟推出的Copilot+PC系列，成為AI PC新生態(tài)的重要推動力；

2. 高通的驍龍X系列處理器，特別是NPU技術(shù)，在性能和能效方面顯著領(lǐng)先，成為AI PC實現(xiàn)顛覆性體驗的核心；

3. 高通通過廣泛的生態(tài)合作，與華碩、戴爾、惠普、聯(lián)想等公司合作推出基于驍龍X系列的AI PC產(chǎn)品，加速市場布局，領(lǐng)先蘋果一步。

https://mp.weixin.qq.com/s/OU3GFM_jS2BeRu3ToVy-JQ

二、斯坦福讓“GPU高速運轉(zhuǎn)”的嵌入式CUDA工具ThunderKittens

1. 斯坦福設(shè)計了ThunderKittens工具，內(nèi)核代碼僅100行，性能比FlashAttention-2提升30%，優(yōu)化了H100 GPU的效率；

2. ThunderKittens利用寄存器和共享內(nèi)存的tiles抽象，簡化AI內(nèi)核編寫，充分發(fā)揮底層硬件能力，實現(xiàn)高硬件利用率；

3. 研究揭示了H100 GPU的特性，如WGMMA指令的復雜內(nèi)存布局、共享內(nèi)存的訪問延遲和TMA指令的異步數(shù)據(jù)傳輸?shù)闹匾浴?o:p>

https://mp.weixin.qq.com/s/sRm7sfVQqXVJygc3AGJ3xQ

三、 OpenAI首次公開前沿大模型安全策略：基礎(chǔ)架構(gòu)、保護措施等

1. OpenAI首次公開大模型安全策略，涵蓋基礎(chǔ)架構(gòu)、保護措施、敏感數(shù)據(jù)存儲和訪問管理；

2. 使用Azure Entra ID和Kubernetes進行身份驗證和管理，確保最小權(quán)限訪問和安全網(wǎng)絡(luò)策略；

3. 引入AccessManager服務(wù)管理敏感數(shù)據(jù)訪問，多方批準機制保護模型權(quán)重，定期進行安全紅隊測試和合規(guī)評估。

https://mp.weixin.qq.com/s/8jJ-ytZob74HiurMRD2aoQ

四、快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理

1. 快手推出的可靈大模型支持生成超120秒的高清視頻，能準確模擬復雜運動和物理特性；

2. 可靈采用類Sora的Transformer架構(gòu)，結(jié)合自研技術(shù)實現(xiàn)高效計算和高質(zhì)量視頻生成；

3. 可靈已在快影APP中開放測試，支持多種控制信息輸入，并推出了AI舞王等多項應(yīng)用。

https://mp.weixin.qq.com/s/-knHZA4AU47EkkzIO7O18A

五、 “中國版Sora”視頻大模型Vidu重大更新，32秒音視頻合成

1. Vidu視頻大模型更新，實現(xiàn)32秒視頻生成，支持音視頻合成及4D內(nèi)容生成；

2. Vidu采用Diffusion與Transformer融合架構(gòu)U-ViT，實現(xiàn)1080P高清視頻生成，具備高動態(tài)性和時空一致性；

3. Vidu模型繼續(xù)迭代，提升長時長和多模態(tài)能力，獲得數(shù)億元融資，推動技術(shù)與產(chǎn)業(yè)應(yīng)用深度融合。

https://mp.weixin.qq.com/s/zOsgAm8v-C44qWhz-TSUsw

六、開源音頻模型Stable Audio Open，文本生成47秒高清音效

1. Stability.ai開源Stable Audio Open，用戶可通過文本生成最多47秒、44.1kHz的高質(zhì)量音效，包括鋼琴、笛子、鼓點和模擬人聲；

2. Stable Audio Open支持數(shù)據(jù)微調(diào)，音樂人可根據(jù)自身數(shù)據(jù)定制音效，生成的音效具備商業(yè)許可；

3. 模型使用近50萬個錄音數(shù)據(jù)訓練，支持英文提示詞，提供時間、擴散步數(shù)和CFG控制，但目前僅限學術(shù)研究使用。

https://mp.weixin.qq.com/s/bz0rtEwNyUWdlz8_3b40LQ

七、 Seed-TTS：幾乎完美接近人類的文本到語音（TTS）模型

1. Seed-TTS是字節(jié)開發(fā)的高級文本到語音模型，生成的語音幾乎無法與人類區(qū)分，適用于小說和視頻配音；

2. 支持情感、語調(diào)、說話風格等多種屬性的控制，能生成富有表現(xiàn)力的語音，滿足不同場景需求；

3. 具備Zero-shot能力和語音內(nèi)容編輯功能，無需訓練數(shù)據(jù)即可生成高質(zhì)量語音，并支持語音內(nèi)容和速度的靈活調(diào)整。

https://mp.weixin.qq.com/s/40y1jFJlFFjxoUWkgjnJbw

八、 Meta 翻譯大殺器NLLB200登上Nature：翻譯質(zhì)量提高44%

1. Meta發(fā)布No Language Left Behind (NLLB)模型，支持200種語言翻譯，質(zhì)量提升44%，尤其在低資源語言上表現(xiàn)顯著；

2. NLLB-200采用稀疏門控專家混合（MoE）架構(gòu)，通過動態(tài)激活專家網(wǎng)絡(luò)優(yōu)化多語言任務(wù)的處理性能；

3. 項目使用創(chuàng)新的數(shù)據(jù)挖掘和多語言聯(lián)合訓練方法，提高了低資源語言的翻譯性能，并集成有害內(nèi)容檢測器以確保安全性。

https://mp.weixin.qq.com/s/YXBOrAxN56azQSi-vbst-g

前沿科技

九、揭秘100年全球海洋脫氧，上交大通過人工智能重建「窒息的海洋」

1. 上海交大團隊開發(fā)OxyGenerator模型，利用AI重建1920至2023年全球海洋溶解氧數(shù)據(jù)，重建性能超越傳統(tǒng)數(shù)值模式；

2. 模型顯示過去百年溶解氧最小值區(qū)域面積擴大三倍，揭示海洋脫氧趨勢對生態(tài)系統(tǒng)的影響；

3. OxyGenerator采用多層感知機、雙向LSTM和自適應(yīng)分區(qū)圖消息傳遞機制，結(jié)合海洋學知識，顯著提升重建精度。

https://mp.weixin.qq.com/s/57IZHBKqYp_sV9DX7bTyhw

報告觀點

十、 “AI 熱會逐漸降溫，AGI 普及不了多少場景！”對話《Core Java》作者 Cay Horstmann

1. Cay Horstmann認為AI熱潮將逐漸降溫，AGI普及場景有限，AI工具如Copilot可以輔助但不會取代人類開發(fā)者；

2. 強調(diào)學習多種編程語言的重要性，精通一種語言并掌握快速學習其他語言的能力更為關(guān)鍵；

3. 建議開發(fā)者通過開源項目和實際工作積累經(jīng)驗，并注重理解軟件工程和業(yè)務(wù)需求，倡導持續(xù)學習和實踐。

https://mp.weixin.qq.com/s/EjBdhK-22LuypcrX5vbCJQ

??訂閱下方合集，獲取每日推送

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：江海博覽 > 《國際》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

江海博覽

關(guān)注對話

TA的最新館藏

國家能源局：2025年我國將核準開工一批條件成熟的沿海核電項目
教育部新規(guī)：碩士學歷成教師必備條件，考研成為入編前提！
北青快評 | “僅退款”需雙向制約才能雙向保護
我國啟動“紙質(zhì)標準”數(shù)字化轉(zhuǎn)型，已立項15個國家標準
微信更新了，又發(fā)布2個新功能！
“曾主導市場的美國，首次向中企求購”

喜歡該文的人也喜歡更多

熱門閱讀換一換

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

騰訊研究院AI速遞 20240607