生成式AI 一、 高通亮出AI PC軟硬件全家桶,聯(lián)手微軟建立AI PC新標準 1. 高通攜手微軟推出的Copilot+PC系列,成為AI PC新生態(tài)的重要推動力; 2. 高通的驍龍X系列處理器,特別是NPU技術(shù),在性能和能效方面顯著領(lǐng)先,成為AI PC實現(xiàn)顛覆性體驗的核心; 3. 高通通過廣泛的生態(tài)合作,與華碩、戴爾、惠普、聯(lián)想等公司合作推出基于驍龍X系列的AI PC產(chǎn)品,加速市場布局,領(lǐng)先蘋果一步。 https://mp.weixin.qq.com/s/OU3GFM_jS2BeRu3ToVy-JQ 二、 斯坦福讓“GPU高速運轉(zhuǎn)”的嵌入式CUDA工具ThunderKittens 1. 斯坦福設(shè)計了ThunderKittens工具,內(nèi)核代碼僅100行,性能比FlashAttention-2提升30%,優(yōu)化了H100 GPU的效率; 2. ThunderKittens利用寄存器和共享內(nèi)存的tiles抽象,簡化AI內(nèi)核編寫,充分發(fā)揮底層硬件能力,實現(xiàn)高硬件利用率; 3. 研究揭示了H100 GPU的特性,如WGMMA指令的復雜內(nèi)存布局、共享內(nèi)存的訪問延遲和TMA指令的異步數(shù)據(jù)傳輸?shù)闹匾浴?o:p> https://mp.weixin.qq.com/s/sRm7sfVQqXVJygc3AGJ3xQ 三、 OpenAI首次公開前沿大模型安全策略:基礎(chǔ)架構(gòu)、保護措施等 1. OpenAI首次公開大模型安全策略,涵蓋基礎(chǔ)架構(gòu)、保護措施、敏感數(shù)據(jù)存儲和訪問管理; 2. 使用Azure Entra ID和Kubernetes進行身份驗證和管理,確保最小權(quán)限訪問和安全網(wǎng)絡(luò)策略; 3. 引入AccessManager服務(wù)管理敏感數(shù)據(jù)訪問,多方批準機制保護模型權(quán)重,定期進行安全紅隊測試和合規(guī)評估。 https://mp.weixin.qq.com/s/8jJ-ytZob74HiurMRD2aoQ 四、 快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理 1. 快手推出的可靈大模型支持生成超120秒的高清視頻,能準確模擬復雜運動和物理特性; 2. 可靈采用類Sora的Transformer架構(gòu),結(jié)合自研技術(shù)實現(xiàn)高效計算和高質(zhì)量視頻生成; 3. 可靈已在快影APP中開放測試,支持多種控制信息輸入,并推出了AI舞王等多項應(yīng)用。 https://mp.weixin.qq.com/s/-knHZA4AU47EkkzIO7O18A 五、 “中國版Sora”視頻大模型Vidu重大更新,32秒音視頻合成 1. Vidu視頻大模型更新,實現(xiàn)32秒視頻生成,支持音視頻合成及4D內(nèi)容生成; 2. Vidu采用Diffusion與Transformer融合架構(gòu)U-ViT,實現(xiàn)1080P高清視頻生成,具備高動態(tài)性和時空一致性; 3. Vidu模型繼續(xù)迭代,提升長時長和多模態(tài)能力,獲得數(shù)億元融資,推動技術(shù)與產(chǎn)業(yè)應(yīng)用深度融合。 https://mp.weixin.qq.com/s/zOsgAm8v-C44qWhz-TSUsw 六、 開源音頻模型Stable Audio Open,文本生成47秒高清音效 1. Stability.ai開源Stable Audio Open,用戶可通過文本生成最多47秒、44.1kHz的高質(zhì)量音效,包括鋼琴、笛子、鼓點和模擬人聲; 2. Stable Audio Open支持數(shù)據(jù)微調(diào),音樂人可根據(jù)自身數(shù)據(jù)定制音效,生成的音效具備商業(yè)許可; 3. 模型使用近50萬個錄音數(shù)據(jù)訓練,支持英文提示詞,提供時間、擴散步數(shù)和CFG控制,但目前僅限學術(shù)研究使用。 https://mp.weixin.qq.com/s/bz0rtEwNyUWdlz8_3b40LQ 七、 Seed-TTS:幾乎完美接近人類的文本到語音(TTS)模型 1. Seed-TTS是字節(jié)開發(fā)的高級文本到語音模型,生成的語音幾乎無法與人類區(qū)分,適用于小說和視頻配音; 2. 支持情感、語調(diào)、說話風格等多種屬性的控制,能生成富有表現(xiàn)力的語音,滿足不同場景需求; 3. 具備Zero-shot能力和語音內(nèi)容編輯功能,無需訓練數(shù)據(jù)即可生成高質(zhì)量語音,并支持語音內(nèi)容和速度的靈活調(diào)整。 https://mp.weixin.qq.com/s/40y1jFJlFFjxoUWkgjnJbw 八、 Meta 翻譯大殺器NLLB200登上Nature:翻譯質(zhì)量提高44% 1. Meta發(fā)布No Language Left Behind (NLLB)模型,支持200種語言翻譯,質(zhì)量提升44%,尤其在低資源語言上表現(xiàn)顯著; 2. NLLB-200采用稀疏門控專家混合(MoE)架構(gòu),通過動態(tài)激活專家網(wǎng)絡(luò)優(yōu)化多語言任務(wù)的處理性能; 3. 項目使用創(chuàng)新的數(shù)據(jù)挖掘和多語言聯(lián)合訓練方法,提高了低資源語言的翻譯性能,并集成有害內(nèi)容檢測器以確保安全性。 https://mp.weixin.qq.com/s/YXBOrAxN56azQSi-vbst-g 前沿科技 九、 揭秘100年全球海洋脫氧,上交大通過人工智能重建「窒息的海洋」 1. 上海交大團隊開發(fā)OxyGenerator模型,利用AI重建1920至2023年全球海洋溶解氧數(shù)據(jù),重建性能超越傳統(tǒng)數(shù)值模式; 2. 模型顯示過去百年溶解氧最小值區(qū)域面積擴大三倍,揭示海洋脫氧趨勢對生態(tài)系統(tǒng)的影響; 3. OxyGenerator采用多層感知機、雙向LSTM和自適應(yīng)分區(qū)圖消息傳遞機制,結(jié)合海洋學知識,顯著提升重建精度。 https://mp.weixin.qq.com/s/57IZHBKqYp_sV9DX7bTyhw 報告觀點 十、 “AI 熱會逐漸降溫,AGI 普及不了多少場景!”對話《Core Java》作者 Cay Horstmann 1. Cay Horstmann認為AI熱潮將逐漸降溫,AGI普及場景有限,AI工具如Copilot可以輔助但不會取代人類開發(fā)者; 2. 強調(diào)學習多種編程語言的重要性,精通一種語言并掌握快速學習其他語言的能力更為關(guān)鍵; 3. 建議開發(fā)者通過開源項目和實際工作積累經(jīng)驗,并注重理解軟件工程和業(yè)務(wù)需求,倡導持續(xù)學習和實踐。 https://mp.weixin.qq.com/s/EjBdhK-22LuypcrX5vbCJQ ??訂閱下方合集,獲取每日推送 |
|