此外還有商品素材任意擴展尺寸功能,適應各種展示場合,大幅降低素材加工成本,避免人力返工。 最終從復盤數(shù)據(jù)來看,今年雙十一是新品牌、新商家、中小商家參與最多的一屆。 按往常來說,對于平臺功能不熟悉、操作不熟練會帶來不少麻煩,但今年在新技術的加入下,徹底把經(jīng)營店鋪的門檻降低了。 淘寶商家智能經(jīng)營工具線不足半月,就為女裝服飾商家提供了10w+次AI發(fā)品服務,發(fā)品時長較傳統(tǒng)發(fā)品降低25%。 基于大語言模型技術研發(fā)的中心化電商經(jīng)營Copilot,開啟內測后也為數(shù)萬商家提供了經(jīng)營知識問答、經(jīng)營工具調用、文案生成等多種經(jīng)營輔助能力,目前已經(jīng)為商家經(jīng)營提效超50w次。 AI技術在電商領域的首次大規(guī)模應用 算起來,ChatGPT發(fā)布接近一周年,AIGC文生圖的興起還要更早一些。 這期間每一次技術突破,都掀起一波創(chuàng)業(yè)或改造已有業(yè)務的浪潮。直到今年雙十一期間,AI在電商領域終于實現(xiàn)大規(guī)模應用,意義非比尋常: 不僅用于企業(yè)內部流程,還要面向終端用戶。而且是一次面對買家和賣家兩種特點、需求都截然不同的終端用戶。 這其中涉及大模型和AIGC文生圖兩大技術路線的融合創(chuàng)新,可以觀察到AI如何跨越從技術到應用的鴻溝,也能為更多行業(yè)帶來啟示。 先說更早興起的AIGC文生圖。2022年8月Stable Diffusion開源、算力需求小,開啟了AIGC商業(yè)化的序幕。 但Stable Diffusion的弱點也很快在實踐中暴露出來: 首先是生成的圖像不可控問題,特別是淘寶天貓所在的電商領域,對商品主體的呈現(xiàn)準確性要求極高。 其次是使用復雜,復雜的提示詞技巧就不好掌握,眾多需要調節(jié)的參數(shù)更是增加了學習成本。 轉機很快出現(xiàn)。1月份,ControlNet橫空出世,巧妙的通過添加輔助條件引導生成,一定程度上解決可控性問題,被譽為“改變游戲規(guī)則”。 這時,高手已經(jīng)可以用Stable Diffusion+ControlNet的組合來指定生成圖像的細節(jié)了,如人物姿態(tài)、整體布局等,相當于提升了AIGC文生圖的上限。 但對于淘寶天貓要服務的眾多普通用戶而言,這些引導方式的理解和使用成本依然很高。 23年8月,一項新技術IP-Adapter出現(xiàn),再次把穩(wěn)定按需生成圖像的門檻降低。 IP-Adapter相當于開辟了“用圖像當提示詞”的新方法,也可以當成ControlNet中的一個引導條件。 這樣一來,電商賣家在文生圖流程中利用好現(xiàn)成的商品照片即可,無需再學習掌握提示詞技巧或其他專業(yè)制圖知識,相當于進一步降低了AIGC的下限。 解決了基本的實用性問題,更深層次的需求又凸顯出來。 Stable Diffusion屬于預訓練模型,對世界的理解主要來自訓練階段的數(shù)據(jù)。 而電商領域又是快速變化的,每天都會上新大量商品,需要AI能不斷更新、持續(xù)學習。 這時,來自大語言模型的快速微調技術LoRA就派上用場,借鑒到AIGC文生圖領域被當做“知識/概念注入”的方法。 具體來說,LoRA在微調時會凍結模型的大部分權重,僅更新一小部分。同時更新后的權重還可單獨分離出來,每個只有幾十到上百MB大小。 在淘寶天貓的實踐中,LoRA相當于為商品和模特構建了數(shù)字分身,為商家沉淀數(shù)字資產(chǎn),可以進一步生成更加豐富多樣的商品或模特圖。 把LoRA加入流程后,又出現(xiàn)生成可控比較差的問題。如何讓LoRA生成的模特在像與美之間取得平衡,如何讓基于LoRA生成的商品精準還原商品細節(jié),都是需要進一步解決的應用挑戰(zhàn)。 此外淘寶天貓還在探索不用訓練即可將商品概念用于圖像生成的全新知識注入技術,直接在推理階段提供商品圖片即可,極大降低知識注入技術的應用成本,提升實時性。 AIGC要大規(guī)模應用,光是圍繞圖像生成模型Stable Diffusion本身的增強改造就有這么多。 但實際工作流程中,為了大幅降低生圖操作的復雜度,還有大量工作需要完成。 比如針對電商領域對商品主體必須準確呈現(xiàn)的需求,又加入了SAM分割萬物分模型,先把商品主體分離,再與AI生成的環(huán)境背景部分適配融合。 這樣一來確保了商品主體的準確呈現(xiàn),避免出現(xiàn)“貨不對版”,又能使商品主體與背景無縫融合, 讓光影看起來沒有破綻,有放置物感。 接下來還要結合局部細節(jié)修復、超分辨率、增加濾鏡等多個環(huán)節(jié)提高圖像質量,達到商用級別水準。 AIGC應用如此,大模型在電商領域走向大規(guī)模應用的歷程同樣困難重重。 特別是淘寶天貓要做的不是純粹的專業(yè)模型,而是一個有很強專業(yè)領域能力的通用模型,以解析淘寶用戶長尾的自然語言問題,理解更加精準的用戶意圖。 要實現(xiàn)這一點,在通用模型的基礎上首先要增加電商專業(yè)知識,在多年積累的電商行業(yè)數(shù)據(jù)中訓練。 但此時通用大模型還在根據(jù)輸入續(xù)寫文本,比如當用戶提出一個問題,模型很有可能按格式補充多個類似問題,而不是回答這個問題。 行業(yè)中解決這個問題的方法AI與人類偏好對齊。SFT(指令微調)讓大模型學會如何完成用戶的指令,RLHF(人類反饋強化學習)讓大模型學會什么樣的回答滿足人類偏好。在淘寶天貓的實踐中,產(chǎn)品上線后還能不斷迭代用戶的反饋偏好。 接下來要解決的是大模型回答中的,業(yè)內稱為“幻覺問題”。對此,淘寶天貓技術團隊從模型內外兩方面,雙管齊下去解決。 模型內,也就是在模型訓練階段就引入大量電商行業(yè)數(shù)據(jù)。 模型外,通過RAG(檢索增強生成)技術,針對不同的問題,調用不同的知識庫,獲取實時更新的商品信息。 更進一步的,針對需要實時調用外部工具的問題,淘寶天貓技術團隊利用Tool learning技術,優(yōu)化大模型理解工具、選擇工具和調用工具的能力,并提供可解釋的工具調用路徑,使回答內容更準確,回答形式更加豐富。 比如淘寶問問里用戶的一次普通查詢,不僅調用了大模型生成能力,還調用了淘寶商品推薦能力和內容社區(qū)的視頻推薦能力。更復雜的場景如旅行策劃,還會調用合作伙伴飛豬的機酒預訂能力。 最終,以淘寶問問為代表的一系列大模型產(chǎn)品,在大模型基礎上有意圖識別、任務規(guī)劃、記憶和使用外部工具能力,正朝著Agent(智能體)的方向發(fā)展,也就是大模型行業(yè)必爭的下一個階段。 雙十一大考,AI成績如何? 以往每年雙十一,對技術、工程來說都是一輪大考。今年對AI的加入來說,更增添了一層初次實戰(zhàn)檢驗的味道。 現(xiàn)在,淘寶天貓集團這一波AI成果,是不是也代表著一些明確的新趨勢? 首先,AI技術創(chuàng)新拓展了電商的邊界,增加了可能性。 購物從需要明確知道要買什么,去搜索。變成了只要有需求,都可以詢問AI。 即使之前不知道該買什么或者根本不認為能通過購買商品解決的需求,都可能由AI為你推薦出來。 其次,AI技術創(chuàng)新改進了商家的工作方式和生產(chǎn)效率。 與買家的情況相似但又不同,賣家被AI推薦的則是后臺功能、經(jīng)營工具。 以往商家使用淘寶天貓商家后臺的千牛工作臺,有不低的學習成本,功能太豐富,很多不知道在哪,甚至不知道某個功能的存在。 AI加持下,也變成了店鋪經(jīng)營過程中有任何需求就可以找AI,讓AI定位到合適的功能,或通過RAG技術解答商家的問題。 最后,雙十一雖已過去,但大量與AI交互留下寶貴的經(jīng)驗和數(shù)據(jù)。 淘寶天貓集團本就擁有完整的電商行業(yè)數(shù)據(jù)、行業(yè)經(jīng)驗,并憑借其打造出規(guī)模化的AI產(chǎn)品,雙十一期間產(chǎn)生大量用戶反饋數(shù)據(jù),又可以再投入到算法改進,最終形成滾雪球效應。 OpenAI開發(fā)者日標志著AI行業(yè)越來越卷,YC創(chuàng)始人Paul Graham給提出建議,若要在競爭中不被淘汰,需要做到: 不僅依賴AI,還依賴于特定領域的深厚領域知識 與終端用戶建立非常密切的關系 而這兩點,恰好也是淘寶天貓集團天生所擅長的。 在AIGC行業(yè)有個說法,“AI一天,人間一年”,期待明年618、雙十一,AI又能給我們帶來什么購物新體驗。 — 完 — |
|