不同的業(yè)務(wù)采用不同的系統(tǒng)架構(gòu),會(huì)有自己的一些特色架構(gòu)難題。今天我們來學(xué)習(xí)下電商業(yè)務(wù)中的訂單中心的架構(gòu)設(shè)計(jì),以及會(huì)遇到哪些技術(shù)挑戰(zhàn)。 一、背景 隨著用戶量級(jí)的快速增長,vivo 官方商城 v1.0 的單體架構(gòu)逐漸暴露出弊端:模塊愈發(fā)臃腫、開發(fā)效率低下、性能出現(xiàn)瓶頸、系統(tǒng)維護(hù)困難。 從2017年開始啟動(dòng)的 v2.0 架構(gòu)升級(jí),基于業(yè)務(wù)模塊進(jìn)行垂直的系統(tǒng)物理拆分,拆分出來業(yè)務(wù)線各司其職,提供服務(wù)化的能力,共同支撐主站業(yè)務(wù)。 訂單模塊是電商系統(tǒng)的交易核心,不斷累積的數(shù)據(jù)即將達(dá)到單表存儲(chǔ)瓶頸,系統(tǒng)難以支撐新品發(fā)布和大促活動(dòng)期間的流量,服務(wù)化改造勢(shì)在必行。 本文將介紹 vivo 商城 訂單系統(tǒng)建設(shè)的過程中遇到的問題和解決方案,分享架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)。 二、系統(tǒng)架構(gòu) 將訂單模塊從商城拆分出來,獨(dú)立為訂單系統(tǒng),使用獨(dú)立的數(shù)據(jù)庫,為商城相關(guān)系統(tǒng)提供訂單、支付、物流、售后等標(biāo)準(zhǔn)化服務(wù)。 系統(tǒng)架構(gòu)如下圖所示: 三、技術(shù)挑戰(zhàn) 3.1 數(shù)據(jù)量和高并發(fā)問題 首先面對(duì)的挑戰(zhàn)來自存儲(chǔ)系統(tǒng):
下面對(duì)這些方案進(jìn)行簡單描述:
我們綜合考慮了改造成本、效果和對(duì)現(xiàn)有業(yè)務(wù)的影響,決定直接使用最后一招:分庫分表 3.2 分庫分表技術(shù)選型 分庫分表的技術(shù)選型主要從這幾個(gè)方向考慮:
參考之前項(xiàng)目經(jīng)驗(yàn),并與公司中間件團(tuán)隊(duì)溝通后,采用了開源的Sharding-JDBC方案。現(xiàn)已更名為Sharding-Sphere。
3.2.1 分庫分表策略 結(jié)合業(yè)務(wù)特性,選取用戶標(biāo)識(shí)作為分片鍵,通過計(jì)算用戶標(biāo)識(shí)的哈希值再取模來得到用戶訂單數(shù)據(jù)的庫表編號(hào). 假設(shè)共有n個(gè)庫,每個(gè)庫有m張表, 則庫表編號(hào)的計(jì)算方式為:
路由過程如下圖所示: 3.2.2 分庫分表的局限性和應(yīng)對(duì)方案 分庫分表解決了數(shù)據(jù)量和并發(fā)問題,但它會(huì)極大限制數(shù)據(jù)庫的查詢能力,有一些之前很簡單的關(guān)聯(lián)查詢,在分庫分表之后可能就沒法實(shí)現(xiàn)了,那就需要單獨(dú)對(duì)這些Sharding-JDBC不支持的SQL進(jìn)行改寫。 除此之外,還遇到了這些挑戰(zhàn): (1)全局唯一ID設(shè)計(jì) 分庫分表后,數(shù)據(jù)庫自增主鍵不再全局唯一,不能作為訂單號(hào)來使用,但很多內(nèi)部系統(tǒng)間的交互接口只有訂單號(hào),沒有用戶標(biāo)識(shí)這個(gè)分片鍵,如何用訂單號(hào)來找到對(duì)應(yīng)的庫表呢? 原來,我們?cè)谏捎唵翁?hào)時(shí),就將庫表編號(hào)隱含在其中了。這樣就能在沒有用戶標(biāo)識(shí)的場景下,從訂單號(hào)中獲取庫表編號(hào)。 (2)歷史訂單號(hào)沒有隱含庫表信息 用一張表單獨(dú)存儲(chǔ)歷史訂單號(hào)和用戶標(biāo)識(shí)的映射關(guān)系,隨著時(shí)間推移,這些訂單逐漸不在系統(tǒng)間交互,就慢慢不再被用到。 (3)管理后臺(tái)需要根據(jù)各種篩選條件,分頁查詢所有滿足條件的訂單 將訂單數(shù)據(jù)冗余存儲(chǔ)在搜索引擎Elasticsearch中,僅用于后臺(tái)查詢。 3.3 怎么做 MySQL 到 ES 的數(shù)據(jù)同步 上面說到為了便于管理后臺(tái)的查詢,我們將訂單數(shù)據(jù)冗余存儲(chǔ)在Elasticsearch中,那么,如何在MySQL的訂單數(shù)據(jù)變更后,同步到ES中呢? 這里要考慮的是數(shù)據(jù)同步的時(shí)效性和一致性、對(duì)業(yè)務(wù)代碼侵入小、不影響服務(wù)本身的性能等。
其中BinLog方案比較通用,但實(shí)現(xiàn)起來也較為復(fù)雜,我們最終選用的是MQ方案。 因?yàn)镋S數(shù)據(jù)只在管理后臺(tái)使用,對(duì)數(shù)據(jù)可靠性和同步實(shí)時(shí)性的要求不是特別高。 考慮到宕機(jī)和消息丟失等極端情況,在后臺(tái)增加了按某些條件手動(dòng)同步ES數(shù)據(jù)的功能來進(jìn)行補(bǔ)償。 3.4 如何安全地更換數(shù)據(jù)庫 如何將數(shù)據(jù)從原來的單實(shí)例數(shù)據(jù)庫遷移到新的數(shù)據(jù)庫集群,也是一大技術(shù)挑戰(zhàn) 不但要確保數(shù)據(jù)的正確性,還要保證每執(zhí)行一個(gè)步驟后,一旦出現(xiàn)問題,能快速地回滾到上一個(gè)步驟。 我們考慮了停機(jī)遷移和不停機(jī)遷移的兩種方案: (1)不停機(jī)遷移方案:
(2)停機(jī)遷移方案:
考慮到不停機(jī)方案的改造成本較高,而夜間停機(jī)方案的業(yè)務(wù)損失并不大,最終選用的是停機(jī)遷移方案。 3.5 分布式事務(wù)問題 電商的交易流程中,分布式事務(wù)是一個(gè)經(jīng)典問題,比如:
我們是如何保證微服務(wù)架構(gòu)下數(shù)據(jù)的一致性呢? 不同業(yè)務(wù)場景對(duì)數(shù)據(jù)一致性的要求不同,業(yè)界的主流方案中,用于解決強(qiáng)一致性的有兩階段提交(2PC)、三階段提交(3PC),解決最終一致性的有TCC、本地消息、事務(wù)消息和最大努力通知等。 這里不對(duì)上述方案進(jìn)行詳細(xì)的描述,介紹一下我們正在使用的本地消息表方案:在本地事務(wù)中將要執(zhí)行的異步操作記錄在消息表中,如果執(zhí)行失敗,可以通過定時(shí)任務(wù)來補(bǔ)償。 下圖以訂單完成后通知積分系統(tǒng)贈(zèng)送積分為例。 3.6 系統(tǒng)安全和穩(wěn)定性
3.7 踩過的坑 采用MQ消費(fèi)的方式同步數(shù)據(jù)庫的訂單相關(guān)數(shù)據(jù)到ES中,遇到的寫入數(shù)據(jù)不是訂單最新數(shù)據(jù)問題 下圖左邊是原方案: 在消費(fèi)訂單數(shù)據(jù)同步的MQ時(shí),如果線程A在先執(zhí)行,查出數(shù)據(jù),這時(shí)候訂單數(shù)據(jù)被更新了,線程B開始執(zhí)行同步操作,查出訂單數(shù)據(jù)后先于線程A一步寫入ES中,線程A執(zhí)行寫入時(shí)就會(huì)將線程B寫入的數(shù)據(jù)覆蓋,導(dǎo)致ES中的訂單數(shù)據(jù)不是最新的。 解決方案是在查詢訂單數(shù)據(jù)時(shí)加行鎖,整個(gè)業(yè)務(wù)執(zhí)行在事務(wù)中,執(zhí)行完成后再執(zhí)行下一個(gè)線程。 sharding-jdbc 分組后排序分頁查詢出所有數(shù)據(jù)問題 示例:select a from temp group by a,b order by a desc limit 1,10。 執(zhí)行是Sharding-jdbc里group by 和 order by 字段和順序不一致是將10置為Integer.MAX_VALUE, 導(dǎo)致分頁查詢失效。
正確的寫法應(yīng)該是 select a from temp group by a desc ,b limit 1,10 ; 使用的版本是sharing-jdbc的3.1.1。 ES分頁查詢?nèi)绻判蜃侄未嬖谥貜?fù)的值,最好加一個(gè)唯一的字段作為第二排序條件,避免分頁查詢時(shí)漏掉數(shù)據(jù)、查出重復(fù)數(shù)據(jù),比如用的是訂單創(chuàng)建時(shí)間作為唯一排序條件,同一時(shí)間如果存在很多數(shù)據(jù),就會(huì)導(dǎo)致查詢的訂單存在遺漏或重復(fù),需要增加一個(gè)唯一值作為第二排序條件或者直接使用唯一值作為排序條件。 四、成果
五、結(jié)語 我們?cè)谙到y(tǒng)設(shè)計(jì)時(shí)并沒有一味追求前沿技術(shù)和思想,面對(duì)問題時(shí)也不是直接采用主流電商的解決方案,而是根據(jù)業(yè)務(wù)實(shí)際狀況來選取最合適的辦法。 個(gè)人覺得,一個(gè)好的系統(tǒng)不是在一開始就被大牛設(shè)計(jì)出來的,一定是隨著業(yè)務(wù)的發(fā)展和演進(jìn)逐漸被迭代出來的,持續(xù)預(yù)判業(yè)務(wù)發(fā)展方向,提前制定架構(gòu)演進(jìn)方案,簡單來說就是:走到業(yè)務(wù)的前面去! |
|