作者:邵曉明 編輯:小智
常見性能優(yōu)化策略分類代碼之所以把代碼放到第一位,是因?yàn)檫@一點(diǎn)最容易引起技術(shù)人員的忽視。很多技術(shù)人員拿到一個(gè)性能優(yōu)化的需求以后,言必稱緩存、異步、JVM等。實(shí)際上,第一步就應(yīng)該是分析相關(guān)的代碼,找出相應(yīng)的瓶頸,再來考慮具體的優(yōu)化策略。有一些性能問題,完全是由于代碼寫的不合理,通過直接修改一下代碼就能解決問題的,比如for循環(huán)次數(shù)過多、作了很多無謂的條件判斷、相同邏輯重復(fù)多次等。 數(shù)據(jù)庫數(shù)據(jù)庫的調(diào)優(yōu),總的來說分為以下三部分: SQL調(diào)優(yōu)這是最常用、每一個(gè)技術(shù)人員都應(yīng)該掌握基本的SQL調(diào)優(yōu)手段(包括方法、工具、輔助系統(tǒng)等)。這里以MySQL為例,最常見的方式是,由自帶的慢查詢?nèi)罩净蛘唛_源的慢查詢系統(tǒng)定位到具體的出問題的SQL,然后使用explain、profile等工具來逐步調(diào)優(yōu),最后經(jīng)過測試達(dá)到效果后上線。這方面的細(xì)節(jié),可以參考MySQL索引原理及慢查詢優(yōu)化。 架構(gòu)層面的調(diào)優(yōu)這一類調(diào)優(yōu)包括讀寫分離、多從庫負(fù)載均衡、水平和垂直分庫分表等方面,一般需要的改動較大,但是頻率沒有SQL調(diào)優(yōu)高,而且一般需要DBA來配合參與。那么什么時(shí)候需要做這些事情?我們可以通過內(nèi)部監(jiān)控報(bào)警系統(tǒng)(比如Zabbix),定期跟蹤一些指標(biāo)數(shù)據(jù)是否達(dá)到瓶頸,一旦達(dá)到瓶頸或者警戒值,就需要考慮這些事情。通常,DBA也會定期監(jiān)控這些指標(biāo)值。 連接池調(diào)優(yōu)我們的應(yīng)用為了實(shí)現(xiàn)數(shù)據(jù)庫連接的高效獲取、對數(shù)據(jù)庫連接的限流等目的,通常會采用連接池類的方案,即每一個(gè)應(yīng)用節(jié)點(diǎn)都管理了一個(gè)到各個(gè)數(shù)據(jù)庫的連接池。隨著業(yè)務(wù)訪問量或者數(shù)據(jù)量的增長,原有的連接池參數(shù)可能不能很好地滿足需求,這個(gè)時(shí)候就需要結(jié)合當(dāng)前使用連接池的原理、具體的連接池監(jiān)控?cái)?shù)據(jù)和當(dāng)前的業(yè)務(wù)量作一個(gè)綜合的判斷,通過反復(fù)的幾次調(diào)試得到最終的調(diào)優(yōu)參數(shù)。 緩存分類本地緩存(HashMap/ConcurrentHashMap、Ehcache、Guava Cache等),緩存服務(wù)(Redis/Tair/Memcache等)。 使用場景什么情況適合用緩存?考慮以下兩種場景:
選型考慮
設(shè)計(jì)關(guān)鍵點(diǎn)什么時(shí)候更新緩存?如何保障更新的可靠性和實(shí)時(shí)性?更新緩存的策略,需要具體問題具體分析。這里以門店P(guān)OI的緩存數(shù)據(jù)為例,來說明一下緩存服務(wù)型的緩存更新策略是怎樣的?目前約10萬個(gè)POI數(shù)據(jù)采用了Tair作為緩存服務(wù),具體更新的策略有兩個(gè):
緩存是否會滿,緩存滿了怎么辦?對于一個(gè)緩存服務(wù),理論上來說,隨著緩存數(shù)據(jù)的日益增多,在容量有限的情況下,緩存肯定有一天會滿的。如何應(yīng)對?
緩存是否允許丟失?丟失了怎么辦?根據(jù)業(yè)務(wù)場景判斷,是否允許丟失。如果不允許,就需要帶持久化功能的緩存服務(wù)來支持,比如Redis或者Tair。更細(xì)節(jié)的話,可以根據(jù)業(yè)務(wù)對丟失時(shí)間的容忍度,還可以選擇更具體的持久化策略,比如Redis的RDB或者AOF。 緩存被“擊穿”問題對于一些設(shè)置了過期時(shí)間的key,如果這些key可能會在某些時(shí)間點(diǎn)被超高并發(fā)地訪問,是一種非?!盁狳c(diǎn)”的數(shù)據(jù)。這個(gè)時(shí)候,需要考慮另外一個(gè)問題:緩存被“擊穿”的問題。
異步使用場景針對某些客戶端的請求,在服務(wù)端可能需要針對這些請求做一些附屬的事情,這些事情其實(shí)用戶并不關(guān)心或者用戶不需要立即拿到這些事情的處理結(jié)果,這種情況就比較適合用異步的方式處理這些事情。 作用
常見做法一種做法,是額外開辟線程,這里可以采用額外開辟一個(gè)線程或者使用線程池的做法,在IO線程(處理請求響應(yīng))之外的線程來處理相應(yīng)的任務(wù),在IO線程中讓response先返回。 如果異步線程處理的任務(wù)設(shè)計(jì)的數(shù)據(jù)量非常巨大,那么可以引入阻塞隊(duì)列BlockingQueue作進(jìn)一步的優(yōu)化。具體做法是讓一批異步線程不斷地往阻塞隊(duì)列里扔數(shù)據(jù),然后額外起一個(gè)處理線程,循環(huán)批量從隊(duì)列里拿預(yù)設(shè)大小的一批數(shù)據(jù),來進(jìn)行批處理(比如發(fā)一個(gè)批量的遠(yuǎn)程服務(wù)請求),這樣進(jìn)一步提高了性能。 另一種做法,是使用消息隊(duì)列(MQ)中間件服務(wù),MQ天生就是異步的。一些額外的任務(wù),可能不需要我這個(gè)系統(tǒng)來處理,但是需要其他系統(tǒng)來處理。這個(gè)時(shí)候可以先把它封裝成一個(gè)消息,扔到消息隊(duì)列里面,通過消息中間件的可靠性保證把消息投遞到關(guān)心它的系統(tǒng),然后讓這個(gè)系統(tǒng)來做相應(yīng)的處理。 比如C端在完成一個(gè)提單動作以后,可能需要其它端做一系列的事情,但是這些事情的結(jié)果不會立刻對C端用戶產(chǎn)生影響,那么就可以先把C端下單的請求響應(yīng)先返回給用戶,返回之前往MQ中發(fā)一個(gè)消息即可。而且這些事情理應(yīng)不是C端的負(fù)責(zé)范圍,所以這個(gè)時(shí)候用MQ的方式,來解決這個(gè)問題最合適。 NoSQL和緩存的區(qū)別先說明一下,這里介紹的和緩存那一節(jié)不一樣,雖然可能會使用一樣的數(shù)據(jù)存儲方案(比如Redis或者Tair),但是使用的方式不一樣,這一節(jié)介紹的是把它作為DB來用。如果當(dāng)作DB來用,需要有效保證數(shù)據(jù)存儲方案的可用性、可靠性。 使用場景需要結(jié)合具體的業(yè)務(wù)場景,看這塊業(yè)務(wù)涉及的數(shù)據(jù)是否適合用NoSQL來存儲,對數(shù)據(jù)的操作方式是否適合用NoSQL的方式來操作,或者是否需要用到NoSQL的一些額外特性(比如原子加減等)。 如果業(yè)務(wù)數(shù)據(jù)不需要和其他數(shù)據(jù)作關(guān)聯(lián),不需要事務(wù)或者外鍵之類的支持,而且有可能寫入會異常頻繁,這個(gè)時(shí)候就比較適合用NoSQL(比如HBase)。 比如,美團(tuán)點(diǎn)評內(nèi)部有一個(gè)對exception做的監(jiān)控系統(tǒng),如果在應(yīng)用系統(tǒng)發(fā)生嚴(yán)重故障的時(shí)候,可能會短時(shí)間產(chǎn)生大量exception數(shù)據(jù),這個(gè)時(shí)候如果選用MySQL,會造成MySQL的瞬間寫壓力飆升,容易導(dǎo)致MySQL服務(wù)器的性能急劇惡化以及主從同步延遲之類的問題,這種場景就比較適合用Hbase類似的NoSQL來存儲。 JVM調(diào)優(yōu)什么時(shí)候調(diào)?通過監(jiān)控系統(tǒng)(如沒有現(xiàn)成的系統(tǒng),自己做一個(gè)簡單的上報(bào)監(jiān)控的系統(tǒng)也很容易)上對一些機(jī)器關(guān)鍵指標(biāo)(gc time、gc count、各個(gè)分代的內(nèi)存大小變化、機(jī)器的Load值與CPU使用率、JVM的線程數(shù)等)的監(jiān)控報(bào)警,也可以看gc log和jstat等命令的輸出,再結(jié)合線上JVM進(jìn)程服務(wù)的一些關(guān)鍵接口的性能數(shù)據(jù)和請求體驗(yàn),基本上就能定位出當(dāng)前的JVM是否有問題,以及是否需要調(diào)優(yōu)。 怎么調(diào)?
多線程與分布式使用場景離線任務(wù)、異步任務(wù)、大數(shù)據(jù)任務(wù)、耗時(shí)較長任務(wù)的運(yùn)行**,適當(dāng)?shù)乩?,可達(dá)到加速的效果。 注意:線上對響應(yīng)時(shí)間要求較高的場合,盡量少用多線程,尤其是服務(wù)線程需要等待任務(wù)線程的場合(很多重大事故就是和這個(gè)息息相關(guān)),如果一定要用,可以對服務(wù)線程設(shè)置一個(gè)最大等待時(shí)間。 常見做法如果單機(jī)的處理能力可以滿足實(shí)際業(yè)務(wù)的需求,那么盡可能地使用單機(jī)多線程的處理方式,減少復(fù)雜性;反之,則需要使用多機(jī)多線程的方式。 對于單機(jī)多線程,可以引入線程池的機(jī)制,作用有二:
如果單機(jī)的處理能力不能滿足需求,這個(gè)時(shí)候需要使用多機(jī)多線程的方式。這個(gè)時(shí)候就需要一些分布式系統(tǒng)的知識了。首先就必須引入一個(gè)單獨(dú)的節(jié)點(diǎn),作為調(diào)度器,其他的機(jī)器節(jié)點(diǎn)都作為執(zhí)行器節(jié)點(diǎn)。調(diào)度器來負(fù)責(zé)拆分任務(wù),和分發(fā)任務(wù)到合適的執(zhí)行器節(jié)點(diǎn);執(zhí)行器節(jié)點(diǎn)按照多線程的方式(也可能是單線程)來執(zhí)行任務(wù)。 這個(gè)時(shí)候,我們整個(gè)任務(wù)系統(tǒng)就由單擊演變成一個(gè)集群的系統(tǒng),而且不同的機(jī)器節(jié)點(diǎn)有不同的角色,各司其職,各個(gè)節(jié)點(diǎn)之間還有交互。這個(gè)時(shí)候除了有多線程、線程池等機(jī)制,像RPC、心跳等網(wǎng)絡(luò)通信調(diào)用的機(jī)制也不可少。后續(xù)我會出一個(gè)簡單的分布式調(diào)度運(yùn)行的框架。 度量系統(tǒng)(監(jiān)控、報(bào)警、服務(wù)依賴管理)嚴(yán)格來說,度量系統(tǒng)不屬于性能優(yōu)化的范疇,但是這方面和性能優(yōu)化息息相關(guān),可以說為性能優(yōu)化提供一個(gè)強(qiáng)有力的數(shù)據(jù)參考和支撐。沒有度量系統(tǒng),基本上就沒有辦法定位到系統(tǒng)的問題,也沒有辦法有效衡量優(yōu)化后的效果。很多人不重視這方面,但我認(rèn)為它是系統(tǒng)穩(wěn)定性和性能保障的基石。 關(guān)鍵流程如果要設(shè)計(jì)這套系統(tǒng),總體來說有哪些關(guān)鍵流程需要設(shè)計(jì)呢?
需要監(jiān)控和報(bào)警哪些指標(biāo)數(shù)據(jù)?需要關(guān)注哪些?按照需求出發(fā),主要需要二方面的指標(biāo):
數(shù)據(jù)采集方式通常采用異步上報(bào)的方式,具體做法有兩種:第一種,發(fā)到本地的Flume端口,由Flume進(jìn)程收集到遠(yuǎn)程的Hadoop集群或者Storm集群來進(jìn)行運(yùn)算;第二種,直接在本地運(yùn)算好以后,使用異步和本地隊(duì)列的方式,發(fā)送到監(jiān)控服務(wù)器。 數(shù)據(jù)計(jì)算可以采用離線運(yùn)算(MapReduce/Hive)或者實(shí)時(shí)/準(zhǔn)實(shí)時(shí)運(yùn)算(Storm/Spark)的方式,運(yùn)算后的結(jié)果存入MySQL或者HBase;某些情況,也可以不計(jì)算,直接采集發(fā)往監(jiān)控服務(wù)器。 展現(xiàn)和分析提供統(tǒng)一的展現(xiàn)分析平臺,需要帶報(bào)表(列表/圖表)監(jiān)控和報(bào)警的功能。 真實(shí)案例分析 案例一:商家與控制區(qū)關(guān)系的刷新job背景這是一個(gè)每小時(shí)定期運(yùn)行一次的job,作用是用來刷新商家與控制區(qū)的關(guān)系。具體規(guī)則就是根據(jù)商家的配送范圍(多個(gè))與控制區(qū)是否有交集,如果有交集,就把這個(gè)商家劃到這個(gè)控制區(qū)的范圍內(nèi)。 業(yè)務(wù)需求需要這個(gè)過程越短越好,最好保持在20分鐘內(nèi)。 優(yōu)化過程原有代碼的主要處理流程是:
分析代碼,發(fā)現(xiàn)第2步的a步驟和b步驟,找出和某控制區(qū)相交的配送范圍集合并對商家ID去重,可以采用R樹空間索引的方式來優(yōu)化。具體做法是:
這個(gè)優(yōu)化已經(jīng)在第一期優(yōu)化中上線,整個(gè)過程耗時(shí)由40多分鐘縮短到20分鐘以內(nèi)。 第一期優(yōu)化改為R樹以后,運(yùn)行了一段時(shí)間,隨著數(shù)據(jù)量增大,性能又開始逐漸惡化,一個(gè)月后已經(jīng)惡化到50多分鐘。于是繼續(xù)深入代碼分析,尋找了兩個(gè)優(yōu)化點(diǎn),安排第二期優(yōu)化并上線。 這兩個(gè)優(yōu)化點(diǎn)是:
上線后效果通過日志觀察,執(zhí)行時(shí)間由50多分鐘縮短到15分鐘以內(nèi),下圖是截取了一天的4臺機(jī)器的日志時(shí)間(單位:毫秒): 可以看到,效果還是非常明顯的。 案例二:POI緩存設(shè)計(jì)與實(shí)現(xiàn)背景2014年Q4,數(shù)據(jù)庫中關(guān)于POI(這里可以簡單理解為外賣的門店)相關(guān)的數(shù)據(jù)的讀流量急劇上升,雖然說加入從庫節(jié)點(diǎn)可以解決一部分問題,但是畢竟節(jié)點(diǎn)的增加是會達(dá)到極限的,達(dá)到極限后主從復(fù)制會達(dá)到瓶頸,可能會造成數(shù)據(jù)不一致。所以此時(shí),急需引入一種新的技術(shù)方案來分擔(dān)數(shù)據(jù)庫的壓力,降低數(shù)據(jù)庫POI相關(guān)數(shù)據(jù)的讀流量。另外,任何場景都考慮加DB從庫的做法,會對資源造成一定的浪費(fèi)。 實(shí)現(xiàn)方案基于已有的經(jīng)過考驗(yàn)的技術(shù)方案,我選擇Tair來作為緩存的存儲方案,來幫DB分擔(dān)來自于各應(yīng)用端的POI數(shù)據(jù)的讀流量的壓力。理由主要是從可用性、高性能、可擴(kuò)展性、是否經(jīng)過線上大規(guī)模數(shù)據(jù)和高并發(fā)流量的考驗(yàn)、是否有專業(yè)運(yùn)維團(tuán)隊(duì)、是否有成熟工具等幾個(gè)方面綜合考量決定。 詳細(xì)設(shè)計(jì)第一版設(shè)計(jì)緩存的更新策略,根據(jù)業(yè)務(wù)的特點(diǎn)、已有的技術(shù)方案和實(shí)現(xiàn)成本,選擇了用MQ來接收POI改變的消息來觸發(fā)緩存的更新,但是這個(gè)過程有可能失??;同時(shí)啟用了key的過期策略,并且調(diào)用端會先判斷是否過期,如過期,會從后端DB加載數(shù)據(jù)并回設(shè)到緩存,再返回。通過兩個(gè)方面雙保險(xiǎn)確保了緩存數(shù)據(jù)的可用。 第二版設(shè)計(jì)第一版設(shè)計(jì)運(yùn)行到一段時(shí)間以后,我們發(fā)現(xiàn)了兩個(gè)問題:
為了解決上述問題,我們從美團(tuán)點(diǎn)評負(fù)責(zé)基礎(chǔ)架構(gòu)的同事那里了解到Databus可以解決緩存數(shù)據(jù)在某些情況下不一致的問題,并且可以去掉過期時(shí)間機(jī)制,從而提高查詢效率,避免tair在內(nèi)存不命中時(shí)查詢硬盤。而且為了防止DataBus單點(diǎn)出現(xiàn)故障影響我們的業(yè)務(wù),我們保留了之前接MQ消息更新緩存的方案,作了切換開關(guān),利用這個(gè)方案作容錯(cuò),整體架構(gòu)如下: 上線后效果上線后,通過持續(xù)地監(jiān)控?cái)?shù)據(jù)發(fā)現(xiàn),隨著調(diào)用量的上升,到DB的流量有了明顯地減少,極大地減輕了DB的壓力。同時(shí)這些數(shù)據(jù)接口的響應(yīng)時(shí)間也有了明顯地減少。緩存更新的雙重保障機(jī)制,也基本保證了緩存數(shù)據(jù)的可用。見下圖: 案例三:業(yè)務(wù)運(yùn)營后臺相關(guān)頁面的性能優(yōu)化背景隨著業(yè)務(wù)的快速發(fā)展,帶來的訪問量和數(shù)據(jù)量的急劇上升,通過我們相應(yīng)的監(jiān)控系統(tǒng)可以發(fā)現(xiàn),系統(tǒng)的某些頁面的性能開始出現(xiàn)惡化。 從用戶方的反饋,也證明了這點(diǎn)。此時(shí)此刻,有必要迅速排期,敏捷開發(fā),對這些頁面進(jìn)行調(diào)優(yōu)。 歡迎頁
組織架構(gòu)頁
訂單關(guān)聯(lián)樓宇頁
老司機(jī)簡介 邵曉明,美團(tuán)點(diǎn)評技術(shù)專家,目前是外賣事業(yè)部的商品與活動模塊的技術(shù)負(fù)責(zé)人。2014年1月加入原美團(tuán)外賣技術(shù)團(tuán)隊(duì),先后負(fù)責(zé)美團(tuán)外賣的商家、商品、活動、CRM、客服、品控審核等核心模塊與服務(wù)的研發(fā),經(jīng)歷了美團(tuán)外賣業(yè)務(wù)的從0到1以及后續(xù)的不斷演進(jìn)的過程。有豐富的后臺架構(gòu)、穩(wěn)定性建設(shè)、性能優(yōu)化、基礎(chǔ)組件與中間件、數(shù)據(jù)存儲與查詢方面的經(jīng)驗(yàn)。 今日薦文 點(diǎn)擊下方圖片即可閱讀 微信異步化改造實(shí)踐:8億月活、萬臺機(jī)器背后的解決方案喜歡我們的會點(diǎn)贊,愛我們的會分享!
|
|