1、量化投資的決策依賴于大樣本下的統(tǒng)計顯著性,所以量化投資者會以更長遠的眼光來看待交易結(jié)果,不計較單筆交易的得失。 2、遺傳規(guī)劃的優(yōu)勢除了可以提升挖掘因子效率之外,更重要的是它可以突破人類的思維定式,挖掘出一些隱藏的、難以通過人腦構(gòu)建出來的因子。 3、機器學習是量化CTA策略的新方向,相較傳統(tǒng)線性模型提供了高維的非線性視角,可以更好地分類并提升擬合效果。而可視化可以打開機器學習的黑箱。 4、從大類資產(chǎn)配置的角度看,由于低相關(guān)性,在持有股票型基金獲取阿爾法的同時,配置CTA產(chǎn)品可以在資產(chǎn)組合的層面起到風險分散化的作用。 量化CTA策略介紹 接下來展開講一下策略的單筆收益期望,大家可以把它理解成我們對策略長期的盈利預期,它其實是由策略的勝率和盈虧比(賠率)決定的。 期望收益=勝率×盈虧比(賠率) 我們認為機器學習是量化CTA策略的新方向,它相較傳統(tǒng)線性模型提供了高維的非線性視角,可以更好地分類并提升擬合效果。這里將機器學習CTA的流程拆分成四步: Step 1:因子挖掘 Step 2:因子篩選 Step 3:機器學習 Step 4:交易決策 第二個突破點是在機器學習做因子組合上。我們對機器學習的可視化做了一些努力。后面我們會展開來介紹下遺傳規(guī)劃因子挖掘和機器學習可視化這兩方面的突破。 遺傳規(guī)劃:跳出人類思維定式 遺傳規(guī)劃所做的事情,其實就是模擬了自然界中物競天擇、適者生存的演化模式,通過優(yōu)化迭代的手段逐漸生成契合優(yōu)化目標的因子,優(yōu)化的目標往往被設定為因子對價格走勢的預測能力。 遺傳規(guī)劃的優(yōu)勢除了前面提到的可以提升因子挖掘的效率之外,更重要的是可以突破人類的思維定式,挖掘出一些隱藏的、難以通過人腦構(gòu)建的因子。同時我們也可以通過算法控制因子間的相關(guān)性,從而得到兩兩低相關(guān)的因子池。因為因子間的高相關(guān)性會導致后續(xù)機器學習時模型的參數(shù)不穩(wěn)定,所以低相關(guān)的因子池可以在一定程度上使我們的模型更加穩(wěn)健。 接下來我們看看遺傳規(guī)劃的具體算法。首先,我們需要事先定義一個變量集和一個算子集,這里的變量往往是基礎的行情指標,而算子集中包含常規(guī)的運算符,如加減乘除均值等等。然后我們會將變量和算子隨機組合生成大量的個體樣本,這里的每一個樣本個體都可以被翻譯成一個因子的公式表達式,從而得到初始種群。之后,我們會計算初始種群中每個個體對環(huán)境的適應度,并從中選出適應度高的個體作為下一代進化的父代。因為適應度是以因子對價格的預測效力衡量的,所以通過這一步我們就選出了對價格走勢有一定預測效力的因子集作為父代種群。有了父代種群之后,下一步就是遺傳變異。一部分父代個體可以直接進入子代,而一部分父代將通過變異的方式,將部分因子結(jié)構(gòu)傳遞至下一代。 這里展示了幾種常見的變異方式。第一種交叉變異類似人類的染色體交叉,兩個適應度較高的父代個體會互相交換一部分因子結(jié)構(gòu)生成子代,交叉變異較為保守,可以保留并傳承父代中“好”的因子結(jié)構(gòu)。第二種子樹變異會隨機替換父代樹結(jié)構(gòu)中的一個子樹。第三種點變異則是隨機替換父代樹結(jié)構(gòu)中的一個葉片。子樹變異和點變異更像基因突變,是比較激進的變異方式,可以重新引入被淘汰的因子結(jié)構(gòu)來維持種群的多樣性。第四種提升變異可以理解為基因片段剪除,我們會隨機地從父代中移除一部分樹結(jié)構(gòu),這樣做可以防止因子結(jié)構(gòu)過于復雜而導致過度擬合。 可視化:打開機器學習的黑箱 我們的另一個新進展是機器學習的可視化。機器學習策略的優(yōu)勢,在于可以處理海量的歷史數(shù)據(jù),并且它的預測準確率更高。同時機器學習有一定的自適應性,可以不斷學習新的數(shù)據(jù)來優(yōu)化自身。但是因為機器學習特別是神經(jīng)網(wǎng)絡模型的決策流程是一個黑箱,所以這類模型一直以來也被批評可解釋性太差。那我們現(xiàn)在做的就是想打開神經(jīng)網(wǎng)絡的黑箱,來看看它到底是如何做出價格預測的。 我們先以一個圖像識別的例子來說明。假設我們已經(jīng)有了一個訓練好的神經(jīng)網(wǎng)絡,如果我們要識別一張圖片里的動物是貓還是狗,最經(jīng)典的做法就是把圖片先轉(zhuǎn)換成數(shù)字像素矩陣,然后輸入給卷積神經(jīng)網(wǎng)絡,樣本在經(jīng)過若干層卷積層后,最后由softmax函數(shù)來給出這是一只貓或者狗的概率。 在深度學習模式下,圖片從輸入模型到輸出結(jié)果中間可能要經(jīng)過幾百層的卷積層,整個神經(jīng)網(wǎng)絡的結(jié)構(gòu)非常復雜,人腦很難解釋清楚它的內(nèi)部決策機制。而可視化可以告訴我們,在神經(jīng)網(wǎng)絡給出判斷的時候,主要讀取了圖片里哪些局部區(qū)域的特征。 具體到算法層面,我們可以計算最后一層隱含層的激活函數(shù)值和它的梯度斜率,然后以熱力圖的形式來表征每個局部特征的重要性。這里熱力圖的顏色越紅表示這塊區(qū)域?qū)D像識別越重要,反之顏色越偏藍,表明該區(qū)域越不重要。我們可以看到神經(jīng)網(wǎng)絡在判斷動物類別的時候,主要是讀取了貓和狗的頭部區(qū)域和身體花色的特征,這其實是非常明智的。 然后我們再來看在CTA策略中,神經(jīng)網(wǎng)絡模型在預測后市漲跌的時候,主要是基于了哪些特征因子。這里的熱力圖是對CTA神經(jīng)網(wǎng)絡模型可視化后的結(jié)果,圖中每一列代表一個因子,從左到右逐漸從趨勢因子過渡到反轉(zhuǎn)因子。 我們可以看到在2015年6月的時候,熱力圖左側(cè)區(qū)域更為明亮,也就是說神經(jīng)網(wǎng)絡在價格預測的時候更側(cè)重于趨勢因子,結(jié)合當時連續(xù)上漲的行情來看,神經(jīng)網(wǎng)絡這一選擇是正確的。而在2015年8月,此時市場已經(jīng)經(jīng)歷了股災、上行趨勢被打破,這時熱力圖的右側(cè)區(qū)域更亮,也就是說此時神經(jīng)網(wǎng)絡在做預測的時候,給了反轉(zhuǎn)指標更多權(quán)重。由此可以得出神經(jīng)網(wǎng)絡在做訓練的時候,可以通過不斷吸納學習新的數(shù)據(jù)來調(diào)整模型自身,并且它在實盤做出價格預測的時候也較好地適應了市場環(huán)境的變化。 在CTA之外,我們今年也對阿爾法策略做了升級改造。阿爾法策略可以分為兩類:一類用量化手段選出可以戰(zhàn)勝基準指數(shù)的股票組合,也就是指數(shù)增強策略,另外是在指數(shù)增強的基礎上疊加相應股指期貨的空頭頭寸來對沖市場風險從而獲得絕對收益,也就是量化對沖策略。所以阿爾法策略的核心還是在于選股,下圖對量化選股的流程做了拆解,可,分為因子挖掘、因子組合和組合優(yōu)化這三步。 第一步,因子挖掘的目的是找出一些可以預測股票未來相對強弱的選股因子,數(shù)據(jù)源包括個股的基本面、量價特征、資金流、分析師對個股的一致預期等等。第二步會把因子放入機器學習模型做因子組合。最后通過對股票流動性的篩選確定選股范圍,再用組合優(yōu)化的手段,使得所選股票組合在風格和行業(yè)上的分布盡可能貼近基準指數(shù),從而得到一個跟蹤誤差低,但同時又可以跑贏基準指數(shù)的股票組合。 明年我們就會推出全新的量化產(chǎn)品,用的策略是CTA+阿爾法策略,用機器學習的手段,挖掘股票和期貨里面的機會,也請大家關(guān)注。 |
|