5步構(gòu)建量化黑箱·第5集

顧小姐的書房 2018-07-13

展開全文

書名：《打開量化投資的黑箱》

作者：里什·納蘭（Rishi K. Narang）

出版方：機(jī)械工業(yè)

這本書的作者叫里什·納蘭，也是量化交易出身。本身是數(shù)量金融專家，是一名資深的對沖基金經(jīng)理，納蘭本科畢業(yè)于加州大學(xué)伯克利分校，從1996年開始從事量化交易，目前是特勒西斯資本（Telesis Capital LLC）的主要合伙人。

為什么要閱讀，以及能收獲什么？

全書沒有復(fù)雜的數(shù)學(xué)公式。一提到量化投資，很多沒有從事過量化或者數(shù)學(xué)基礎(chǔ)稍微薄弱一點(diǎn)的讀者可能會(huì)很擔(dān)心，那么這書它作為一本入門書籍，基本上都是從事量化投資所需要了解的各種名詞、概念，或者定義，所以非常適合作為入門的閱讀教材。
正如這本書名所示，打開量化投資的黑箱。在實(shí)際的介紹過程中作者也是通過一個(gè)、一個(gè)環(huán)節(jié)展示了量化交易的方方面面，格局也很多。和其他量化投資交易的書不同，它不僅講了量化的策略，還講了數(shù)據(jù)從何而來，如何清洗數(shù)據(jù)——量化投資當(dāng)中很重要的一個(gè)初步工作，量化投資經(jīng)理如何評估自己的策略，量化交易的風(fēng)險(xiǎn)，未來量化交易的趨勢等等。
這個(gè)作者永遠(yuǎn)是在用辯證的視角來看每一個(gè)策略。我們都知道世界上的事物有利就有弊，這本書它在介紹每一種策略、模型、解決方案的時(shí)候都會(huì)提供各自的優(yōu)勢和劣勢分析。所以最后看完這本書你會(huì)有這樣一個(gè)策略觀、投資觀——任何一種投資交易其實(shí)都是對結(jié)果的取舍，在概率上的權(quán)衡。
需要提醒讀者，這本書講了很多交易機(jī)制，舉的都是美國市場的例子。所以很多交易機(jī)制不一定適合中國市場，這個(gè)我們在深入閱讀的時(shí)候需要注意。

看完這本書之后，你能做到：

面對眼花繚亂的各種量化算法，可以知道是屬于黑箱的哪個(gè)部分。舉個(gè)例子，當(dāng)一個(gè)寬客說今天用了一個(gè)什么樣的算法，模型在哪里改進(jìn)，你會(huì)知道他所聊的這部分工作在整個(gè)量化交易體系里面處于哪個(gè)部分。否則，如果我們看一些很深入的書，作為一個(gè)初學(xué)者很容易陷入盲人摸象的狀態(tài)。
如何評價(jià)一種算法的優(yōu)劣。

本書架構(gòu)

1、量化交易的準(zhǔn)則；

2、量化黑箱系統(tǒng)的內(nèi)部構(gòu)建；

3、寬客是如何追逐阿爾法的，也就是超額收益。包括阿爾法模型，風(fēng)險(xiǎn)模型，交易成本模型，還有構(gòu)建投資組合的模型（在這些模型里面，作者貫穿始終會(huì)把阿爾法模型、風(fēng)險(xiǎn)模型分為兩大派，分別是基于理論驅(qū)動(dòng)的系統(tǒng)和數(shù)據(jù)挖掘的策略，作者也會(huì)經(jīng)常分析這兩者之間的異同）；

4、如何獲取數(shù)據(jù)，對數(shù)據(jù)進(jìn)行清洗，量化投資經(jīng)理的日常研究是怎樣開展的；

5、如何把一個(gè)量化策略嵌入全面的投資策略當(dāng)中去；

6、量化交易未來的趨勢以及在未來的角色。

這是這本書大概的一個(gè)脈絡(luò)，首先我們來介紹這本書的第二部分，打開黑箱。

打開量化投資的“黑箱”

在這部分作者在一開始就給我們展示了一張圖，可以看到所謂的量化黑箱，作者用幾個(gè)方塊——有阿爾法模型、風(fēng)險(xiǎn)模型、交易成本模型、投資組合構(gòu)建模型，以及執(zhí)行模型，總共五大部分。那么貫穿其中的是我們的數(shù)據(jù)和研究方法論。

首先我們來看黑箱第一個(gè)組成部分就是積木的第一塊，阿爾法模型，就是指量化投資策略。

關(guān)于阿爾法策略有這樣兩種思路，第一種叫做理論主義，也就是我們用來解釋事物存在的原因，或者他們運(yùn)行的機(jī)理來解釋事情。理論主義的特點(diǎn)是先有公式先有理論而后有的模型。于是他們絕大部分的模型都是參數(shù)類的模型。

第二種叫做經(jīng)驗(yàn)主義，經(jīng)驗(yàn)主義的寬客是根據(jù)足夠多的觀察，根據(jù)事物的表現(xiàn)來進(jìn)行預(yù)測。這本書里作者闡述到他們可以不去細(xì)致了解事物背后的邏輯、因果關(guān)系，那么可能僅僅是根據(jù)事物之間相關(guān)性來做出判定，這個(gè)也就是咱們平時(shí)經(jīng)常提到數(shù)據(jù)挖掘或者大數(shù)據(jù)。這種模型的特點(diǎn)可以是參數(shù)性的也可能是非參數(shù)型的。比如人工智能經(jīng)常用的一種方法叫做深度學(xué)習(xí)，那么它的人工神經(jīng)網(wǎng)絡(luò)使用的就是非參數(shù)模型。

先來看理論驅(qū)動(dòng)性的模型可以分為六類。

作者這里做了一個(gè)非常好的劃分，把我們最常見的一些阿爾法策略做了整理，根據(jù)我們輸入的數(shù)據(jù)來分，基本上有兩種。

第一種是依據(jù)價(jià)格性的數(shù)據(jù)，也就是我們常見的K線里面的價(jià)格、成交量、持倉量等等。第二個(gè)是根據(jù)基本面數(shù)據(jù)，包括宏觀經(jīng)濟(jì)數(shù)據(jù)，公司的各種財(cái)務(wù)數(shù)據(jù)等等。

第一類價(jià)格類它對應(yīng)的策略分3種，第一種叫做趨勢性，也就是越漲越買，越跌越賣；第二類叫做回復(fù)型；第三類叫做技術(shù)情緒型。

基本面策略根據(jù)它所依賴的基本面數(shù)據(jù)，可以分為價(jià)值收益型、成長型和品質(zhì)型?？偠灾竭@一步為止，這些阿爾法模型它所使用的理論驅(qū)動(dòng)性無外乎就是把我們主觀研究員或者主觀交易者所看的各種信號、因子，用數(shù)量化的定量地做概括。那么這些因子在實(shí)際應(yīng)用當(dāng)中可以比較少，我見過比較少的模型可能用的因子只有三到五個(gè)，為了保證模型的健壯性。

同樣我也見到過有一些做量化對沖基金的交易者，他們的策略是基于數(shù)據(jù)驅(qū)動(dòng)性，所選的因子庫可能會(huì)有300-500個(gè)基本因子。由這些基本因子再做一些線性組合，所衍生出來的可能會(huì)有上千個(gè)因子，以上是阿爾法模型。

下面我們再來看一下風(fēng)險(xiǎn)模型，它的作用第一是如何度量風(fēng)險(xiǎn)，第二是如何控制住風(fēng)險(xiǎn)。

從控制住風(fēng)險(xiǎn)來講，主要有硬約束和軟約束兩種方法，在作者看來，和主觀交易相比，量化交易的優(yōu)勢就是在于對風(fēng)險(xiǎn)的控制不是非黑即白的。

書中舉了這樣一個(gè)例子，有人在收益率或者是比重到3%以后就不再增加持倉了，那么3%以上3.01%為什么就不可以呢，僅僅超過了百分之零點(diǎn)零一，但是如果引入量化模型可以使得持倉超過這個(gè)比例越高的時(shí)候，它所對應(yīng)的懲罰約束就越高，可以通過這種的方式更合理地對風(fēng)險(xiǎn)進(jìn)行限制，而不是非黑即白，非零即一的方式。

在對風(fēng)險(xiǎn)的度量方面，風(fēng)險(xiǎn)模型和阿爾法模型很類似，也分為理論模型和經(jīng)典主義兩種。

同樣理論模型還是對風(fēng)險(xiǎn)的機(jī)理對各種因素進(jìn)行建模，比較有意思的一點(diǎn)是，阿爾法模型在構(gòu)建的時(shí)候很大程度上也會(huì)帶有風(fēng)險(xiǎn)模型的影子。舉一個(gè)例子，很多阿爾法策略，比如做多現(xiàn)貨，做空期貨，究竟做空多少種期貨合適呢？在計(jì)算這種風(fēng)險(xiǎn)敞口的時(shí)候本身就帶有風(fēng)險(xiǎn)模型在里面，所以這里面風(fēng)險(xiǎn)模型無論是理論模型還是經(jīng)典主義模型，和阿爾法模型它都是有對應(yīng)關(guān)系的，經(jīng)典主義模型也會(huì)采用類似主成分分析等方法。

第三個(gè)重要的組成模型，叫做交易成本模型。如果我們說阿爾法模型在整個(gè)量化投資里扮演的是一個(gè)異想天開的樂觀者的角色，而風(fēng)險(xiǎn)模型扮演的就是緊張兮兮的擔(dān)憂者的角色，那么交易成本模型就是一個(gè)吝嗇的會(huì)計(jì)。

事實(shí)上量化交易由于高頻、大量的特性，寬客本身就是會(huì)精打細(xì)算，所以交易成本是一種非常重要的考量因素，事實(shí)上很多成功的寬客估計(jì)過他們的交易成本，侵蝕了收益的20%到50%左右。

作者提出了這樣一個(gè)觀點(diǎn)，從完全理性的角度來考慮，一個(gè)量化交易選擇即性交易的時(shí)候只有兩個(gè)原因，第一可以增加盈利的概率，第二可以增加盈利的量，或者相反，降低虧損的概率或者量。這個(gè)就是阿爾法模型主要做的工作，而交易成本模型并不能使我們的交易成本最小化，但是它可以告知我們構(gòu)建投資組合過程中我們進(jìn)行交易的成本。

交易成本主要有三部分，傭金和費(fèi)用；滑點(diǎn)；市場沖擊成本。

其中傭金和費(fèi)用一般是固定不變的，所以寬客比較容易估算。但是滑點(diǎn)和市場沖擊，它無論是在度量建模還是在管理上都更難估算。這里我們稍微補(bǔ)充一下背景知識，滑點(diǎn)是指交易者從決定開始交易到訂單進(jìn)入交易所系統(tǒng)的時(shí)間，在這段時(shí)間之內(nèi)如果市場變化快的話，市場價(jià)格會(huì)發(fā)生變化，也就是說從我們的量化策略發(fā)出指令決定按X價(jià)格執(zhí)行，到這個(gè)指令真正進(jìn)交易所時(shí)候的價(jià)格可能已經(jīng)是Y了。這個(gè)之間的價(jià)格變動(dòng)就是滑點(diǎn)。

一般來說滑點(diǎn)會(huì)給策略帶來損失，尤其是趨勢跟隨的策略，因?yàn)橼厔莞S是越漲越買，買的時(shí)候價(jià)格往往是處在上漲的過程中。但是會(huì)給回復(fù)型策略帶來的損失就很少，甚至有可能帶來正收益。這個(gè)原理大家可以自己去思考一下，很簡單。

針對交易成本的模型一般有這樣幾種方式，常數(shù)值，線性，分段線性，二次模型。一般來說在這樣四種模型里面，前兩種比較簡單，最終一種二次方程的模型最復(fù)雜的，但也最接近實(shí)際情況。

構(gòu)建投資組合的模型，剛才我們介紹了交易執(zhí)行的模型功能主要是去新建、屏掉頭寸，最小化交易成本。

如何構(gòu)建投資組成呢？這里需要考慮到去度量執(zhí)行算法的效率。通常我們會(huì)采用動(dòng)量性和進(jìn)取型的策略相配合，這也是為了抓住市場時(shí)機(jī)，有的時(shí)候我們會(huì)采用均值復(fù)歸策略和被動(dòng)性的策略互相配合。構(gòu)建投資組合的模型過程中還同時(shí)需要考慮到我們的交易基礎(chǔ)設(shè)施，主動(dòng)托管還是DMA呢？提到這個(gè)就需要考慮到我們的數(shù)據(jù)了。

量化交易的重要輸入：數(shù)據(jù)

數(shù)據(jù)的質(zhì)量直接決定我們能夠做什么事情。在這本書里，作者打了一個(gè)很有趣的比方，比如你有一堆蔬菜，那只能做沙拉而造不出飛機(jī)發(fā)動(dòng)機(jī)。模型有很多細(xì)節(jié)都是由輸入變量的特征所決定的。這里還舉了一個(gè)例子，美國NASA在1999年曾經(jīng)發(fā)射一顆火星衛(wèi)星，當(dāng)時(shí)有很多團(tuán)隊(duì)，其中有兩個(gè)項(xiàng)目組在計(jì)算力學(xué)的時(shí)候用的單位不一樣，一個(gè)組用的是牛頓，另一個(gè)組用的是磅。就是由于這兩個(gè)組的單位沒有統(tǒng)一，導(dǎo)致衛(wèi)星在重返大氣層的時(shí)候速度產(chǎn)生了一點(diǎn)偏差，直接導(dǎo)致了衛(wèi)星墜毀。

作者就是想用這樣一個(gè)非常典型的例子來提醒我們，在做量化交易的時(shí)候，你的源頭數(shù)據(jù)是很重要的第一步。

有人做過不完全的統(tǒng)計(jì)，很多量化基金經(jīng)理，無論是美國還是中國的，其實(shí)做的絕大部分工作都是在清洗數(shù)據(jù)，也就是對原始數(shù)據(jù)進(jìn)行整理。

很多在美國的頂級投資公司都是直接從源頭去收集數(shù)據(jù)，而不是從供應(yīng)商那里購買，即使這樣的話他們?nèi)匀豢赡軙?huì)遇到數(shù)據(jù)缺失、錯(cuò)誤的預(yù)測值等等問題。

我相信這不僅是在國外，在國內(nèi)很多量化基金經(jīng)理也會(huì)遇到同樣的困惑、棘手的困難，這個(gè)也是我們做量化當(dāng)中所需要克服的。比如你們可能從某個(gè)數(shù)據(jù)終端或者供應(yīng)商那里購買數(shù)據(jù)，生成壞數(shù)據(jù)率可能只有十萬分之一，百萬分之一，但是往往就有可能是最關(guān)鍵的一個(gè)錯(cuò)誤數(shù)據(jù)，影響你的模型無論是邏輯還是交易的質(zhì)量。

數(shù)據(jù)出現(xiàn)問題的話我們應(yīng)當(dāng)怎么處理呢？一般來說作者把數(shù)據(jù)的問題歸為這樣兩類，數(shù)據(jù)缺失值，錯(cuò)誤的預(yù)測值。

針對第一個(gè)問題我們需要面對的是，在一個(gè)數(shù)據(jù)文件中，我們要對其中的零值和空值加以區(qū)分，這個(gè)很多程序都可以做到了。第二個(gè)問題就是錯(cuò)誤的預(yù)測值。那么這里需要我們用到一些稍微高級、比較智能的算法，能夠自動(dòng)地把異常值過濾，這是兩種常見的問題。還有一種不太常見的，叫做前視偏差，我們在做歷史數(shù)據(jù)回測的時(shí)候，假定前天、昨天，一直到今天做回測，那么在前天我們只應(yīng)當(dāng)使用前天才能夠看到的信息，但是因?yàn)闅v史回測是在今天做的，所以目前已經(jīng)擁有了從前天一直到今天所有的數(shù)據(jù)，所以有可能會(huì)在前天就使用昨天的信息，這個(gè)顯然是不對的。這種問題就稱之為前視偏差。

研究和研究方法

在這本書里作者提出了一個(gè)很重要的原則，他認(rèn)為真正的科學(xué)要求必須是能夠證偽的。

那么在做研究的時(shí)候，我們要對樣本進(jìn)行測試，測試分為兩個(gè)步驟，第一個(gè)是樣本內(nèi)的測試，也叫做訓(xùn)練，第二個(gè)是樣本外的測試。

在做樣本內(nèi)訓(xùn)練的時(shí)候我們利用已有的數(shù)據(jù)，訓(xùn)練模型參數(shù)然后用訓(xùn)練好的模型進(jìn)行樣本外的測試，來看一下這個(gè)模型運(yùn)行的效果。在做樣本內(nèi)檢測的時(shí)候我們判斷這個(gè)模型的好壞有幾個(gè)指標(biāo)，累積盈利、平均收益率、收益率隨時(shí)間的變異性、波峰波谷間的最大降幅（也即最大回撤）、要注意樣本偏差(sample bias)可以通過重復(fù)采樣 (resampling)解決、預(yù)測力（例如R-squared）、勝率或盈利時(shí)間占比、回報(bào)相對于風(fēng)險(xiǎn)的不同比率(風(fēng)險(xiǎn)調(diào)整后的收益率)，例如夏普比率、信息比率、斯特林比率。與其他策略的關(guān)系，信號時(shí)間延遲、對特定參數(shù)的敏感性、過度擬合、

在做樣本內(nèi)檢驗(yàn)的時(shí)候要注意一種現(xiàn)象叫做過度擬合，有時(shí)候稱之為數(shù)據(jù)挖掘。但是這個(gè)模型一旦放到未來，放到樣本外數(shù)據(jù)的時(shí)候就一塌糊涂，這種原因往往是因?yàn)槲覀兊囊蜃舆^多，或者說設(shè)的這個(gè)模型過于復(fù)雜，所以一般有經(jīng)驗(yàn)的量化分析師，或者是寬客他會(huì)警惕一種現(xiàn)象，就是自己的模型不要太過于復(fù)雜。一般來說過于復(fù)雜的模型往往也是脆弱的，過于簡單的模型可能看起來過于直白、過于簡陋，但是往往它的健壯性也是最好的。

這里作者也提出我們應(yīng)當(dāng)遵循節(jié)儉的原則，“如無必要那么就要去掉”。

以上我們重點(diǎn)說的是樣本內(nèi)的檢驗(yàn)，下面來看一下樣本外。我們在檢測模型對樣本外是否合適的時(shí)候，重點(diǎn)會(huì)看這樣幾個(gè)指標(biāo)，樣本外R2與樣本內(nèi)R2的比率，如果大于等于0.5則是很好的模型。

在做樣本內(nèi)和樣本外檢測的時(shí)候數(shù)據(jù)選擇也要注意，通常我們是用滾動(dòng)樣本外數(shù)據(jù)法。比如有100個(gè)數(shù)據(jù)，那么每次我們這個(gè)數(shù)據(jù)隨即分為5份，每份20個(gè)數(shù)據(jù)。每次挑出其中20個(gè)作為樣本外數(shù)據(jù)，用剩下的80個(gè)作為樣本內(nèi)來訓(xùn)練，這樣的話一共可以訓(xùn)練5次，這就叫做滾動(dòng)樣本外數(shù)據(jù)法。

至此前兩部分講完了，在這里作者依次介紹了量化模型，這個(gè)黑箱的五個(gè)組成部分，接下來的第三和第四部分作者分別介紹了量化、交易實(shí)戰(zhàn)和高頻量化。

量化的實(shí)戰(zhàn)

在這當(dāng)中作者重點(diǎn)提出了一個(gè)風(fēng)險(xiǎn)叫做模型風(fēng)險(xiǎn)，所謂的模型風(fēng)險(xiǎn)包括以下這幾種原因。

第一，錯(cuò)誤的設(shè)定，這個(gè)是指對給定的問題進(jìn)行了錯(cuò)誤的建模，或者是對已知模型進(jìn)行了錯(cuò)誤的應(yīng)用。

第二，執(zhí)行錯(cuò)誤，這個(gè)是指在執(zhí)行模型的時(shí)候，把買入價(jià)輸出成了賣出價(jià)等等這些都是其實(shí)是很弱的錯(cuò)誤。

第三，再比如有一些不是執(zhí)行的環(huán)境當(dāng)中，而是由于IT的硬件發(fā)生了問題。

以上是量化交易當(dāng)中一些風(fēng)險(xiǎn)，是作者提醒我們量化交易并不是萬能的，并不是說有了可靠的電腦，我們就可以24小時(shí)讓電腦自由地去交易，可以高枕無憂了，量化交易也是有它的風(fēng)險(xiǎn)，并且很多的時(shí)候是有它自己獨(dú)特的風(fēng)險(xiǎn)。

好，今天我們先分享到這里，各位讀者，下一期再見。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：顧小姐的書房 > 《投教學(xué)堂》

舉報(bào)/認(rèn)領(lǐng)