書名:《打開量化投資的黑箱》
這本書的作者叫里什·納蘭,也是量化交易出身。本身是數(shù)量金融專家,是一名資深的對沖基金經(jīng)理,納蘭本科畢業(yè)于加州大學(xué)伯克利分校,從1996年開始從事量化交易,目前是特勒西斯資本(Telesis Capital LLC)的主要合伙人。 為什么要閱讀,以及能收獲什么?
看完這本書之后,你能做到:
本書架構(gòu)1、量化交易的準(zhǔn)則; 2、量化黑箱系統(tǒng)的內(nèi)部構(gòu)建; 3、寬客是如何追逐阿爾法的,也就是超額收益。包括阿爾法模型,風(fēng)險(xiǎn)模型,交易成本模型,還有構(gòu)建投資組合的模型(在這些模型里面,作者貫穿始終會(huì)把阿爾法模型、風(fēng)險(xiǎn)模型分為兩大派,分別是基于理論驅(qū)動(dòng)的系統(tǒng)和數(shù)據(jù)挖掘的策略,作者也會(huì)經(jīng)常分析這兩者之間的異同); 4、如何獲取數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗,量化投資經(jīng)理的日常研究是怎樣開展的; 5、如何把一個(gè)量化策略嵌入全面的投資策略當(dāng)中去; 6、量化交易未來的趨勢以及在未來的角色。 這是這本書大概的一個(gè)脈絡(luò),首先我們來介紹這本書的第二部分,打開黑箱。 打開量化投資的“黑箱”在這部分作者在一開始就給我們展示了一張圖,可以看到所謂的量化黑箱,作者用幾個(gè)方塊——有阿爾法模型、風(fēng)險(xiǎn)模型、交易成本模型、投資組合構(gòu)建模型,以及執(zhí)行模型,總共五大部分。那么貫穿其中的是我們的數(shù)據(jù)和研究方法論。
首先我們來看黑箱第一個(gè)組成部分就是積木的第一塊,阿爾法模型,就是指量化投資策略。 關(guān)于阿爾法策略有這樣兩種思路,第一種叫做理論主義,也就是我們用來解釋事物存在的原因,或者他們運(yùn)行的機(jī)理來解釋事情。理論主義的特點(diǎn)是先有公式先有理論而后有的模型。于是他們絕大部分的模型都是參數(shù)類的模型。 第二種叫做經(jīng)驗(yàn)主義,經(jīng)驗(yàn)主義的寬客是根據(jù)足夠多的觀察,根據(jù)事物的表現(xiàn)來進(jìn)行預(yù)測。這本書里作者闡述到他們可以不去細(xì)致了解事物背后的邏輯、因果關(guān)系,那么可能僅僅是根據(jù)事物之間相關(guān)性來做出判定,這個(gè)也就是咱們平時(shí)經(jīng)常提到數(shù)據(jù)挖掘或者大數(shù)據(jù)。這種模型的特點(diǎn)可以是參數(shù)性的也可能是非參數(shù)型的。比如人工智能經(jīng)常用的一種方法叫做深度學(xué)習(xí),那么它的人工神經(jīng)網(wǎng)絡(luò)使用的就是非參數(shù)模型。 先來看理論驅(qū)動(dòng)性的模型可以分為六類。
作者這里做了一個(gè)非常好的劃分,把我們最常見的一些阿爾法策略做了整理,根據(jù)我們輸入的數(shù)據(jù)來分,基本上有兩種。 第一種是依據(jù)價(jià)格性的數(shù)據(jù),也就是我們常見的K線里面的價(jià)格、成交量、持倉量等等。第二個(gè)是根據(jù)基本面數(shù)據(jù),包括宏觀經(jīng)濟(jì)數(shù)據(jù),公司的各種財(cái)務(wù)數(shù)據(jù)等等。 第一類價(jià)格類它對應(yīng)的策略分3種,第一種叫做趨勢性,也就是越漲越買,越跌越賣;第二類叫做回復(fù)型;第三類叫做技術(shù)情緒型。 基本面策略根據(jù)它所依賴的基本面數(shù)據(jù),可以分為價(jià)值收益型、成長型和品質(zhì)型??偠灾竭@一步為止,這些阿爾法模型它所使用的理論驅(qū)動(dòng)性無外乎就是把我們主觀研究員或者主觀交易者所看的各種信號、因子,用數(shù)量化的定量地做概括。那么這些因子在實(shí)際應(yīng)用當(dāng)中可以比較少,我見過比較少的模型可能用的因子只有三到五個(gè),為了保證模型的健壯性。 同樣我也見到過有一些做量化對沖基金的交易者,他們的策略是基于數(shù)據(jù)驅(qū)動(dòng)性,所選的因子庫可能會(huì)有300-500個(gè)基本因子。由這些基本因子再做一些線性組合,所衍生出來的可能會(huì)有上千個(gè)因子,以上是阿爾法模型。 下面我們再來看一下風(fēng)險(xiǎn)模型,它的作用第一是如何度量風(fēng)險(xiǎn),第二是如何控制住風(fēng)險(xiǎn)。 從控制住風(fēng)險(xiǎn)來講,主要有硬約束和軟約束兩種方法,在作者看來,和主觀交易相比,量化交易的優(yōu)勢就是在于對風(fēng)險(xiǎn)的控制不是非黑即白的。 書中舉了這樣一個(gè)例子,有人在收益率或者是比重到3%以后就不再增加持倉了,那么3%以上3.01%為什么就不可以呢,僅僅超過了百分之零點(diǎn)零一,但是如果引入量化模型可以使得持倉超過這個(gè)比例越高的時(shí)候,它所對應(yīng)的懲罰約束就越高,可以通過這種的方式更合理地對風(fēng)險(xiǎn)進(jìn)行限制,而不是非黑即白,非零即一的方式。 在對風(fēng)險(xiǎn)的度量方面,風(fēng)險(xiǎn)模型和阿爾法模型很類似,也分為理論模型和經(jīng)典主義兩種。 同樣理論模型還是對風(fēng)險(xiǎn)的機(jī)理對各種因素進(jìn)行建模,比較有意思的一點(diǎn)是,阿爾法模型在構(gòu)建的時(shí)候很大程度上也會(huì)帶有風(fēng)險(xiǎn)模型的影子。舉一個(gè)例子,很多阿爾法策略,比如做多現(xiàn)貨,做空期貨,究竟做空多少種期貨合適呢?在計(jì)算這種風(fēng)險(xiǎn)敞口的時(shí)候本身就帶有風(fēng)險(xiǎn)模型在里面,所以這里面風(fēng)險(xiǎn)模型無論是理論模型還是經(jīng)典主義模型,和阿爾法模型它都是有對應(yīng)關(guān)系的,經(jīng)典主義模型也會(huì)采用類似主成分分析等方法。 第三個(gè)重要的組成模型,叫做交易成本模型。如果我們說阿爾法模型在整個(gè)量化投資里扮演的是一個(gè)異想天開的樂觀者的角色,而風(fēng)險(xiǎn)模型扮演的就是緊張兮兮的擔(dān)憂者的角色,那么交易成本模型就是一個(gè)吝嗇的會(huì)計(jì)。 事實(shí)上量化交易由于高頻、大量的特性,寬客本身就是會(huì)精打細(xì)算,所以交易成本是一種非常重要的考量因素,事實(shí)上很多成功的寬客估計(jì)過他們的交易成本,侵蝕了收益的20%到50%左右。 作者提出了這樣一個(gè)觀點(diǎn),從完全理性的角度來考慮,一個(gè)量化交易選擇即性交易的時(shí)候只有兩個(gè)原因,第一可以增加盈利的概率,第二可以增加盈利的量,或者相反,降低虧損的概率或者量。這個(gè)就是阿爾法模型主要做的工作,而交易成本模型并不能使我們的交易成本最小化,但是它可以告知我們構(gòu)建投資組合過程中我們進(jìn)行交易的成本。 交易成本主要有三部分,傭金和費(fèi)用;滑點(diǎn);市場沖擊成本。 其中傭金和費(fèi)用一般是固定不變的,所以寬客比較容易估算。但是滑點(diǎn)和市場沖擊,它無論是在度量建模還是在管理上都更難估算。這里我們稍微補(bǔ)充一下背景知識,滑點(diǎn)是指交易者從決定開始交易到訂單進(jìn)入交易所系統(tǒng)的時(shí)間,在這段時(shí)間之內(nèi)如果市場變化快的話,市場價(jià)格會(huì)發(fā)生變化,也就是說從我們的量化策略發(fā)出指令決定按X價(jià)格執(zhí)行,到這個(gè)指令真正進(jìn)交易所時(shí)候的價(jià)格可能已經(jīng)是Y了。這個(gè)之間的價(jià)格變動(dòng)就是滑點(diǎn)。 一般來說滑點(diǎn)會(huì)給策略帶來損失,尤其是趨勢跟隨的策略,因?yàn)橼厔莞S是越漲越買,買的時(shí)候價(jià)格往往是處在上漲的過程中。但是會(huì)給回復(fù)型策略帶來的損失就很少,甚至有可能帶來正收益。這個(gè)原理大家可以自己去思考一下,很簡單。 針對交易成本的模型一般有這樣幾種方式,常數(shù)值,線性,分段線性,二次模型。一般來說在這樣四種模型里面,前兩種比較簡單,最終一種二次方程的模型最復(fù)雜的,但也最接近實(shí)際情況。 構(gòu)建投資組合的模型,剛才我們介紹了交易執(zhí)行的模型功能主要是去新建、屏掉頭寸,最小化交易成本。 如何構(gòu)建投資組成呢?這里需要考慮到去度量執(zhí)行算法的效率。通常我們會(huì)采用動(dòng)量性和進(jìn)取型的策略相配合,這也是為了抓住市場時(shí)機(jī),有的時(shí)候我們會(huì)采用均值復(fù)歸策略和被動(dòng)性的策略互相配合。構(gòu)建投資組合的模型過程中還同時(shí)需要考慮到我們的交易基礎(chǔ)設(shè)施,主動(dòng)托管還是DMA呢?提到這個(gè)就需要考慮到我們的數(shù)據(jù)了。 量化交易的重要輸入:數(shù)據(jù)數(shù)據(jù)的質(zhì)量直接決定我們能夠做什么事情。在這本書里,作者打了一個(gè)很有趣的比方,比如你有一堆蔬菜,那只能做沙拉而造不出飛機(jī)發(fā)動(dòng)機(jī)。模型有很多細(xì)節(jié)都是由輸入變量的特征所決定的。這里還舉了一個(gè)例子,美國NASA在1999年曾經(jīng)發(fā)射一顆火星衛(wèi)星,當(dāng)時(shí)有很多團(tuán)隊(duì),其中有兩個(gè)項(xiàng)目組在計(jì)算力學(xué)的時(shí)候用的單位不一樣,一個(gè)組用的是牛頓,另一個(gè)組用的是磅。就是由于這兩個(gè)組的單位沒有統(tǒng)一,導(dǎo)致衛(wèi)星在重返大氣層的時(shí)候速度產(chǎn)生了一點(diǎn)偏差,直接導(dǎo)致了衛(wèi)星墜毀。 作者就是想用這樣一個(gè)非常典型的例子來提醒我們,在做量化交易的時(shí)候,你的源頭數(shù)據(jù)是很重要的第一步。 有人做過不完全的統(tǒng)計(jì),很多量化基金經(jīng)理,無論是美國還是中國的,其實(shí)做的絕大部分工作都是在清洗數(shù)據(jù),也就是對原始數(shù)據(jù)進(jìn)行整理。 很多在美國的頂級投資公司都是直接從源頭去收集數(shù)據(jù),而不是從供應(yīng)商那里購買,即使這樣的話他們?nèi)匀豢赡軙?huì)遇到數(shù)據(jù)缺失、錯(cuò)誤的預(yù)測值等等問題。 我相信這不僅是在國外,在國內(nèi)很多量化基金經(jīng)理也會(huì)遇到同樣的困惑、棘手的困難,這個(gè)也是我們做量化當(dāng)中所需要克服的。比如你們可能從某個(gè)數(shù)據(jù)終端或者供應(yīng)商那里購買數(shù)據(jù),生成壞數(shù)據(jù)率可能只有十萬分之一,百萬分之一,但是往往就有可能是最關(guān)鍵的一個(gè)錯(cuò)誤數(shù)據(jù),影響你的模型無論是邏輯還是交易的質(zhì)量。 數(shù)據(jù)出現(xiàn)問題的話我們應(yīng)當(dāng)怎么處理呢?一般來說作者把數(shù)據(jù)的問題歸為這樣兩類,數(shù)據(jù)缺失值,錯(cuò)誤的預(yù)測值。 針對第一個(gè)問題我們需要面對的是,在一個(gè)數(shù)據(jù)文件中,我們要對其中的零值和空值加以區(qū)分,這個(gè)很多程序都可以做到了。第二個(gè)問題就是錯(cuò)誤的預(yù)測值。那么這里需要我們用到一些稍微高級、比較智能的算法,能夠自動(dòng)地把異常值過濾,這是兩種常見的問題。還有一種不太常見的,叫做前視偏差,我們在做歷史數(shù)據(jù)回測的時(shí)候,假定前天、昨天,一直到今天做回測,那么在前天我們只應(yīng)當(dāng)使用前天才能夠看到的信息,但是因?yàn)闅v史回測是在今天做的,所以目前已經(jīng)擁有了從前天一直到今天所有的數(shù)據(jù),所以有可能會(huì)在前天就使用昨天的信息,這個(gè)顯然是不對的。這種問題就稱之為前視偏差。 研究和研究方法在這本書里作者提出了一個(gè)很重要的原則,他認(rèn)為真正的科學(xué)要求必須是能夠證偽的。 那么在做研究的時(shí)候,我們要對樣本進(jìn)行測試,測試分為兩個(gè)步驟,第一個(gè)是樣本內(nèi)的測試,也叫做訓(xùn)練,第二個(gè)是樣本外的測試。 在做樣本內(nèi)訓(xùn)練的時(shí)候我們利用已有的數(shù)據(jù),訓(xùn)練模型參數(shù)然后用訓(xùn)練好的模型進(jìn)行樣本外的測試,來看一下這個(gè)模型運(yùn)行的效果。在做樣本內(nèi)檢測的時(shí)候我們判斷這個(gè)模型的好壞有幾個(gè)指標(biāo),累積盈利、平均收益率、收益率隨時(shí)間的變異性、波峰波谷間的最大降幅(也即最大回撤)、要注意樣本偏差(sample bias)可以通過重復(fù)采樣 (resampling)解決、預(yù)測力(例如R-squared)、勝率或盈利時(shí)間占比、回報(bào)相對于風(fēng)險(xiǎn)的不同比率(風(fēng)險(xiǎn)調(diào)整后的收益率),例如夏普比率、信息比率、斯特林比率。與其他策略的關(guān)系,信號時(shí)間延遲、對特定參數(shù)的敏感性、過度擬合、 在做樣本內(nèi)檢驗(yàn)的時(shí)候要注意一種現(xiàn)象叫做過度擬合,有時(shí)候稱之為數(shù)據(jù)挖掘。但是這個(gè)模型一旦放到未來,放到樣本外數(shù)據(jù)的時(shí)候就一塌糊涂,這種原因往往是因?yàn)槲覀兊囊蜃舆^多,或者說設(shè)的這個(gè)模型過于復(fù)雜,所以一般有經(jīng)驗(yàn)的量化分析師,或者是寬客他會(huì)警惕一種現(xiàn)象,就是自己的模型不要太過于復(fù)雜。一般來說過于復(fù)雜的模型往往也是脆弱的,過于簡單的模型可能看起來過于直白、過于簡陋,但是往往它的健壯性也是最好的。 這里作者也提出我們應(yīng)當(dāng)遵循節(jié)儉的原則,“如無必要那么就要去掉”。 以上我們重點(diǎn)說的是樣本內(nèi)的檢驗(yàn),下面來看一下樣本外。我們在檢測模型對樣本外是否合適的時(shí)候,重點(diǎn)會(huì)看這樣幾個(gè)指標(biāo),樣本外R2與樣本內(nèi)R2的比率,如果大于等于0.5則是很好的模型。 在做樣本內(nèi)和樣本外檢測的時(shí)候數(shù)據(jù)選擇也要注意,通常我們是用滾動(dòng)樣本外數(shù)據(jù)法。比如有100個(gè)數(shù)據(jù),那么每次我們這個(gè)數(shù)據(jù)隨即分為5份,每份20個(gè)數(shù)據(jù)。每次挑出其中20個(gè)作為樣本外數(shù)據(jù),用剩下的80個(gè)作為樣本內(nèi)來訓(xùn)練,這樣的話一共可以訓(xùn)練5次,這就叫做滾動(dòng)樣本外數(shù)據(jù)法。 至此前兩部分講完了,在這里作者依次介紹了量化模型,這個(gè)黑箱的五個(gè)組成部分,接下來的第三和第四部分作者分別介紹了量化、交易實(shí)戰(zhàn)和高頻量化。 量化的實(shí)戰(zhàn)在這當(dāng)中作者重點(diǎn)提出了一個(gè)風(fēng)險(xiǎn)叫做模型風(fēng)險(xiǎn),所謂的模型風(fēng)險(xiǎn)包括以下這幾種原因。 第一,錯(cuò)誤的設(shè)定,這個(gè)是指對給定的問題進(jìn)行了錯(cuò)誤的建模,或者是對已知模型進(jìn)行了錯(cuò)誤的應(yīng)用。 第二,執(zhí)行錯(cuò)誤,這個(gè)是指在執(zhí)行模型的時(shí)候,把買入價(jià)輸出成了賣出價(jià)等等這些都是其實(shí)是很弱的錯(cuò)誤。 第三,再比如有一些不是執(zhí)行的環(huán)境當(dāng)中,而是由于IT的硬件發(fā)生了問題。 以上是量化交易當(dāng)中一些風(fēng)險(xiǎn),是作者提醒我們量化交易并不是萬能的,并不是說有了可靠的電腦,我們就可以24小時(shí)讓電腦自由地去交易,可以高枕無憂了,量化交易也是有它的風(fēng)險(xiǎn),并且很多的時(shí)候是有它自己獨(dú)特的風(fēng)險(xiǎn)。 好,今天我們先分享到這里,各位讀者,下一期再見。 |
|