【280頁JP摩根報告】大數據和 AI 策略——面向投資的機器學習和另類數據方法

黑馬_御風 2017-05-21

展開全文

新智元編譯

來源：J.P.Morgan

編譯：張易弗格森

【新智元導讀】近日，微軟 AI 首席科學家鄧力加盟對沖基金公司 Citadel 再次引發(fā)了人們對于機器學習技術應用于金融投資領域的關注。J.P.摩根最新的280 頁研究報告《大數據和 AI 策略——面向投資的機器學習和另類數據方法》，極為詳盡地梳理、評述、預測了對沖基金和投資者使用機器學習技術利用、分析另類數據的現狀與未來，對于一切關注這一新興大趨勢的人們、一切投資者都有重要的借鑒意義。我們節(jié)選介紹了這一長篇報告，并提供了報告的下載。

在新智元微信公眾號回復“JP摩根”下載報告全文。

大數據，特別是另類數據集的構建和利用，已經極大地改變了投資領域的面貌。

對沖基金和其他經驗豐富的投資者日益增加了對“另類數據”(alternative data)的消費。只要可能影響投資決策但又不屬于市場統(tǒng)計數據和公司財報這類傳統(tǒng)信息的數據都稱為“另類數據”。

不過，如果沒有內行的數據科學家，這類數據就難以使用，而且有時候并不可靠。對沖基金只是在最近才能獲得衛(wèi)星圖像分析之類的數據，所以沒有多少歷史數據用來核實其價值。部分批評者認為，如此復雜的公司和經濟分析方法的好處被夸大了。

就在前不久，微軟AI首席科學家、IEEE Fellow 鄧力離開微軟，加盟對沖基金公司 Citadel，擔任首席人工智能官（Chief Artificial-Intelligence Officer）。這條消息再次引發(fā)了人們對于 AI 技術、尤其是機器學習技術在金融投資領域應用的關注。

J.P.摩根最新的280 頁研究報告《大數據和 AI 策略——面向投資的機器學習和另類數據方法》，極為詳盡地梳理、評述、預測了對沖基金和投資者使用機器學習技術利用、分析另類數據的現狀與未來，對于一切關注這一新興大趨勢的人們、一切投資者都有重要的借鑒意義。我們節(jié)選了這一長篇報告非常小的一部分介紹給讀者朋友們，并提供了報告的下載。

另類數據的可用以及分析這些數據的新定量技術——機器學習，正在成為競爭優(yōu)勢的新來源

大數據和機器學習“革命”：目前，聯網設備以電子方式獲得了大多數的記錄和觀察。這原則上允許投資者實時訪問廣泛的市場相關數據。例如，可用于評估通貨膨脹數百萬項目的在線價格，可以實時估計銷售量的商店訪問和交易的客戶數量，可以評估石油鉆井平臺或農業(yè)活動產量的衛(wèi)星圖像。歷史上，類似的數據只能以低頻率（例如每月CPI、每周鉆機數量、美國農業(yè)部作物報告、零售銷售報告和季度收入等）提供。鑒于可用的數據量，有經驗的量化投資者在理論上可以接近獲得實時的某公司特定的數據，而這些數據不能從傳統(tǒng)的數據源獲得。在實踐中，有用的數據不容易獲得，需要購買，需要組織和分析另類數據集以提取可交易信號。大型或非結構化數據集的分析通常使用機器學習來完成。在設計定量策略方面，成功應用機器學習技術需要一定的理論知識和很多實踐經驗。

在苦苦追尋 Alpha （對于非金融領域的讀者，可以簡單地將 Alpha 理解為超額回報）的過程中，基金經理越來越多地采用量化策略。另類數據的可用以及分析這些數據的新定量技術——機器學習，正在成為競爭優(yōu)勢的新來源。這種“數據的工業(yè)革命”旨在通過信息優(yōu)勢和發(fā)現新的不相關信號的能力來提供 Alpha。大數據信息優(yōu)勢來自手機、衛(wèi)星、社交媒體等新技術創(chuàng)造的數據。大數據的信息優(yōu)勢與專家、行業(yè)網絡甚至企業(yè)管理能力不直接相關，更多體現的是收集大量數據并實時分析數據的能力。在這方面，大數據有能力深刻改變投資環(huán)境，進一步將投資行業(yè)趨勢從自由決定性轉變?yōu)榱炕顿Y風格。

有三個趨勢使大數據革命成為可能：

1）可用數據量的指數增加；

2）提高計算能力和數據存儲容量的成本降低；

3）分析復雜數據集的機器學習方法取得了進展。

有許多經常使用的概念可以用于描述大數據，這里我們給出最簡明的用來描述大數據的維度：

大數據有三個重要的特征維度：

體量：通過記錄、公報、圖表、文件等等收集并存儲的數據的規(guī)模，大數據的“大”的下限正在持續(xù)升高；

速度：數據的發(fā)送和接收速度經常被作為大數據的顯著特征。大數據能夠批量傳送；大數據的獲取是實時的，或是接近實時的。

多樣性：大數據經常具有多樣性的形式——結構化的（如SQL 表格或 CSV 文件），半結構化的（如 JSON 或 HTML），非結構化的（如博客或視頻信息）。

另類數據集的分類

在投資管理中，大數據革命的核心在于能夠提供具有信息優(yōu)勢的數據資源。另類數據帶來的優(yōu)勢可能是在于發(fā)現傳統(tǒng)的信息源中沒有包含的新信息，或者發(fā)現的是相同的信息，但是速度更快，時間更早。例如，礦井或者土地的衛(wèi)星圖片能夠在媒體或者官方報告前，揭示供應短缺。

我們旨在提供大數據的框架或分類。首先，我們根據數據的生成方式對數據進行分類。然后，我們考慮的是數據集的屬性，也就是與投資專業(yè)直接相關的，例如將數據集映射到資產類別或投資風格，alpha內容，數據質量，技術規(guī)格等。

我們首先在高水平上對數據來源進行分類，指出它們到底是由個人（如社交媒體帖子）生成，還是通過業(yè)務流程（如電子商務或信用卡交易數據）生成，或由傳感器（比如衛(wèi)星圖片、雷達等等）生成。

上圖展示了這一分類。這種一方法擴展了Kitchin（2015年）和聯合國報告（2015年）在非財務文本中早期的嘗試。雖然這種分類法在某種程度上只是理論上的，但是，在分析這三個類型的數據時，確實存在共同特征，分析方法和共同的挑戰(zhàn)。例如，個人生成的數據通常是非結構化的文本格式，需要自然語言處理。傳感器生成的數據往往是非結構化的，并且可能需要分析技術，例如計數對象，或消除天氣/云從衛(wèi)星圖像的影響。許多商業(yè)上生成的數據集，如信用卡交易和公司的“廢棄”數據都面臨共同的法律和隱私問題。

在根據數據來源對數據進行分類之后，我們還要提供另一個投資人士可能更為感興趣的分類方法。一個零售版塊的投資組合經理可能更關心的是特定的銷售數據，而無所謂它們是衛(wèi)星生成的還是消費者志愿填寫的。高頻交易者關心每天產生的數據，比如推特、最新發(fā)布等等，但不太關心有明顯延遲的信息，比如信用卡數據。在下圖這個“投資分類”中，我們?yōu)楦鞣N另類數據標示了不同的屬性，這些屬性和投資專業(yè)人士比如 CIO、投資組合經理等高度相關。

機器學習技術的分類：怎樣才算是人工智能

大型和較少結構化的數據集通常不能用簡單的電子表格工作和散點圖進行分析。我們需要新的方法來解決新數據集的復雜性和規(guī)模。例如，使用金融分析師的標準工具不可能對非結構化數據（如圖像，社交媒體和新聞稿）進行自動分析。即使在大型傳統(tǒng)數據集上，使用簡單的線性回歸往往會導致過度擬合或不一致的結果。機器學習方法可用于分析大數據，以及更有效地分析傳統(tǒng)數據集。

毫無疑問，機器學習技術在應用于圖像識別，模式識別，自然語言處理以及自動駕駛汽車等復雜任務時，產生了一些驚人的成果。那么，機器學習在金融中的應用是什么，這些方法相互之間有何不同？

首先需要強調，任務的自動化不是機器學習。我們可以指示計算機根據固定的規(guī)則執(zhí)行某些操作。例如，如果資產價格下降了一定量（止損），我們可以指示電腦出售資產。即使給機器（也稱為“符號人工智能”）大量復雜的規(guī)則，并不意味著就是機器學習，這只能說是任務的自動化。使用這個“符號人工智能”，機器在遇到與此前預編程的規(guī)則不匹配的情況時，只會選擇自我“凍結”。

在機器學習中，給予計算機一個輸入（一組變量和數據集），輸出是輸入變量的結果。該機器然后發(fā)現或“學習”在輸入和輸出之間起到鏈接作用的規(guī)則。

最終，這個學習任務的成功會被進行“樣本外測試”，也就是，在未知的情景下，測試它所獲得的這種連接變量和可能的預測結果之間的關系能力。

機器學習可以是監(jiān)督的或無監(jiān)督的。在監(jiān)督學習中，我們試圖找到一個規(guī)則，一個可以用來預測變量的“方程式”。例如，我們可能想要尋找一種能夠預測未來市場表現的能力（趨勢跟蹤）信號。這可以通過運行先進的回歸模型來評估哪一個具有較高的預測能力，并且對于regime變化最為穩(wěn)定。

在無監(jiān)督學習中，我們發(fā)現了數據的結構。例如，我們可能獲得了市場回報，現在嘗試確定回報的主要驅動力。例如，一個成功的模式可能會揭示，在某個時間點，市場受動量因素、能源價格、美元水平以及與流動性有關的新因素的驅動。深度學習是一種機器學習方法，可以分析在多個層級上學習數據（因此“深度”）。我們經常說的自動化的目標是執(zhí)行易于定義但執(zhí)行起來乏味的任務，而深度學習 AI 系統(tǒng)的目標是執(zhí)行難以定義但易于執(zhí)行的任務。深度學習本質上與人們學習的方式更相似，因此是人為重建人類智慧的真正嘗試。

深度學習用于非結構化大數據集的預處理（例如，它用于計算衛(wèi)星圖像中的汽車，識別新聞稿中的情緒等）。在假設的財務時間序列示例中，深度學習預測（或估計）了市場修正的概率。我們可以將大量的數據集輸入到深度學習模型中。該模型可能首先確定一些對市場產生負面影響的簡單特征，例如動量崩潰，波動性增加，流動性下降等。這些因素單提出來可能不會導致市場糾正（market correction）。此外，算法可以識別這些簡單特征之間的模式和它們之間的非線性關系。從這些模型中，它可以構建更復雜的特征，如EM 驅動災難（EM driven crises），財務壓力，這些最終可能導致更為顯著的市場糾正（market correction）甚至衰退。

上圖顯示了交易策略中各種機器學習/人工智能及其潛在應用。最初，先提供灰框中的步驟給算法（作為訓練集的一部分），然后由機器學習算法生成綠色框中的步驟。

在另類數據中實施機器學習的主要步驟

鑒于風險和不確定的回報，許多投資者都在思考何時應該采用更具量化性的、數據驅動型的投資方法。首先我們簡要概述實施過程中的主要步驟（例如有多少需要外包、內部構建大數據/機器學習所需的人才、典型的技術設置等等）。如下圖所示：

首先需要識別和獲取數據。數據采集團隊可以直接通過數據所有者/供應商或聚合第三方數據的專業(yè)公司（并與供應商和最終用戶相匹配）來獲取新數據源的使用權。一旦許可協(xié)議到位，數據需要存儲和預處理。大數據很少呈現出干凈的形式，一般都無法直接提供給機器學習算法使用。需要專門的團隊預處理數據（例如檢測異常值、缺失值等）。數據科學團隊由量化研究人員組成，借助機器學習、反向測試策略和可視化技術分析數據，根據數據推導出可交易信號或見解。最后，信號由投資組合經理實施，或者在某些情況下以自動化方式執(zhí)行（這將涉及到系統(tǒng)的另一層和將信號鏈接到執(zhí)行系統(tǒng)的軟件專家）。

我們認為，大數據與機器學習革命將深刻改變投資環(huán)境。隨著越來越多的投資者采用大數據，市場的反應將更快，并將越來越多地期待傳統(tǒng)或“舊”數據源。這將為量化經理和愿意采用和了解新數據集和分析方法的人們提供優(yōu)勢。那些不學習、拒絕進化的人將面臨過時的風險。不管這些變化的時間表如何，我們認為，分析師，投資組合經理、交易者和首席信息官最終將不得不熟悉大數據和機器學習的發(fā)展和相關的交易策略。