正文 許多經(jīng)濟(jì)學(xué)家認(rèn)為股票市場(chǎng)是隨機(jī)的,因?yàn)樗茈S機(jī)事件的支配,有效市場(chǎng)假說(shuō)和隨機(jī)游走理論中對(duì)此也有所說(shuō)明。但是這是真的嗎? 研究人員對(duì)這一點(diǎn)進(jìn)行了測(cè)試,他們?cè)噲D預(yù)測(cè)股票市場(chǎng),以表明確實(shí)有可能對(duì)市場(chǎng)走向有影響,而且似乎某些事實(shí)已經(jīng)證明了他們的觀點(diǎn)。這一領(lǐng)域的里程碑式的論文是由Bollen等人撰寫(xiě)的(https:///pdf/1010.3003.pdf)。本文中,我們將試圖簡(jiǎn)單地解釋他們是如何做的。 Bollen使用公眾觀點(diǎn)(使用Twitter)來(lái)證明推特上公眾表達(dá)的情緒和股票市場(chǎng)表現(xiàn)之間存在關(guān)聯(lián)。 什么是股票市場(chǎng)? 現(xiàn)在,大多數(shù)公司不是由一個(gè)簡(jiǎn)單的人所擁有,甚至不是一個(gè)單純的組織,而是由大量的人所共享一個(gè)公司,這些人被稱為股東。這些人都擁有公司的一部分股票,因此這些人也被稱為股東。股票市場(chǎng)是一個(gè)你可以出售公司股票或購(gòu)買公司股票的地方。 更正式地說(shuō),股票可以定義為:
股票市場(chǎng)可以定義為:
如果你有興趣了解更多,請(qǐng)參考這個(gè)鏈接: https:///resources/knowledge/trading-investing/stock-market/ 現(xiàn)在有很多股票市場(chǎng),我們的研究落腳點(diǎn)將是“紐約證券交易所”。為什么?因?yàn)樗亲畲蟮墓善笔袌?chǎng),大多數(shù)相關(guān)研究都以它為研究對(duì)象?,F(xiàn)在,在繼續(xù)我們的研究之前,需要理解一個(gè)術(shù)語(yǔ),它是“道瓊斯工業(yè)平均指數(shù)”,或者簡(jiǎn)稱為“道瓊斯指數(shù)”。 道瓊斯工業(yè)平均指數(shù)是紐約證券交易所和納斯達(dá)克交易的30只重要股票的價(jià)格加權(quán)平均值。道瓊斯工業(yè)平均指數(shù)是查爾斯道在1896年發(fā)明的。 道瓊斯工業(yè)平均指數(shù)通常被稱為“道瓊斯”, 道瓊斯工業(yè)平均指數(shù)(DJIA)包括世界上最老、最受關(guān)注的一部分公司,有通用電氣公司、華特迪士尼公司、埃克森美孚公司以及微軟等公司。電視網(wǎng)絡(luò)中的通常指的是道瓊斯指數(shù)。 所以道瓊斯指數(shù)為我們就研究股票市場(chǎng)是高走還是低走提供了一個(gè)很好的思路。那么DJIA到底衡量什么?它本身只是前30大公司股票價(jià)格的加權(quán)平均值,其中,價(jià)值更高的股票被賦予更大的權(quán)重,而最終的結(jié)果將被標(biāo)準(zhǔn)化以剔除偶然性事件。因此,它本身就是一個(gè)價(jià)格。 因此,有了DJIA,我們現(xiàn)在就有了一個(gè)可靠的方法去了解市場(chǎng)一天的表現(xiàn)?,F(xiàn)在我們需要的是一種能夠挖掘公眾意見(jiàn)的方式,為此我們借助Twitter。 Twitter情緒分析 機(jī)器能理解情感嗎?不,他們不能,直到現(xiàn)在,我們不是指完美的不(而是相當(dāng)不完美的不),因?yàn)闄C(jī)器現(xiàn)在可以理解各種各樣的情感(盡管不是完美和可靠的),并且很容易被愚弄/迷惑。 使用機(jī)器學(xué)習(xí)可以測(cè)量某段文本中表達(dá)的情緒(或情感)。但是精確度還有待提高。但是,如果情感被明確表達(dá),并且語(yǔ)言上的含義并沒(méi)有被扭曲,那么我們可以建立一個(gè)可靠的情感分析模型。這是Bollen從推特上獲得情緒表達(dá)的載體想法。 情感分析是機(jī)器學(xué)習(xí)中一個(gè)非常重要的應(yīng)用,許多不同的(指的是很多)算法已經(jīng)被用于從文本中獲取情感這一現(xiàn)象就不足為奇了。讓我們來(lái)看一個(gè)最簡(jiǎn)單和直觀的算法??紤]一個(gè)文本:
我們的算法將只關(guān)注重要的單詞,如“非常”、“印象深刻”等。(而不是像“我”、“是”等詞。我們的算法可能不知道spaceX、 Elon、Musk, 所以這些詞可能會(huì)被忽略掉)?,F(xiàn)在,考慮到該算法之前已經(jīng)遍歷過(guò)正面積極的詞(在該訓(xùn)練文本的時(shí)候),并發(fā)現(xiàn)諸如“漂亮”“印象深刻”“偉大”這樣的詞大多與正面情緒有關(guān)。因此我們的算法可能會(huì)將文本標(biāo)記為積極。 這是Textblob (文本分析工具:https://textblob./en/dev/)所采用的方法,它非常簡(jiǎn)單,Textblob基于樸素貝葉斯算法工作。樸素貝葉斯算法是一種非常簡(jiǎn)單的算法,考慮到它的簡(jiǎn)單性,它給出的結(jié)果會(huì)很大。因此這個(gè)算法的思路是——考慮到每個(gè)單詞所關(guān)聯(lián)的文檔類型,給每個(gè)單詞賦予一個(gè)分?jǐn)?shù)。從而出現(xiàn)在正面文本中的單詞比出現(xiàn)在負(fù)面文本中的單詞更有可能有更高(或更積極)的分?jǐn)?shù)。因此如果積極的詞出現(xiàn)在文檔中,那么這個(gè)文本更有可能是正面的。因此,每個(gè)單詞都有自己的分?jǐn)?shù),然后對(duì)這些分?jǐn)?shù)進(jìn)行平均,以獲得文檔的情感傾向。 當(dāng)然,這種方法并不理想,尤其是在復(fù)雜的文檔上,這樣的方法會(huì)產(chǎn)生非常差的結(jié)果。因此,大多數(shù)研究者也會(huì)使用更復(fù)雜的分類器(如SVMs,即支持向量機(jī))來(lái)建立情感分析模型。 Bollen使用了兩種工具進(jìn)行情感挖掘,一種是意見(jiàn)查找器,另一種是谷歌公司推出的關(guān)于情緒狀態(tài)的個(gè)人資料服務(wù)。這些天我并沒(méi)有見(jiàn)過(guò)很多人使用意見(jiàn)查找器,當(dāng)然這個(gè)工具對(duì)于本博客來(lái)說(shuō)也不是很重要,所以我們將把它放在谷歌情緒狀態(tài)簡(jiǎn)介(或GPOMS)上。 GPOMS是一種工具,它可以幫助你準(zhǔn)確地檢測(cè)文本中表達(dá)的情緒。它基于情緒狀態(tài),由65或37個(gè)問(wèn)題組成的調(diào)查問(wèn)卷,而這將取決于你選擇哪一個(gè)。對(duì)于每一個(gè)問(wèn)題,你都用以下的詞來(lái)表明你的感受——“一點(diǎn)也不”、“一點(diǎn)”、“適度”、“相當(dāng)多”、“極度”。 因此,舉個(gè)例子,對(duì)于“遺憾”的問(wèn)題,你會(huì)指出你作為上述狀態(tài)之一的感覺(jué), 它會(huì)用一個(gè)標(biāo)準(zhǔn)來(lái)轉(zhuǎn)換成分?jǐn)?shù),你的情感傾向?qū)?huì)根據(jù)你的反應(yīng)來(lái)進(jìn)行計(jì)算。這里有一個(gè)測(cè)試鏈接:https://www./poms.htm 那么,GPOMS如何使用POMS從文本中預(yù)測(cè)情緒呢?你可以點(diǎn)擊這個(gè)谷歌連接。Bollen使用了谷歌發(fā)布的一個(gè)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括從1萬(wàn)億個(gè)英文網(wǎng)頁(yè)文本中提取的n-gram的頻率來(lái)計(jì)數(shù)。你可以在這里試試。那么bollen做了什么:他將POMS調(diào)查問(wèn)卷中的每個(gè)單詞與google n-gram數(shù)據(jù)集中的n-gram相關(guān)聯(lián),然后將最頻繁出現(xiàn)的N -gram分成標(biāo)記?,F(xiàn)在這些單詞中的每一個(gè)都有與之相關(guān)聯(lián)的情緒,并且可以基于這些單詞出現(xiàn)的情況來(lái)給它們一個(gè)加權(quán)分?jǐn)?shù),并根據(jù)這些詞在文本中的出現(xiàn)的部分來(lái)用情感進(jìn)行標(biāo)記。 以上是我們對(duì)Bollen在論文中對(duì)這一方法解釋的理解:
不幸的是,GPOMS不再可被自由獲取,現(xiàn)在它是一個(gè)封閉的源代碼工具(http://101.96.10.75/cs229.stanford.edu/proj2011/GoelMittal-StockMarketPredictionUsingTwitterSentimentAnalysis.pdf)。Goel- Mittal用一種簡(jiǎn)單得多的方法建立了一個(gè)類似的模型(盡管不太準(zhǔn)確)。他們使用POMS問(wèn)卷中出現(xiàn)的單詞的同義詞,然后將它們映射到文本中。 根據(jù)他的GPOMS模型和意見(jiàn)調(diào)查者Bollen發(fā)現(xiàn)的人們的情緒傾向,得到的結(jié)果如下: 我們現(xiàn)在已經(jīng)完成了四個(gè)部分中的兩個(gè),我們知道了如何衡量公眾的情緒和市場(chǎng)的情緒?,F(xiàn)在我們可以繼續(xù)證明這兩者之間確實(shí)是關(guān)聯(lián)的。 “時(shí)間序列”間的相關(guān)性 如上圖所示,我們已經(jīng)獲得了關(guān)于人們情緒的時(shí)間序列,類似的DJIA分?jǐn)?shù)時(shí)間序列可以很容易地獲得?,F(xiàn)在,我們需要尋找一種方法來(lái)證明這些是相互關(guān)聯(lián)的,或者人們的情緒(從推特上挖掘出來(lái)的)導(dǎo)致了股票市場(chǎng)的變化。 我們用格蘭杰因果關(guān)系(Granger causality)來(lái)對(duì)它進(jìn)行處理。那么到底什么是格蘭杰因果檢驗(yàn)?zāi)?根據(jù) Schoaropedia 的文章(http://www./article/Granger_causality) 格蘭杰因果關(guān)系(Granger causality)是基于預(yù)測(cè)的因果關(guān)系的統(tǒng)計(jì)概念。根據(jù)格蘭杰因果關(guān)系,如果信號(hào)X1是信號(hào)X2的格蘭杰原因(或G-causes),則X1的過(guò)去值應(yīng)該包含有助于預(yù)測(cè)X2的信息,而不僅僅是X2過(guò)去值中包含的信息。它的數(shù)學(xué)公式基于隨機(jī)過(guò)程的線性回歸模型( Granger 1969 )。非線性情況存在更復(fù)雜的擴(kuò)展形式,然而這些擴(kuò)展形式在實(shí)踐中往往更難應(yīng)用。 所以,如果我們有兩個(gè)時(shí)間序列,比如X1和X2,我們可以證明X2依賴于它的歷史值,即: 這里, 至少有一個(gè)常數(shù) 不為零,那么我們可以說(shuō) 取決于其歷史值,已知上述關(guān)系后,如果 中至少有一個(gè)不為零,那么以下關(guān)系成立: 那么我們可以說(shuō)X1是X2的格蘭杰原因, 或者X1有預(yù)測(cè)X2的可能性。請(qǐng)參考這段視頻可以更好地理解格蘭杰因果關(guān)系。 在做了二元格蘭杰因果分析后,Bollen發(fā)現(xiàn),在六種情緒狀態(tài)(即平靜、警覺(jué)、肯定、重要、善良和快樂(lè))中,只有一種情緒狀態(tài),即“平靜”情緒狀態(tài)與股票市場(chǎng)的Granger因果關(guān)系最大,從2天到6天不等,另外四種情緒維度與股票市場(chǎng)沒(méi)有顯著的因果關(guān)系。 因此,Bollen繪制了“平靜”的時(shí)間序列(滯后3天)和DJIA時(shí)間序列,以顯示兩者之間的相關(guān)性:
陰影部分顯示了具有顯著相關(guān)性的部分。我們應(yīng)該記住,平靜圖滯后3天,因此Twitter的數(shù)據(jù)不是可以同步對(duì)市場(chǎng)進(jìn)行預(yù)測(cè),而是在3天前預(yù)測(cè)市場(chǎng)。如果我們仔細(xì)觀察的話,我們可以看到這個(gè)圖中存在大量的相關(guān)性,因此現(xiàn)在我們可以確定兩個(gè)時(shí)間序列之間存在相關(guān)性。我們可以利用這些信息來(lái)預(yù)測(cè)股票市場(chǎng),以及見(jiàn)證我們預(yù)測(cè)的準(zhǔn)確性有多高。 預(yù)測(cè)股票市場(chǎng) 現(xiàn)在,對(duì)于試金石數(shù)據(jù),我們能根據(jù)現(xiàn)有的Twitter預(yù)測(cè)以前看不見(jiàn)的股票市場(chǎng)的將來(lái)趨勢(shì)嗎? 為了預(yù)測(cè)股票市場(chǎng),Bollen使用了一種叫做自組織模糊神經(jīng)網(wǎng)絡(luò)(SOFNN)的算法,他們使用了五層混合SOFNN模型來(lái)預(yù)測(cè)股票市場(chǎng),并獲得了令人印象深刻的結(jié)果。他們使用了不同的數(shù)據(jù)排列方式,例如,只有平靜,平靜和快樂(lè)交織等。他們?cè)谝苑蔷€性方式將平靜和快樂(lè)結(jié)合在一起后獲得的最佳準(zhǔn)確率為87.6 %。 那么,到底什么是SOFNN?(http://www./article/Fuzzy_neural_network)根據(jù)這篇sholaropedia的學(xué)術(shù)論文,結(jié)合模糊邏輯和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),為類似的任務(wù)創(chuàng)建了一個(gè)非常好的模型。這兩個(gè)主題都超出了本文的范圍。因此,我們將只簡(jiǎn)要討論他們。 在進(jìn)行計(jì)算機(jī)操作時(shí),我們主要處理的是布爾邏輯或二進(jìn)制邏輯,即任何實(shí)體都可認(rèn)為0或1。但是這種類型的邏輯在現(xiàn)實(shí)世界的許多場(chǎng)景中并不適用,因?yàn)槲覀円话銜?huì)面臨超過(guò)一個(gè)的結(jié)果,例如,游戲的結(jié)果主要是贏或輸,但也可能是平局,或者也可能需要考慮到贏的差距,因此在0和1這兩者之間可能會(huì)有更多的狀態(tài)。對(duì)我們來(lái)說(shuō),這似乎比二進(jìn)制(又稱黑白)方法更自然,也更有助于模擬現(xiàn)實(shí)世界的情況。這種模糊方法是模糊邏輯背后的邏輯,你可以在這里讀到更多(http://www./article/Fuzzy_neural_network) 如果你沒(méi)聽(tīng)說(shuō)過(guò)神經(jīng)網(wǎng)絡(luò),那么現(xiàn)在神經(jīng)網(wǎng)絡(luò)是個(gè)時(shí)髦的詞。是時(shí)候了解一些相關(guān)的博客了?;旧?,這是一個(gè)試圖模仿人腦內(nèi)部神經(jīng)元的數(shù)學(xué)模型。 以下是sholaropedia對(duì)混合模糊神經(jīng)網(wǎng)絡(luò)的一個(gè)很好的解釋:
綜合 以上四個(gè)部分試圖用來(lái)解釋用于構(gòu)建Bollen提出的模型的較小部分。現(xiàn)在,我們將研究的最終模型,來(lái)更好地理解可用于預(yù)測(cè)股票市場(chǎng)的模型:
首先,將來(lái)自于推特和DJIA中的原始數(shù)據(jù)進(jìn)行提取和處理,然后使用情緒分析模型Opinion Finder和GPOMS對(duì)推特?cái)?shù)據(jù)進(jìn)行Granger因果檢驗(yàn),以證明推特上表達(dá)的情緒確實(shí)與DJIA值有一定的相關(guān)性。一旦上述情況成立,我們接下來(lái)就可以開(kāi)始用SOFNN模型預(yù)測(cè)股市了。 |
|