稀疏性幻覺
發(fā)布時間:2021-12-11 | 來源: 川總寫量化
作者:石川
摘要:早期實證資產(chǎn)定價研究中存在不合理的稀疏性假設(shè);新時代的資產(chǎn)定價研究需直面高維數(shù)挑戰(zhàn)。
1?特設(shè)稀疏性
下表列出了過去 30 年學(xué)術(shù)界針對股票市場提出的主流多因子模型。讓我從它們說起。
觀察這些模型,能夠發(fā)現(xiàn)它們的共同之處:每個模型都僅有非常少的因子(3 到 5 個)。如果把所有模型中非重復(fù)的因子(不考慮計算方法的差異)都列出來,這 7 個模型總共也就包含了市場、規(guī)模、價值、動量、盈利、投資、管理、表現(xiàn)、長周期行為以及短周期行為區(qū)區(qū) 10 個因子。它們傳遞出來的觀點是:從不同的動機出發(fā),從這 10 個因子里選 3 到 5 個排列一下就能夠很好地解釋不同股票預(yù)期收益率的截面差異。真的如此嗎?
在過去 30 年中,實證資產(chǎn)定價的研究提出了成百上千個能夠預(yù)測收益率的變量。比如,[量化投資與機器學(xué)習(xí)]?公眾號整理的因子日歷介紹了其中典型的 300+ 個。雖然我們有理由對 factor zoo 充滿質(zhì)疑,但也無法認(rèn)可區(qū)區(qū) 10 個因子(甚至更少)能夠(很好地)解釋和預(yù)測資產(chǎn)的預(yù)期收益率。那么,為什么上述主流多因子模型均只包含了不超過 5 個因子呢?要知道,每個模型背后都有一個令人信服的動機(比如 DDM、行為金融學(xué)或者 q-theory),很難想象從如此動機推出的模型能夠包含太多的因子,否則便難以“自圓其說”。此外,當(dāng)變量太多的時候,portfolio sort 難以有效構(gòu)造 factor(比如 q-factor model 里面的三重排序已經(jīng)是極限了)。出于這些原因,學(xué)者們紛紛在多因子模型中加入了?ad-hoc sparsity(特設(shè)稀疏性)。這意味著每個人選擇幾個因子以及哪些因子,完全是因人(動機)而異的,沒有普適性可言(這正是 ad-hoc 的含義)。
然而另一方面,從模型的發(fā)展歷程來看,我們也能觀察出兩點:
1.?隨著越來越多的 anomalies 被挖出來,多因子模型中因子個數(shù)也基本上是隨時間遞增的,例如 FF3 到 q-factor model 到 FF5 —— 更多的因子才能解釋更多的 anomalies;
2.?哪怕因子的個數(shù)沒有顯著增加,但用來構(gòu)造因子的變量的個數(shù)也得到了提升,例如管理和表現(xiàn)兩個因子 —— 更多的變量能解釋更多的 anomalies。
這兩點說明,學(xué)術(shù)界逐漸意識到越來越多的(而非一只手?jǐn)?shù)得過來的)因子能夠幫助解釋股票預(yù)期收益率。從實證角度,我們再來看另一組佐證。Bryzgalova, Huang, and Julliard (2020) 通過貝葉斯統(tǒng)計研究發(fā)現(xiàn),后驗概率最高的多因子模型中均包含了至少數(shù)十個因子。從后驗概率來看,上表中的這些模型離最優(yōu)差了“十萬八千里”。所有實證結(jié)果都表明,在多因子模型中強加稀疏性假設(shè),從而把定價問題變成低維問題難言合理。希望通過若干 ad-hoc 因子來解釋股票預(yù)期收益率或者 span 出更大的夏普率平方,僅僅是一種稀疏性幻覺。雖然追求簡約模型本身并無不妥,但上述通過特設(shè)稀疏性假設(shè)提出的多因子模型絕非實證資產(chǎn)定價的未來。
2?稀疏性幻覺
近日,經(jīng)濟(jì)學(xué)五大頂刊之一?Econometrica?刊載了一篇文章 Giannone, Lenza, and Primiceri (2021),研究了大數(shù)據(jù)時代經(jīng)濟(jì)學(xué)領(lǐng)域常見的六大類預(yù)測問題,而股票收益率的 cross-section 正是其中之一。該文的題目正是稀疏性幻覺(Economic predictions with big data: The illusion of sparsity)。該文通過兩個核心變量來控制模型納入?yún)f(xié)變量的概率(probability of inclusion)以及協(xié)變量參數(shù)被向先驗收縮的程度(degree of shrinkage)。后面這個很好理解。當(dāng)變量太多以后,shrinkage 是防止過擬合的有效手段。通過貝葉斯統(tǒng)計,該文給出了諸多非常有益的定量統(tǒng)計推斷。
首先,probability of inclusion 和 degree of shrinkage 正相關(guān)。這是符合預(yù)期的結(jié)果,即變量被納入的概率越高,收縮的程度也越高(從而防止過擬合)。其次,在五大類問題中(包括我們關(guān)心的截面資產(chǎn)定價),probability of inclusion 的取值暗示著稀疏性假設(shè)不成立。第三,模型存在巨大的不確定性,協(xié)變量之間存在不可忽視的共線性,一些協(xié)變量包含了相似的預(yù)測性信息。下圖展示了六個問題中每個協(xié)變量被納入模型的概率。我們關(guān)心的是標(biāo)記為 finance 2 的問題,它使用 144 個協(xié)變量預(yù)測資產(chǎn)收益率的截面差異。從圖中不難看出,每個變量都有一定的概率被納入模型。結(jié)合所有協(xié)變量的 overall probability of inclusion,可以進(jìn)一步得出的結(jié)論是,在絕大多數(shù)問題中,并沒有明顯的稀疏性模式,每個變量都有一定可能存在于真實的模型之中。
由于巨大的不確定性,為了提高預(yù)測結(jié)果,更好的做法是同時考慮多個包含不同組協(xié)變量的模型并取它們的平均。這個做法對應(yīng)著機器學(xué)習(xí)領(lǐng)域的 ensemble methods,比如 boosting、隨機森林。最后,Giannone, Lenza, and Primiceri (2021) 研究了上述發(fā)現(xiàn)對樣本外預(yù)測意味著什么。結(jié)論是稀疏性 + 忽視不確定性將造成可預(yù)測性的損失。摒棄稀疏性意味著使用更多的協(xié)變量,考慮不確定性則意味著取不同模型的平均。反觀本文第一節(jié)的那些多因子模型,恰恰同時占了稀疏性和忽視不確定性這兩條 —— 每個模型都僅考慮有限個且確定的(源自某個動機的)因子。
3?高維數(shù)下的研究挑戰(zhàn)
一旦知道了問題,就可以尋求正確的解決方法。既然稀疏性假設(shè)并不合理,那么正確的應(yīng)對就是直面協(xié)變量(即用來構(gòu)造因子的公司特征)的高維數(shù)問題。然而,如果在多因子模型 RHS 塞入太多解釋變量毫無疑問會對傳統(tǒng)計量經(jīng)濟(jì)學(xué)帶來很大的挑戰(zhàn)。
在諸多挑戰(zhàn)中,如何防止過擬合正是其中之一(直接用歷史數(shù)據(jù)進(jìn)行 OLS 回歸注定不會在樣本外有好的結(jié)果)。在本文第二節(jié)曾提到 Giannone, Lenza, and Primiceri (2021) 的發(fā)現(xiàn)之一是 probability of inclusion 和 degree of shrinkage 正相關(guān),即當(dāng)我們使用更多變量時,就需要對它們施以更高程度的正則化。Kozak, Nagel, and Santosh (2020) 的實證結(jié)果也支持這一觀點。假設(shè)使用 50 個重要的(且相關(guān)性較低的)公司特征構(gòu)造的 portfolios 來估計 SDF。為了獲得樣本外更好的預(yù)測結(jié)果,稀疏性和正則化應(yīng)該滿足怎樣的特性呢?下圖展示了 Kozak, Nagel, and Santosh (2020) 的發(fā)現(xiàn)。
在這個 heat-map 中,顏色越亮(越發(fā)黃)的區(qū)域?qū)?yīng)著越高的樣本外預(yù)測性。圖中的橫坐標(biāo)表示正則化的強度(數(shù)值越低強度越高);縱坐標(biāo)表示有效協(xié)變量的個數(shù)(對數(shù)軸)。結(jié)果清晰地顯示出,如果想取得樣本外更好的預(yù)測結(jié)果,模型需要滿足以下兩點:
1.?包含足夠多的協(xié)變量(即稀疏性假設(shè)不成立);
2.?施加必要的正則化。
上述結(jié)果和 Giannone, Lenza, and Primiceri (2021) 的結(jié)論一致。該實證證據(jù)是否意味著學(xué)術(shù)界尋找簡約多因子模型的執(zhí)著也是枉然呢?答案也并不是否定的。當(dāng)然,在關(guān)于稀疏性假設(shè)不成立的如此廣泛的實證證據(jù)下,我們不應(yīng)再指望人為指定有限個公司特征來構(gòu)造模型,但是通過統(tǒng)計手段依然可以在不損失預(yù)測信息的前提下構(gòu)造簡約模型。PCA 就是方法之一。
回到上面的例子,對 50 個公司特征 portfolios 做 PCA 得到 50 個主成分(PC portfolios),并用它們代替原始 portfolios 來估計 SDF。下圖展示了樣本外預(yù)測性的實證結(jié)果。從結(jié)果可以看出,此時我們依然需要必要的正則化,但是和前面的結(jié)果相比,圖中亮黃色的區(qū)域覆蓋了僅有少數(shù)有效變量的情況。這意味著,只需要通過有限幾個主成分就能夠獲得足夠的樣本外預(yù)測性,因而實現(xiàn)了模型的簡約性。
這一結(jié)果和 Kelly, Pruitt, and Su (2019) 的工具變量 PCA 不謀而合。該文對比了 IPCA 因子和 FF5 + MOM 六因子模型。無論是 span 出來的最大夏普率平方,還是非條件或條件定價誤差,IPCA 多因子模型都遠(yuǎn)勝 FF5 + MOM 六因子模型。PCA 的成功可以歸結(jié)為兩點:(1)Kozak, Nagel, and Santosh (2018)?指出能夠解釋截面預(yù)期收益率差異的因子必須和資產(chǎn)收益率的協(xié)方差矩陣密切相關(guān) —— 這為近幾年來基于 PCA 方法的研究奠定了堅實的基礎(chǔ);(2)PCA 有效的將大量公司特征代表的預(yù)測性信息降維到有限幾個因子之中(而非出于某種動機人為的選擇幾個變量)。這兩點缺一不可。
本節(jié)的討論說明,未來的實證資產(chǎn)定價應(yīng)放棄稀疏性幻覺,并致力于解決如何從大量潛在高度相關(guān)但卻都對預(yù)測收益率有幫助的協(xié)變量之中提取預(yù)測性信息,以期使得投資組合在樣本外獲得更優(yōu)異的風(fēng)險收益特征。這正是高維數(shù)下的研究挑戰(zhàn)。在這方面,機器學(xué)習(xí)算法也許比傳統(tǒng)計量經(jīng)濟(jì)學(xué)手段更有前景。Giglio, Kelly, and Xiu (2021) 梳理了近年來機器學(xué)習(xí)、資產(chǎn)定價以及因子模型方面的進(jìn)展,勾勒了研究的藍(lán)圖。
然而有必要指出的是,off-the-shelf 機器學(xué)習(xí)算法本身不太可能在金融領(lǐng)域取得成功;在使用機器學(xué)習(xí)算法的過程中,通過必要的手段注入金融學(xué)先驗對于其發(fā)揮最大作用至關(guān)重要。(明年公眾號將會介紹更多這方面的前沿進(jìn)展。)此外,在高維環(huán)境中,由于 investor high-dimensional learning 引入的樣本內(nèi)虛假可預(yù)測性也是需要在研究中面對和解決的難題(Martin and Nagel 2021)。
最后,讓我以 Giannone, Lenza, and Primiceri (2021) 的結(jié)論結(jié)束本文。
In economics, there is no theoretical argument suggesting that predictive models should in general include only a handful of predictors. … The empirical support for low-dimensional models is generally weak. Even when it appears stronger, economic data are not informative enough to uniquely identify the relevant predictors when a large pool of variables is available to the researcher.
參考文獻(xiàn)
Bryzgalova, S., J. Huang, and C. Julliard (2020). Bayesian solutions for the factor zoo: We just run two quadrillion models. Working paper.
Giannone, D., M. Lenza, and G. E. Primiceri (2021). Economic predictions with big data: The illusion of sparsity.?Econometrica?89(5), 2409 – 2437.
Giglio, S., B. T. Kelly, and D. Xiu (2021). Factor models, machine learning, and asset pricing. Working paper.
Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return.?Journal of Financial Economics?134(3), 501 – 524.
Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models.?Journal of Finance?73(3), 1183 – 1223.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section.?Journal of Financial Economics?135(2), 271 – 292.
Martin, I. and S. Nagel (2021). Market efficiency in?the age of big data.?Journal of Financial Economics?forthcoming.
免責(zé)聲明:入市有風(fēng)險,投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。