到底需要多少因子 ?
發(fā)布時間:2023-11-01 | 來源: 川總寫量化
作者:石川
摘要:“How many of these factors are really important?” —— John Cochrane
1
2011 年,時任 AFA 主席的?John Cochrane?在他的主席演講調(diào)侃了 zoo of factors,并提出了鏗鏘三問。其中第三個問題是:
“How many of these factors are really important?”
這個問題引發(fā)了關(guān)于隨機貼現(xiàn)因子(SDF)是否有稀疏表達(sparsity)的大討論。由資產(chǎn)定價理論可知,SDF 可以被表示為一系列資產(chǎn)的線性組合(Hansen and Richard 1987):
?
式中?
關(guān)于這個問題,稀疏 vs. 不稀疏兩派均有人支持:
1.?認為 SDF 有稀疏表達的研究包括使用正則化(進行變量選擇)或者降維技術(shù)來估計低維 SDF;
2.?認為 SDF 沒有稀疏表達的研究則指出,在估計 SDF 時應(yīng)該考慮盡可能多的因子。
以下兩個小結(jié)分別簡要闡述這兩派的觀點。本文最后會給出我的看法。
2
首先來看稀疏 SDF 的相關(guān)研究。
為尋求低維 SDF,一個自然的想法就是在模型中稀疏性約束(sparsity constraint)。這可以通過加入?
以前者為例,下圖展示了每個因子被模型選擇的概率。該文的實證發(fā)現(xiàn)顯示,在 120 多個候選因子中只有 17 個因子是有用的,而其他大多數(shù)因子則是冗余或無用的。
類似地,后者也給出了稀疏 SDF 的實證結(jié)果。下圖展示了在他們的實證區(qū)間內(nèi),每個因子被選中的情況。圖中藍色區(qū)域標識被選中。在 1990 到 2014 年之間,被選中的平均個數(shù)約為 14,和 Feng, Giglio and Xiu (2020) 在數(shù)量上十分接近。
除了變量選擇之外,另一個思路是降維(dimension reduction)。近年來諸多基于 PCA 及其變化的方法已經(jīng)將這條研究線發(fā)揮的淋漓盡致。這其中一篇代表作是?Lettau and Pelger (2020)。該文認為傳統(tǒng) PCA 方法僅僅利用了收益率的二階矩信息,丟失掉了原始因子和資產(chǎn)收益率在截面上的關(guān)系,即一階矩信息。因此,它在 PCA 的 loss function 中加入了一階矩信息,進而提出了 PR-PCA(risk premium PCA)估計量。
實證分析表明,RP-PCA 在絕大多數(shù)情況下都優(yōu)于 PCA,且可以將大量因子涵蓋的信息聚合到 5 個低維主成分上。其中,第一主成分有非常高的方差和較為顯著的平均收益,表現(xiàn)非常類似市場因子;第三主成分可視作價值因子;第五主成分近似于短期反轉(zhuǎn)因子。而第二和第四主成分更偏重是諸多原始因子的組合。
無論是變量選擇還是降維,都可以產(chǎn)生 SDF 的稀疏表達。然而,一個必須要面對和回答的問題是,雖然不同方法給出的 SDF 都是低維的,但它們涵蓋的原始因子卻未必相同。事實上,頗有意思的是,上面提到的 Lettau and Pelger (2020) 和 Freyberger, Neuhierl and Weber (2020) 兩篇文章都出自 2020 年 RFS 的特刊?New Methods for the Cross-Section of Returns。在特刊的導(dǎo)讀中,兩位編輯 Karolyi and Van Nieuwerburgh (2020) 也就如何尋找低維定價模型中的共性靈魂發(fā)問,激勵學(xué)術(shù)界探尋不同模型導(dǎo)致不同因子這一現(xiàn)象背后的原因。
3
關(guān)于 SDF 的非稀疏表達,一篇值得一提的實證研究是 Kozak, Nagel and Santosh (2020)。當(dāng)然,與其說這篇文章是明確立場,倒不如說它是在探究這個問題。(你馬上就會知道為啥這么說。)
該文首先使用 50 個基于公司特征構(gòu)造的因子來估計 SDF,并通過同時加入?
不過有意思的是,該文并未放棄構(gòu)造稀疏 SDF 的嘗試。為此,三位作者首先對原始的 50 個因子使用 PCA,旨在通過統(tǒng)計手段在不損失預(yù)測信息的前提下構(gòu)造簡約模型。下圖展示了以 50 個主成分作為因子并估計 SDF 的情況。和使用原始因子相比,此時亮黃色的區(qū)域覆蓋了模型只納入少數(shù)因子的情況。這意味著,只需要通過有限幾個主成分就能夠獲得足夠的樣本外預(yù)測性,因而實現(xiàn)了稀疏的 SDF。但盡管如此,由于每個主成分都是所有原始因子的線性組合,因此該 SDF 表達依然隱含地納入了眾多因子的信息。
上述結(jié)論也在?Bryzgalova, Huang and Julliard (2023)?中得到了進一步確認。該文以 51 個因子的超過 2 千萬億種排列組合所構(gòu)造的模型為分析對象,發(fā)現(xiàn)不存在某個最優(yōu)的模型,而是存在數(shù)百種可能的模型設(shè)定,給出了幾乎相同的資產(chǎn)定價實證結(jié)果。更為重要的是,盡管它們的方法識別出一些對于構(gòu)造 SDF 來說最重要的因子,但它們并不能完全描述 SDF。反之,SDF 在可觀測的因子空間中密集(dense)的。它們的模型能夠有效聚合不同因子所涵蓋的關(guān)于 SDF 的帶噪聲信息。
另外,談到非稀疏 SDF,不得不提的另一個 research agenda 就是 Bryan Kelly 的“復(fù)雜度美德”系列文章。在最新的 Didisheim et al. (2023) 中,幾位作者將復(fù)雜度美德推廣到了截面定價模型。該文的結(jié)果顯示,來自因子定價模型的樣本外定價誤差會隨著因子數(shù)量的增加而減少。無疑,這種偏好復(fù)雜度的觀點挑戰(zhàn)了傳統(tǒng)的 APT(Ross 1976),即少量的風(fēng)險因子應(yīng)該捕捉資產(chǎn)之間的風(fēng)險和收益率的權(quán)衡。然而,用該文自己的話說,即使不存在套利且真實 SDF 存在,人們也能夠在實證中持續(xù)地挖出新的、未被已有因子定價的因子(或異象),而將它們加到 SDF 中會持續(xù)改善樣本外的表現(xiàn)。
另外,鑒于?SDF 和 MVE 組合的等價性,該文的理論和實證結(jié)果對業(yè)界的啟發(fā)是,隨著納入投資組合的因子個數(shù)的增多,其樣本外的風(fēng)險調(diào)整后收益會提高。也就是說,對投資者來說,最優(yōu)的 MVE 組合是使用大量因子,從而提高樣本外的夏普比率。此外,Kelly 他們的發(fā)現(xiàn)對于 zoo of factors 也有新的解讀。即實證中的大量異象既不是令人頭疼的難題,更不意味著學(xué)術(shù)界的?p-hacking?風(fēng)氣盛行(Jensen, Kelly and Pedersen 2023)。反之,它是在復(fù)雜的資產(chǎn)定價環(huán)境中的必然結(jié)果。
4
毫無疑問,估計 SDF 是實證資產(chǎn)定價中的最核心問題。因為一旦有了 SDF,通過資產(chǎn)和它的協(xié)方差就可以給資產(chǎn)定價。而關(guān)于這個問題,一個人的看法取決于他所持有的立場。站在業(yè)界的角度,我們關(guān)心的如何最大化樣本外條件夏普比率。從這個立場出發(fā),我個人認同 SDF 是非稀疏的,或者說我更傾向在估計 SDF 的時候使用更多的因子。
為了給出進一步的說明,仍然回到 SDF 和 MVE 的等價性。在數(shù)據(jù)如此豐富的時代,用于構(gòu)造真實 MVE 組合的因子可能會有很多,而每個低維模型都隱含了對 MVE(也即 SDF)所包含因子的先驗。比如,最簡單的 FF3 使用規(guī)模和價值兩個因子,意味著該模型認為這兩個組合在 MVE 組合/SDF 中這兩個因子的權(quán)重非零。所以,我們必須客觀的問自己是否有足夠充分的先驗認為并相信 SDF 只和少數(shù)幾個因子有關(guān)。
Baba-Yara, Boyer and Davis (2021)?從 MVE 組合夏普比率的角度比較了諸多使用傳統(tǒng)和機器學(xué)習(xí)方法構(gòu)造的低維實證模型,發(fā)現(xiàn)這些模型并不能解釋彼此。該文通過貝葉斯統(tǒng)計發(fā)現(xiàn)當(dāng)潛在的因子數(shù)非常大時,使用不同先驗的模型(哪怕其中包含真實的模型)都注定無法為彼此定價。換句話說,在因子的高維數(shù)時代,從 pricing error 檢驗的角度出發(fā),不存在最優(yōu)的低維模型,所以這種 factor war 比較似乎是徒勞的(或者說 factor model "failure" 是注定的)。而如果以最大化夏普比率為目標,與其苦苦尋找低維 SDF,也許更應(yīng)該想想如何利用好眾多因子所包含的信息。
參考文獻
Baba-Yara, F., B. Boyer, and C. Davis (2021). The factor model failure puzzle. Working paper.
Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models.?Journal of Finance 78(1), 487-557.
Didisheim, A., S. Ke, B. Kelly, and S. Malamud (2023). Complexity in factor pricing models. Tech. rep. Yale University.
Hansen, L. P. and S. F. Richard (1987). The role of conditioning information in deducing testable restrictions implied by dynamic asset pricing models.?Econometrica 55(3), 587-613.
Feng, G., S. Giglio, and D. Xiu (2020). Taming the factor zoo: A test of new factors.?Journal of Finance 75(3), 1327-1370.
Freyberger, J., A. Neuhierl, and M. Weber (2020). Dissecting characteristics nonparametrically.?Review of Financial Studies 33(5), 2326-2377.
Jensen, T. I., B. Kelly, and L. H. Pedersen (2023). Is there a replication crisis in finance??Journal of Finance 78(5), 2465-2518.
Karolyi, G. A. and S. Van Nieuwerburgh (2020). New methods for the cross-section of returns.?Review of Financial Studies 33(5), 1879-1890.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section.?Journal of Financial Economics 135(2), 271 – 292.
Lettau, M., and M. Pelger (2020). Factors that fit the time series and cross-section of stock returns.?Review of Financial Studies 33(5), 2274-2325.
Ross, S. A. (1976). The arbitrage theory of capital asset pricing.?Journal of Economic Theory 13(3), 341-360.
免責(zé)聲明:入市有風(fēng)險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。