更有效的信息聚合方法 ?
發(fā)布時(shí)間:2022-06-16 | 來源: 川總寫量化
作者:石川
摘要:協(xié)變量的高維數(shù)時(shí)代,數(shù)不勝數(shù)的公司特征都和預(yù)期收益相關(guān),然而它們之間存在不能忽視的相關(guān)性。在這個(gè)背景下,如何更好地聚合協(xié)變量包含的預(yù)測信息?
1
對于資產(chǎn)定價(jià)而言,相信到現(xiàn)在你已經(jīng)接受了協(xié)變量的高維數(shù)時(shí)代(Kozak, Nagel and Santosh 2020,Giannone, Lenza and Primiceri 2021)。需要補(bǔ)充背景知識的小伙伴請參考《稀疏性幻覺》。然而,面對層出不窮的 factor zoo(Cochrane 2011,Harvey, Liu and Zhu 2016)背后的公司特征,一個(gè)自然的問題是:如何有效地聚合它們所包含的預(yù)測信息,從而形成關(guān)于預(yù)期收益率更好的預(yù)測?
在這方面,學(xué)界和業(yè)界的嘗試從未停止過。比如,最直接的方法是 Fama-MacBeth regression。當(dāng)然,一旦協(xié)變量個(gè)數(shù)激增后,這個(gè)方法就會受到各種計(jì)量經(jīng)濟(jì)學(xué)問題的困擾。又比如 rank-based approach,即根據(jù)取值高低將股票在每個(gè)公司特征上排名,然后求均值得到綜合排名。這個(gè)方法在 Stambaugh, Yu and Yuan (2015) 以及 Stambaugh and Yuan (2017) 中大放異彩,也同時(shí)出現(xiàn)在 Asness, Frazzini and Pedersen (2019) 的 QMJ 因子構(gòu)造之中。再比如各種機(jī)器學(xué)習(xí)算法,這其中以 PCA 為代表(Kelly, Pruitt and Su 2019,Kozak, Nagel and Santosh 2020),也在聚合預(yù)測信息的時(shí)候發(fā)揮了很大的作用。另外,Lettau and Pelger (2020a, b) 的 risk premium PCA 也是這類方法的拓展。《實(shí)證資產(chǎn)定價(jià)理論新進(jìn)展》一文的聚合因子信息一節(jié)對上述方法有更多的介紹。
除此之外,Light, Maslov and Rytchkov (2017) 通過將預(yù)期收益率視為隱性變量(latent variable),利用 partial least squares(PLS)提出了一種新的方法。該方法實(shí)操起來方便,在直覺上也頗具吸引力。
2
令?
?
由已實(shí)現(xiàn)收益率和預(yù)期收益率之間的關(guān)系,我們進(jìn)而有:
?
對于進(jìn)行分析的計(jì)量經(jīng)濟(jì)學(xué)家而言,預(yù)期收益率?
由于預(yù)期收益率是隱性變量,因此計(jì)量經(jīng)濟(jì)學(xué)家的任務(wù)就變成如何通過可觀測到的已實(shí)現(xiàn)收益率?
The main objective of PLS is the extraction of a common factor from a set of predictive variables that has the highest covariance with the predicted (target) variable. In contrast to PCA and factor analysis, which also extract one or few factors that concisely describe the variability of data and correlations between predictors, respectively, PLS identifies a factor with the best ability to predict the target variable even though this factor may not be the most important source of common variation in the predictors.
按照 Light, Maslov and Rytchkov (2017) 自己的話說,PLS 的這個(gè)特點(diǎn)正是它相比于 PCA 的優(yōu)勢所在。因?yàn)橛行┕残畔H僅解釋了特征的共同波動但是卻和預(yù)期收益率無關(guān),這些信息對于解釋資產(chǎn)的預(yù)期收益率來說是沒有幫助的,因此會影響 PCA 的結(jié)果,而 PLS 卻不會。為此,該文提出了一個(gè)兩步截面回歸來估計(jì)預(yù)期收益率:
在第一步中,用?
值得一提的是,在上述兩步估計(jì)中,第一步僅用到了?
3
在實(shí)證中,該文選擇了文獻(xiàn)中常見的 26 個(gè)公司特征作為被聚合的對象。下圖展示的就是該文的 portfolio sort 結(jié)果,其中 Panel A 在估計(jì)?
從結(jié)果中可見:(1)無論等權(quán)還是市值加權(quán),以 PLS 得到的估計(jì)值構(gòu)造的對沖組合總能獲得顯著的超額收益;(2)當(dāng)使用多期平均來估計(jì)時(shí),超額收益率無論在經(jīng)濟(jì)上還是在統(tǒng)計(jì)上都更加顯著。除此之外,通過比較信息聚合和這 26 個(gè)單一變量,作者同樣指出兩點(diǎn):(1)這些變量在預(yù)測收益率方面確實(shí)存在一些共性,這也支撐了該文提出的模型;(2)盡管如此,不同變量仍然包含了關(guān)于預(yù)期收益率的不同信息,只不過每個(gè)單一變量都是其所包含預(yù)測信息的噪聲版本。
為了說明 PLS 的過人之處,Light, Maslov and Rytchkov (2017) 將其和本文第一節(jié)提到的 Fama-MacBeth regression、rank-based approach、PCA 以及 factor analysis 進(jìn)行了對比。后面這些信息聚合方法的實(shí)證結(jié)果如下表所示。
以構(gòu)造的對沖組合超額收益率的?t-statistics 而論,PLS 方法優(yōu)于上述其他信息聚合方法,而和 PLS 最接近的要數(shù) rank-based approach。就這個(gè)結(jié)果而言,學(xué)界和業(yè)界常用的 rank-based approach 也是很有效的方法。
4
本節(jié)在 A 股市場對上述 PLS 方法進(jìn)行實(shí)證,看看和人們更熟悉的 rank-based approach 相比結(jié)果如何。實(shí)證中使用 BetaPlus 小組在《一個(gè)混合四因子模型》一文中介紹的十個(gè)協(xié)變量,它們包括賬面市值比(BM)、短期反轉(zhuǎn)、特質(zhì)波動率、MAX、異常換手率、SUE、ROA、應(yīng)計(jì)量、動量以及流動性沖擊。計(jì)算說明見下表。數(shù)據(jù)窗口橫跨 2000 年 1 月 1 日至 2022 年 5 月 31 日。
對于 PLS 來說,首先每月對每個(gè)指標(biāo)在截面上進(jìn)行標(biāo)準(zhǔn)化(具體數(shù)據(jù)處理方法請參考《因子投資:方法與實(shí)踐》的 3.1 節(jié)),然后采用前文介紹的兩步回歸法,估計(jì)每個(gè)月每支股票的預(yù)期收益率,并以估計(jì)值的高低作為分組排序的依據(jù)。在實(shí)證中,在兩步法的第二步中,對于?
觀察上述結(jié)果,可以總結(jié)出兩點(diǎn):(1)由于估計(jì)誤差,使用當(dāng)期?
和 Light, Maslov and Rytchkov (2017) 一文基于美股的結(jié)果相比,在業(yè)界更常用的 z-score 均值面前,PLS 兩步法似乎并沒有什么過人之處。但是,我們也不應(yīng)僅僅基于以上有限的結(jié)果就那么快對 PLS 方法在 A 股的表現(xiàn)下定論。今后可以通過更多的穩(wěn)健性分析來考察其能夠發(fā)揮的作用。
5
在協(xié)變量的高維數(shù)時(shí)代,如何聚合不同變量涵蓋的預(yù)測信息是非常重要的課題。在這方面,研究的思路應(yīng)著眼于剖析并有效利用不同變量所涵蓋的共有信息、每個(gè)變量所攜帶的獨(dú)有信息,以及剔除每個(gè)變量所涵蓋的巨大的噪聲。Light, Maslov and Rytchkov (2017) 為此提供了有益的思路。
然而,我們對信息聚合的追求并不能止步于此。信息聚合的目標(biāo)是為了獲得更加準(zhǔn)確的估計(jì),因此無論是采用前文介紹的 PLS 還是其他方法(盡管這些方法的效果有所差異),聚合后的變量較單變量來說都會獲得更加顯著的超額收益。然而,這后面一個(gè)巨大的但卻往往被人們忽視的假設(shè)是,被用來信息聚合的單變量都是真實(shí)的。可是,如果某些或絕大部分協(xié)變量和預(yù)期收益率之間的關(guān)系是虛假的(p-hacking),那么聚合之后又會如何呢?是否會“錯(cuò)上加錯(cuò)”呢?如果是的話,又是否有什么更好的辦法來降低聚合的危害嗎?
我們擇日再議。
(Hint:對于這個(gè)問題,Rytchkov and Zhong (2020) 給出了答案。)
參考文獻(xiàn)
Asness, C. S., A. Frazzini, and L. H. Pedersen (2019). Quality minus junk.?Review of Accounting Studies?24(1), 34 – 112.
Cochrane, J. H. (2011). Presidential address: Discount rates.?Journal of Finance?66(4), 1047 – 1108.
Giannone, D., M. Lenza, and G. E. Primiceri (2021). Economic predictions with big data: The illusion of sparsity.?Econometrica?89(5), 2409 – 2437.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns.?Review of Financial Studies?29(1), 5 – 68.
Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return.?Journal of Financial Economics?134(3), 501 – 524.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section.?Journal of Financial Economics?135(2), 271 – 292.
Lettau, M. and M. Pelger (2020a). Factors that fit the time series and cross-section of stocks returns.?Review of Financial Studies?33(5), 2274 – 2325.
Lettau, M. and M. Pelger (2020b). Estimating latent asset-pricing factors.Journal of Econometrics?218(1), 1 – 31.
Light, N., D. Maslov, and O. Rytchkov (2017). Aggregation of information about the cross section of stock returns: A latent variable approach.?Review of Financial Studies?30(4), 1339 – 1381.
Rytchkov, O. and X. Zhong (2020). Information aggregation and p-hacking.?Management Science?66(4), 1605 – 1626.
Stambaugh, R. F., J. Yu, and Y. Yuan (2015). Arbitrage asymmetry and the idiosyncratic volatility puzzle.?Journal of Finance?70(5), 1903 – 1948.
Stambaugh, R. F. and Y. Yuan (2017). Mispricing Factors.?Review of Financial Studies?30(4), 1270 – 1315.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。