Missing Financial Data
發(fā)布時(shí)間:2022-05-21 | 來源: 川總寫量化
作者:石川
摘要:在因子投資中,當(dāng)協(xié)變量存在缺數(shù)問題時(shí),除了填充截面或行業(yè)均值/中位數(shù),是否還有更好的方法?
1
協(xié)變量缺數(shù)是因子投資中繞不過的坎兒,而這個(gè)問題在另類數(shù)據(jù)中尤甚。缺數(shù),顧名思義,就是在特定的歷史時(shí)刻、對(duì)特定的股票來說、某個(gè)協(xié)變量的取值是缺失的。這個(gè)問題廣泛存在于因子投資和實(shí)證資產(chǎn)定價(jià)研究之中。在面對(duì)缺數(shù)問題時(shí),常見的做法是填充截面均值/中位數(shù),或者行業(yè)均值/中位數(shù),或者上一期的值(假設(shè)上一期沒有缺數(shù))。這些似乎是人們約定俗成的做法,從來也沒有人去質(zhì)疑上述處理方式的合理性。(另外一種更加粗暴的方式是,把缺數(shù)的資產(chǎn)排除在分析之外,但這會(huì)造成 sample selection bias。)然而,它們真的合理嗎?
要想搞清楚這個(gè)問題,就必須回答一系列具體的問題:數(shù)據(jù)缺失在時(shí)序和截面上是隨機(jī)的嗎?還是有何種相關(guān)性(比如小市值的股票更容易缺失某些變量)?不同公司的協(xié)變量之間是否存在截面上和時(shí)序上相關(guān)性,能否利用它們更好的填充缺失的數(shù)據(jù)?無腦排除缺數(shù)的股票,對(duì)實(shí)證資產(chǎn)定價(jià)有怎樣的影響(比如在因子溢價(jià)估計(jì)方面)?對(duì)現(xiàn)實(shí)世界中的投資機(jī)會(huì)又有怎樣的影響(比如是否會(huì)損害可能構(gòu)造的最大夏普比率)?
當(dāng)意識(shí)到存在如此之多尚待回答的問題時(shí),就很難再對(duì)“約定俗成”做法可能存在的潛在危害無動(dòng)于衷。好消息是,學(xué)界在這方面的一些最新研究成果,有助于幫助人們回答上述問題(雖然是針對(duì)美股)。在應(yīng)對(duì)實(shí)證資產(chǎn)定價(jià)的缺數(shù)問題方面,近期兩篇頗有代表性的 working papers 是 Freyberger et al. (2021) 以及 Bryzgalov et al. (2022)。由于 Svetlana Bryzgalova 和 Markus Pelger 兩位都是我非常欣賞的新生代學(xué)者,今天就來簡(jiǎn)要介紹 Bryzgalov et al. (2022) 一文。本文的題目也照搬了該文的標(biāo)題,特此說明。
2
Bryzgalov et al. (2022) 考察了美股中最常用的 45 個(gè)公司特征(下表),缺數(shù)存在 4 點(diǎn) stylized facts。
Fact 1:缺數(shù)問題廣泛存在于上市公司之中,受影響的公司占據(jù)了一半的市場(chǎng)總市值。無論公司市值是高是低,無論公司的歷史是長(zhǎng)是短,又無論公司的經(jīng)營(yíng)情況是好是壞,都有可能出現(xiàn)缺數(shù)的問題。
以美股中重要的 5 個(gè)變量為例——賬面市值比(B2M)、operating profitability(OP)、investment(INV)、leverage(LEV)以及real investment to book value(DPI2A)——下圖展示了它們?cè)跁r(shí)序上的缺數(shù)變化情況。從(a)和(b)中不難看出,隨著時(shí)間的推移,缺數(shù)的比例在下降,不過仍然存在于所有變量。而(c)和(d)表明,無論是考察季度數(shù)據(jù)還是月度數(shù)據(jù)變量,以及無論考察大市值公司還是小市值公司,缺數(shù)問題都是存在的。
Fact 2:當(dāng)分析中需要用到眾多協(xié)變量時(shí)(比如利用機(jī)器學(xué)習(xí)算法),缺數(shù)問題的影響更加嚴(yán)重。
同樣是上述 45 個(gè)變量,下圖展示了不同允許缺數(shù)變量個(gè)數(shù)下,公司占比隨時(shí)間的變化。比如,圖中藍(lán)色曲線代表 = 0 的情況,即要求不存在任何變量的缺失。在這個(gè)約束下,滿足條件的公司僅占不到 30%。換句話說,如果研究中同時(shí)使用上述 45 個(gè)協(xié)變量且要求僅使用沒有任何缺數(shù)的公司,那么 70% 的公司都會(huì)被排除在外。
Fact 3:公司特征的缺失并非隨機(jī)的。比如,很多基本面變量可能用到了同樣的會(huì)計(jì)學(xué)條目來計(jì)算,那么一旦該條目缺數(shù),就會(huì)影響基本面變量的計(jì)算;又比如,對(duì)于歷史時(shí)間較短的公司,一些長(zhǎng)周期的量?jī)r(jià)變量(比如中期動(dòng)量和長(zhǎng)期反轉(zhuǎn))自然也就無法計(jì)算。
下圖(a)展示了 1981 年 4 月實(shí)際的缺書情況,其中橫軸為 45 個(gè)公司特征,縱軸為公司 index。圖(b)展示了假想的隨機(jī)缺失的情況。如果缺數(shù)是隨機(jī)的,那么我們?cè)诓煌淖兞可蠎?yīng)該觀察到無序的隨機(jī)性,如圖(b)所示。而真實(shí)情況下(圖(a))則顯示了截然不同的情況,很多公司在不同的變量上均存在缺數(shù)的情況。
仍以前述 5 個(gè)公司特征為例,下圖(a)考察了不同市值分組下的缺失比例,可見小市值(第 1 組)相對(duì)大市值組(第 5 組)的缺數(shù)問題更加嚴(yán)重;圖(b)則以變量本身進(jìn)行分組,考察了每組的缺數(shù)程度。看到這里有的小伙伴也許會(huì)問:如果變量都缺數(shù)了還怎么分組?這里的處理方法是利用股票在該變量上取值的均值作為分組的依據(jù)。結(jié)果顯示,當(dāng)按照變量排序時(shí),最小的組(第 1 組)和最大的組(第 5 組)往往缺數(shù)問題最為嚴(yán)重。由于因子或異象通常是通過這兩組多空對(duì)沖構(gòu)造的,因此這兩組缺失嚴(yán)重?zé)o疑是進(jìn)行實(shí)證資產(chǎn)定價(jià)或因子投資的夢(mèng)魘。
另一方面,由于變量本身的構(gòu)造機(jī)制以及使用的數(shù)據(jù)的差異,不同變量的缺數(shù)存在異質(zhì)性。這些問題均使得“約定俗成”的中位數(shù)或均值填充不再合理(因?yàn)榫祷蛑形粩?shù)是有偏的)。
下面兩圖分別展示了每個(gè)變量自身的時(shí)序自相關(guān)性以及不同變量的截面相關(guān)性。從中不難發(fā)現(xiàn),一些變量在時(shí)序上的自相關(guān)性非常高(比如市值),有些則為零(比如特質(zhì)波動(dòng)率 iVol);此外,很多變量的截面相關(guān)性很高。這些結(jié)果表明,不同變量的缺數(shù)問題存在特質(zhì)性,而為了找到比“約定俗成”更好的填數(shù)方法,需要充分利用變量在時(shí)序和截面上的信息。
Fact 4:股票的收益率與公司是否缺數(shù)有關(guān),對(duì)實(shí)證資產(chǎn)定價(jià)的研究結(jié)果(比如簡(jiǎn)單如 portfolio sort)造成了復(fù)雜的影響。
3
為了利用變量的截面和時(shí)序信息,Bryzgalov et al. (2022) 針對(duì)公司特征協(xié)變量構(gòu)造了一個(gè)隱性多因子模型。以截面信息為基礎(chǔ),該模型的重要因素如下面這張 slide 所示(其中?
PCA 結(jié)果顯示,公司特征之間表現(xiàn)出了很強(qiáng)的因子結(jié)構(gòu);使用 6 個(gè)因子就可以捕捉絕大部分截面上的變化。此外,這些因子也有很強(qiáng)的經(jīng)濟(jì)學(xué)解釋。圖(b)展示了樣本外填充的公司特征的 RMSE 隨隱性因子個(gè)數(shù)的變化。
有了基礎(chǔ)的截面模型,Bryzgalov et al. (2022) 進(jìn)一步添加了時(shí)序的公司特征,構(gòu)造了同時(shí)包括截面和時(shí)序信息的隱性因子模型。
最后我們來看看不同模型和“約定俗成”模型在樣本外的表現(xiàn)。不過這里先插一句,在前述的介紹中,就提到了樣本外 RMSE 的計(jì)算。有小伙伴可能會(huì)問:既然是缺數(shù),怎么算是“樣本外”?這里的處理方法是,刻意隱去(masking)一部分觀測(cè)到的公司特征(隨機(jī)選擇,記為 OOS MAR 或者在選擇上保留時(shí)序連續(xù)性,記為 OOS Block),用剩余觀測(cè)數(shù)據(jù)進(jìn)行建模,然后用這部分隱去的數(shù)據(jù)進(jìn)行樣本外評(píng)估。評(píng)估結(jié)果如下表。
以我標(biāo)出的 local B-XS 和 local XS 兩個(gè)模型為例,它們都是單期條件模型,其中 B-XS 用到了截面信息和歷史時(shí)序信息,XS 僅用到了截面信息。另外兩個(gè)“約定俗成”模型是 XS-median,即截面中位數(shù)填充和 ind-median,即行業(yè)中位數(shù)填充。結(jié)果顯示,無論是在樣本內(nèi)還是在樣本外(OOS MAR 或 OOS Block),通過主成分分析得到的預(yù)測(cè)均優(yōu)于“約定俗成”模型,即它們的預(yù)測(cè)誤差更低,且改進(jìn)非常明顯。另外,從 local B-XS 和 local XS 兩個(gè)模型結(jié)果的差異可知,補(bǔ)充了時(shí)序信息后能夠進(jìn)一步提高預(yù)測(cè)準(zhǔn)確性,說明時(shí)序和截面信息對(duì)于填充缺數(shù)來說同樣重要。對(duì)于一些時(shí)序上自相關(guān)性很強(qiáng)的變量,上述隱性因子模型能夠更多地利用時(shí)序信息;而對(duì)于那些截面上信息更重要的變量,該模型則更多地利用截面信息。換句話說,該模型并不依賴于人們對(duì)于 missing patterns 的假設(shè),而是能夠從數(shù)據(jù)中發(fā)現(xiàn)并加以利用。
最后來看兩個(gè)具體的例子??紤] Microsoft 和 Hasbro 兩個(gè)公司,考慮 operating profitability 和 iVol 兩個(gè)變量。圖中灰色的區(qū)間是留出的 OOS 區(qū)間,圖中 0.0 的水平線表示“約定俗成”做法的填充。從這兩個(gè)例子中可以看到,無論是對(duì)于 OP 這種比較穩(wěn)定的變量,還是對(duì)于 iVol 這種上躥下跳的變量,模型都能給出不錯(cuò)的填充結(jié)果,遠(yuǎn)遠(yuǎn)優(yōu)于填充 0.0。
4
以上和各位一起簡(jiǎn)要瀏覽了 Bryzgalov et al. (2022) 一文的核心內(nèi)容和結(jié)果。在近日的一個(gè) talk 中,Bryzgalov 提到她們后續(xù)會(huì)把填充好的數(shù)據(jù)掛出來,供學(xué)界和業(yè)界使用。當(dāng)有了更合理填充后的公司特征后,一些傳統(tǒng)的異象或因子的表現(xiàn)是否會(huì)發(fā)生顛覆性的改變?答案令人期待。另一方面,Bryzgalov et al. (2022) 對(duì)于缺數(shù)的研究還給了我另外的一個(gè)強(qiáng)烈的感受。近年來,機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用于實(shí)證資產(chǎn)定價(jià)和因子投資之中。然而,越來越多的研究表明,在如此低信噪比的金融領(lǐng)域,指望“數(shù)據(jù)發(fā)聲”的粗暴做法是不切實(shí)際的。反而是小到數(shù)據(jù)如何標(biāo)準(zhǔn)化、不同的協(xié)變量如何進(jìn)行縮放,如何選擇正則化的方式等每一個(gè)具體的細(xì)節(jié)決定著應(yīng)用機(jī)器學(xué)習(xí)算法的成敗。
Bryzgalov et al. (2022) 關(guān)于缺數(shù)的研究毫無疑問再次說明了這一點(diǎn)。一個(gè)看似不起眼的填充決定,也許就會(huì)改變應(yīng)用機(jī)器學(xué)習(xí)的結(jié)果。而到底應(yīng)該使用哪種數(shù)據(jù)處理方式(例如“約定俗成” vs. 該文同時(shí)利用時(shí)序和截面信息構(gòu)造的隱性模型)背后顯然也應(yīng)該有足夠的經(jīng)濟(jì)學(xué)推導(dǎo)作為指引。這些看似很小的差異,也許在其他高信噪比的機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域難以產(chǎn)生太大的影響,但對(duì)于實(shí)證資產(chǎn)定價(jià)的成功來說,可能正是必不可少的一環(huán)。
More to come …
參考文獻(xiàn)
Bryzgalov, S., S. Lerner, M. Lettau, and M. Pelger (2022). Missing financial data. Working paper.
Freyberger, J., B. Hoppner, A. Neuhierl, and M. Weber (2021). Missing data in asset pricing panels. Working paper.
Xiong, R. and M. Pelger (forthcoming). Large dimensional latent factor modeling with missing observations and applications to causal inference.?Journal of Econometrics.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。