科技關(guān)聯(lián)度 (II)

發(fā)布時(shí)間：2022-10-26 | 來(lái)源: 川總寫量化

作者：石川

摘要：用更先進(jìn)算法和數(shù)據(jù)打磨異象已成為內(nèi)卷時(shí)代實(shí)證研究的無(wú)奈之舉。然而在協(xié)變量的高維數(shù)時(shí)代，對(duì)單一異象的精雕細(xì)琢又有多少價(jià)值？在另類數(shù)據(jù)應(yīng)用中，學(xué)界是否在越走越窄？

4 年前（whoa, time flies），《科技關(guān)聯(lián)度》一文介紹了 Lee, et al. (2019)。該文指出公司之間以專利類別重合度計(jì)算的科技關(guān)聯(lián)度（相似度）可以帶來(lái)股票收益率之間的領(lǐng)先—滯后關(guān)系，利用它可以獲得傳統(tǒng)因子無(wú)法解釋的超額收益。即便到了今天，依然可以說(shuō)該文是一篇實(shí)證研究的典范。今天的題目是《科技關(guān)聯(lián)度 (II)》。我想你大概猜到了，是有人把計(jì)算科技關(guān)聯(lián)度的方法升級(jí)了，這篇文章就是 Bekkerman, Fich, and Khimich (2022)。該文沒(méi)有使用專利類別，而是直接對(duì)專利進(jìn)行文本分析，通過(guò)提取專業(yè)術(shù)語(yǔ)并計(jì)算其重合度來(lái)描述公司之間的相似程度。不出意外，升級(jí)版科技關(guān)聯(lián)度“打敗”了 Lee, et al. (2019)。這體現(xiàn)在當(dāng)控制了 Lee, et al. (2019) 的變量之后，新的變量依舊能夠獲得超額收益，而反之則不然。且實(shí)證結(jié)果指出，在 2000 年之后，Lee, et al. (2019) 的變量逐漸難以獲得超額收益，而新的變量則依然“生機(jī)盎然”。

在學(xué)界如今內(nèi)卷的現(xiàn)狀下，用更先進(jìn)算法和數(shù)據(jù)打磨異象已成為實(shí)證研究的無(wú)奈之舉；而一旦使用了更先進(jìn)的算法和數(shù)據(jù)，也就十有八九能找到樣本內(nèi)更好的超額收益。從這個(gè)角度而言，Bekkerman, Fich, and Khimich (2022) 只是 follow the trend，并無(wú)特別之處。然而，該文的一些實(shí)證結(jié)果和討論引發(fā)了我關(guān)于此類領(lǐng)先—滯后關(guān)系準(zhǔn)另類數(shù)據(jù)的一些思考。本文就拋磚引玉

在我看來(lái)，Bekkerman, Fich, and Khimich (2022) 一文最重要的實(shí)證結(jié)果（之一）不是基于新變量的 portfolio sort 或 Fama-MacBeth regression 來(lái)表明異象能夠獲得多么顯著的超額收益，而是 Table 2 Panel C。Table 2 Panel C 的結(jié)果為科技關(guān)聯(lián)的公司之間存在的 economic connections 提供了證據(jù)；只有 economic connections 存在，基于科技關(guān)聯(lián)度構(gòu)造的異象才站得住腳，否則它大概率只是霧里看花。為此，Bekkerman, Fich, and Khimich (2022) 從盈利和科技創(chuàng)新兩方面出發(fā)研究了焦點(diǎn)公司和關(guān)聯(lián)公司之間的關(guān)系。以盈利為例，該文研究了焦點(diǎn)公司和關(guān)聯(lián)公司 ROA 同期的相關(guān)性，以及焦點(diǎn)公司? $t+1$ ?期 ROA 和其關(guān)聯(lián)公司? $t$ ?期 ROA 之間的可預(yù)測(cè)性關(guān)系。對(duì)于科技創(chuàng)新，他們以 R&D-to-Total Assets 為變量進(jìn)行了同樣的分析。以下是實(shí)證結(jié)果。

以 column (1) 中的回歸結(jié)果為例，其因變量是焦點(diǎn)公司? $t$ ?期的? $ROA_{i,t}$ ?，而最重要的自變量是以科技關(guān)聯(lián)度為權(quán)重加權(quán)得到的和焦點(diǎn)公司所關(guān)聯(lián)的那些公司同期的 ROA，即? $ROA_{i,t}^{\mbox{TS-text}}$ ?。回歸結(jié)果顯示，? $ROA_{i,t}$ ?和? $ROA_{i,t}^{\mbox{TS-text}}$ ?的關(guān)系在 1% 的顯著性水平下顯著。類似地，在 column (2) 的回歸中，因變量變成了焦點(diǎn)公司? $t+1$ ?期的? $ROA_{i,t+1}$ ?。回歸結(jié)果表明，? $t$ ?期的? $ROA_{i,t}^{\mbox{TS-text}}$ ?能夠預(yù)測(cè)焦點(diǎn)公司? $t+1$ ?期的? $ROA_{i,t+1}$ ?。表中 columns (3) 和 (4) 報(bào)告了 R&D 的結(jié)果，可以得到類似的結(jié)論。

可見(jiàn)，無(wú)論是盈利還是科技創(chuàng)新，焦點(diǎn)公司和關(guān)聯(lián)公司同期都有顯著的正相關(guān)，此外關(guān)聯(lián)公司的? $t$ ?期數(shù)據(jù)能夠預(yù)測(cè)焦點(diǎn)公司? $t+1$ ?期的數(shù)據(jù)。上述實(shí)證結(jié)果表明了具有科技關(guān)聯(lián)度的公司之間的 economic connections，而這些聯(lián)系為 asset pricing 提供了基礎(chǔ)。當(dāng)然，存在 economic connections 是股票收益率存在關(guān)聯(lián)的前提，但它并不足以成為焦點(diǎn)公司和關(guān)聯(lián)公司的股票收益率之間存在領(lǐng)先—滯后關(guān)系的充分條件。在這個(gè)邏輯鏈條中，我們還缺乏另外一塊最重要的拼圖——投資者的有限注意力。而這正是我最想討論的部分（spoiler alert，在下一節(jié)的討論中，我對(duì)所有這類因投資者有限注意力導(dǎo)致的領(lǐng)先—滯后表達(dá)了擔(dān)憂）。

該文另一個(gè)重要的（且是讓我陷入深深思考的）實(shí)證結(jié)果是 Table 6 Panel C。在該表中，作者將他們基于文本計(jì)算的科技關(guān)聯(lián)度和 Lee, et al. (2019) 基于專利類別計(jì)算的科技關(guān)聯(lián)度進(jìn)行了比對(duì)，其中 Panels A 和 B 分別匯報(bào)了兩種計(jì)算方法的結(jié)果，而 Panel C 則基于兩種方法對(duì)滿足條件的股票進(jìn)行了細(xì)分。Panel C 中：

TS-text NOT TS-class 表示基于文本相似，但基于類別不相似；

TS-text AND TS-class 表示基于文本相似，且基于類別相似；

TS-class NOT TS-text 表示基于類別相似，但基于文本不相似。

除此之外，作者不僅考慮了 full sample，還將整個(gè)樣本分成了四個(gè)時(shí)間區(qū)間，以此分析可預(yù)測(cè)性如何隨時(shí)間發(fā)生變化。這四個(gè)區(qū)間為1977 – 1986、1987 – 1999、2000 – 2008 和 2009 – 2016。到此，給自己的“坑”就算是挖好了。哦，不對(duì)，是實(shí)證設(shè)定就做好了！在下面的結(jié)果中，最有意思的是在 1977 – 1986 以及 1987 – 1999 這兩個(gè)區(qū)間，或統(tǒng)稱為 2000 年以前，TS-text NOT TS-class（文本相似但是類別不相似）并不能獲得顯著的超額收益；反倒是 2000 以后，它迎來(lái)了大紅大紫的黃金年代。

這樣的實(shí)證結(jié)果不禁讓人大大的疑惑。Bekkerman, Fich, and Khimich (2022) 對(duì)此的解釋是：1999 年之前，專利數(shù)據(jù)并沒(méi)有被數(shù)字化，因此對(duì)投資者來(lái)說(shuō)可以認(rèn)為是不可得的。在 1999 年之后，專利數(shù)據(jù)被放到了互聯(lián)網(wǎng)上，極大的降低了投資者獲取的難度。他們猜測(cè)這就是 TS-text NOT TS-class 在 2000 年之前不好使的原因。看完這個(gè)解釋后我更加困惑了。對(duì)于一個(gè)常規(guī)的協(xié)變量（比如諸多 firm-characteristics），如果變量/數(shù)據(jù)背后代表的 economic connections 存在，那么它不應(yīng)該受到數(shù)據(jù)是否對(duì)投資者可得而影響，且當(dāng)沒(méi)有投資者使用的時(shí)候（也就更不存在過(guò)度套利），這種 connections 所帶來(lái)的超額收益應(yīng)該更高，而不是消失（Linnainmaa and Roberts 2018）。也正因如此，AQR 在 Buffett’s Alpha 一文中才發(fā)出“巴菲特才是真的神，我們只是事后分析的凡人”的感慨。

然而基于 TS-text NOT TS-class 的科技關(guān)聯(lián)度怎么就不好使呢？是上述認(rèn)知有問(wèn)題，還是它并非一個(gè)常規(guī)的協(xié)變量？是否存在另一種合理的解釋支持“專利數(shù)據(jù)在 2000 年開(kāi)始變得可得導(dǎo)致了該結(jié)果”這種說(shuō)法？Here is the trick.（特別感謝因子動(dòng)物園園長(zhǎng)對(duì)此的討論。）科技關(guān)聯(lián)度（以及其他方法計(jì)算的各種花式相似度）本質(zhì)上是公司之間的關(guān)聯(lián)形成的動(dòng)量效應(yīng)。邏輯上來(lái)說(shuō)，是由于投資者注意力有限，沒(méi)有注意到只有完全理性的投資者能認(rèn)識(shí)到的關(guān)聯(lián)（無(wú)論是 Lee, et al. (2019) 還是這篇都有這方面的充分討論），所以導(dǎo)致信息擴(kuò)散緩慢，進(jìn)而導(dǎo)致焦點(diǎn)公司的關(guān)聯(lián)公司的歷史股票收益率能夠預(yù)測(cè)其股票收益率。

接下來(lái)，重點(diǎn)來(lái)了！這里的前提是信息擴(kuò)散緩慢的原因是投資者注意力不足，而不是投資者完全完全意識(shí)不到關(guān)聯(lián)。注意力不足意味著投資者未來(lái)能認(rèn)識(shí)到關(guān)聯(lián)，因而會(huì)有信息的進(jìn)一步擴(kuò)散和關(guān)聯(lián)動(dòng)量。而后者意味著投資者壓根就看不到關(guān)聯(lián)的存在，因此也就沒(méi)關(guān)聯(lián)動(dòng)量效應(yīng)了。在這個(gè)解釋下，一切似乎能說(shuō)通了。在 2000 年以前，當(dāng)專利數(shù)據(jù)還沒(méi)有廣泛可得的時(shí)候，投資者根本不知道這類數(shù)據(jù)存在，因此什么有限注意力以及由此導(dǎo)致的公司間動(dòng)量也就無(wú)從談起。合理嗎？也許吧，但很難說(shuō)一點(diǎn)不牽強(qiáng)。這似乎在傳遞著，所有公司間的花式動(dòng)量（各種領(lǐng)先—滯后關(guān)系）存在的前提都有兩點(diǎn)：1. 投資者意識(shí)到了數(shù)據(jù)的存在；2. 由于投資者有限注意力，因此沒(méi)有充分利用數(shù)據(jù)，導(dǎo)致信息緩慢擴(kuò)散。它給我一種“觀測(cè)到數(shù)據(jù)，就有? $\alpha$ ?；沒(méi)有觀測(cè)到數(shù)據(jù)，就沒(méi)有? $\alpha$ ?”的蒼白。

本文的最后討論一下升級(jí)版科技關(guān)聯(lián)度擊敗了老版這類現(xiàn)象。這并非科技關(guān)聯(lián)度異象特有的現(xiàn)象，而是會(huì)出現(xiàn)在任何異象上。隨著構(gòu)造數(shù)據(jù)的豐富和構(gòu)造手段的復(fù)雜，迭代后的異象一定會(huì)在實(shí)證中打敗老的異象。但是，在協(xié)變量的高維數(shù)時(shí)代，精雕細(xì)琢一個(gè)異象又有多少實(shí)踐價(jià)值（發(fā) paper 的學(xué)術(shù)價(jià)值自然是有）？如果另類數(shù)據(jù)只是用來(lái)打磨異象而非揭示出更多公司之間的 economic connections，那么人們?cè)谶@條路上是否越走越窄？（這也是為什么我認(rèn)為 Table 2 Panel C 才是 Bekkerman, Fich, and Khimich (2022) 的點(diǎn)睛之筆。）

對(duì)于升級(jí)版科技關(guān)聯(lián)度在 2000 年之后十分有效，但基于專利類別的關(guān)聯(lián)度卻逐漸失效的結(jié)果，我們可以從兩方面來(lái)解讀。第一個(gè)就是投資者有限注意力的問(wèn)題（當(dāng)然，我們假設(shè)投資者已經(jīng)意識(shí)到了數(shù)據(jù)的存在?。５诙矫?，我想到的是 Martin and Nagel (2022) 以及 Nagel (2021) 中提到的投資者學(xué)習(xí)問(wèn)題。比起專利類別，基于文本計(jì)算相似度要更加復(fù)雜，即投資者獲取和處理專利數(shù)據(jù)的成本更加昂貴，因此大多投資者會(huì)在為公司估值時(shí)忽略這方面的信息。這將導(dǎo)致他們使用過(guò)度稀疏的估值模型，進(jìn)而造成樣本內(nèi)和樣本外收益率可預(yù)測(cè)性。

毫無(wú)疑問(wèn)，另類數(shù)據(jù)打開(kāi)了量化投資的新篇章，但是當(dāng)我們?cè)谑褂眠@類基于新數(shù)據(jù)以及新技術(shù)挖出的協(xié)變量時(shí)，也應(yīng)該對(duì)其背后獲得超額收益的原因有更加深刻的思考。最后，讓我以 Nagel (2021) 中的一段話結(jié)束本文（截圖來(lái)自我和王老師翻譯的中文版《機(jī)器學(xué)習(xí)與資產(chǎn)定價(jià)》）。

參考文獻(xiàn)

Bekkerman, R., E. M. Fich, and N. V. Khimich (2022). The effect of innovation similarity on asset prices: Evidence from patents’ big data.?Review of Asset Pricing Studies?forthcoming.

Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns.?Journal of Financial Economics?132(3), 76 – 96.

Linnainmaa, J. T. and M. R. Roberts (2018). The history of the cross-section of stock returns.?Review of Financial Studies?31(7), 2606 – 2649.

Martin, I. W. R. and S. Nagel (2022). Market efficiency in the age of big data.?Journal of Financial Economics?145(1), 154 – 177.

Nagel, S. (2021).?Machine Learning in Asset Pricing. Princeton, NJ: Princeton University Press.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外，文中圖表均直接或間接來(lái)自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

科技關(guān)聯(lián)度 (II)