另类因子:在拥挤与失效中打开新的Alpha空间 | 好买私募日报

 

Farecast的创始人奥伦·埃齐奥尼在一次坐飞机时发现周围人买的票都比他的便宜,走下飞机后,他开始着手开发一个预测飞机票价的系统。这个系统获取旅游网站41天之内的12000个价格样本,分析所有航线机票的销售价格并确定票价与提前购买天数的关系。这个项目后来发展成名为Farecast的科技创业公司,通过票价预测功能帮助消费者抓住最佳购买时机。

同一架飞机上每个座位的价格本不应有差别,但实际上价格却千差万别,其中缘由只有航空公司自己清楚,而从旅游网站上获取的航班数据中竟然蕴藏着破解价格秘密的钥匙。

提前购票的天数,浓缩了很多“肉眼可见”的因素,比如天气、季节、假日等等,成为一个简洁而有效的预测机票价格的因子。如同票价预测系统给消费者节省了大笔开支一样,量化投资中,管理人也越来越多的运用类似的思路获得超额收益,业内将其称为另类因子,即用另类数据预测股票价格。

在竞争日趋激烈的量化行业,挖掘阿尔法因子、持续更新迭代策略成为各参与者的必经之路。随着大数据的使用和机器学习的发展,另类因子也正成为诸多机构重点关注并布局的领域。今天我们就一起来聊一聊另类因子,看看它的优势、机会与可能面临的挑战。

01

另类因子的优势:
独辟蹊径的来源
相关性较低的收益

另类因子是区别于传统因子的表达,我们往往把那些格式统一、已经被广泛运用的数据叫做传统因子,比如基于股票的成交量、价格等数据的量价因子,或基于财务报表等数据的基本面因子。

另类数据有很多类别,包括供应链数据、公司专利数据、电商数据等等。大家比较熟悉的比如新闻舆情因子,通过对新闻、媒体数据的提炼和分析,不仅可以刻画新闻的热度,也可以定量把握新闻的情感。

“New、Raw、Unprocessed”概括了另类数据的特点。New体现在另类因子的数据来源比较“独辟蹊径”,不容易获得也没有被广泛使用,更具有独家性。比如传统的基本面因子可能会用到财报中的利润、营收等数据,而财报的脚注部分则可能会成为另类因子的信息来源。

另类因子与传统因子数据来源不同,相关性比较低,能够捕捉到传统收益源之外的收益,因此在传统因子表现较差或集体失效时,另类因子可能仍会有不错的表现。

Raw、Unprocessed(原始的,未经处理的)的属性既是另类数据的优势,也是其挑战,优势在于不会轻易摒弃掉数据中蕴藏的真正规律,可能会得出一些反直觉但正确有效的结论。而挑战在于处理另类数据的方式往往非标准化,需要丰富的知识储备和行业经验,才能从海量的噪音中挖掘有价值的信息。

即时性也是其特点,基本面因子往往以月频或季频更新,难免会有一些滞后,而另类数据通常可以抓取最新的数据进行分析。

另类因子也是一个不断变化的概念,分析师预测、分析师调研等数据之前也属于另类数据,但随着这类数据的标准化处理以及使用门槛降低,现在它们会被认为是传统因子。

02

另类因子的挑战:
从海量数据中淘金
寻找真正有效的规律

由于另类因子与传统因子的相关性较低,能创造独特的超额来源,因此可以对传统因子形成一个很好的补充,在传统因子集体失效时可以对组合的收益起到正向作用。

但是在实操过程中,另类因子也面临诸多挑战,其中最典型且最不容忽视的问题就是过拟合。

过拟合可以理解为:根据历史统计数据得出的投资规律,在样本数据中很精确,但是在样本外的数据上并不精确。也就是说根据历史数据得出的“有效规律”,放之未来则失效了。

产生过拟合情形的原因有很多种,收集的数据历史时间不长、数据太少、原始数据中含有过多的噪音,都可能导致过拟合情形的发生。

真实的信息总是混杂在噪声的海洋之中,比如新闻舆情因子,全市场的新闻内容总是存在差异的,内容也良莠不齐,需要对新闻进行筛选过滤,才能获得质量更高的信息。

有一个非常贴切的比喻,在实操过程中,挖掘另类因子更像是在一个没人去过的地方发现了一座山。然而,这座山里有没有矿、从哪里开始挖、到底能挖出什么,更多的要看使用者自己。

因此如何将数据中的噪音消除是非常重要的,这个步骤被称作数据清洗,技术含量高且非常重要,部分量化私募会成立专门的数据清洗部门来完成这项工作。可以说,精细化且有效的数据清洗工作是后续开发出有效策略、挖掘出优质因子的重要一步。

实盘检测是另一个克服过拟合问题的办法,将策略放到样本外的环境中进行检测,以检验提炼的因子是否在真实的市场环境中有效。

另外,能否准确判断过拟合的情况也需要分析者对数据的适用范围有足够的了解和把握,如果没有对另类数据背后逻辑的认知,就难以辨认找到的信号是否真的有效。因此丰富的经验和知识储备对于处理过拟合情况来说不可或缺。

部分量化私募会选择使用第三方数据平台作为自己另类因子的数据来源,这也是最方便的一种做法,可是数据供应商将同一批数据批量卖给不同买家也会从某种程度上增加这个因子的拥挤度,降低它在未来获取收益的能力。因此独家的数据来源也是优势之一。

挖掘另类因子的成本是极高的,如同淘金一般,耗费时间精力,但统计上到底有没有效做完才知道。开发出独特的另类因子,需要经验丰富的团队、需要借助机器学习或更复杂的技术、需要有能够验证其有效性的回测程序。这些无一不对量化机构提出了非常高的要求,但也有助于形成更高的竞争壁垒。

03

小结
另类因子破局
寻找带壁垒的Alpha

策略、因子的更新迭代有其必要性,因子会拥挤、会失效,使用者越多,效率越低。随着传统因子赛道逐渐拥挤,布局拥有独特收益来源的另类因子成为许多量化机构突破瓶颈的一步棋。

在投资中,将多样化的资产进行配置可以分散风险,因子也一样,另类数据并非一定会提供更好的收益,但多样化的因子意味着多样化的收益来源,意味着在不同的市场环境中能有更好的适应性。

挖掘另类因子并非易事,只有挖掘得足够深,筛选对象足够广,才能寻找到特别的另类因子。但也正因为在认知和技术上的难度,在这块深耕的量化机构有机会获得附带一定壁垒的、更独特更宝贵的Alpha,长期来看意义重大。

风险提示:投资有风险,决策须谨慎。文中观点不代表平台投资意见,内容仅供参考并不构成任何投资及应用建议。未经好买财富授权许可,任何机构和个人不得以任何形式复制、引用本文内容和观点,包括不得制作镜像及提供指向链接,好买财富就此保留一切法律权利。

风险提示:投资有风险。相关数据仅供参考,不构成投资建议。投资人请详阅基金合同和基金招募说明书,确认您自觉履行投资人的各项义务,并自行承担投资风险。

版权所有 好买Copyright © howbuy.com, inc 2014. All rights reserved. [沪ICP备08003295号-1]

关于好买私募 | 联系我们 | 诚聘英才 | 使用条款 | 隐私条款 | 风险提示