30

网络爬虫正成为中国私募机构获取超额收益的下一个来源

 6 years ago
source link: http://36kr.com/p/5145300.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

编者按:本文来自微信公众号“ 阿尔法工场 ”(ID:alpworks),作者 疯狂药师。36氪经授权转载。原标题《爬虫基金:比CEO还先知道上市公司数据》

全球股票市场正在演化为一个数据战场。

如我们所知,在股票市场中,谁有数据信息优势,谁就具备收获超额收益的可能。

问题是,该如何提前获得数据呢?恐怕多数人首先想到的是内幕信息。

殊不知,通过对公开数据的收集和加工,并应用于投资,也是可以获得这种优势的。

迄今,在以华尔街为中心的全球股票市场中,机构投资者通过网络爬虫技术获取领先数据,进而赢得收益战争的现象已越来越普遍。

就中国市场而言,通过药师的走访调研得知,中国私募机构们运用爬虫技术的现象亦正日趋增多。其中主力,则多为那些此前率先涉事量化交易的私募机构们。

这类爬虫私募是如何运作的,药师这就为你揭示。

爬虫:我只是信息的搬运工

所谓爬虫,是一种能自动获取网页内容,并可以按照指定规则提取相应内容的程序。

用大白话来说,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,把看到的信息背回来。

作为一种常用的收集数据手段,爬虫往往会被数据采集公司,用来搜索出现在公共网站、社交媒体、在线社区、邮件插件上可能有价值的信息。

例如从应用程序和用户评论的下载,到航空公司和酒店通过票务网站接收预订的信息。

QzINvyV.jpg!web

爬虫可以跟踪很多东西,从杂货到汽车销售的价格趋势。

分析师可以通过抓取消费者网站上产品的评论,来评估新产品的推出和产品生命周期。

下图展示的一家数据公司,不仅提供多家在美上市公司的领先数据,还提供相关的投资分析服务。

NzuQzaE.jpg!web

包括特斯拉(NASDAQ:TSLA)的库存数据,以及各社交网络上和用户的交互数据。

q2QNniq.jpg!web

以及,不久前在香港上市的小米(HK:01810)的社交网站的数据。

zMRnAvi.jpg!web

当然,这是免费版的界面,相信付费版中提供的内容会更加丰富。

下面这家数据分析公司,更是覆盖多家已经上市的中概股,其中就包括刚刚登陆美股的拼多多(NASDAQ:PDD)的数据。

Ivaq6fA.jpg!web

在一位匿名业内人士看来:“对于爬虫技术而言,难点主要在于反抓取上,被爬取方可能会针对IP、频次、请求习惯等方面做一些分析和限制,也会有图形验证码等人机验证手段防止爬取。”

他进一步表示:“其次的难点就不是爬虫的问题了,而在于庞大数据的分析和清洗上,怎么从看似杂乱的数据中分析出自己想要的内容,也是很需要技术含量的。”

比CEO更了解企业运营状况

作为国内较早将爬虫技术应用于投资领域的保银投资,近年来的投资可谓稳扎稳打,收益方面也是节节攀升。

究竟是如何做到上述这些的?基金经理李墨给出了答案。

“为了有效紧密跟踪交易性机会,充分寻找上市公司各类蛛丝马迹,目的是做到比CEO更了解财务状况,也比CFO更了解运营情况。首先要做的,就是设置互联网爬虫系统紧密各类数据和信息。”保银投资基金经理李墨表示。

具体来看,观察产品价格背后的供需情况,以酒店为例,经济型酒店房价处于动态变化,经营者根据入住情况不断调整价格。因此,可以从线上预定网站或线下渠道,了解客源情况,并做进一步微观信息挖掘,深度了解运营能力。

通过类似这样的数据分析,就容易找到行业内公司间的差异性,通过运用股票多空策略,就可以实现较为稳健的获利。

“比如说做多招行(SH:600036)做空农行(SH:601288),那么只要招行比农行跌的少,我就能赚钱。招行比工行农行涨得多也赚钱,招行比农行好这件事情大概率是比较确定的。”保银投资副总裁马肸珣表示。

类似的例子,还有做多吉利汽车(HK:00175),做空长城汽车(HK:02333)。

A3Ur6vq.jpg!web

超额收益的来源:政策和情绪

“对于具有典型政策市特征的中国股市而言,通过对官媒信息的有效分析,有助于判断国家政策变化。”某量化私募人士透露。

“以计划生育政策为例,通过对独生子女政策关键词在官媒上出现频率的跟踪,有助于预测政策变化。”上述人士进一步表示。

QfaYfuE.jpg!web

“另外,个人投资者情绪的准确捕捉,对投资中国A股市场也至关重要。对社交媒体的有效分析,是获得中国A股超额收益的关键,因为个人投资者占据了A股市场很大一部分的交易量。”上述人士透露。

他进一步表示:“我们每月都会通过爬虫抓取超过200万篇的股评文章,从‘股吧’中每天读取约10万个帖子信息,用于观察个人投资者情绪。发现个人投资者在网络上所发布的相关股票信息,可用于对相关股票未来收益的预测。”

“具体来看,高度活跃的股票信息交流,通常预示着相反的市场走势;持续一致的积极观点,预示着潜在的市场高预期表现。”上述量化私募人士解释道。

爬虫:私募超额收益的下一个来源

iEneuuR.jpg!web

华尔街对于超额收益的追求从来没有停下过脚步,在过去的150年中,超额收益的来源平均每10至20年就要变化一次。

在20世纪50年代,最初的对冲基金发明了股票多空策略;

在20世纪80年代,数学和计算机比手持式计算器更具优势;

在21世纪初,超额收益来源于高频交易。

这些策略或工具,一度让那些能够首先使用它们的人比其他人更有优势。

但随着它们变得越来越普遍,它们的优势消失了,投资者不得不寻找新的策略工具。

目前看来,“爬虫”当道的今天,使用那些由海量数据掩盖下的独特、领先信息,或将成为私募超额收益的下一个来源。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK