微博用户影响力评价的 H-Index 指数
source link: https://cosx.org/2013/04/weibo-influence-hindex/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
H-index 其实更广泛的应用于学术论文评价,其定义为:
h 代表 “高引用次数”(high citations),一名科研人员的 h 指数是指他至多有 h 篇论文分别被引用了至少 h 次。
约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:
一名微博用户的 h 指数是指他至多有 h 个粉丝数超过 h 的粉丝。
怎奈后来抓数据奇慢无比,遂放弃。
转过年来,春天都到了,Rweibo 这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的 API 对于测试帐号限制较多,一小时只有 150 次请求机会。唉,只能无耻的多帐号多 API 一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的 H-index 指数与粉丝数的关系图。
当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的 H-index 可能偏低。结果证明,在小编的近 1100 粉丝之中,只有 287 人的粉丝数超过了 287。这样,小编的 H-index 就华丽丽的定格在 287 了。
然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数 > 500 且小于 2000 的显然是个不错的对比范围 (受限于新浪微博 API 的控制,力不从心呀)。
不一会儿,数据抓完了。然后算算 H-index,就有了下面这张图:
新浪微博用户影响力 H-index 指数
巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:
- 左上:粉丝小于 1095 但 h-index 大于 287。这群人得好好关注呀,高质量的圈子!
- 左下:粉丝小于 1095 大于等于 500,h-index 小于 287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
- 右上:粉丝大于 1095 且 H-index 大于 287,不用说了,大牛云集的区域!各种羡慕。
- 右下:粉丝大于 1095 但 H-index 小于 287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个 “xx 书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…
碎碎念的细节
新浪微博的 API 如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点… 而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。
如果希望抓全粉丝,就不能用 friendships/followers 而是要用直接抓 ID 的 friendships/followers/ids.
其实可以递归的继续定义高阶 H-index,比如二阶,定义为有 h2 个粉丝的(一阶)h-index 大于 h2… 对于粉丝动辄过万的大 V 来说,递归几次可能更有意思。吾等小玩意儿就不用了。
然后附上这张图的原始数据… 大家的微博 ID 我就不隐藏了,都可以直接搜到… 按 h-index 指数排序哦。
最后附上一段短小精悍的代码。lijian 哥的 Rweibo 包真是给力!
目前在 Facebook 从事数据分析。亦常以” 落园园主 “自居。敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
← COS 每周精选: 群众智慧 vs 机器学习? COS 每周精选: 一场穿越时空的辩护 →Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK