4

微博用户影响力评价的 H-Index 指数

 3 years ago
source link: https://cosx.org/2013/04/weibo-influence-hindex/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
微博用户影响力评价的 H-Index 指数

H-index 其实更广泛的应用于学术论文评价,其定义为:

h 代表 “高引用次数”(high citations),一名科研人员的 h 指数是指他至多有 h 篇论文分别被引用了至少 h 次。

约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:

一名微博用户的 h 指数是指他至多有 h 个粉丝数超过 h 的粉丝。

怎奈后来抓数据奇慢无比,遂放弃。

转过年来,春天都到了,Rweibo 这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的 API 对于测试帐号限制较多,一小时只有 150 次请求机会。唉,只能无耻的多帐号多 API 一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的 H-index 指数与粉丝数的关系图。

当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的 H-index 可能偏低。结果证明,在小编的近 1100 粉丝之中,只有 287 人的粉丝数超过了 287。这样,小编的 H-index 就华丽丽的定格在 287 了。

然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数 > 500 且小于 2000 的显然是个不错的对比范围 (受限于新浪微博 API 的控制,力不从心呀)。

不一会儿,数据抓完了。然后算算 H-index,就有了下面这张图:

新浪微博用户影响力H-index指数

新浪微博用户影响力 H-index 指数

巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:

  • 左上:粉丝小于 1095 但 h-index 大于 287。这群人得好好关注呀,高质量的圈子!
  • 左下:粉丝小于 1095 大于等于 500,h-index 小于 287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
  • 右上:粉丝大于 1095 且 H-index 大于 287,不用说了,大牛云集的区域!各种羡慕。
  • 右下:粉丝大于 1095 但 H-index 小于 287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个 “xx 书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…

碎碎念的细节

  1. 新浪微博的 API 如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点… 而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。

  2. 如果希望抓全粉丝,就不能用 friendships/followers 而是要用直接抓 ID 的 friendships/followers/ids.

  3. 其实可以递归的继续定义高阶 H-index,比如二阶,定义为有 h2 个粉丝的(一阶)h-index 大于 h2… 对于粉丝动辄过万的大 V 来说,递归几次可能更有意思。吾等小玩意儿就不用了。

  4. 然后附上这张图的原始数据… 大家的微博 ID 我就不隐藏了,都可以直接搜到… 按 h-index 指数排序哦。

weibo_name followers_count h-index 崔婧 Janet 1534 634 Gideon_Ge 1682 515 数据逻辑 1663 508 blogkid 1409 448 董友良_飘香一剑 1334 436 数据鱼_谢宇 1887 425 黠之大者 1706 420 bicloud 笑西西 1352 407 super00011127 1270 380 MINI 金石头 1803 378 长颈鹿 27 1106 362 G_will 1113 360 Sevennick 1357 348 Leo 在梧桐山下 642 344 王昕 - CALL 谁谁 OFFER 1090 339 波波头一头 1216 337 晓帆目标 130 斤 806 329 科隆王子 Original 1139 327 指间战争 989 326 小刚 C 898 311 谢益辉 1511 311 安泰科宏观部 1133 310 jia 华_伪学术 664 305 老马 - InSydney 849 301 洛川有机好苹果 1082 297 P-Jackie 967 296 身边汇康康 1253 295 pepsidav 785 292 jiangfeng_scir 871 285 王函大帆船 929 284 万幸_Wonder 746 282 cloud_wei 965 279 数据挖掘 racoon 737 278 DATA309 846 277 左根永 690 277 猎头王俊宏 925 275 林小妖系小球童 700 274 rxjia 942 272 lijian001 1387 271 大雁_sysu 627 271 汪琨 1987 1054 270 许亮_在路上 914 268 TT 小和子 742 264 TerryMANG 931 262 李响 ICTNLP 656 261 李直 840 252 AnnaPatio 641 252 七桃 ple 853 249 william_ou 720 249 雁起平沙 675 243 上海芒果商务咨询 1472 243 叶茂亮 592 243 Jordi_Liang 637 239 天天向上的胖子 671 238 爱宇直 - 抠脚不闻非君子 748 238 邓一硕 804 236 月亮先生 Zsir 381 236 taishanfan 729 233 智博是老青年 1005 224 ivanlauCOM 679 222 Puriney 1180 218 陈筱歪 1025 215 百变小倩 1314 863 214 达斯托洛夫斯基 661 213 Deer 一只鹿 1070 208 Delphiyeh 898 206 飞鱼姬 Sindy 417 202 mlzboy 1252 200 top 糊涂虫 441 199 爱美丽高 670 196 罗小妮_focus 467 195 thinkfan 619 191 無限追云 438 191 默尔根 454 189 黎胖 373 188 发现神回复_Denny 400 184 忙碌的灵麟 855 184 谭卫国 Forest 619 180 乐美家的乐子 785 180 刘坤林 Jason 617 179 omgpumelo 652 179 sirius 486 176 Fancy_zju 488 175 晨曦彩虹 740 173 田宪允 588 171 对半切开的奇异果 1106 167 八爪鱼 Rainie 485 164 唐吉_诃德 607 162 can_sunny 734 159 LeprechaunTon 478 157 女鬼小倩 554 153 Nefeli 要过正常人的生活 602 146 猪头开 Lucas 403 140 elemenTY 690 139 彤言彤趣 577 136 左后卫左后卫 377 136 soulwangh 414 136 不动点 - 432 133 Gossip_Nathen 425 133 我是小志童鞋 1271 126 yangleicq 320 124 nsol 397 115 毛毛虫_Oak 618 112 心卧缘 323 111 十九向日葵 1371 110 codememory 385 110 薛定谔的粥稀稀 357 100 雪中炭忐 d 662 88 Preec 314 87 呼和浩特书友会 1298 65

最后附上一段短小精悍的代码。lijian 哥的 Rweibo 包真是给力!

目前在 Facebook 从事数据分析。亦常以” 落园园主 “自居。陈丽云

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← COS 每周精选: 群众智慧 vs 机器学习? COS 每周精选: 一场穿越时空的辩护 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK