3

国人性癖研究

 1 year ago
source link: https://hsingko.github.io/post/2022/11/24/ml-in-china/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

……那是因为男女之间的性关系总是能够明确展现发生性行为的社会中社会关系的本质,如果清楚地加以描述,性关系还可以对那些关系构成批判,即使那不是而且从来也不是色情文学作家的意图。 — 安吉拉·卡特《萨德式女人》

更新#

  • 2022-11-25 重写了一些结论;将词云图修饰后重新发布。

总体概览#

数据来源于某知名中文成人视频网站的采集站,我提取了每个视频的标题,共获得10W+ 条文本数据,足够产生有意义的结论了。

分析的基本想法是通过统计关键词在标题中出现的频率来获得投稿人的偏好,进而得到(这类)男性心目中的有性吸引力的女性形象。

需要重点说明的是,这份统计数据说明的不是某种职业、年龄、身份的女性更容易拍摄成人视频。因为视频上传者往往是男性,而上传视频的很大一部分原因是为了获取关注,这时标题就能起到吸睛的作用。可以想象得到的是,上传者往往会通过虚构来吸引观众。通过简单的调查,一种常见的现象是,同一个女角色在不同视频中被冠以的身份会不停改变。因此严格来说,这个统计真正反映的,是男性成人视频观众的性幻想对象情况。

我们常常提到物化女性这个概念,但总是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,进而塑造出某些男性性幻想对象的轮廓。

统计方法#

具体的统计方法细节, 不关心的可以不看。 推荐先读一读。

  • 通过搜索关键词来进行统计
    • 比如想要统计视频中女性职业分布情况,我会先罗列一些诸如:大学生、老师、护士、空姐等热门关键词,然后再通过 sql like 语句进行计数。因此这种方法的准确度就取决于这个关键词集合涵盖了多大程度上的性癖好
    • 涉及到比例时,将同一类别关键词作为总数。除了“露脸”这个关键词,从隐私泄漏的角度出发,观察其占总量的比例可以了解到女性同意拍摄视频时会承担多大的风险。已经有评论指出,这种比例远远低于真实,因为很多视频上传者不会将其作为标题,但实际视频中女生是露脸的
    • 另外一个缺陷就是有些视频尽管在内容上命中了关键词,但却不会在标题中反映出来,因此作为比例来说某钟关键词可能被低估了;但是在横向对比同类关键词时,得出的结论还是有一定价值的
  • 程序实现细节
    • 通过 Scrapy 爬取数据,并将标题等信息导入到 csv
    • 对于不方便使用 sql 语句的,使用 linux 基本命令如 ripgrep, awk, uniq, sort 进行统计
      • 比如要统计年龄状况,使用的命令是 rg '(\d\d岁)' out.csv -or '$1'|sort|uniq -c|awk '{print $2" " $1}'
    • 其余数据导入 sqlite db 中,通过形如 like %老师% 的方式进行统计,考虑到有些关键词有同义替代,因此我简单地做了归总;比如“着装”中,“丝袜”关键词就涵盖了诸如“黑丝”、“丝袜”等同类项目

分析结果#

词云概览#

不作任何处理,直接对标题进行分词显示词频,是最能准确反应整体情况的方法,然而这里我不得不去掉了某些过于直白裸露的词语(往往是频率非常高的词)它们会引起读者的反感。

以下图片通过 jieba 分词之后导入 python wordcloud 生成。

2022-11-24_18-32-29_wordcloud.png

年龄分布情况#

2022-11-24_10-13-24_%e5%b9%b4%e9%be%84%e5%88%86%e5%b8%83.png
  • 遥遥领先的是 18 岁,合法年龄的下限,也是网站能容许的年龄下限。因此这个数据就真实性来说是最低的
  • 总体分布在 20+ 岁,但 30,40,50 岁各有不少的峰值,大致对应了少女,少妇、熟女等年龄标签,让我惊讶的是大龄女性其实也有不少的吸引力

身份#

2022-11-24_16-07-24_%e5%a5%b3%e6%80%a7%e7%9a%84%e8%ba%ab%e4%bb%bd.png
  • 可能是除了职业之外最不真实的数据,因此是最能反映男性对身边女性性幻想状况的数据
  • 妻子的占比最高,但往往涉及的并非夫妻之间发生的关系

职业#

2022-11-24_16-07-34_%e5%a5%b3%e6%80%a7%e8%81%8c%e4%b8%9a%e5%88%86%e5%b8%83.png
  • 幻想远远大过真实性的数据
  • 分布得比较均匀,大致符合印象;其中老师和学生加起来几乎占了一半,可能也说明了学生是视频观众中比例很大的群体

身高偏好#

2022-11-24_10-14-14_%e8%ba%ab%e9%ab%98%e9%a2%91%e7%8e%87%e5%88%86%e5%b8%83.png

说明:

  • 身高因为可以通过视频进行大致验证,所以可以称得上是真实性较大的数据, 反应出了男性对高挑女性的偏好
  • 已经有评论指出了这一统计方法的另一个缺陷,以身高为例,并非所有的视频发布者都会将身高注明在标题中,因此得到的分布本身就含有倾向性,因此能得出的结论是“对身高敏感的人群更偏好高挑身材”

着装#

2022-11-24_16-07-44_%e7%89%b9%e5%ae%9a%e7%a9%bf%e8%91%97%e5%87%ba%e7%8e%b0%e9%a2%91%e7%8e%87.png
  • 最真实的数据

是否露脸#

2022-11-24_16-07-52_%e9%9c%b2%e8%84%b8%e5%8d%a0%e6%af%94.png
  • 每 25 个视频就会有 1 个露脸,作为对比,“前女友”在身份关键词统计中的占比也是 4.8% ,考虑到真实细节并非总是能反映在标题中,所以从隐私泄漏的角度出发,这个比例被低估了

#

几天前,我在逛国内的动画论坛时,发现很多帖子都直白地将作品中的女性人物作为性幻想对象,用词都非常粗鄙,而底下的回帖也早已见怪不怪,附和者颇多。于是我就突然产生了一个想法,为什么不去统计一下成人视频的数据呢?这样我就能搞明白国人在到处投射性幻想时是如何选择对象了。

于是花了十几分钟写了个 Scrapy 脚本,设置请求间隔为 5 秒钟,用时大约 7 个小时获取了共 114092 条标题。这份数据其实还有可以供挖掘的地方,比如对女性的侮辱性称谓、城市分布、发生关系的地点等等。不过这十几万条数据看得我实在是倒胃口,于是就先到这里吧。

Figure 1: 由 13682 张视频封面图生成的西藏唐卡

由 13682 张视频封面图生成的西藏唐卡


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK