16

B站审核为什么越来越慢?

 4 years ago
source link: https://www.huxiu.com/article/345678.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

qAvAvmJ.jpg!web

本文作者:亨哼(作者公众号:亨哼阵地),题图来自:IC photo

3月18日,B站公布了截至2019年12月31日的第四季度和全年未经审计的财务报告。2019财年总营收达67.8亿元人民币,同比增长64%,其中第四季度营收同比增长74%,达20.1亿元人民币,连续七个季度超市场预期。

与喜人的财报一同到来的,还有B站UP主们越来越多的抱怨, UP主们一方面欣喜于“小破站”规模越来越大,另一方面也越来越对B站孱弱的变现能力、混乱的MCN生态和越来越长的稿件审核时间、越来越严苛的内容审核标准表示不满 ,尤其进入3月以来,B站UP主投递一篇稿件,审核时间少则五六小时,多则竟然超过24小时,很多稿件错过了最佳的发布时间。

eqYNjaI.jpg!web

我前不久投递的一个稿件,审核了超过20小时,作为一名产品经理,我认为有必要从产品和商业角度,找一找B站审核变慢的原因,同时也可以试着分析一下内容社区产品在内容风控策略上的一些要点。

一、B站审核为什么这么慢?

一个内容社区的用户角色,大致可分为内容生产者 (创作型用户) 和内容消费者 (浏览型用户) ,既有内容的生产创作,又有观众能够消化掉创作产能,形成良好的社区内容生态。

对于B站来说,UP主们为爱发电是B站快速增长的重要基础,也是B站拿下国内最大视频UGC社区地位的重要基石。如何服务好这一波内容生产者,是B站一个很关键的命题。B站的社区氛围和观众品味,都导致了社区用户对于作品的要求极为苛刻,UP主们费尽心机,要讨好“观众老爷”,那UP主受的委屈,当然要在小破站上找回来,平台要是伺候不好UP主,那UP主就要炸毛了。

因此,3月以来,审核时间大幅变长,引发了UP主大面积的抱怨,很多追热点的稿件,等审核发布出来,热点都过去了。近日B站审核为什么这么慢?其实正如近几日美股屡次熔断一样,B站审核变慢也是多重原因共同作用的结果。

1. 稿件量激增,创作者作品成倍增长

从2019年开始,B站“破圈”的迹象就越来越明显,如今,B站已经从一个小众的亚文化社区,变成多元的大众化平台,随便一个用户,都能明显地感受到,来B站做UP主的人变多了。

数据也支撑了这一点。根据B站2019年第四季度财报,B 站月均活跃UP主数量突破100万,同比增长80%;其月均投稿量同比增长66%达280万。与数量增长相辅相成的,还有稿件类型的多样化,例如在这段时间入驻并快速大火的“巫师财经”“半佛仙人”、入驻但没火的“宇宙维修队亨哼”等UP主,都在印证着B站内容创作在各个领域的破圈。

在进入2020年以来,受疫情隔离影响,B站用户数再次大规模激增,同时受到实体经济不景气影响,开始兼职UP主的专业人士也相应增多。我根据av号 (B站视频唯一编码) 做了一个保守的大致估算,2018年12月,B站日审核视频量大约为6万个,而今年3月,达到了13万个。

如此快的稿件增长,B站的审核系统很难快速响应扩容,原有的审核资源再继续啃翻倍的工作量,自然压力很大。同时还有一点,大量作品新增,原有的服务器资源也压力倍增,视频转码和压制时间也相应变长,这可以从视频投稿后的转码时间看出。

2. 受疫情影响,B站审核力量难以全量支持

疫情隔离对于用户来说,是空闲在家有时间创作更多的视频,但对于平台来说,意味着大量员工难以正常返岗。

2018年7月,B站在国家多部门约谈并要求后整改后,投入运营了位于武汉的新审核中心,扩增一倍以上审核人力。之后,B站大量的稿件审核都由武汉审核中心完成审核,此次受疫情影响,其他城市陆续返工,但武汉恢复正常工作秩序尚需时日。

上海总部的审核力量本身不足,而且内容审核这个工作的离职率相当高,年前离职的空缺,年后因为疫情,一时也不能快速补充新的人进来。

一面是入水口变粗,一面是出水口变窄,自然泡在审核池子里的稿件就越积越多。

3. 新规定带来新的审核标准

去年12月,国家网信办针对互联网内容乱象,出台了《网络信息内容生态治理规定》,明确了网络信息内容服务平台的责任,从2020年3月起正式开始实行。

在刚刚开始正式施行的这一关头,谁都不敢松懈,B站也相应地调整了审核尺度的把关,同时,由于新规定需要更多的培训向基层审核人员普及,也需要时间适应。

4. B站的内容风控审核机制

相较于其他平台,B站的审核属于比较慢的那一种。这当然是由于国情使然,不过也反映出了平台审核机制的效率问题。如何利用机器审核和人工相配合,如何权衡效率和成本,是B站亟需想明白的问题。

插一句,不存在思考“效率和标准松紧”的问题,内容风控不容半点马虎,必须以最严苛标准为准绳,一条违规信息,都可能导致整个平台万劫不复。

二、内容风控策略的核心要点是什么?

对于一款产品来说,其基本业务框架的抽象模型可以总结为“业务”、辅助业务的“增长”、保障业务的“风控”和支撑以上三点的“数据”。

UnYJBby.jpg!web

“业务”自然是产品最关键的地方,“增长”“风控”和“数据”都是辅助业务良态运行。对B站的内容业务来说,协调内容生产者和内容消费者,形成良好的内容生态是关键的核心,辅以用户增长 (包括用户增长和创作者增长两个方面) ,并且对社区进行风控。

通过业务的发展和增长、风控的积累,形成用户基础数据、注册信息、浏览行为、视觉偏好、用户标签等数据,然后通过这些数据,再反向支撑业务发展,形成产品内的数据打通。

本文所要着重分析的,就是风控这一环节。 金融产品、信贷产品有风控非常好理解,但其实,所有类型的产品都需要有风控。电商产品要防薅羊毛,社交产品要防欺诈,而内容产品,则是要对平台内容的质量和合规性进行风险控制。

对于内容社区等UGC产品来说,风控线就是生死线。内容和社区产品的风控压力来源于监管侧,风控对象是用户在平台发布的内容。

1. 内容风控要“控”什么?

来自内容侧的风险主要有三类。

其一是政策层面的内容合规,要符合监管的要求。监管要求的内容可参考最新实行的《网络信息内容生态治理规定》,对于各项违规内容都做了详细规定,大致概括可分为涉政、违禁、暴恐、色情等四类,这部分是政策红线,一旦触及,轻则约谈,重则下架、封禁。

其二是社区氛围的良性导向,如谩骂、隐私等。这一类型的内容虽然不会触及监管红线,但倘若内容社区充斥各种负能量,对于社区氛围是非常严重的损害,伤及用户体验,导致用户流失,影响产品商业利益。这一类型内容风控还包括对于产品运营主体的保护,例如对吐槽公司工作人员的内容进行限流处理、对平台和产品的诅咒进行删除等,属于商誉和公关层面的维护,同时也是对产品官方公信力的维护。

其三是社区用户安全的保证。对于内容和社区产品而言,平台内一定会存在导流、灰产、诈骗等不法手段,如何保护平台内用户的财产安全和产品体验,是非常关键的,互联网发展至今,导流、诈骗等行为往往是成熟的灰黑产产业链所为,他们拥有丰富的反监查和防过滤经验,揪出他们并进行处理,需要平台与其斗智斗勇。

2. 内容风控的方法和手段

在最早期的阶段,对内容进行风险控制,只能通过编辑人工进行审核。这种方式需要大量的人力物力,而且稿件审核需要时间长,时效性也被大大削弱。一般的公司,很难负担起庞大的内容审核团队。

之后,诞生了关键词过滤等手段,成为成本较低,并且使用最为广泛的内容风控措施。对于命中预设的违禁关键词的内容,直接阻止发出或者转交人工审核。这种方式性价比极高,耗费成本小,但基本可以过滤掉大多数的违规内容。

关键词过滤存在的问题也很明显,准确率较低,经常出现误伤和漏网的情况,对于内容和社区平台来说,这是不能容忍的,前文已经讲过,哪怕一篇违规内容被放出来,产品都有可能被封禁。再加上网络的普及,越来越多的人学会了通过拼音、乱码、谐音等方式绕开关键词,关键词过滤逐渐不再能胜任内容风控的工作任务。

以上基本还属于规则的范畴,之后内容风控的发展,就进入了AI+策略的时代。

AI方面,其实叫机器学习更加准确,这是一套组合拳。举个例子,对于一个视频稿件的审核,就需要对整个视频进行逐一拆帧,然后通过OCR文字识别检查字幕,此时对于字幕的检查和文字内容的检查基本一致,文字识别涉及到NLP分词、语义理解等AI技术;对于画面,则是图片识别,识别图片中可能出现的违禁内容,这里涉及到一个准确率的问题,暴恐视频不能够通过,但游戏视频也存在战斗画面,如何保证不误伤;对于音频,则需要两个方面的审查,一方面是视频当中的语句,将语音转文本,再通过文字的审核策略来审核,另一方面是音调识别,例如识别音频当中的娇喘等无语句的声音。

机器学习还是就稿件论稿件,而一个优秀的内容风控平台,是需要配合策略的。策略产品经理是近几年一个特别火的岗位,提供更精细化的、动态的、效率的产品解决方案。对于策略来说,内容的风控不能只在单个内容上,还需要结合更高的维度,给与更加精细化的识别判断。策略要从单个内容出发,延伸到发布该内容的用户基础信息、关系链、过往内容、实名可信度等等诸多维度进行调参和计算,以判断这名用户的这条内容是否需要更细致的识别。

这里要特别强调一点,即使平台的机器算法再先进,所有的内容还都需要过人审核。所有内容过人,所有内容过人,所有内容过人,重要的事情说三遍,至于原因,还是上面那一条,内容和社区平台不容有半点闪失。

不过机器平台越先进,能够为人工审核提供的辅助也就越全面准确,人工审核的效率自然也就变高,审核人员的压力也相应减弱。

另外,对于内容风控,又会有前置风控 (先审后发) 和后置风控 (先发后审) 等不同的方式,关于这一点,以后有机会再详细分析优劣和适用场景。

对于B站来说,随着内容量越来越大,单纯的对审核人工进行扩容,恐难以解决问题。相比抖音、今日头条、西瓜视频等头条系产品、背靠百度AI的爱奇艺、腾讯视频、阿里大文娱旗下的优酷视频,B站崛起晚、资源少、技术储备弱,在机器辅助审核上还比较弱势,今后加强内容风控技术,优化内容审核策略,改善审核后台的体验,不失为一个好方法,毕竟工欲善其事,必先利其器。

本文作者:亨哼(95后互联网产品人),作者公众号:亨哼阵地(ID:hengpaper)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK