疫情当前，我们聊聊谣言的自动化鉴别【附代码和资料】

uqyUJj2.jpg!web

1. 前言

2020年真的太难了！（来自一个已经被迫在家隔离了29天的农村娃的无力吐槽）

2020年对于我来说原本也会是一个难忘的一年，新年女朋友第一次来我家，6月份硕士生涯结束，正式步入996的美好生活！没曾想2020年会如此多事，突如其来的疫情（2019-nCoV），也将我原本的计划彻底打乱。唯一让我感到好受一点的可能就是难得在家陪父母这么长时间了吧。

2. 研究目的及意义

这次疫情让我感受最深的，除了隔离在家的烦闷和不便，就是随着疫情漫天飞舞的谣言。

平时生活中我们也会经常看到、听到各种各样的虚假信息，甚至谣言。可能因为疫情的原因，相关的谣言和虚假信息格外的多，朋友圈、微信群经常能够看到。说实话，有些谣言根据经验大体可以看出真假，但很多谣言是很难分辨的，今天信以为真，明天就有人出来辟谣，偶尔还会再来一次反辟谣，让人非常烦恼。

正是谣言的滋扰让我萌生了用模型来自动分辨谣言的想法。后文中，我们将谣言、虚假新闻等统称为虚假信息。

3. 研究背景

在实验之前，我做了些简单的调研，发现虚假信息自动化鉴别的研究由来已久。

3.1

为什么虚假信息如此盛行

虚假信息的产生，绝大多数是出于利益角度的考量，这里的利益除了金钱以外，还可能是政治上的利益。例如通过编造虚假信息引发关注，从而达到引流目的，获取广告收入。政治上，为了达到操纵和宣传的目的，有时候也会编造一些虚假信息。

大量虚假信息的产生和传播对于社会、经济的发展非常不利，对于我们个人来说也是一件令人厌烦的事。

3.2

虚假信息自动化鉴别的难点及研究方向

难点1：一些虚假信息会利用一些真实信息来增加迷惑性，有时甚至会借助一些权威人士或机构来提高信息的可信度。

难点2：判别虚假信息缺乏及时、权威的数据。很多虚假信息都是针对当前的实事，例如此次疫情。对于一些缺乏相关经验的人来说，很难辨识真假。而缺乏相应的数据库，也很难由模型自动化鉴别。

虚假信息自动化鉴别是一个典型的文本分类问题，我们可以直接使用一些文本分类的算法或模型，但是其效果也因数据、场景而不同。

除了直接针对虚假信息的文本内容下手，一些研究者将方向拓展到对虚假信息制造者的用户特征、发文特征以及平台特征的研究。

虚假信息鉴别是自然语言处理领域的热门研究方向之一，并且依然面临着诸多的困难和挑战。

3.3

5. 总结与展望

1.通过实验我们能够看到，直接使用文本分类的模型来自动鉴别虚假信息，能够取得一定效果，基于微博数据的实验一定程度上佐证了这一点。

2.利用文本分类解决虚假信息的自动化鉴别有其局限性。当我们用微博数据训练模型后，再来预测疫情数据，其效果并不理想。究其根本原因是因为我们的训练数据没有覆盖到疫情相关的数据特征。因此，数据的规模和数据的全面性是决定模型适用范围和效果的关键。

感兴趣的朋友可以基于本人的实验继续探究，不过最好能够先解决数据量不足的问题。期待大家一起交流！

6. 数据、代码和资料获取

本文实验部分的代码已上传Github：https://github.com/lqhou/NLP_Bus_Pro/tree/master/fake_news

由于模型文件较大，已和其他资料一起上传至云盘。关注公众号「NLP巴士」后，在公众号后台回复“fake news”获取链接。

有任何疑问，欢迎联系我们。

J3aYnyj.jpg!web 长按扫码，关注我们

你与未来只差一个

磐创AI

你 “在看” 我吗？

1. 前言

2. 研究目的及意义

3. 研究背景

5. 总结与展望

6. 数据、代码和资料获取

Recommend

REALM后续：最近邻搜索，MIPS，LSH和ALSH

Service Mesh · Istio · 以实践入门

严选质量数仓建设（二）—— 质量数仓项目建设及管理

欧盟要求所有手机统一充电接口这对苹果意味着什么

口罩机厂复工记

人傻钱多，实体店老板转行做互联网最好骗

李佳琦“失业”？卖房、卖车、做外卖都在"抢"直播生意_创事记_新浪科技_新浪...

疫情下的武汉光谷创业者：遭遇现金流吃紧、人才流失

推特关停70个支持布隆伯格的账号

实拍深圳华强北:小巷里交易场面热闹几乎与平常无异

About Joyk