47

腾讯新闻推出中文纠错算法能力,从此AI拯救“手癌”不是梦

 6 years ago
source link: http://www.10tiao.com/html/328/201806/2650881211/2.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

资讯生产的门槛,确实越来越低了;可要写出“快准狠”的稿子,也真的越来越难了。内容生产的坑有千千万,这其中,要数让用户怒点负反馈、狂扣编辑鸡腿的“错别字”最让人头疼。

 

为了揪出恼人的“错别字”,鹅厂的写稿机器人Dreamwriter再拓展能力项,想用AI算法加持采编小伙伴的工作。本期全媒派(ID:quanmeipai)采访了项目幕后团队,探秘这套AI纠错算法究竟如何治愈编辑部“手癌”。

 

AI算法进行中文纠错,到底有多牛?

 

想让计算机进行中文纠错,可不像人类在语文考试中火眼金睛用笔“捉虫”那么简单。

 

从拼写检查说起:英文领域如何应用

你应该对微软Word文档的红绿波浪线不陌生,它就是最常见的拼写检查应用之一。1993年,微软的Word 6.0上线自动拼写更正的功能,到今天已经有25年的历史。可以说,在英文拼写检查领域,人们的实践早就取得了不错的成绩,无论是搜索工具还是文档处理软件,英文错误的识别总是又快又准的。

 

细究英文的拼写错误,大致可以分为两类:

 

一类是英文单词拼写不合法(Non-Word Errors),造成错误的“词”在词典里没有对应的单词(Word),比如把artificial拼成artificel;

 

还有一类是单词拼写合法,但在语境中错误(Real-Word Errors),比如把be interested in写成be interest in。与拼写不合法相比,这类错误更难被纠正。

 

前者一般使用上下文无关(Context-Independent Methods)的方法解决,后者则通常使用上下文相关(Context-Dependent Methods)的方法识别。

 

#视频:算法如何识别拼写错误?来源:NBC


中文纠错有多复杂? 

在中文领域,纠错仍然是一道险关,因为很多中文的错误情况并不会在英文语境中发生。这是因为,英文是输入单个字母,组成词汇和句子,没有“输入法”的概念,最小处理单元是一个“单词”;而对于中文而言,我们依赖输入法来打字,而计算机显示的汉字字形都是预先设置好的,不会存在字形“无中生有”的情况,因此纠错处理单元针对的中文“词”,相当于英语的“词组(Phrase)”。

 

中文语境出现的错误,错法往往千奇百怪:有输入法联想错误导致输入其他同音词,由此出现的搭配不当;有发音不准导致拼音输错;还有形近字、几乎约定俗成的错字等等,很难有成熟的规律一网打尽。汉语的表达主观且多样,如果没有海量语料来训练模型,则试验很难取得成效。

 

因此,可以说,汉语的“捉虫”难度要大大高于英语。

 

鹅厂勘误算法能力全透视

 

从今年春节后启动,到六月份在腾讯新闻CMS系统全量上线、实现新闻各资讯品类全覆盖,Dreamwriter的勘误算法能力可谓历尽了九九八十一难。这是腾讯新闻自研的人工智能算法模型,收录权威字典资料作为基础储备,并利用强大的深度学习算法,通过编辑反馈自我提升、根据上下文语义解析自我修正,实现错别字的勘误和纠正。

CMS反馈界面

 

从技术到产品,项目组投入大量精力不断判错、纠错,进而优化模型,才实现了现阶段较为成熟、理想的效果。


在模型雏形阶段,因为不断报错,团队成员也对试验方向是否正确产生了怀疑。市面上几乎没有可参考竞品,这条路就得独立摸索。

 

核心攻坚点:根据上下文,判别搭配错误

 

在项目开发过程中,最难突破的是对上下文语法及搭配错误的判别,这需要经过数以亿计的数据语料去训练模型。只有不断调试,机器才能够对新闻的语法表达建立概念。


相较于传统纠错,该方法以最先进的AI算法为核心,通过海量语料对深度学习模型进行训练,使模型能够对多方面错误进行校正。

 

核心算法以深度学习为基础,构建多个不同的模型,每个模型都从独有的方面理解语义。模型通过语料进行学习,对语义的理解将深入到字和词。算法核心技术将多种深度学习模型进行融合,多模型共同决策。当语句中出现错误,模型会发现该错误与上下文的匹配程度较低,因而触发报警,并给出正确的写法。

 

“比如我们判断字写对还是写错,其实基本的思路是写错的情况出现得比较少,出现的概率低。有些情况比较简单,像高考常考的那一类,错法很常见,比如说‘彬彬有礼’写成‘杉杉’,这类问题用目前常见的错别字算法都可以解决。”项目技术人员解释道,“而我们这套算法的亮点,主要是通过判断上下文语境,来识别搭配错误。我们会利用前后两个词,来预测中间这个词出现的概率。如果说中间这个词出现的概率非常低,跟它相近的一些词出现的概率比较高,我们就认为它很有可能是写错了的。”

“还有一些非常规的错误,我们也能识别出来。比如上次报了一个‘飞机率落’的case,把‘摔’的提手旁漏了,这个错法很罕见,但机器也识别出来了。”


技术人员还举了一些例子,比如:

 

《这就是铁甲》郑爽成铁甲女超能手,成功在经理人中 脱引->脱颖 而出

一群罗威纳犬宝宝打架,场面 感忍->感人 无法 控自->控制

你有一封信:失忆 男字->男子 寻找不存在的女孩,没想到真找到了!

 

真·机器学习

 

这套算法能力的开发过程还有一个特点,就是自始至终没有使用人工来进行智能数据标注。

 

技术人员介绍道:“一般来说,做这种纠错算法需要很多人来进行数据标注,告诉机器它是什么、不是什么,都需要人工去标注,这是非常耗费人力的。我们这次没有用人工标注,直接让机器拿语料学习。”

算法能力迭代ing

 

目前,这套纠错算法已能识别多种类型,包括同音字、近义字、易错字及上下文语境搭配错误,识别准确率达90%以上,应用于腾讯新闻图文、视频等场景。此外,它还拥有“举一反三”的超强大脑,不仅可以识别错误,还可以通过快速记录对错误的反馈和干预,自我迭代,将算法能力调试得更加精准。

 

现在,这套算法还在不断的学习进化。在信息爆炸的今天,新闻的更新速度异常迅速,“神马”、“菊外人”等新名词层出不穷,算法也可以通过语料的积累,快速实现对这类热门新词的覆盖。

 

未来展望:更多能力+开放合作

 

目前,团队希望继续优化模型,拔高整体水平;另外要做好通用能力,将算法以工具的形式来服务更多受众。

 

算法能力项拓展

 

现有的算法能力虽然相当了不起,但对于漏字、多字和更复杂的病句却暂时无能为力。技术人员坦言,这也是未来努力突破的一个方向。比如“我正在在看书”和“我正在书”,前者多了一个“在”字,后者漏了动词“看”字,看似简单的错误,如何通过AI来“查漏补缺”,是亟待攻克的难题。


除了纠错本身,团队还有更大的野心。产品经理介绍道,“纠错只是目前算法能力的一个方向,更多的技术也在陆续开放中,希望能够赋能更多合作伙伴。”

 

开放合作,解放“手癌”

 

“我们做这个算法能力的初衷是,不仅能够应用于腾讯新闻‘捉虫’,还能惠及更多媒体从业者,帮助大家高效勘误、少犯错。”该项目的产品经理介绍道,“虽然这个能力的实现是很漫长且需要不断更新的过程,但是为了能给予用户纯净清朗的文字环境,我们认为还是很有意义的。”

 

现在,团队正在着手搭建可供对外使用的应用展示平台,十分欢迎更多有这类需求的媒体和个人,来使用鹅厂的算法工具,希望一来可以帮助大家发现并解决工作中存在的问题,二来通过吸收更多真实的“养料”,帮助AI更聪明更智能,未来识别更精准。


谈及AI,人们往往闻之色变,唯恐因其入侵取代了自己的位置。而作为内容生产者的我们,完全可以合理利用AI,去负担那些产出投入比低的工作,降低内容管理中的风险。在技术迅速变革的大潮之中,聪明地利用技术,加强人类不可替代的核心能力,才是媒体人减轻工作焦虑感的至上法则。

 

其他参考资料:

· Who Made That Autocorrect?  

作者:Daniel Engber 来源:The New York Times Magazine

· Chinese Spell Checking Based on Noisy Channel Model

作者:Hsun-wen Chiu, Jian-cheng Wu, Jason S. Chang

· A New Benchmark and Evaluation Schema for Chinese Typo Detection andCorrection∗

作者:Dingmin Wang,  Gabriel PuiCheong Fung,

Maxime Debosschere, Shichao Dong, Jia Zhu, Kam-Fai Wong

来源:全媒派


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK