新闻动态

COS 沙龙第 30 期（北京）纪要

关键词：COS 沙龙; 中文分词; 孙健; 沙龙

30沙龙纪要改

主题：漫谈大数据下的中文分词

嘉宾：孙健

主办：统计之都

场地：中国人民大学

组织：蔡占锐、魏太云、邓金涛、冯璟烁

纪要：邓金涛

简介：第 30 期沙龙（北京站）于 2015 年 9 月 20 日在中国人民大学顺利举行，本次嘉宾是来自北京英富森软件股份有限公司旗下的凌云实验室的孙健先生，是 ANSJ 分词的创始人，研究方向是情感分析和倾向性分析。

本次沙龙的主要内容

孙健先生首先幽默风趣地解释了 ANSJ 分词的名字来历，并对中文分词的概念进行了初步的解释。接下来又利用 PPT 对中文分词的应用范围进行了简单的介绍，让来宾们都对中文分词的用途有了一个比较清晰的认识。

在介绍完中文分词的一些概念性元素后，孙健先生将重点转移到了目前中文分词在应用过程中遇到的一些困难，其中就包括中文歧义的识别 (包含交叉歧义、组合歧义、真歧义)、实体名识别、人名识别和机构名识别。在这几种难题中，又以机构名识别最为困难，据孙健先生介绍，这主要是因为一般来说机构名的词长都是不固定的。紧接着孙健先生又对颗粒度进行了一个比较详细的解释，如下：颗粒度问题是最难的问题，颗粒度的大小很难把握，颗粒度越小歧义越高，歧义多召回率高；颗粒度越大准确度越低，召回率低；系统不同需要的平衡点不同。孙健先生还用了一些有趣的案例，来为大家生动的解释了分词的难度所在。

最后在介绍完大量的案例后，孙健先生介绍了 ANSJ 中文分词的主要功能，以及其工作原理和分词顺序，并且对 NLPCN 工具包进行了基本的介绍，稍后展示了 NLPCN 的主站，通过网站上的文本分词展现了分词的各种成果，例如 NLP 分词，精准分词，简繁体转换等等。并且当场在现场随机找了几个现有不同类型的文本，输入到 NLPCN 网站中，进行分词的演示。孙健先生对 NLPChina 的 group 进行了简单的介绍，介绍了其各种各样的开发成果，以及其源代码。

最后，孙健先生就现场来宾的疑问进行了讨论解答，本次沙龙到此结束。

沙龙 PPT 下载地址请点击。

敬告各位友媒，如需转载，请与统计之都小编联系（直接留言或发至邮箱：[email protected]），获准转载的请在显著位置注明作者和出处（转载自：统计之都），并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← COS 访谈第 19 期：张志华教授 Hadley Wickham：一个改变了 R 的人 →

发表 / 查看评论

COS 沙龙第 30 期（北京）纪要

COS 沙龙第 30 期（北京）纪要

主题：漫谈大数据下的中文分词

本次沙龙的主要内容

Recommend

阴霾扩张，Polygon会是继BSC下一个黑客聚集地吗？

粉丝地图的可视化

COS 沙龙第 25 期（北京）

COS 数据分析沙龙第五期（深圳）

统计之都《本周导读》第十一辑

[朝花夕拾] 从学习数学公式到实践统计分析

希格斯玻色子与 5σ

COS 数据分析沙龙第四期（北京）

统计学发展方向的选择

Volvo plans 560 mile EVs from mid-decade: Electric roadmap

About Joyk