指标权重设计——如何评测语音技能的智能程度（终篇）

《如何评测语音技能的智能程度》是5篇系列文字，来自一位创业者，也是DuerOS开发者的投稿，老曹尽量不做变动和评价，尽量保持系列文章的原貌，这是第5篇，也是最后一篇。

这是一份前面四篇评测维度介绍文章的总结，同时也是一份清单使用说明书。

“结构清晰，主次分明”，用解构的方式去理解一款产品，这才是人工智能从业者思考的专业化表现。

评测语音技能的智能程度有4大维度：

对于这四大维度，什么是重点呢？面向需求进行自定义。

如何定义各个维度的权重

权重高低的定义有两个考量维度，一个是行业需求，另一个是硬件载体。行业需求包括出行、旅游、餐饮、教育、医疗、金融、电商、客服等；硬件载体包括智能音箱、智能手表、车机、智能耳机、机器人等等。

智能语音技能，往往都会解决某个行业领域的特定业务需求，也往往都存在于一个或多个硬件载体上，与人类进行交互行为。大维度自定义权重，同理，每个维度上的指标也基于需求自定义。

MNj2yeZ.png!web

例如：某语音技能的定位是用来听歌的，“意图理解“中的模块做得非常好，但是由于版权原因，很多歌曲无法播放，这个技能的用户体验就会非常糟糕，因为满足不了用户听歌的需求。

如果该语音技能是线下生活服务，比如订外卖或者是电影票，这类往往不具备版权垄断特质，但由于业务流程的复杂，有太多叠加查询条件，自然对“意图理解“就会有很高的权重要求。

如果某个玩具/手办具备语音交互功能，用户非常在意玩具/手办的语音交互是否匹配角色气质，故而对这类用户而言，“人格特质“就要要求高权重。

语音技能评测指标的选择和量化

这份清单花了笔者太多的时间，仍然有太多的问题值得讨论：

为什么是4个维度，而不是5个或者是3个？
基于什么依据设置每个维度的重点和加分项？
各维度是否穷尽了“智能化”评测的角度？
每个指标的用词的和定义是否精准无歧义且易于理解？
每个维度的指标是不是平行、独立关系？
每个维度的指标是不是做到了穷举？

特别是在保留哪些指标，合并哪些指标之间，笔者做了很多的取舍和权衡。语音识别表现，这个指标，与其说是遗漏，不如说是笔者的选择。目前最好的ASR识别率是97%，且这已经是非常成熟的技术。ASR和TTS 是基础服务，在未来就像AI领域水电煤一样，就跟选百度云还是阿里云一样，花钱买服务就能搞定，差距不会太大，故而不值得纳入评测范畴。

因此，这类语音识别的基础表现，就直接归到【交互流畅】维度“服务稳定性”指标上了。

ASR这项技术未来差距很可能会被抹平，而如果做到了方言转普通话然后转文本那就是另外一个话题了，方言转普通话和任何一种语言转普通话是同一个逻辑。那笔者可能会归纳到【意图理解】维度上。

笔者力求全面，但并非每一个都需要用到， 可以基于自己的需求，自由添加、删除和修改分类。 例如：如果是一个智能耳机或者语义翻译棒，那么“反馈样式丰富性”上，就不必要纳入评测范围了。

但选择本身就是一个难题，这件事情非常地考验我们的认知。举个例子：苹果手机前面几代产品，玻璃屏幕特别不耐摔，这在诺基亚的评测维度里面，是无法上市销售的。后来的故事，我们都知道了，这个故事各位细品。

指标的量化标准并不是一个难题。拿测试集去验证，最终统计各个指标的表现，然后再横向比较竞品就好。

商业化服务比得是相对指标，而不是绝对指标，即不需要考满分，只要在某个方向上，领先与其他竞品一段距离就好，然后就可以宣称，这是当前市面上“某某指标”表现最好的产品。

2YFNny3.png!web