25

指标权重设计——如何评测语音技能的智能程度(终篇)

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzAwOTcyNzA0OQ%3D%3D&%3Bmid=2658975733&%3Bidx=1&%3Bsn=1e976d2173a1bb45129fc031b96ae7fa
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

《如何评测语音技能的智能程度》是5篇系列文字,来自一位创业者,也是DuerOS开发者的投稿,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第5篇,也是最后一篇。

这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。

“结构清晰,主次分明”,用解构的方式去理解一款产品,这才是人工智能从业者思考的专业化表现。

评测语音技能的智能程度有4大维度:

  1. 如何评测语音技能的智能程度(1)——意图理解

  2. 如何评测语音技能的智能程度(2)——服务提供

  3. 如何评测语音技能的智能程度(3)——交互流畅

  4. 如何评测语音技能的智能程度(4)——人格特质

对于这四大维度,什么是重点呢?  面向 需求进行自定义。

如何定义各个维度的权重

权重高低的定义有两个 考量 维度,一个是行业需求,另一个是硬件载体。 行业需求包括出行、旅游、餐饮、教育、医疗、金融、电商、客服等;硬件载体包括智能音箱、智能手表、车机、智能耳机、机器人等等。

智能语音技能,往往都会解决某个行业领域的特定业务需求,也往往都存在于一个或多个硬件载体上,与人类进行交互行为。大维度自定义权重,同理,每个维度上的指标也基于需求自定义。

MNj2yeZ.png!web

例如:某语音技能的定位是用来听歌的,“意图理解“中的模块做得非常好,但是由于版权原因,很多歌曲无法播放,这个技能的用户体验就会非常糟糕,因为满足不了用户听歌的需求。

如果该语音技能是线下生活服务,比如订外卖或者是电影票,这类往往不具备版权垄断特质,但由于业务流程的复杂,有太多叠加查询条件,自然对“意图理解“就会有很高的权重要求。

如果某个玩具/手办具备语音交互功能,用户非常在意玩具/手办的语音交互是否匹配角色气质,故而对这类用户而言,“人格特质“就要要求高权重。

语音技能评测指标的选择和量化

这份清单花了笔者太多的时间,仍然有太多的问题值得讨论:

  • 为什么是4个维度,而不是5个或者是3个?

  • 基于什么依据设置每个维度的重点和加分项?

  • 各维度是否穷尽了“智能化”评测的角度?

  • 每个指标的用词的和定义是否精准无歧义且易于理解?

  • 每个维度的指标是不是平行、独立关系?

  • 每个维度的指标是不是做到了穷举?

特别是在保留哪些指标,合并哪些指标之间,笔者做了很多的取舍和权衡。语音识别表现,这个指标,与其说是遗漏,不如说是笔者的选择。目前最好的ASR识别率是97%,且这已经是非常成熟的技术。ASR和TTS 是基础服务, 在未来就像AI领域水电煤一样,就跟选百度云还是阿里云一样,花钱买服务就能搞定,差距不会太大,故而不值得纳入评测范畴。

因此,这类语音识别的基础表现,就直接归到【交互流畅】维度“服务稳定性”指标上了。

ASR这项技术未来差距很可能会被抹平,而如果做到了方言转普通话然后转文本那就是另外一个话题了,方言转普通话和任何一种语言转普通话是同一个逻辑。那笔者可能会归纳到【意图理解】维度上。

笔者力求全面,但并非每一个都需要用到, 可以基于自己的需求,自由添加、删除和修改分类。 例如:如果是一个智能耳机或者语义翻译棒,那么“反馈样式丰富性”上,就不必要纳入评测范围了。

但选择本身就是一个难题,这件事情非常地考验我们的认知。举个例子:苹果手机前面几代产品,玻璃屏幕特别不耐摔,这在诺基亚的评测维度里面,是无法上市销售的。后来的故事,我们都知道了,这个故事各位细品。

指标的量化标准并不是一个难题。 拿测试集去验证,最终统计各个指标的表现,然后再横向比较竞品就好。

商业化服务比得是相对指标,而不是绝对指标,即不需要考满分,只要在某个方向上,领先与其他竞品一段距离就好,然后就可以宣称,这是当前市面上“某某指标”表现最好的产品。

2YFNny3.png!web

语音技能服务的上限和下限

除去调研和评测其他智能语音技能,这份清单的还可以用于服务的产品定位,以及作为清单来评价语音技能服务表现。

语音技能服务在立项的时候,要哪些不要哪些, 有多大 的边界和范围,是一个思考题。开始的无屏音箱都在抄亚马逊的Echo,后面为什么又出现了有屏音箱呢?这个就是智能语音产品的定位和选择。

从商业逻辑上来看, 缺陷 明显 的产品无法存活于市场,没有长项的产品也注定平庸。 企业也没法把所有的资源平均分配,那样的东西注定平庸,唯有极致才可以生存。

语音技能服务的上限就是自己的卖点,这样才能够从竞争之中脱颖而出。

例如,再烂的智能手机也要搭配一颗摄像头,且摄像头的性能表现不能低于某个标准,如果这个太烂的话,注定无法存活。前面苹果手机的屏幕其实也抗震,不是一摔就碎的东西,这种就是下限保障。

语音技能服务的下限要做到什么程度,这个就是及格线,存活于市场的前提。

在保证了及格线达到平均线标准之后,应当把更多的资源堆到某个维度上。大家比拼的是在资源有限的前提下,基于定位做产品交付。

战略的第一步就是放弃,敢放弃什么,拼的是认知。

综上所述——

  • 基于定位来选择重要的维度和指标,做权重优先级排序。

  • 基于选择的指标,使其数值可衡量,做量化标准。

  • 基于公司资源保障产品下限,基于人才提升上限。

掌握使用说明书,这份清单的价值也就到位了。

qAJv2ua.png!web

总结

人的理性是有限的,在遇到环境影响而情绪波动的时候,结果往往不可控。如《清单革命》中所说的那样,以原则清单行事则更加可控,减少纠结犹豫,提升效率。

笔者在设计评测指标的时候,往往是朝着最理想的人工智能去做比对的,它能帮助我们在各个维度上去逼近超级人工智能,打造令人尖叫的产品。

谢谢各位看到这里,希望这份业务清单能够帮助到大家。

【关联阅读】

一篇文章深入理解VUI和GUI的优劣对比

面向NLP的AI产品方法论——寻找语音交互的业务场景

面向NLP的AI产品方法论——如何设计多轮语音技能

面向NLP的AI产品方法论——如何做好“多轮对话管理”

如何从零开始搭建数据分析后台 | 饭大官人

面向NLP的AI产品方法论——如何通过数据分析迭代优化

如何评测语音技能的智能程度(1)——意图理解

如何评测语音技能的智能程度(2)——服务提供

如何评测语音技能的智能程度(3)——交互流畅

如何评测语音技能的智能程度(4)——人格特质


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK