五分钟技术趣谈 | 基于Speech框架实现APP智能语音交互的解决方案

作者：移动Labs 2023-07-16 18:46:30

本文透过和家亲上的实践应用案例，介绍基于Speech框架实现APP智能语音交互的解决方案。

Part 01

系统的语音框架无法被外部开发者使用，但是苹果基于机器学习能力为开发者开放了具备类似能力行为的Speech框架，你可以在自己开发的APP应用程序中通过调用开放的接口能力，就可以实现类型键盘听写功能。例如，你可以使用语音识别来识别语音命令或在应用程序的其他部分中处理文本听写。你可以在许多语言中执行语音识别，但每个SFSpeech对象在一种语言上运行，并且Speech框架还依赖于苹果的服务器进行语音识别，要求设备始终连接网络。

Part 02

Speech框架：类结构

Part 03

Speech框架：语音识别过程

Speech框架为快速识别语音提供了统一的接口能力，使用方便，但也存在一些需要注意的地方，具体如下：

处理由语音识别限制引起的故障：语音识别是基于网络的服务，单个设备可能在每天可以执行的识别数量方面受到限制，并且每个应用程序可能会根据其每天发出的请求数量进行全局限制。

音频持续时间1分钟的限制：语音识别对电池寿命和网络使用造成相对较高的负担。为了最大限度地减轻这种负担，该框架会停止持续时间超过1分钟的语音识别任务，此限制类似于与键盘相关的听写限制。

不要对私人或敏感信息进行语音识别：不要发送密码，健康或财务数据以及其他敏感语音进行识别。

Part 04

Speech框架：和家亲上的实践应用

Speech框架在和家亲上的主要应用在智能语音客服和智能管控上，通过Speech框架，快速实现语音输入到内容文本的转换显示，极大提高了交互体验效果。和家亲应用Speech框架实现设备语音管控的主要方案逻辑流程如下图所示👇

图片

主要的流程步骤如下：

1️⃣APP本地构建匹配检索数据表，包括管控动作语义匹配检索表、设备或活动语义匹配检索表、自定义语音管控指令匹配检索表、默认语音管控指令匹配检索表。

2️⃣应用Speech框架能力接口，将app采集的语音输入转换成文本内容，并在APP交互页面上显示。

3️⃣将步骤2中转换好的文本内容与本地构建的自定义语音管控指令匹配检索表和默认语音管控指令匹配检索表分别进行文本整体相似度计算排序，分别找到找到一级相似管控指令及其置信度，三级相似指令及其置信度。

4️⃣将步骤2中转换好的文本内容进行分词处理，提取文本中的动词、名词、地名、产品名等。

5️⃣将步骤4中的动词、名词等分别与管控动作语义匹配检索表、设备或活动语义匹配检索表进行相似度计算匹配，找到最优的动作匹配结果和最优的活动或设备匹配结果，将动作和活动或设备组合形成二级管控指令及其置信度。

6️⃣将上述的一、二、三级管控指令按照不同权重和其对应的置信度结果进行优先级排序，并将排序结果返回显示在交互页面，等待用户确认最终指令。

7️⃣执行最终管控指令。

责任编辑：庞桂玉来源：移动Labs

五分钟技术趣谈 | 基于Speech框架实现APP智能语音交互的解决方案

五分钟技术趣谈 | 基于Speech框架实现APP智能语音交互的解决方案

Part 01

Part 02

Speech框架：类结构

Part 03

Speech框架：语音识别过程

Part 04

Speech框架：和家亲上的实践应用

Recommend

华为发布大模型时代AI存储新品

五分钟技术趣谈 | 层次分析法（AHP）在用户体验设计测评中的应用

京东健康发布医疗大模型“京医千询” 基于京东言犀大模型打造

Norway Government Ministries Hit By Cyber Attack - Slashdot

太阳能梦碎？特斯拉「打钱」以和解太阳能屋顶诉讼

How Will the New National Cybersecurity Strategy Be Implemented?

打破桎梏畅享无线 BW2023华硕发布天选背置主板-品玩

Comic-Con 2023 Premiers Trailers, a Climate Graphic Novel, and a Musical 'Star T...

苹果 iOS / iPadOS 17 首个公测版新功能

5 Tips for Generating More Graphic Design Leads

About Joyk