英特尔®OpenVINO™工具包发行中的语音识别演示入门

2周前 ⋅ 73 ⋅ 0 ⋅ 0

英特尔®OpenVINO™工具包发行版2020 r1包括一个用于语音识别的新演示。

此版本提供了一组库和演示来演示端到端语音识别。OpenVINO™还提供了新的声学和语言模型来与这些演示一起使用。OpenVINO™随附的库和工具涵盖并演示了完整的端到端语音处理方案。

语音库包装了所有处理模块，并公开了一个简单的API。该库负责适当的初始化以及流水线中所有组件之间的数据传递。

语音库包含：

两个核心二进制库，英特尔®功能提取库和英特尔®语音解码器（在 lib目录中），
语音库源代码（在 src 目录中），
语音库头文件（在 include目录中）。库API位于文件Speech_library.h中。要编译库，请在语音库和演示的根目录中运行脚本（.sh文件），或运行演示脚本（<INSTALL_DIR> /deployment_tools/demo/speech_recogintion.sh）。

file

以下目录中有一个演示：

/ opt / intel / openvino / deployment_tools /

该示例运行的名称是：

demo_speech_recognition.sh

该演示运行以下内容：

初始化环境
下载语音模型（大约10分钟，具体取决于您的网络）
- 型号和尺寸

该演示调用了使用Kaldi * s5 NNET1配方构建的语音识别模型。这些文件位于：

/ opt / intel / openvino / data_processing / audio / speech_recognition /

本文提供了运行OpenVINO™工具包的英特尔®2020 r1中可用的语音演示的指南。

已安装英特尔®OpenVINO™工具包2020 r1发行版
Ubuntu * 18.04（内核5+）
熟悉Linux *命令

语音识别模型集是使用Kaldi s5 NNET1配方构建的。

通过运行以下命令将演示更改目录运行到演示目录：

cd /opt/intel/openvino/deployment_tools/demo

运行语音识别演示脚本：

./demo_speech_recognition.sh

file

Python运行结果

演示成功完成后，运行了一些python脚本，并显示了该工具以供使用。
file

有关用于语音识别的模型的更多信息

在lspeech_s5_ext.yaml文件中找到以下信息。

名称：lspeech_s5_ext 说明：>- 这是使用Kaldi s5 NNET1配方构建的语音识别模型集。输出：intel / lspeech_s5_ext task_type：检测文件：拓扑： -名称：lspeech_s5_ext 说明：>- 这是使用Kaldi s5 NNET1配方构建的语音识别模型集。输出：intel / lspeech_s5_ext task_type：检测文件： -名称：FP32 / speech_recognition_config.template 大小：1267 sha256：6cd4897386b939e571a8c9b9720f21101b3b8aff9dd9796e81f49cd898d14543 来源：https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/speech\_recognition\_config.template -名称：FP32 / lspeech_s5_ext.feature_transform 大小：3056 sha256：074925603942d662f95ce9d5a1eb29b8b933d3dd98371285b1af9437da4c46b2 来源：https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/lspeech\_s5\_ext.feature\_transform -名称：FP32 / lspeech_s5_ext.xml 大小：5329 sha256：a97ed9f37dd9ad75b9ce86e95742117535b0f6493c4df6d3c616cfbb862e5300 来源：https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/lspeech\_s5\_ext.xml -名称：FP32 / lspeech_s5_ext.bin 大小：26764224 sha256：bf35171ceb79c0c15484d236be6778492056fd1c1dbf4a27bbbf6902a839294a 来源：https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/lspeech\_s5\_ext.bin -名称：FP32 / hclg.fst 大小：946851404 sha256：140f4b07482809d3dfcb6c5009b99af7f4f4b2ca0d1093e7a758142472fe9091 来源：https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/hclg.fst -名称：FP32 / labels.bin 大小：2537784 sha256：de101e4e7926cfa3fb84469cb3f9c92d8230876321995a7aa662c555126f250c 来源：https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/labels.bin 框架：dldt 许可证：https://raw.githubusercontent.com/opencv/open\_model\_zoo/master/LICENSE

语音库和语音识别演示

语音样本

剩下

英特尔OpenVINO™（中级）认证地址：https://www.cvmart.net/list/OV2020
（官方权威认证证书+丰厚礼品+视频实操教程）

本文章首发在极市计算机视觉技术社区

英特尔®OpenVINO™工具包发行中的语音识别演示入门

英特尔®OpenVINO™工具包发行中的语音识别演示入门

Python运行结果

有关用于语音识别的模型的更多信息

Recommend

智能自助洗车市场持续升温天九共享助小雨嘀嗒快速布局

What is ReCommerce: Why Is It Becoming So Popular?

目标检测一卷到底之后，终于有人为它挖了个新坑｜CVPR2021 Oral

地方债务四十年沉浮：化解隐性债务已成政策重心

为了提升在小数据集上的性能，有学者让神经网络像生物一样 “进化” 了｜CVPR2021 Oral

How to initialize @StateObject with parameters in SwiftUI

为什么美股在新高，A股却在博弈反弹高度？

半导体 | 中芯国际4月1日后全线涨价

众禧云矿|区块链云挖矿的领航者

组织如何实现最大限度的降本增效，RPA技术是秘诀

About Joyk