6

英特尔®OpenVINO™工具包发行中的语音识别演示入门

 3 years ago
source link: https://bbs.cvmart.net/articles/4462
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

英特尔®OpenVINO™工具包发行中的语音识别演示入门

2周前 ⋅ 73 ⋅ 0 ⋅ 0

英特尔®OpenVINO™工具包发行版2020 r1包括一个用于语音识别的新演示。

此版本提供了一组库和演示来演示端到端语音识别。OpenVINO™还提供了新的声学和语言模型来与这些演示一起使用。OpenVINO™随附的库和工具涵盖并演示了完整的端到端语音处理方案。

语音库包装了所有处理模块,并公开了一个简单的API。该库负责适当的初始化以及流水线中所有组件之间的数据传递。

语音库包含:

  • 两个核心二进制库,英特尔®功能提取库和英特尔®语音解码器(在 lib目录中),
  • 语音库源代码(在 src 目录中),
  • 语音库头文件(在 include目录中)。库API位于文件Speech_library.h中。要编译库,请在语音库和演示的根目录中运行脚本(.sh文件),或运行演示脚本(<INSTALL_DIR> /deployment_tools/demo/speech_recogintion.sh)。

file

以下目录中有一个演示:

/ opt / intel / openvino / deployment_tools /

该示例运行的名称是:

demo_speech_recognition.sh 

该演示运行以下内容:

  • 初始化环境 
  • 下载语音模型(大约10分钟,具体取决于您的网络)
    • 型号和尺寸

该演示调用了使用Kaldi * s5 NNET1配方构建的语音识别模型。这些文件位于:

/ opt / intel / openvino / data_processing / audio / speech_recognition /

本文提供了运行OpenVINO™工具包的英特尔®2020 r1中可用的语音演示的指南。

  • 已安装英特尔®OpenVINO™工具包2020 r1发行版
  • Ubuntu * 18.04(内核5+)
  • 熟悉Linux *命令

语音识别模型集是使用Kaldi s5 NNET1配方构建的。 

通过运行以下命令将演示更改目录运行到演示目录:

cd /opt/intel/openvino/deployment_tools/demo

运行语音识别演示脚本:

./demo_speech_recognition.sh

file

Python运行结果

演示成功完成后,运行了一些python脚本,并显示了该工具以供使用。
file

有关用于语音识别的模型的更多信息

lspeech_s5_ext.yaml文件中找到以下信息。

名称:lspeech_s5_ext 说明:>- 这是使用Kaldi s5 NNET1配方构建的语音识别模型集。 输出:intel / lspeech_s5_ext task_type:检测 文件: 拓扑: -名称:lspeech_s5_ext 说明:>- 这是使用Kaldi s5 NNET1配方构建的语音识别模型集。 输出:intel / lspeech_s5_ext task_type:检测 文件: -名称:FP32 / speech_recognition_config.template 大小:1267 sha256:6cd4897386b939e571a8c9b9720f21101b3b8aff9dd9796e81f49cd898d14543 来源:https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/speech\_recognition\_config.template -名称:FP32 / lspeech_s5_ext.feature_transform 大小:3056 sha256:074925603942d662f95ce9d5a1eb29b8b933d3dd98371285b1af9437da4c46b2 来源:https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/lspeech\_s5\_ext.feature\_transform -名称:FP32 / lspeech_s5_ext.xml 大小:5329 sha256:a97ed9f37dd9ad75b9ce86e95742117535b0f6493c4df6d3c616cfbb862e5300 来源:https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/lspeech\_s5\_ext.xml -名称:FP32 / lspeech_s5_ext.bin 大小:26764224 sha256:bf35171ceb79c0c15484d236be6778492056fd1c1dbf4a27bbbf6902a839294a 来源:https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/lspeech\_s5\_ext.bin -名称:FP32 / hclg.fst 大小:946851404 sha256:140f4b07482809d3dfcb6c5009b99af7f4f4b2ca0d1093e7a758142472fe9091 来源:https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/hclg.fst -名称:FP32 / labels.bin 大小:2537784 sha256:de101e4e7926cfa3fb84469cb3f9c92d8230876321995a7aa662c555126f250c 来源:https://download.01.org/opencv/2020/openvinotoolkit/2020.1/models\_contrib/speech/kaldi/librispeech\_s5/OV/labels.bin 框架:dldt 许可证:https://raw.githubusercontent.com/opencv/open\_model\_zoo/master/LICENSE

语音库和语音识别演示

语音样本

剩下

英特尔OpenVINO™(中级)认证地址:https://www.cvmart.net/list/OV2020
(官方权威认证证书+丰厚礼品+视频实操教程)

版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK