深度语音识别(三)——语音识别参考资源
source link: http://antkillerfarm.github.io/speech/2019/03/13/Deep_ASR_3.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
深度语音识别(三)——语音识别参考资源
2019-03-13
WaveRNN(续)
3.我们可以将B组数据看作B个赛道。第1行首先发车(生成数据),当第1行生成了F个数据之后,第2行开始发车。依此类推。显然,只要赛道足够长,则在大多数时间中,都是B个赛车同时再跑。这样就达到了并行运算的效果。如上图中的三个白色方格就是同时生成的。
4.数据生成好之后,再重新组合回去,得到最终的结果序列。
WaveRNN还有一个trick:
- 生成语音的时候,并不是直接采用最大可能的音素,而是使用采样的方法,根据各个音素的概率,随机选择可能的音素。
https://mp.weixin.qq.com/s/H77iom38lTR0KzeFXrdWew
DeepMind与谷歌大脑联手推出WaveRNN,移动端合成高保真音频媲美WaveNet
https://www.monthly-hack.com/entry/2018/02/26/211248
这是个日文blog,有两张图不错。
https://www.jianshu.com/p/b3019f2773ed
语音合成text-to-speech WaveRNN
http://slides.com/smerity/reading-group-efficient-neural-audio-synthesis#/
Efficient Neural Audio Synthesis
https://mp.weixin.qq.com/s/T96S0b7Lp9YWR4cRcMQr6A
一文概览基于深度学习的监督语音分离
https://mp.weixin.qq.com/s/XP4NVYMmKj9RLsgonP3ooQ
无需进行滤波后处理,利用循环推断算法实现歌唱语音分离
https://mp.weixin.qq.com/s/9QrahPP1gDM3eMNgx91spA
深度学习也能实现“鸡尾酒会效应”:谷歌提出新型音频-视觉语音分离模型
https://mp.weixin.qq.com/s/-ULMtt2GsrUk8B-kC6AnXw
入门语音分离,从鸡尾酒问题开始!
WeNet
WeNet是出门问问联合西北工业大学音频语音与语言处理研究组推出面向产品和工业界的端到端语音识别开源工具。
https://github.com/wenet-e2e/wenet
https://mp.weixin.qq.com/s/oR6AKKxsZ2WA9-D8e9rCWA
WeNet 1.0正式发布: 更快更高更强更有生产力
https://mp.weixin.qq.com/s/EqLCyHn9we2zn-lCnunDNA
WeNet更新:支持多机并行训练
https://mp.weixin.qq.com/s/QpTZSW2TZ1clEBt4iwoe4Q
WeNet更新:支持语言模型
Attention Based
https://mp.weixin.qq.com/s/4xUIF0tqKCnTMyfkVX1JJw
使用transformer模型进行流式自动语音识别
https://mp.weixin.qq.com/s/TTPpOOxSLbCgOmAsI9TLiw
百度发布Deep Voice 3:全卷积注意力机制TTS系统
语音识别参考资源
https://zhuanlan.zhihu.com/p/69637495
语音转写技术入门
https://mp.weixin.qq.com/s/rAfNNS6Y4vLAmnNhtfAbwA
微软亚研《神经语音合成》综述论文
https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=400189223&idx=1&sn=1cb32bee42de626443ebadbf065ec79c
百度贾磊:汉语语音识别技术重大突破:LSTM+CTC详解
https://mp.weixin.qq.com/s/PXYt4FYWlldUmvryh53kVg
滴滴单通道语音分离与目标说话人提取和抑制技术进展
https://mp.weixin.qq.com/s/MXAxL753oEUPSVtL_H34jA
语音识别中Chain Model的原理和实践
https://mp.weixin.qq.com/s/7C7UFfE2dIM8ZtvwW8kbWQ
使用TensorFlow Lite快速构建移动端声音分类应用
https://www.zhihu.com/question/46829056
语音识别领域的最新进展目前是什么样的水准?
https://www.zhihu.com/question/29168274
语音识别中,如何理解HMM是一个生成模型,而DNN是一个判别模型呢?
https://zhuanlan.zhihu.com/p/24979135
从声学模型算法总结2016年语音识别的重大进步
https://mp.weixin.qq.com/s/zEqgDh6_fnDgXEI8MC9cmg
端对端的深度卷积神经网络在语音识别中的应用
https://mp.weixin.qq.com/s/RjoGmtiyqrx8cG6JtgqsxQ
181页PPT专题讲座——语音识别与声纹识别
https://mp.weixin.qq.com/s/pimQBFd5uxrZk4dSgUsblg
苹果机器学习期刊“Siri三部曲”之一:通过跨带宽和跨语言初始化提升神经网络声学模型
https://mp.weixin.qq.com/s/u1R7NUg_kgI_mpjIFrO02A
探索Siri背后的技术:将逆文本标准化(ITN)转化为标签问题
https://mp.weixin.qq.com/s/2xpwLVHT8qU68uoV7Uj2cw
小米的语音识别系统是如何搭建的
https://mp.weixin.qq.com/s/cYBMy4TIhcutvrAt0y70Ow
腾讯AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展
https://mp.weixin.qq.com/s/cvSz5Pxe3z54Tl5z3WTbQA
手把手教你在音频分类DCASE2017比赛中夺冠
https://blog.csdn.net/ffmpeg4976/article/details/52347845
语音识别系统及科大讯飞最新实践
http://mp.weixin.qq.com/s/0WNJq4OLZlZETKPf1Ewq7w
浅谈语音测试方案
https://mp.weixin.qq.com/s/b0bOf1bZ2p0yWMzhp66HhA
A flight (to Boston) to Denver-基于转移的顺滑技术研究
https://mp.weixin.qq.com/s/0AvV268s3TZ0z8WwtJv6sw
一文概览语音识别中尚未解决的问题
http://mp.weixin.qq.com/s/xRA9Xh-FTrhbIg0wLnfzhA
温正棋谈语音质检方案:从关键词检索到情感识别
https://mp.weixin.qq.com/s/GZI4uvCR3QzZDNddpBX2OQ
深度学习也解决不掉语音识别问题
https://mp.weixin.qq.com/s/E8brCI73IWY3P47IYPxSkg
谷歌发布全新端到端语音识别系统:词错率降至5.6%
http://www.cnblogs.com/qcloud1001/p/7941158.html
详解卷积神经网络(CNN)在语音识别中的应用
https://mp.weixin.qq.com/s/grqKRvv4dwKU26zT1qhq2g
Facebook开源语音识别工具包wav2letter
https://mp.weixin.qq.com/s/OeCiH4n-Y3kigI3ynMyZSg
有趣的研究奥巴马Net:从文本合成真实的唇语口型
https://mp.weixin.qq.com/s/mRmbrUJ2MgeDxbZn_0UiIQ
2017年深度学习总结:文本和语音应用
https://mp.weixin.qq.com/s/xR172RUG3JO59_2cJj_U2A
显著超越流行长短时记忆网络,阿里提出DFSMN语音识别声学模型
https://wenku.baidu.com/view/942891aba98271fe910ef9e3.html
基于深度学习的语音识别
https://mp.weixin.qq.com/s/HSdhkazt1j5phMTLRMjFlQ
深度对抗声学模型训练框架
https://mp.weixin.qq.com/s/jHB5pRsisvh-ZB8uY1oRTA
基于TensorFlow,人声识别如何在端上实现?
https://mp.weixin.qq.com/s/i7ugVM0mGqohThLW6NjNoQ
阿里开源自研语音识别模型DFSMN,准确率高达96.04%
https://mp.weixin.qq.com/s/o5UAnIOuDsjBWjsKg8wYCg
陶建华:深度神经网络与语音
https://mp.weixin.qq.com/s/DjskKa-KxiCX-hLKEw75Tg
Towards End-to-End Speech Recognition
https://mp.weixin.qq.com/s/xW_KvR5y12_eyp3FvtmBwQ
从概念到应用,腾讯视角深入“解剖”AI平台和语音技术
https://mp.weixin.qq.com/s/2DaBsFnRzqkf9PgvY3tWqw
谷歌神经网络人声分离技术再突破!词错率低至23.4%
https://mp.weixin.qq.com/s/kdUxaffyKI_Hu9RCEM5SZw
谷歌开源框架FUSS,让声音分离不再成为难题
https://mp.weixin.qq.com/s/V1W_M-lIJKdyGtuQyBbUPA
词错率2.97%:云从科技刷新语音识别世界纪录
https://mp.weixin.qq.com/s/eK8UxqMsUhDzJ-Ev7azS9w
田正坤:Seq2Seq模型在语音识别中的应用
https://zhuanlan.zhihu.com/p/48729548
端到端的语音识别(ASR)错词率降低到至3.4%左右
https://mp.weixin.qq.com/s/5vhiS2RG_mFeQHzYxmyeww
Google开源AI闹市辨音92%创新高?别急!论文+GitHub助你一臂之力!
https://mp.weixin.qq.com/s/RskIVlCnZnetn33H7GWeBQ
端到端语音识别时代
https://mp.weixin.qq.com/s/Zw-6eTeDt2hsY_uOTtfTDA
最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
https://mp.weixin.qq.com/s/G5foGMWw4p3iP-8U-uvLQg
语音识别的前沿论文,看我们推荐的这4篇
https://mp.weixin.qq.com/s/fbOJJeU9h6FfsV9QFFv2gg
重磅公开!阿里语音识别模型端核心技术,让你“听”见未来
https://mp.weixin.qq.com/s/wbEjaZK5YXIuvlqNWN-0bA
中科院自动化所徐波研究员团队:鸡尾酒会问题与相关听觉模型的研究现状与展望
https://mp.weixin.qq.com/s/aUf8i3o7px2KcjI-3jFykg
使用RNN-Transducer进行语音识别建模
https://mp.weixin.qq.com/s/c-lQETCPQTztZjV4TYTsZA
语音关键词检测方法综述
https://mp.weixin.qq.com/s/BDPYtq_6i54Itvz3MnnDSw
谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC
https://zhuanlan.zhihu.com/p/61600497
GE2E Speaker Verification论文复现
https://mp.weixin.qq.com/s/n11gkdXiUf618IAxvFx_RA
不识字也能翻译:谷歌AI直接用音频翻音频,不用先转文本
https://mp.weixin.qq.com/s/TkOMspquWEZPdUtlOe1Tfg
语音识别中的End2End模型: CTC, RNN-T与LAS
https://mp.weixin.qq.com/s/kk3UdijIbMsyYTd59nSoMw
语音情绪识别, 声源增强, 基频可视化
https://mp.weixin.qq.com/s/5Ddz_Y4-KFV4ioOOmLuQtw
MASR-中文语音识别,提供预训练模型,高识别率
https://mp.weixin.qq.com/s/eoihGqB2yTUWPieaxq_Svg
谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类
https://mp.weixin.qq.com/s/0-KviOoC_jVVjZr0C0Qnnw
2019年,这8款自动语音识别方案你应该了解!
https://mp.weixin.qq.com/s/dOrJ9zGelffKGnSAZ1coyA
从顶会看语音技术的发展趋势
https://mp.weixin.qq.com/s/UmVFCnwKqSQoowfQdefDdA
昆山杜克大学李明博士:基于端到端深度神经网络的说话人与语言识别综述
https://mp.weixin.qq.com/s/fc58gK4BVN-NeGdyVxjuPg
沟壑易填:端到端语音翻译中预训练和微调的衔接方法
https://mp.weixin.qq.com/s/HcumCA0kBrpSInn7Ge17MQ
多语言识别的实现
https://mp.weixin.qq.com/s/5ZVl2fRZifIDiNI-fU9YWw
时域音频分离模型登GitHub热榜,效果超传统频域方法,Facebook官方出品
https://mp.weixin.qq.com/s/1ENIla2CUU1dfhJ-6_bDXg
QQ音乐应用TensorFlow构建AI赋能的音乐曲库
https://mp.weixin.qq.com/s/k5BZGPVwH_DZylZ9dMK6zA
语音识别2019指南
https://mp.weixin.qq.com/s/eu_BhsjIWo41jncyl2VYIg
audio-visual recognition
https://mp.weixin.qq.com/s/DJVeNlLi5GHDeE7ajYZbdw
SPICE:新一代自监督式基音检测模型
https://mp.weixin.qq.com/s/3M2lCnXUG2MolcS7A79k8A
疑车无据:大熊猫何时交配才能怀上宝宝?四川学者用音频AI给出预测
https://mp.weixin.qq.com/s/NoKaBQssgd3uvgKzDvXnNg
从算法到应用:滴滴端到端语音AI技术实践
https://mp.weixin.qq.com/s/KpMl1ebWghKQikFCj8_8Ag
CIF:基于神经元整合发放的语音识别新机制
https://mp.weixin.qq.com/s/idXP4Y-B4pYYfM2egg6KYQ
Hey Siri唤醒原理
https://mp.weixin.qq.com/s/GTzGwKQfJgopd96doe8rIg
用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查
https://mp.weixin.qq.com/s/wjVDgwHpLYM3vZWL5AJvDg
解决“鸡尾酒会问题”的利器-基于盲源分离的前端信号处理框架
https://mp.weixin.qq.com/s/bJ4xdXcHPI8VQcXAvE8i1w
可控时延语音识别文本后处理技术
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK