6

深度语音识别(四)——语音合成参考资源, Metaverse

 2 years ago
source link: http://antkillerfarm.github.io/speech/2021/07/31/Deep_ASR_4.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

语音识别参考资源(续)

https://mp.weixin.qq.com/s/I_WiSkA4Cu7N_FmoEJTADg

一次对语音技术的彻底批判

https://mp.weixin.qq.com/s/CXIO05_09vwWFJwfDyZQUA

迈向语音识别领域的ImageNet时刻

https://mp.weixin.qq.com/s/Izn6LPCRKNxkTHmkqbAzeg

从算法到应用:滴滴端到端语音AI技术实践

https://mp.weixin.qq.com/s/YTQOgGvFfBdasV18PmboGQ

深度学习在单声道录音中的说话人角色识别优化实践

https://mp.weixin.qq.com/s/PAHwyoxNbi8HDMGh2JtJPQ

58同城语音识别技术的探索和实践

https://mp.weixin.qq.com/s/A9bSp3H3UzAEgL4N7o1KpQ

使用tensorflow进行音乐类型的分类

https://mp.weixin.qq.com/s/j9Kis3AsyYjo3EYOJ6XzBA

端到端声源分离研究:现状、进展和未来

https://mp.weixin.qq.com/s/RC2Yj0cCXBBJaPpflBLB-w

https://mp.weixin.qq.com/s/w6Uxr8oB_PHvIHf9ksTVsw

LRSpeech:极低资源下的语音合成与识别

https://mp.weixin.qq.com/s/TdGq07BZ9JcYeKo6Y8gtdA

音频预训练模型

https://mp.weixin.qq.com/s/ybanqEzEDtwTJ-y6piBv8Q

黑白键上的字节跳动:全球最大钢琴MIDI数据集背后的故事

https://mp.weixin.qq.com/s/wZfBg175ylxZj-k4Xzggqw

端到端语音识别模型

https://mp.weixin.qq.com/s/kEtoG4QVNn248k3Yhulrvw

《语音识别引擎后端架构设计》58同城

https://mp.weixin.qq.com/s/x_l5QliTPv7NyUJ5k4uaMQ

基于Transformer的高效、低延时、流式语音识别模型

https://mp.weixin.qq.com/s/4zm4kO4CU9-0sYKTSYdudw

10小时训练数据打造多语种语音识别新高度

https://mp.weixin.qq.com/s/_84nqrEMGC-Q-fPdEiPDgQ

3人半年打造语音识别引擎——58同城语音识别自研之路

https://mp.weixin.qq.com/s/8dFWQ-7m0jN5PvVIUeM33w

利用Android手机和YAMNet ML模型进行声音分类(一)

https://mp.weixin.qq.com/s/y7UZooc97gPgonnM3C9qxg

利用Android手机和YAMNet ML模型进行声音分类(二)

https://mp.weixin.qq.com/s/xS0fS8Haxt_DXxlw7VEo4Q

移动端的语音识别分享

https://mp.weixin.qq.com/s/wRAc0Vzrdxqr-dqXqqYapw

中文文本纠错算法–错别字纠正的二三事

https://zhuanlan.zhihu.com/p/377983386

流式语音识别原理和实现思路

语音合成参考资源

https://mp.weixin.qq.com/s/jwV4glj8vIUKSelzeRrxSg

https://mp.weixin.qq.com/s/bFjXDQlxRbt1ia-DSfYazw

SampleRNN语音合成模型

https://mp.weixin.qq.com/s/xAO7mX64miTXE8E2vZ5q_w

Facebook开源TTS神经网络VoiceLoop:基于室外声音的语音合成

https://mp.weixin.qq.com/s/CVBSvQwnDqT-IVCZV7idog

极限元语音算法专家刘斌:基于深度学习的语音生成问题

https://mp.weixin.qq.com/s/zWmJ3uXnFtXaI2BotoadHA

从技术到产品,苹果Siri深度学习语音合成技术揭秘

https://mp.weixin.qq.com/s/6xxXOx59lDZx0kUPb_ftBA

漫谈语音合成之Char2Wav模型

https://mp.weixin.qq.com/s/8e4bkyTJIxHZ1y95GshA0Q

开源的语音合成系统WORLD介绍以及使用方法

https://mp.weixin.qq.com/s/JSnyE2k7jqd5GR1lHA6WUg

阿里巴巴Oral论文:用于语音合成的深度前馈序列记忆网络

https://mp.weixin.qq.com/s/p_VjFwwDCu1i_ovUljaoVw

阿里巴巴语音交互智能团队:基于线性网络的语音合成说话人自适应

https://mp.weixin.qq.com/s/imotc0RfPsvA9h5-1nouMA

端到端语音合成及其优化实践(上))

https://mp.weixin.qq.com/s/NlOH0wmToJvDudIDC-aM1g

端到端语音合成及其优化实践(下)

https://mp.weixin.qq.com/s/HLe4DUZWWfdorcgYOj9gzw

语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet

https://zhuanlan.zhihu.com/p/45702794

微信是不是可以来一个文字转语音功能了?

https://mp.weixin.qq.com/s/DB2C-a_xEyoczuNSG9Bt7w

基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?

https://mp.weixin.qq.com/s/t1ht3weG63Sj59n-MW-Prw

语音合成论文和英伟达撞车,韩国小哥紧急放出全部草稿代码和样本

https://mp.weixin.qq.com/s/1glxeUx-4DCWRjJQMW7IiQ

语音合成论文与韩国小哥“撞车”后续:英伟达“赶紧”把代码开源了

https://mp.weixin.qq.com/s/c1QSGia52ICTc25i-C91Rg

GAN跨界合成高保真音乐,Jeff Dean听了都陶醉

https://mp.weixin.qq.com/s/f1W7PFLwkoJtVXb_7Rh3sw

极大提升合成速度,百度提出首个全并行语音合成模型ParaNet

https://mp.weixin.qq.com/s/aHupAjPNFdUdaG9Uof_obQ

速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

https://mp.weixin.qq.com/s/gaoZ6pQmiXBP3BNDec1nQg

FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2

https://mp.weixin.qq.com/s/JEYucJ16Zsxc6yWHPHGaZA

浙大研发AudioFace:随心录语音就能实时生成3D面部动画

https://mp.weixin.qq.com/s/HubxAFbxCdoaFHNOhfm9QQ

Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO

https://mp.weixin.qq.com/s/QbSPOHvYD9CGnbPmigeYdA

多语言语音合成和跨语言语音克隆

https://mp.weixin.qq.com/s/McWHS0esRRhIiBlB4CAGXA

柯南变声器的算法原理解析

https://mp.weixin.qq.com/s?__biz=MzIzNjc0MTMwMA==&mid=2247491892&idx=1&sn=d23d0c20e3af340e5a55f19f98636811

2019深度学习语音合成指南

https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652055045&idx=3&sn=5c2a564350bdf5c2acb8679d05cba219

DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音

https://mp.weixin.qq.com/s/-X2bgZ5P5BrPZFDJ-Dl1AQ

MelGAN:基于生成对抗网络快速生成音频

https://zhuanlan.zhihu.com/p/91024324

变分自编码器(VAE)在语音合成中的应用

https://mp.weixin.qq.com/s/oaI_X2SYeKVn7oXWGtFQag

爱奇艺语音转换技术的探索与实践

https://mp.weixin.qq.com/s/qPx1W_OebGgvb4g9Sb944A

使用GAN进行高保真语音合成

https://mp.weixin.qq.com/s/5cn3UBZbA5Cwk4YvKteYBA

吃下文本吐出语音,DeepMind提出新型端到端TTS模型EATS

https://mp.weixin.qq.com/s/eqMs7B70PZO4M7U5S1g5tg

跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声

https://zhuanlan.zhihu.com/p/278037596

语音转换Voice Conversion—特征分离技术

https://zhuanlan.zhihu.com/p/278243561

语音转换Voice Conversion —直接转换技术

https://mp.weixin.qq.com/s/u2Op6y1vdZKtAlfhAYGLsQ

语音合成方向:歌唱合成(singing voice synthesis)

https://mp.weixin.qq.com/s/FYjXOl7dk3uQriGBuny8DA

志玲姐姐的导航声音是如何产生的??

Metaverse

“元宇宙”这一概念源于美国作家 Neal Stephenson 在1992年出版的科幻小说《雪崩》(Snow Crash)。“ meta ” 意为“超越”“元”,与“ Universe ”(宇宙)相结合,即“元宇宙”。简单来说,元宇宙是一个可以映射现实世界、又独立于现实世界的虚拟空间。然而,关于元宇宙的最令人兴奋的不只是技术层面上的构建,更是改变彼此现有社交方式的巨大潜力。

https://mp.weixin.qq.com/s/KmODAixbwztg7A_jiNrm9g

《元宇宙Metaverse》报告,53页ppt

https://mp.weixin.qq.com/s/QzDKFinw9sXXfKNbG0Rchw

清华大学:2021元宇宙研究报告


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK