11

今日 Paper | 蚊子叫声数据集;提高语音识别准确率;对偶注意力推荐系统等

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA%3D%3D&%3Bmid=2247500767&%3Bidx=4&%3Bsn=352e2f37869c5e98f123e48e5c2b8326
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

为了帮助各位学术青年更好地学习前沿研究成果和技术,AI科技评论推出【今日 Paper】栏目, 每天都为你精选关于人工智能的前沿学术论文供你学习参考。 以下是今日的精选内容——

 目录

  • 提高有噪声情况下的语音识别准确率——而且用常见工具就可以

  • 基于对偶图注意力网络多方面社交影响的推荐系统

  • 想研究蚊子、阻止疟疾,你需要一个蚊子叫声数据集

  • 用于类递增目标检测的交叉数据集训练

  • 卷积均值:一种简单的用于照度估计的卷积神经网络

    提高有噪声情况下的语音识别准确率——而且用常见工具就可以

论文名称:Improved Robust ASR for Social Robots in Public Spaces

作者:Charles Jankowski /Vishwas Mruthyunjaya /Ruixi Lin

发表时间:2020/1/14

论文链接: https://paper.yanxishe.com/review/8973

推荐原因:

带有社交功能的、仿人类外型的机器人如今越来越多出现在酒店、银行、展厅等场合,大家也很喜欢和它们聊天。不过,这种公共、开放场景中的自动语音识别(ASR)仍然是有一定难度的,尤其是环境噪音。现有的ASR模型通常在噪音较小、说话人声音信噪比较高的情况下有不错的表现,但一旦噪音增大,模型的表现就会有显著下降。

这篇论文重点针对的就是有噪声的环境下的ASR。作者们在AiShell-1中文语音数据集上进行了实验,不仅在噪声较高的情况下获得了新的最好成绩,同时也表明了用很容易找到的开源的工具包+几百个小时的训练数据就可以获得相对高的准确率。这个结果对其他的开发者、初学者也很有借鉴意义。

Ej6juu2.jpg!web

    基于对偶图注意力网络多方面社交影响的推荐系统

论文名称:Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social Effects in Recommender Systems

作者:Wu Qitian /Zhang Hengrui /Gao Xiaofeng /He Peng /Weng Paul /Gao Han /Chen Guihai

发表时间:2019/3/25

论文链接: https://paper.yanxishe.com/review/8984

推荐原因:

图神经网络已经取得了巨大的成功现在很多领域得到了应用。作为与图最相关的推荐,很多工作也尝试引入GNN来更好的学习节点表示。本文算是比较早的引入GNN来进行推荐的论文,发表在WWW2019上。作者探索了社交影响中在user-item二部图上影响,总共定义了4种社交影响,在通过GNN学习到表示之后,作者利用了强化学习技术来实现动态融合。实验结果验证了本文算法的有效性。

fem6nmq.jpg!webNvUnUjI.jpg!web

    想研究蚊子、阻止疟疾,你需要一个蚊子叫声数据集

论文名称:HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset

作者:Ivan Kiskin /Adam D. Cobb /Lawrence Wang /Stephen Roberts

发表时间:2020/1/14

论文链接: https://paper.yanxishe.com/review/8954

推荐原因:

深度学习的应用越来越广,尤其是研究生物的人开始用上深度学习之后,我们就开始看到一些好笑的、出人意料的研究和数据集。

前不久四川濒危野生动物保护国家重点实验室 - 成都大熊猫繁育研究基地刚刚发布了一个大熊猫声音的数据集,今天我们又看到了一个蚊子声音的数据集。没错,就是那个会叮人、会传播疾病的蚊子的数据集。

这些来自牛津大学的研究人员的收集了超过19万段2秒长的蚊子录音并进行了标注,其中大约有10%的数据样本对应了蚊子的某种行为。他们希望这个数据集可以帮助更好地研究蚊子的分布和行为,他们也在论文中提供了用CNN进行分类的样例。

这个论文还是 2019 NeurIPS ML4D workshop 的最佳论文奖得主。ML4D workshop 的主旨就是利用机器学习技术帮助发展中国家,这篇论文研究的蚊子正是发展中国家中尚未完全得到控制的疟疾的重要传染途径,和workshop的目标非常吻合,也有开拓和启发意义,得到这个最佳论文奖可谓恰如其分。

b6bAzeY.jpg!webQVbMjey.jpg!web

    用于类递增目标检测的交叉数据集训练

论文名称:Cross-dataset Training for Class Increasing Object Detection

作者:Yao Yongqiang /Wang Yan /Guo Yu /Lin Jiaojiao /Qin Hongwei /Yan Junjie

发表时间:2020/1/14

论文链接: https://paper.yanxishe.com/review/8985

推荐原因:

这篇论文考虑的是跨数据集训练的目标分类任务。

给定不同的数据集,跨数据集训练的目标是检测不同类别的并集,而不需要为所有数据集标记所有类别。通过这种方式,可以利用现有的数据集来训练模型,然后应用于合并之后的数据集,并且避免了在新数据集上进行标记。这篇论文在PASCAL VOC、 COCO、 WIDER FACE和WIDER Pedestrian这些数据集上实验了单数据集和跨数据集这两种训练模式。实验结果表明与独立训练相比,这篇论文提出的跨数据集训练框架可以同时在这些数据集上实现类似的性能表现。

IreyAbR.jpg!web3Qfu6bI.jpg!webuuEB7nm.jpg!web

    卷积均值: 一种简单的用于照度估计的卷积神经网络

论文名称:Convolutional Mean: A Simple Convolutional Neural Network for Illuminant Estimation

作者:Gong Han

发表时间:2020/1/14

论文链接: https://paper.yanxishe.com/review/8986

推荐原因:

这篇论文提出了一种名为卷积均值的用于照度估计的卷积神经网络。

这种卷积均值方法只要求一个包含大约1100参数量的小网络模型,以及一个48x32的缩略输入图。该方法在没有优化的Python实现中处理速度是1毫秒1张图片,并且在保持相同准确率的前提下,远远快于当前的其他方案。在两个公共数据集上的实验也表明了这种方法在多个度量上的准确性可与当前的最优算法相媲美。

M3uq6bV.jpg!web

为了更好地服务广大 AI 青年,AI 研习社正式推出全新「论文」版块,希望以论文作为聚合 AI 学生青年的「兴趣点」,通过论文整理推荐、点评解读、代码复现。致力成为国内外前沿研究成果学习讨论和发表的聚集地,也让优秀科研得到更为广泛的传播和认可。

我们希望热爱学术的你,可以加入我们的论文作者团队。

入论文作者团队你可以获得

    1.署着你名字的文章,将你打造成最耀眼的学术明星

    2.丰厚的稿酬

    3.AI 名企内推、大会门票福利、独家周边纪念品等等等。

加入论文作者团队你需要:

    1.将你喜欢的论文推荐给广大的研习社社友

    2.撰写论文解读

如果你已经准备好加入 AI 研习社的论文兼职作者团队,可以添加运营小姐姐的微,备注“论文兼职作者”

jyUrq2A.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK