Published Apr 12, 2023

读论文：一种音频事件识别方法

本文的标题是 Adaptive Multi-scale Detection of Acoustic Events。这是清华大学电子系何亮老师团队在 2019 年的工作。

声音事件检测（AED或SED）的目标是预测给定音频段中目标事件的时间位置。这项任务在安全监测、声学预警和其他场景中起着重要作用。然而，数据不足和声学事件来源的多样性使AED任务成为一个艰巨的问题，特别是对于普遍采用数据驱动方法的情况。本文从分析声学事件的时频域特性入手，表明不同的声学事件具有不同的时频尺度特征。受到这个分析的启发，我们提出了一种自适应多尺度检测（AdaMD）方法。通过利用沙漏神经网络 (hourglass neural network) 和门控循环单元（gated recurrent unit, GRU）模块，我们的AdaMD在不同的时间和频率分辨率下产生多个预测。随后采用自适应训练算法，将多尺度预测相结合以增强整体能力。在2017年声学场景和事件的检测和分类（DCASE 2017）任务2、DCASE 2016任务3和DCASE 2017任务3上的实验结果表明，AdaMD在事件错误率（ER）和F1分数的指标上优于已发表的最先进竞争对手。我们收集的工厂机械数据集上的验证实验也证明了AdaMD的抗噪能力，提供了实际应用的证明。

1 Introduction

AED 问题的主要挑战：

数据极度不均衡；
事件具有多样化的特征；
时运频域尺度不一：这句话说的是不同的时间具有不同的时域长度，以定长音频输入为基础的检测模型的有效性存在问题；

AdaMD 的网络架构如上图所示。此网络由一个 CNN 网络和一个 RNN 网络组成。其中，CNN 部分的网络架构被称为 Hourglass，这种网络架构在计算机视觉领域被广泛应用于关键点检测，其优势在于其可以在多种时频分辨率的条件下进行特征提取。在 RNN 部分，作者采用了 Gate Recurrent Unit (GRU) 模块来处理 CNN 模型输出的每个通道，从而处理时域信息。GRU 的输出会经过一个上采样流程的处理，使得各个通道的输出具有相同的尺寸。

2 声音事件检测任务的类别

多事件检测：同一时间段内有多个事件发生，检测模块除了检测是否有事件发生，还需要给出事件的类别。
弱监督事件监测：理想情况下，标注数据应该包含事件的类别和起止时间。但是这样标注工作会比较多，如何在只标注的类别的情况下，让模型学习出事件的起止时间是一个挑战，目前这个问题巨解决的还不是很好；
异常事件检测：如何检测我们不知道的异常事件？

读论文：一种音频事件识别方法

读论文：一种音频事件识别方法

1 Introduction

2 声音事件检测任务的类别

Recommend

[ROM][13.0][coral] PixelExperience [AOSP]

Release Notes for Safari Technology Preview 168

创建oracle数据库账户登录报错的一个原因

K6 壓測練習 - 挑戰網站極限，逼出 HTTP 503

How Do Machines Learn? A Beginners Guide

TCL推出C74 QLED电视系列起售价5550元 - 宅秘

Aqara's premium Presence Sensor FP2 hits global smart home market - PingWest

DyLoRA：使用动态无搜索低秩适应的预训练模型的参数有效微调 - 西西嘛呦

移动端web页面开发常用的头部标签设置

How to debug Turbo Native apps with Safari

About Joyk