Automated detection and classification of marine mammals vocalizations is critical for conservation and management efforts but is hindered by limited annotated datasets and the acoustic complexity of real-world marine environments. Data augmentation has proven to be an effective strategy to address this limitation by increasing dataset diversity and improving model generalization without requiring additional field data. However, most augmentation techniques used to date rely on effective but relatively simple transformations, leaving open the question of whether deep generative models can provide additional benefits. In this study, we evaluate the potential of deep generative for data augmentation in marine mammal call detection including: Variational Autoencoders, Generative Adversarial Networks, and Denoising Diffusion Probabilistic Models. Using Southern Resident Killer Whale (Orcinus orca) vocalizations from two long-term hydrophone deployments in the Salish Sea, we compare these approaches against traditional augmentation methods such as time-shifting and vocalization masking. While all generative approaches improved classification performance relative to the baseline, diffusion-based augmentation yielded the highest recall (0.87) and overall F1-score (0.75). A hybrid strategy combining generative-based synthesis with traditional methods achieved the best overall performance with an F1-score of 0.81. We hope this study encourages further exploration of deep generative models as complementary augmentation strategies to advance acoustic monitoring of threatened marine mammal populations.


翻译:海洋哺乳动物发声的自动检测与分类对于保护和管理工作至关重要,但受限于标注数据集的稀缺以及真实海洋环境声学复杂性。数据增强已被证明是一种有效的策略,可在无需额外野外数据的情况下增加数据集多样性并提升模型泛化能力。然而,目前使用的大多数增强技术依赖于有效但相对简单的变换,这引发了深度生成模型是否能提供额外优势的问题。本研究评估了深度生成模型在海洋哺乳动物叫声检测中用于数据增强的潜力,包括:变分自编码器、生成对抗网络和去噪扩散概率模型。基于萨利希海两处长期水听器部署记录的南方居留型虎鲸(Orcinus orca)发声数据,我们将这些方法与时间偏移和发声掩蔽等传统增强方法进行比较。尽管所有生成方法相较于基线均提升了分类性能,但基于扩散的增强方法取得了最高的召回率(0.87)和总体F1分数(0.75)。结合生成式合成与传统方法的混合策略实现了最佳整体性能,F1分数达到0.81。我们希望本研究能促进进一步探索深度生成模型作为补充增强策略,以推动对受威胁海洋哺乳动物种群的声学监测。

0
下载
关闭预览

相关内容

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员