语义分割是图像理解中最基础的任务之一,具有悠久的研究历史,因此也诞生了多种不同的方法。传统方法通常从零开始训练模型,这需要大量的计算资源和训练数据。然而,随着开放词汇语义分割(即要求模型识别超出训练类别之外的目标)的发展,获取大规模精细标注的数据变得成本高昂且难以实现。因此,研究者开始转向零训练的方法,利用已有的模型来完成任务,而这些已有模型原本用于更易获取数据的任务。

本综述将系统回顾训练自由的开放词汇语义分割的发展历程、关键概念、方法演化及当前最新研究成果,重点介绍如何利用现有的多模态分类模型来实现该任务。我们首先对任务定义进行简要介绍,随后梳理常见的模型范式,并详细介绍30余种代表性方法,它们大致可分为以下三大研究方向:纯基于 CLIP 的方法、结合辅助视觉基础模型的方法,以及依赖生成式方法的方案。

接着,我们将探讨当前研究中存在的局限与潜在问题,并提出一些尚未深入探索的未来研究方向。我们希望本综述能够为新进入该领域的研究者提供良好的入门材料,并激发更多人对这一方向的兴趣。

关键词:语义分割,开放词汇,零训练

1. 引言

图像分割是计算机视觉中最活跃的研究领域之一,也是实现图像全面理解的核心组成部分。该任务在医学影像处理【38】、自动驾驶【10】、农业【44, 69】、工业检测【49, 58】等多个领域中得到了广泛应用。将图像像素划分为语义一致的类别具有悠久的研究历史,最初并不依赖机器学习技术。早期的方法包括阈值分割【43】和边缘检测【11】,随后发展为基于区域的方法【39】。一段时间内,马尔可夫随机场和条件随机场方法【24】,以及图结构方法【52】成为研究热点,直到深度学习的兴起彻底改变了格局。此后,研究先后采用了全卷积网络(FCN)【37】、编码器-解码器架构【48】、扩张卷积【13】,以及扩展 Faster R-CNN 用于实例分割的方案【22】。最新的前沿方法则转向了 Transformer 架构【14, 15, 72】,继续推动分割技术的发展。

在突破固定类别集的限制之后,研究逐渐演进到处理任意类别集合的分割任务【8, 25, 65】。开放词汇设置的实现得益于视觉-语言模型(Vision-Language Models, VLMs)的发展,这类模型能够将文本类别嵌入与图像信息共享的语义空间中,从而实现直接对比和语义匹配。这类模型虽然在效果上表现出色,但训练往往代价高昂,既需巨大的计算资源,也需庞大而昂贵的数据集。 为此,另一类研究路线开始尝试将预训练的 VLM(如 CLIP【45】)下游应用于语义分割任务,且无需额外训练。通过巧妙的结构修改【35, 60, 74】,以及对比学习中获取知识的重构与利用,研究者成功将 CLIP 等模型扩展到了密集预测任务中。

据我们所知,本综述是目前关于零训练开放词汇语义分割最全面的系统回顾。我们将现有方法按照研究方向划分,以便于理解,并对每一类方法的细节与创新进行深入分析。各类方法还将按时间顺序组织,以体现当前最先进方法背后的思维演进链条。

成为VIP会员查看完整内容
6

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
知识图谱与大模型融合综述
专知会员服务
115+阅读 · 2024年6月30日
《大型语言模型持续学习》综述
专知会员服务
88+阅读 · 2024年4月26日
视觉语言多模态预训练综述
专知会员服务
120+阅读 · 2022年7月11日
专知会员服务
23+阅读 · 2021年9月16日
专知会员服务
66+阅读 · 2021年8月1日
专知会员服务
80+阅读 · 2021年5月30日
时空数据挖掘:综述
专知
31+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
知识图谱与大模型融合综述
专知会员服务
115+阅读 · 2024年6月30日
《大型语言模型持续学习》综述
专知会员服务
88+阅读 · 2024年4月26日
视觉语言多模态预训练综述
专知会员服务
120+阅读 · 2022年7月11日
专知会员服务
23+阅读 · 2021年9月16日
专知会员服务
66+阅读 · 2021年8月1日
专知会员服务
80+阅读 · 2021年5月30日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员