本文共 881 字,大约阅读时间需要 2 分钟。
识别并分割出任意类别的视觉元素是计算机视觉领域最具挑战性的问题之一。近期,来自华中科技大学和微软亚洲研究院的研究人员在CVPR2023 Highlight中提出了一个全新的开放语义词汇语义分割架构—Side Adapter Network(SAN)。该架构能够赋予现有的VL预训练模型(如CLIP)进行开放词汇语义分割的能力,仅需8M额外的训练参数即可在多种数据集上大幅提升性能,同时实现15帧每秒的处理速度,比SimSeg快19倍,比MaskCLIP快3倍。
SAN的核心思想是在一个冻结的CLIP模型旁引入一个新的Side Adapter Network,用于预测掩码候选(Mask Proposals)。通过引入特定的[SLS] token,SAN能够在推理阶段引导CLIP模型仅关注Mask Proposals相关的区域,从而实现对掩码候选的高效识别。这种设计不仅避免了传统方法中对VL预训练模型的微调问题,还显著提升了模型的推理速度。
SAN的主要优势体现在以下几个方面:
端到端训练:SAN采用端到端训练方式,使得生成的Mask Proposals能够更好地适配CLIP模型。相较于传统的两阶段训练方式,SAN的端到端训练带来了+4.5mIoU的性能提升。
无需微调CLIP模型:SAN的设计避免了对CLIP模型的微调,从而最大程度地保留了其开放词汇识别能力。实验结果表明,CLIP模型的参数微调会显著降低其开放词汇识别能力。
高效推理:SAN通过引入[SLS] token实现了对所有Mask Proposals的高效识别,只需推理一次完整的CLIP模型即可完成任务,推理速度比传统方法快19倍。
解耦预测:SAN将掩码预测与类别预测解耦,进一步提升了模型的分类精度。这种双头设计充分利用了CLIP模型的上下文信息,显著提高了预测性能。
充分复用CLIP特征:SAN充分复用CLIP模型的特征,大幅度降低了所需的额外参数量,同时仍能获得最佳性能。
SAN的代码已开源,供研究人员和开发者参考。未来,SAN的研究和应用将为计算机视觉领域带来更多创新。
转载地址:http://fxrfk.baihongyu.com/