博客
关于我
CVPR2023 Highlight | Side Adapter Network – 极致轻薄却性能强劲的开放词汇语义分割器...
阅读量:800 次
发布时间:2023-04-05

本文共 881 字,大约阅读时间需要 2 分钟。

识别并分割出任意类别的视觉元素是计算机视觉领域最具挑战性的问题之一。近期,来自华中科技大学和微软亚洲研究院的研究人员在CVPR2023 Highlight中提出了一个全新的开放语义词汇语义分割架构—Side Adapter Network(SAN)。该架构能够赋予现有的VL预训练模型(如CLIP)进行开放词汇语义分割的能力,仅需8M额外的训练参数即可在多种数据集上大幅提升性能,同时实现15帧每秒的处理速度,比SimSeg快19倍,比MaskCLIP快3倍。

SAN的核心思想是在一个冻结的CLIP模型旁引入一个新的Side Adapter Network,用于预测掩码候选(Mask Proposals)。通过引入特定的[SLS] token,SAN能够在推理阶段引导CLIP模型仅关注Mask Proposals相关的区域,从而实现对掩码候选的高效识别。这种设计不仅避免了传统方法中对VL预训练模型的微调问题,还显著提升了模型的推理速度。

SAN的主要优势体现在以下几个方面:

  • 端到端训练:SAN采用端到端训练方式,使得生成的Mask Proposals能够更好地适配CLIP模型。相较于传统的两阶段训练方式,SAN的端到端训练带来了+4.5mIoU的性能提升。

  • 无需微调CLIP模型:SAN的设计避免了对CLIP模型的微调,从而最大程度地保留了其开放词汇识别能力。实验结果表明,CLIP模型的参数微调会显著降低其开放词汇识别能力。

  • 高效推理:SAN通过引入[SLS] token实现了对所有Mask Proposals的高效识别,只需推理一次完整的CLIP模型即可完成任务,推理速度比传统方法快19倍。

  • 解耦预测:SAN将掩码预测与类别预测解耦,进一步提升了模型的分类精度。这种双头设计充分利用了CLIP模型的上下文信息,显著提高了预测性能。

  • 充分复用CLIP特征:SAN充分复用CLIP模型的特征,大幅度降低了所需的额外参数量,同时仍能获得最佳性能。

  • SAN的代码已开源,供研究人员和开发者参考。未来,SAN的研究和应用将为计算机视觉领域带来更多创新。

    转载地址:http://fxrfk.baihongyu.com/

    你可能感兴趣的文章
    Mysql 整形列的字节与存储范围
    查看>>
    mysql 断电数据损坏,无法启动
    查看>>
    MySQL 日期时间类型的选择
    查看>>
    Mysql 时间操作(当天,昨天,7天,30天,半年,全年,季度)
    查看>>
    MySQL 是如何加锁的?
    查看>>
    MySQL 是怎样运行的 - InnoDB数据页结构
    查看>>
    mysql 更新子表_mysql 在update中实现子查询的方式
    查看>>
    MySQL 有什么优点?
    查看>>
    mysql 权限整理记录
    查看>>
    mysql 权限登录问题:ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: YES)
    查看>>
    MYSQL 查看最大连接数和修改最大连接数
    查看>>
    MySQL 查看有哪些表
    查看>>
    mysql 查看锁_阿里/美团/字节面试官必问的Mysql锁机制,你真的明白吗
    查看>>
    MySql 查询以逗号分隔的字符串的方法(正则)
    查看>>
    MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT 、分页查询的优化、合理使用连接、子查询的优化)(上)
    查看>>
    mysql 查询,正数降序排序,负数升序排序
    查看>>
    MySQL 树形结构 根据指定节点 获取其下属的所有子节点(包含路径上的枝干节点和叶子节点)...
    查看>>
    mysql 死锁 Deadlock found when trying to get lock; try restarting transaction
    查看>>
    mysql 死锁(先delete 后insert)日志分析
    查看>>
    MySQL 死锁了,怎么办?
    查看>>