文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

2024-11-29 23:31

关注

51CTO AI.x社区

https://www.51cto.com/aigc/

最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。

尽管如此,在将 LMM 应用到计算机视觉任务上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输出,这限制了它们在处理更细粒度的视觉任务,如图像分割方面的能力。

此外,图像分割领域内部的需求多样化,任务各异 —— 实例分割需为每个对象分配唯一 ID 并计算类别信赖度,指代分割(RES)则需要基于描述性语句来识别图像中的特定区域,而交互式分割的输入可能包括点、线、边界框或掩码。这些不同的输入和输出格式如何能够被 LMM 高效地统一和处理,目前仍然是一个开放性问题。

华中科技大学的研究团队针对多模态大模型(LMM)在视觉任务中的应用挑战,推出了针对性的解决方案:PSALM 模型。这一模型的设计理念是:通过一个统一的框架处理绝大多数类型的图像分割任务,从而实现分割任务的全面覆盖。

同时,得益于多模态大模型广泛的预训练,PSALM 不仅在已见分割任务上表现出色,更在诸多未曾训练过的开放场景分割任务中,展现出强大的零样本泛化能力。多模态大模型作为视觉任务统一框架的巨大潜力得到进一步挖掘。

PSALM 有如下的特点:

目前,模型和训练代码已全部开源。

PSALM 如何实现的?

PSALM 包含图像编码器、大语言模型(LLM)和 mask 生成器,如上图所示。为了使得模型可以处理各种分割任务,模型将 LLM 的输入分为四个部分:图片特征、任务指令提示、任务条件提示以及一组可学习的 mask tokens

任务指令提示包含当前分割任务的一个简单任务描述。例如,对于全景分割,任务指令提示可以是:「请分割出图片中所有的目标,下面是可能的类别名称」。任务条件提示指的是当前分割任务所需要的特有的信息。对于语义分割、全景分割等,所需要的即所有类别名称。模型直接简单地将类别使用逗号进行拼接,如「person, bicycle, car…」;对于指令分割,任务条件提示是当前所需分割的物体的一段描述;对于更为复杂的交互式分割,模型将点、线、框、掩码等各种提示信息转换为掩码,并通过掩码池化的操作提取所指定的区域的特征,作为交互式分割的任务条件提示。

随后,得到 mask tokens 对应位置的输出,送入 mask 生成其中,得到 mask 的特征。该特征与任务条件提示所对应的输出特征计算相似度得到置信度,与图像特征计算内积得到候选分割结果。

最终,将置信度和候选分割结果相结合,即可得到各种分割任务的结果。各种任务类型如何生成特定的条件提示和对应的条件特征可见下图。

PSALM 的效果如何?

对于指代分割 (RES) 任务,也是目前已有的基于 LMM 的分割模型所关注的任务,PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的许多基准测试集上取得了 SOTA 的性能,详见下表。

在语义分割、实例分割、全景分割等任务上,PSALM 在 COCO-val 上比较了现有的 SOTA 模型。对于采用类似规模的图像编码器的方法,PSALM 取得了极具竞争力的结果,甚至不弱于该任务上的专家模型。

对于交互式分割任务,由于当前没有开源的交互式分割数据集和测试基准。因此,在 COCO 的基础上,对其中的所有目标随机生成了各种交互提示,最终生成了 COCO-Interactive 数据集。具体结果如下表所示,PSALM 在使用点,曲线,掩码作为提示下,取得了 SOTA 的效果。在使用框作为提示下,略弱于使用数据集 SA-1B 训练的 SAM。

PSALM 对于没有见过的任务,泛化能力如何?

PSALM 在开放词表分割、通用指代分割、视频目标分割以及多视角 Ego-Exo 匹配分割任务上的零样本泛化能力同样令人印象深刻,这些结果展示了它对未知任务的适应性。

下图展示了 PSALM 在多个任务上的可视化结果包括全景分割、指令分割、交互式分割、开放词表实例分割、通用指令分割、视频目标检测和 Ego-Exo 多视角匹配分割。

总结

PSALM 代表了多模态大模型在统一图像分割领域的一次积极探索,其在参数优化、性能展示以及泛化能力方面均取得了显著成果。PSALM 的创新架构和条件提示机制,使其能够灵活处理多样化的输入输出需求,从而在各种基准任务中取得优异的成绩。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

来源:机器之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯