欧博abg(官网)游戏·会员登录入口

  • 搜索 猫眼电影 融媒体矩阵
    • 山东手机报

    • 猫眼电影

    • 大众网官方微信

    • 大众网官方微博

    • 抖音

    • 人民号

    • 全国党媒平台

    • 央视频

    • 百家号

    • 快手

    • 头条号

    • 哔哩哔哩

    欧博abg >新闻 >社会新闻

    20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

    2025-06-21 14:17:57
    来源:

    猫眼电影

    作者:

    张培栋

    手机查看

      猫眼电影记者 蓝蔚 报道P6F3X2M7T9QJ8L1B4WZR

    新智元报道

    编辑:LRST

    【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

    现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。

    让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:

    1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;

    2. 教会模型新的看图思考方式动辄要成千上万条有标注的数据,门槛极高。

    针对此问题,加州大学圣克鲁斯分校的研究人员提出了GRIT (Grounded Reasoning with Images & Texts)模型,具有高关联和轻量级的特性。

    论文地址:https://arxiv.org/abs/2505.15879

    代码链接:https://github.com/eric-ai-lab/GRIT

    在线Demo:https://grounded-reasoning.github.io/

    · 高关联

    模型可以在思考链里随时插入框坐标,实现真正的 「图像思维」(Thinking with Images)。

    GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接织进思考链,实现「思路和证据同步」,所想即所见。

    · 轻量级

    其训练方法GRPO-GR具备三重奖励(答案、格式、框),实现零人工标注,仅用20张图像与问答的训练数据就能教会模型画框+推理。

    GRIT二板斧

    Grounded Reasoning

    Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上,目标是把二者深度融合:

    让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。

    给模型一张图和问题 ,会一次性返回两段式结果(c, a):

    推理链c—以 开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;

    最终答案a—在 标签后给出答案。

    在c的生成过程中,模型每一步都可以自由决定是继续写文字还是生成一个框坐标。

    输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。

    Grounded Reasoning范式通过只传递数字坐标,避免了裁剪图像或多轮回输信息的计算开销,流程轻量。

    在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。

    GRPO-GR训练

    为了让模型在极小的数据量下就学会画框来辅助推理,GRIT 采用了专门的强化学习方法GRPO-GR

    它在GRPO的基础上,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列。

    格式奖励 (r_format)信号检查模型输出的整体结构是否合规:

    是否正确使用 、 等特殊标记;

    插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。

    计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体。

    r_count对比推理链里框的个数与真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。

    答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。

    得益于这三重奖励的协同作用,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案。

    在实践中,即便训练集只有20条数据,模型依旧能够稳定学到「边框边想」的行为,并在多项基准测试上取得亮眼表现。

    实验结果:20 条样本即可「看得准、想得对」

    准确性评测

    Qwen-2.5-VL-3B和InternVL-3-2B作为基座模型,只用来自VSR+TallyQA的共20张图-问题-答案和GRIT方法训练。

    在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂的定位与推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。

    即使GRPO-GR训练中没有包含任何对画框的位置的训练信号,测试结果现实框的准确性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。

    推理与画框相互关联

    研究人员提出了VL Reasoning Cross-Modal Correlation来衡量推理链中的文字与框区域的对齐程度。

    结果显示,用GRIT方法的模型输出的内容更好的融合了推理与画框:框住什么,就谈什么。

    另外,在用GRIT方法的模型中,把推理链里的框坐标全部抹掉,再让模型继续生成。

    结果显示,后续生成的推理内容对图像的注意力会大幅下降,说明画出的框能进一步促进推理。

    数据规模效应

    研究人员进一步将训练数据扩大,20到500,再增长到7000。

    结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。

    即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。

    参考资料:

    https://arxiv.org/abs/2505.15879

    ??时事1:女学生自慰喷浆❌❌❌

    ??06月21日,王沪宁会见越南共产党代表团,

      村中一群人冲了上去,将老人抱起,孩子们眼中蕴泪,而成年男子莫不红了眼睛,准备冲上去拼命。

    ,赵薇做爰全过程视频。

    ??06月21日,宣布同台湾“断交”,瑙鲁是个怎样的国家?,

      而一群大老爷们则伸出粗糙的大手,揉了揉他的头,裂开大嘴笑道:“没什么大不了,我们石村连神明都诞生过,将来你必然是可与太古凶禽——金翅大鹏一战的强者,要知道,那可是能屠神的存在。”

    ,武警Gay自慰出精AV,小舞扒胸露出奶头让人玩,高清乱码🔞❌❌❌粪便。

    ??时事2:རི་ཆེན་བཞི

    ??06月21日,习言道|统战工作不是过时了、不重要了,而是更重要了,

      “相见不如怀念。”

    ,ChinaHD❌❌❌偷拍,大尺度小黄说说,新田雪主演在线观看。

    ??06月21日,美国博主呼吁美国向中国伸出友谊之手,为构建人类命运共同体共同努力,

      可是现在却被小不点两脚踏翻,踩在了脚底,这实在惊掉了一地下巴,这个看起来憨憨的孩子,竟然这般强大?!

    ,人与禽性动交ⅩXXX,H+晨勃+憋尿+硬了+嗯啊,温迪被扒开双腿疯狂输入小说。

    ??时事3:男朋友脱我内裤揉我下面小说

    ??06月21日,“粤博之夜”再开场 演绎陆丰皮影独特魅力,

      众人发毛,阵阵恐惧。

    ,欧美一级特黄大片做受全部脱,国产精品❌❌❌A片在线观看火影,XXXX43🍆🍆🍆HN。

    ??06月21日,来西安过年,这篇攻略就够了!,

      2、教育局设报账中心。

    ,国产91玉足脚交在线播放,日韩大尺度做爰啪啪床戏麻豆,yy高清影院手机❤️理论。

    ??时事4:裸体胡桃疯狂❌喷水自慰小说

    ??06月21日,延续34年外交传统,中国外长开年访非有何看点?,

      “算了,我们先回去,那水宝有眉目了,它于我族来说干系甚大,也许足以让我雨族崛起,出现一位人皇。”

    ?第一百三十章,女仆乖乖趴下脱内衣内裤挠痒痒,云曦柳神3D同人18❌AV网址,JK制服白丝自慰喷水网站。

    ??06月21日,山西古建筑100问——“千年府衙”督军府为什么曾长期是山西的政治中心?,

      “去吧,到时候见识一下外面的那些天才到底有多强。”一位老人笑道。

    ,赵露思张开双腿让人搔,被c出水🌿快点流出来了男男,女子撒尿全过程㊙️免费网站。

    责编:赵永明

    审核:尼米兹

    责编:凡尔丁

    相关推荐 换一换

    Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

    【网站地图】【sitemap】