新智元报道
编辑:LRST
【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!
现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。
让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:
1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;
2. 教会模型新的看图思考方式动辄要成千上万条有标注的数据,门槛极高。
针对此问题,加州大学圣克鲁斯分校的研究人员提出了GRIT (Grounded Reasoning with Images & Texts)模型,具有高关联和轻量级的特性。
论文地址:https://arxiv.org/abs/2505.15879
代码链接:https://github.com/eric-ai-lab/GRIT
在线Demo:https://grounded-reasoning.github.io/
· 高关联
模型可以在思考链里随时插入框坐标,实现真正的 「图像思维」(Thinking with Images)。
GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接织进思考链,实现「思路和证据同步」,所想即所见。
· 轻量级
其训练方法GRPO-GR具备三重奖励(答案、格式、框),实现零人工标注,仅用20张图像与问答的训练数据就能教会模型画框+推理。
GRIT二板斧
Grounded Reasoning
Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上,目标是把二者深度融合:
让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。
给模型一张图和问题 ,会一次性返回两段式结果(c, a):
推理链c—以 开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;
最终答案a—在 标签后给出答案。
在c的生成过程中,模型每一步都可以自由决定是继续写文字还是生成一个框坐标。
输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。
Grounded Reasoning范式通过只传递数字坐标,避免了裁剪图像或多轮回输信息的计算开销,流程轻量。
在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。
GRPO-GR训练
为了让模型在极小的数据量下就学会画框来辅助推理,GRIT 采用了专门的强化学习方法GRPO-GR
它在GRPO的基础上,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列。
格式奖励 (r_format)信号检查模型输出的整体结构是否合规:
是否正确使用 、 等特殊标记;
插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。
计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体。
r_count对比推理链里框的个数与真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。
答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。
得益于这三重奖励的协同作用,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案。
在实践中,即便训练集只有20条数据,模型依旧能够稳定学到「边框边想」的行为,并在多项基准测试上取得亮眼表现。
实验结果:20 条样本即可「看得准、想得对」
准确性评测
Qwen-2.5-VL-3B和InternVL-3-2B作为基座模型,只用来自VSR+TallyQA的共20张图-问题-答案和GRIT方法训练。
在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂的定位与推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。
即使GRPO-GR训练中没有包含任何对画框的位置的训练信号,测试结果现实框的准确性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。
推理与画框相互关联
研究人员提出了VL Reasoning Cross-Modal Correlation来衡量推理链中的文字与框区域的对齐程度。
结果显示,用GRIT方法的模型输出的内容更好的融合了推理与画框:框住什么,就谈什么。
另外,在用GRIT方法的模型中,把推理链里的框坐标全部抹掉,再让模型继续生成。
结果显示,后续生成的推理内容对图像的注意力会大幅下降,说明画出的框能进一步促进推理。
数据规模效应
研究人员进一步将训练数据扩大,20到500,再增长到7000。
结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。
即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。
参考资料:
https://arxiv.org/abs/2505.15879
《千仞雪被扒开大腿❌小说》,《P6F3X2M7T9QJ8L1B4WZR》男人猛躁女人秘免费看网站软件
“免费无遮挡🔞视频”
大战丰满大白屁股女人
……
06月22日
“国产精品㊙️精品3D漫画”矿大校园对外开放引学生不满
↓↓↓
06月22日,香港举办第七届“紫荆杯”全港中小学生知识竞赛 庆祝新中国成立75周年,15少年男同18少年男同,巨胸动漫美女❌歪歪漫画,芙宁娜被爆❌自慰流水,女女H百合无遮羞羞漫画软件
06月22日,吃银杏果降压降脂?喝醋能软化血管?官方辟谣,老师胸乳❌❌❌裸露作文,扒开❌狂揉❌羞羞中国,把尿+失禁+镜子,Z〇Z○女人另类Z〇Zo挤奶
06月22日,网友分享的登山路为何“行不通”?,Genshin扒衣服爆乳r18禁止,白袜体育生把jj插入男人屁股中的免费的视频,免费🔞成人❌❌用黄上黄两半,直男快递员的粗直Gay
06月22日|长护险试点八年 哪些人群受益?哪些短板需补齐?|日本白鹿被❌c🐻扒衣服照片|永久免费🔞🔞🔞男同|国产做受窜天厚|❌❌❌自慰喷白
06月22日|中国驻慕尼黑总领馆再次提醒领区中国公民注意防范极端天气|美女五花大绑露出奶头和屁股小说|人妻 9 9人陰の亂倫视频|女生拉屎goshopping的来源和历史|揉我胸⋯啊⋯嗯出奶了黄漫
06月22日|江西持续升级金融服务 支持人才在赣创新创业|局长在车里含着我奶头子|夹不住尿了从内裤流出来了|爽⋯好大⋯快⋯深点无码免费看|日本XXXX96欲漫涩……
06月22日,中央军委主席习近平签署命令 发布新修订的《军事立法工作条例》,手撕小舞的泳衣,B影院全球最大库存最新消息解读,genshin❌3D裸身网站,骚女怪物鸡巴炮机轰击自慰精液与潮喷的完美结合
06月22日,1月中国百强房企拿地金额同比增逾四成,性巴克app❤网站免费版下载,尼尔机械纪元2b清凉套装,美女脱个精光露出奶胸的视频,免费看裸体国产🔞🔞🔞网站
06月22日|美运动员兴奋剂阳性却参加奥运 中国反兴奋剂中心:USADA赤裸裸的虚伪双标|91丨国产丨白浆㊙️3D|苍月奥特曼网站入口链接|面具公社网页版登录入口官网下载|白丝❌裸体❌
06月22日,重庆市连续五天发布高温红色预警信号,柳智敏大胸被c呻吟,国产99久久久久久久久,成人Hオンライン动漫,交警男男Chinese国产
06月22日,中国在清洁能源领域继续领先,小13箩利自慰洗澡裸体作文,扒开❌狂揉❌黄瓜视频,两个男人躁我一个好爽视频,十八禁❌羞羞视频下载苹果
06月22日,俄罗斯总统普京与朝鲜外务相崔善姬举行会谈,色多多app成人版♥入口451,美女扒开胸罩👙给男生桶,男男♂yaoi自慰Gay漫画,艾玛沃特森裸被❌图片
06月22日|讲究不将就,让他们实现跨越百年的品质共鸣|性生交大片免费观看999影库|acfan色情版app|貂蝉扒开双腿自慰呻吟声|免费又黄又爽又猛大片午夜
06月22日|“拉萨好物”亮相香港美食博览会|免费b站看大片真人视频|色aV色婷婷91人妻久久久|扒开美女❌❌视频播放|波多野结衣xvsr325
06月22日|巴基斯坦学者:中国推进高质量发展,让邻国受益丨两会·世界观|三月七裸体被❌涩涩在线观看|OTK spanking打屁股|丝袜足控自慰网站❎17c|小柔婬荡高潮呻吟小说
亚足联关注伊万能否率队突破,王健林王思聪父子重回创富榜前10|日方祝贺台湾地区选举,中使馆:已向日方提出严正交涉|爆❌喷水❌洗澡❌蓝莓|枫ふうあ在线看无码波多野结衣|原神温迪处刑实验室|动漫自慰3d动漫
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
闽公网安备 35010302000113号