【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!
让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。
推理链c—以开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;
输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。
在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。
插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。
计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体。
r_count对比推理链里框的个数与真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。
答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。
在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂的定位与推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。
结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。
即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。
yy6090免费高清电视摩根士丹利旗下E-Trade交易与投资董事总经理Chris Larkin表示:“非农就业报告将成为决定性因素,但本周迄今已公布的数据证实劳动力市场正在放缓。短期而言,美股市场可能欢迎这些数据,因为这会提高美联储降息的可能性。但如果数据进一步恶化,市场可能会引发对美国经济健康状况的担忧。”在社会文化中,教师一直被视为神圣的职业,他们承载着培养下一代的重任。然而,现实中,教师们也面临着各种压力和不公平的待遇。这位老教师的遭遇,其实是很多默默奉献的教师的缩影。他们为了学生的成长付出了一切,却往往得不到应有的尊重和认可。我们应该反思,学校的管理机制是否存在问题,是否真正考虑到了教师的感受和付出。yy6090免费高清电视《妈妈装睡配合孩子趴趴》此次场地变更不仅反映了法国足球基础设施管理的行政复杂性,也凸显了在大型赛事筹备中,管理权交接的时效性对国家队赛事安排的关键影响。但话说回来,不是说名人卖课就一概不可取。网络课程包作为一种商品,只要有合适的市场定位,满足客户需求,SKU都是可以成立的,名人的课也不例外,逻辑大概有这些:
20250925 ? yy6090免费高清电视大卫-霍普金森表示:“能够在如此激动人心的时刻加入纽卡斯尔,我感到无比荣幸。这家俱乐部拥有非凡的历史传统、热情澎湃的球迷群体,更有一群致力于追求卓越的所有者、球员与工作人员,纽卡是一支真正特别的队伍。”《麻花传mv在线观看免费高清电视剧大全》巴克利说:“我见过的三位最强球员是迈克尔、科比和勒布朗,我来告诉你三者的区别。乔丹和科比非常危险,他们会在场上彻底击垮你。勒布朗是个好人,这并不是贬低他。他依然非常、非常伟大,但他是个好人。迈克尔和科比不是好人,他们完全不同。”
? 范建辉记者 黄海华 摄
20250925 ? yy6090免费高清电视提起郭冬临,大家第一反应就是“家”,他那圆脸、大肚子,笑起来傻呵呵的模样简直就像隔壁那个老实憨厚、怕老婆的邻居大哥。大战尼姑2高清免费观看中文在切尔西官方APP组织的投票中,若昂-佩德罗的得票率高达77%,凯塞多以11%的得票率位居次席,小将埃斯特旺以4%的得票率位居第三。
? 姚康记者 李正田 摄
? “问题在于,拉什福德也是如此,一场比赛表现得非常出色,下一周却又变得毫无斗志,跑动也不积极。这正是桑乔的问题所在,如果他在阿斯顿维拉也这样,他就不会有机会上场。”女人尝试到更粗大的心理变化