ICLR 2026 | 面向几何感知能力的新型基准与结构化强化学习框架
  • 发布时间:2026-03-05
  • 作者:光明实验室
  • 浏览:140次

光明实验室生成式大模型团队的科研成果:面向几何感知能力的新型基准与结构化强化学习框架(作者:Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang(共同通讯), Chun Yuan)被机器学习领域顶级会议 ICLR 2026 接收。

Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning
Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang(共同通讯), Chun Yuan

研究动机:几何问题的真正瓶颈
视觉语言模型(VLMs)在通用视觉理解与多模态推理任务上取得了显著进展。然而,在几何问题(Geometry Problem Solving, GPS)场景中,其表现仍显著受限。
我们系统分析发现:当前 VLM 在几何问题上的失败,很大程度上暴露出其几何感知错误(perceptual errors)的短板,而这一核心痛点在现有文献中往往未得到充分重视。具体表现包括:1)错误识别几何基本元素(点、线、圆、切点等);2)漏识别关键约束关系(共线、垂直、相切);3)错误 grounding 图像中的结构信息。现有 benchmark(如 MathVista、UniGeo)将感知与推理混合评估,这将导致无法精确定位模型瓶颈和难以设计针对性优化策略。
因此,我们提出两个核心问题:1)如何独立评估VLM的几何感知能力?2)如何在不破坏自然语言分布的前提下专门提升该能力?


GEOPERCEIVE:可控、可扩展的几何感知基准
我们构建了 GEOPERCEIVE —— 一个专门针对几何图形基本元素与约束识别能力的评测基准。该基准基于我们设计的几何领域特定语言 GeoDSL,通过程序化方式自动生成几何结构与对应图像,实现感知任务的结构化表达与精确评估。GeoDSL 以无歧义的程序形式表示几何基本元素及其约束关系,使模型输出可以被解析为结构化表示,并通过 Hungarian matching 等算法计算 element-level F1 分数,从而实现程序级精确评分。得益于自动生成机制,GEOPERCEIVE 支持复杂度可控的大规模数据构建,能够在不依赖人工标注的前提下提供稳定、可扩展的训练与评估资源。更重要的是,该基准在设计上将几何感知能力与高层推理能力进行解耦,使得模型能力分析更加清晰。



GEODPO:面向几何感知能力的结构化强化学习框架
在GEOPERCEIVE的基础上,我们提出了 GEODPO框架,用于系统性提升模型的几何感知能力。不同于直接监督模型输出结构化程序,GEODPO 仍然保留自然语言输出形式,通过一个专门训练的自然语言到 GeoDSL 的翻译器,将模型生成的描述转换为形式化结构表示,并基于 DSL 层面的精确评分构造偏好对(preference pairs)。随后,我们采用DPO进行偏好对齐训练,使模型在保持自然语言分布一致性的前提下,逐步优化其对几何结构的表达能力。该机制本质上构建了一个“翻译器 + 结构化评分函数”组成的奖励模型,将结构级监督信号引入强化学习过程。与传统监督微调(SFT)相比,该方法避免了 token 顺序敏感问题,并在分布偏移场景下表现出更好的鲁棒性。

实验结果
实验在域内(In-domain)、域外(OOD)以及下游推理任务上评估了 GEODPO 的性能,结果显示其显著优于传统的监督微调(SFT) ,具体地:
• 感知能力提升:在三个模型(Qwen2.5-VL(7B)、InternVL3(8B)、LLaVA-Next(7B))中,GEODPO的性能始终优于原始模型和SFT模型。相对于原始模型,总体得分提升幅度在14.2%至26.46%之间。
• 泛化能力:在域外(OOD)数据集上,GEODPO在所有评估模型中均获得了稳定的性能提升,平均提升约 8.0%。相比之下,SFT 在面对分布偏移时往往表现脆弱,甚至可能导致性能下降。
• 下游推理任务:在 MathVista 等推理任务中,感知能力增强同样显著促进了整体推理表现,例如InternVL3 模型从 29.06 提升至 40.39,实现 39.0% 的相对增长。
 幻觉减少:定性分析表明,经过 GEODPO 训练后的模型在几何描述中的幻觉现象明显减少,错误识别点归属或误判几何关系的情况显著下降,结构表达更加稳定。




工作贡献

 提出首个面向几何感知能力的独立评测框架 GEOPERCEIVE:首次将几何问题中的“感知能力”与“高层推理能力”显式解耦,构建了专门针对几何结构识别的自动化评测基准。基于自定义 GeoDSL 实现程序化数据生成与程序级精确评估。该框架支持 element-level 结构匹配与复杂度可控扩展,为几何感知能力提供了标准化、可复现的评测基准。
• 提出 Translator-Guided 的结构化强化学习机制:设计 GEODPO 训练框架,通过“自然语言输出—形式语言翻译—结构化评分”的奖励建模机制,将程序级监督信号引入偏好优化过程。在不改变模型自然语言生成分布的前提下,系统提升其几何结构表达能力,并验证结构化奖励优于直接监督微调。
• 实证揭示几何问题的核心瓶颈在感知阶段:系统实验表明,增强底层几何结构识别能力可显著提升下游推理表现,且在域内与域外分布下均保持稳定增益。

更多内容和细节请阅读论文,欢迎大家跟进和引用:
@inproceedings{
yu2026enhancing,
title={Enhancing Geometric Perception in {VLM}s via Translator-Guided Reinforcement Learning},
author={Hao Yu and Shuning Jia and Guanghao Li and Wenhao Jiang and Chun Yuan},
booktitle={The Fourteenth International Conference on Learning Representations},
year={2026},
url={arxiv.org/pdf/2602.2270}
}