ICLR 2026 | 面向几何感知能力的新型基准与结构化强化学习框架

发布时间：2026-03-05
作者：光明实验室
浏览：304次

光明实验室生成式大模型团队的科研成果：面向几何感知能力的新型基准与结构化强化学习框架（作者：Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang（共同通讯）, Chun Yuan）被机器学习领域顶级会议 ICLR 2026 接收。

Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning
Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang（共同通讯）, Chun Yuan

研究动机：几何问题的真正瓶颈
视觉语言模型（VLMs）在通用视觉理解与多模态推理任务上取得了显著进展。然而，在几何问题（Geometry Problem Solving, GPS）场景中，其表现仍显著受限。
我们系统分析发现：当前 VLM 在几何问题上的失败，很大程度上暴露出其几何感知错误（perceptual errors）的短板，而这一核心痛点在现有文献中往往未得到充分重视。具体表现包括：1）错误识别几何基本元素（点、线、圆、切点等）；2）漏识别关键约束关系（共线、垂直、相切）；3）错误 grounding 图像中的结构信息。现有 benchmark（如 MathVista、UniGeo）将感知与推理混合评估，这将导致无法精确定位模型瓶颈和难以设计针对性优化策略。
因此，我们提出两个核心问题：1）如何独立评估VLM的几何感知能力？2）如何在不破坏自然语言分布的前提下专门提升该能力？

GEOPERCEIVE：可控、可扩展的几何感知基准
我们构建了 GEOPERCEIVE —— 一个专门针对几何图形基本元素与约束识别能力的评测基准。该基准基于我们设计的几何领域特定语言 GeoDSL，通过程序化方式自动生成几何结构与对应图像，实现感知任务的结构化表达与精确评估。GeoDSL 以无歧义的程序形式表示几何基本元素及其约束关系，使模型输出可以被解析为结构化表示，并通过 Hungarian matching 等算法计算 element-level F1 分数，从而实现程序级精确评分。得益于自动生成机制，GEOPERCEIVE 支持复杂度可控的大规模数据构建，能够在不依赖人工标注的前提下提供稳定、可扩展的训练与评估资源。更重要的是，该基准在设计上将几何感知能力与高层推理能力进行解耦，使得模型能力分析更加清晰。

GEODPO：面向几何感知能力的结构化强化学习框架
在GEOPERCEIVE的基础上，我们提出了 GEODPO框架，用于系统性提升模型的几何感知能力。不同于直接监督模型输出结构化程序，GEODPO 仍然保留自然语言输出形式，通过一个专门训练的自然语言到 GeoDSL 的翻译器，将模型生成的描述转换为形式化结构表示，并基于 DSL 层面的精确评分构造偏好对（preference pairs）。随后，我们采用DPO进行偏好对齐训练，使模型在保持自然语言分布一致性的前提下，逐步优化其对几何结构的表达能力。该机制本质上构建了一个“翻译器 + 结构化评分函数”组成的奖励模型，将结构级监督信号引入强化学习过程。与传统监督微调（SFT）相比，该方法避免了 token 顺序敏感问题，并在分布偏移场景下表现出更好的鲁棒性。

实验结果
实验在域内（In-domain）、域外（OOD）以及下游推理任务上评估了 GEODPO 的性能，结果显示其显著优于传统的监督微调（SFT），具体地：
• 感知能力提升：在三个模型（Qwen2.5-VL(7B)、InternVL3(8B)、LLaVA-Next(7B)）中，GEODPO的性能始终优于原始模型和SFT模型。相对于原始模型，总体得分提升幅度在14.2%至26.46%之间。
• 泛化能力：在域外（OOD）数据集上，GEODPO在所有评估模型中均获得了稳定的性能提升，平均提升约 8.0%。相比之下，SFT 在面对分布偏移时往往表现脆弱，甚至可能导致性能下降。
• 下游推理任务：在 MathVista 等推理任务中，感知能力增强同样显著促进了整体推理表现，例如InternVL3 模型从 29.06 提升至 40.39，实现 39.0% 的相对增长。
• 幻觉减少：定性分析表明，经过 GEODPO 训练后的模型在几何描述中的幻觉现象明显减少，错误识别点归属或误判几何关系的情况显著下降，结构表达更加稳定。

工作贡献

• 提出首个面向几何感知能力的独立评测框架 GEOPERCEIVE：首次将几何问题中的“感知能力”与“高层推理能力”显式解耦，构建了专门针对几何结构识别的自动化评测基准。基于自定义 GeoDSL 实现程序化数据生成与程序级精确评估。该框架支持 element-level 结构匹配与复杂度可控扩展，为几何感知能力提供了标准化、可复现的评测基准。
• 提出 Translator-Guided 的结构化强化学习机制：设计 GEODPO 训练框架，通过“自然语言输出—形式语言翻译—结构化评分”的奖励建模机制，将程序级监督信号引入偏好优化过程。在不改变模型自然语言生成分布的前提下，系统提升其几何结构表达能力，并验证结构化奖励优于直接监督微调。
• 实证揭示几何问题的核心瓶颈在感知阶段：系统实验表明，增强底层几何结构识别能力可显著提升下游推理表现，且在域内与域外分布下均保持稳定增益。

更多内容和细节请阅读论文，欢迎大家跟进和引用：
@inproceedings{
yu2026enhancing,
title={Enhancing Geometric Perception in {VLM}s via Translator-Guided Reinforcement Learning},
author={Hao Yu and Shuning Jia and Guanghao Li and Wenhao Jiang and Chun Yuan},
booktitle={The Fourteenth International Conference on Learning Representations},
year={2026},
url={https://arxiv.org/pdf/2602.22703}
}

上一篇：没有了！

下一篇: 光明实验室Science+1！李清泉院士团队发表Science长文:创新森林碳抵消基线评估方法，实现大范围热带森林碳效益精准量化，解决了森林碳信用项目争议难题