当前时间:2025-10-13 03:09:45
X

用户名:

密   码:

您现在的位置: 首页 > 新闻速览

新闻速览

沈娜娜和吴梦梦的合作:谷歌发布Gemini 2.5 Computer Use模型:专攻浏览器交互

2025-10-13

沈娜娜和吴梦梦的合作

结果显示,当 K=1 时,思维链推理对 Qwen2.5-7B 模型没有带来性能提升,对 Qwen3-8B 模型的提升也较为有限。然而随着 K 值增大,Span-F1@K 指标的差距显著扩大,这证明思维链推理在多次采样时至少能产生一次准确预测的潜力。这些结果为采用强化学习方法来激发大语言模型在幻觉片段检测方面的推理能力提供了明确依据。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也进行了相同实验,观察到了类似现象。,谷歌发布Gemini 2.5 Computer Use模型:专攻浏览器交互

沈娜娜和吴梦梦的合作

王跃胜致辞

这种偏差源于奖励函数 r_span 固有的不对称性。在非幻觉类别中,模型只需预测一个空片段列表即可获得高奖励;而在幻觉类别中,模型必须精确定位并输出正确的片段范围。后者是更困难的目标,细微误差就会导致基于 F1 的奖励大幅降低。因此,GRPO 会过度激励模型做出非幻觉预测,最终形成高精确率但召回率被抑制的偏差行为。

phd530292.jpg

许开喜主持会议

iza322331.jpg