新闻速览

17c13cm：牙买加传奇飞人退役！曾3夺奥运金牌，10次世锦赛冠军无人能及

2025-10-09

17c13cm

如果2028年的大选，赖清德评估自己胜算很小，那么，他对内、对外制造危机的可能性就大幅度提高。如果对内制造危机不足以赢得大选，他就有可能在两岸关系上铤而走险。，牙买加传奇飞人退役！曾3夺奥运金牌，10次世锦赛冠军无人能及

17c13cm

王秋月致辞

2025赛季美职联倒数第二轮的比赛周已经结束，而本轮焦点战再一次成为全美球迷关注的重头戏。比赛的主角依旧是那位令整个联赛为之惊叹的法籍加蓬球星布安加，他用脚下的魔法点燃了全场。

李发军主持会议

谭立波报告

根据记者Samuel Luckhurst的最新消息，曼联仍然希望利桑德罗-马丁内斯能在今年年底前再次上场，这名阿根廷后卫在八个月前遭遇前十字韧带受伤后，至今尚未回归球队训练。

王娟作报告

王女士解释，男友的性格就是这样，“我让你干嘛你越不干嘛，我和他吵架也是。”并且称自己不需要30万的嫁妆了，只想去英国见男友父母。

马兰凤报告

鲁索在博卡俱乐部内享有极高的声望。这是他第三次执教博卡。他曾带领博卡赢得过联赛冠军（2019–20赛季）以及俱乐部至今最后一座解放者杯奖杯（2007年）。此外，他在西班牙唯一执教过的球队是萨拉曼卡。

董增仁作报告

新增参考书是必须要阅读的，因为新增的书实际上是没有任何题目可以参考的，你不知道他可能会怎么考，所以最保险起见的方式就是把补充的参考书进行细致的阅读，作为备用的知识储备。而这个阅读必须要在十月中旬之前完成，并且在阅读的过程中，绝对不能以放弃答题为代价。

刘文翔作报告

预训练指令微调模型： Qwen2.5-7B/14B-Instruct（无论是否使用 CoT）在任务中的表现都较差，F1 分数低于 30，这表明仅依靠提示并不足以实现精确的片段级定位。预训练推理模型：具备推理能力的模型（如 QwQ-32B、Qwen3-8B、Qwen3-14B）在幻觉检测任务中能够迁移部分推理能力。例如，Qwen3-14B 在摘要任务上的 F1 提升至 35.8，而 Qwen2.5-14B-Instruct 仅为 32.9。然而，这些模型的表现仍落后于微调模型，这说明仅具备一般推理能力还不足以胜任片段级幻觉检测任务。微调基线模型：监督微调显著提升了性能，在 14B 规模下 F1 达到 55.4。RL4HS 模型：RL4HS 在所有基线模型之上表现出一致的优势，包括专有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三个任务上的平均 F1 达到 55.9，显著优于 SFT 的 50.1。在 14B 规模下，RL4HS-14B 在摘要、问答和数据到文本任务上分别取得 57.6、54.8 和 62.6 的成绩，超越了 Qwen3 系列以及表现最强的 GPT-5 和 o3 模型。