新闻速览

FSDSS-393：阿斯：黄潜就莫里尼奥第二张黄牌提出上诉，以避免其停赛

2025-10-09

FSDSS-393

尽管广告收入在多邻国的整体收入中占比较小，2023年广告收入仅占748百万美元总收入的不到7%，但随着用户基础的扩大和广告模式的创新，多邻国的广告业务仍然有着巨大的成长空间。多邻国目前拥有4,700万日活跃用户，广告业务的潜力不容小觑。，阿斯：黄潜就莫里尼奥第二张黄牌提出上诉，以避免其停赛

FSDSS-393

郭建华致辞

论文摘要部分，作者表示大语言模型常常会生成幻觉内容，即与事实不符、缺乏支持的信息，这会削弱模型输出的可靠性。以往的大多数研究都将幻觉检测视为一个二分类任务（即判断是否存在幻觉），但在许多实际应用中，人们需要识别具体的幻觉片段（hallucinated spans），这实际上是一个多步骤决策过程。

黄玲主持会议

朱宏报告

“政策东风点燃并购市场。”国联民生证券副总裁、国联民生承销保荐董事长徐春在“并购六条”实施一周年之际接受券商中国记者采访时表示。

吴颂华作报告

这一合作的关键元素是$ACM粉丝代币，目前已在119个国家上线，成为米兰与其支持者之间的数字桥梁。自推出以来，超过850名红黑军团粉丝享受到了独家体验，包括赢取比赛门票、官方纪念品和独特奖品。

唐爱公报告

我国一直以来都是全球最大的铜消费大国，也是全球最大的铜生产大国，是全球铜冶炼和加工能力最强的国家。但是在铜资源上，我们并不丰富。

张建业作报告

公开信息显示，弗雷德·拉姆斯德尔于1960年出生，他不仅活跃在基础研究领域，也在生物技术产业中推动免疫相关疗法的发展，致力于将免疫学基础发现转化为可用于治疗自身免疫疾病、癌症或免疫调节的干预策略，目前任职于美国索诺马生物治疗公司。

纪振才作报告

预训练指令微调模型： Qwen2.5-7B/14B-Instruct（无论是否使用 CoT）在任务中的表现都较差，F1 分数低于 30，这表明仅依靠提示并不足以实现精确的片段级定位。预训练推理模型：具备推理能力的模型（如 QwQ-32B、Qwen3-8B、Qwen3-14B）在幻觉检测任务中能够迁移部分推理能力。例如，Qwen3-14B 在摘要任务上的 F1 提升至 35.8，而 Qwen2.5-14B-Instruct 仅为 32.9。然而，这些模型的表现仍落后于微调模型，这说明仅具备一般推理能力还不足以胜任片段级幻觉检测任务。微调基线模型：监督微调显著提升了性能，在 14B 规模下 F1 达到 55.4。RL4HS 模型：RL4HS 在所有基线模型之上表现出一致的优势，包括专有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三个任务上的平均 F1 达到 55.9，显著优于 SFT 的 50.1。在 14B 规模下，RL4HS-14B 在摘要、问答和数据到文本任务上分别取得 57.6、54.8 和 62.6 的成绩，超越了 Qwen3 系列以及表现最强的 GPT-5 和 o3 模型。