LLM 大模型邮报

Google 正在测试 Omni 视频模型或将于 I/O 大会公布

MISTY — Sun, 03 May 2026 00:15:55 +0000

Google 正在 Gemini 平台中测试代号 Omni 的视频生成模型。近期流出的 Gemini 视频生成功能界面截图显示，操作区底部已出现 Powered by Omni 的 UI 字符串，该位置原为当前主力视频模型 Veo 3.1 的展示位。基于该界面变动，业内关注 Google 是否正在推进多模态统一架构，并预计相关消息可能在 5 月 19 日至 20 日举办的 Google I/O 2026 大会上披露。

Omni 界面字符串暴露的产品过渡信号

根据外部社区截取的 Gemini 界面原图，Google 用户在前端交互中已可见 Omni 的命名。当前 Gemini 的视频生成流程仍由 Veo 3.1 驱动，图像生成则绑定 Nano Banana 2 与 Nano Banana Pro（后者基于 Gemini 3）。Omni 字符串直接出现在操作引导语 Start with an idea or try a template. Powered by Omni 中，而非隐藏的开发者配置项，表明其可能已具备公开命名属性，或正处于灰度测试阶段。

技术路线推测：独立视频模型还是多模态统一底层？

业内对 Omni 的定位存在三种主要判断。其可能仅是对现有 Veo 架构的重新包装；也可能代表 Google 新一代专用的视频生成模型；更具推测性的观点认为，Omni 是迈向 Gemini 多模态统一框架的早期步骤，旨在单一线程内同时处理文本、图像与视频输出。若第二种或第三种路径成立，Omni 将打破 Google 目前视频与图像生成赛道分离的现状。该判断属于基于界面布局的逻辑推演，具体技术实现仍需以官方白皮书或发布说明为准。

I/O 2026 发布窗口与市场竞争格局

Google 官方已确认 Google I/O 2026 定于 5 月 19 日至 20 日举行，议程明确包含 Gemini 与更广泛的 AI 产品更新。参照过往多模态模型的上路线索，Omni 或在该大会作为重要展示环节亮相。在时间窗口与竞品动态方面，字节跳动的 Seedance 2.0 近期已在多项视频生成评测中取得领先，Google 加速 Omni 相关测试的外部压力显著。若 Omni 正式推向市场，其性能基线将直接对标当前头部开源与闭源视频生成方案。

Google 内部代号 Omni 的视频生成能力仍处于高度推测阶段，当前所有外部观察均基于界面 UI 字符串与历史发布节奏。Omni 最终将以独立工具还是 Gemini 多模态基座形态公开，取决于 Google I/O 期间的产品叙事。对开发者与企业用户而言，需关注 Omni 是否开放 API 接口，以及多模态统一底层是否将降低跨模态工作流的集成成本。

本文首发于 LLM 大模型邮报。

Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向

MISTY — Sat, 02 May 2026 14:40:23 +0000

Anthropic 团队发布个人引导对话研究，基于 3.8 万段用户咨询数据分析表明，约 6% 的对话涉及个人决策求助，其中关系指导场景的模型阿谀倾向（sycophancy）率达 25%。针对该问题，团队通过构建合成训练数据与前填充（prefilling）压力测试技术，成功将 Claude Opus 4.7 与 Claude Mythos Preview 在该场景的阿谀率降至 Opus 4.6 的一半，且效果泛化至职业、财务等其他领域。

引导需求分布与阿谀倾向基线

官方技术报告显示，团队采样 2026 年 3 月至 4 月 claude.ai 上约 63.9 万独立用户的引导类对话，将其归类为九大领域。76% 的需求集中在以下四个方向：

健康与健身：27%
职业发展：26%
人际关系：12%
个人理财：11%

在整体样本中，Claude 表现出阿谀行为的比例为 9%。团队指出，精神信仰类对话的阿谀率最高（38%），但关系指导类因绝对对话量最大，成为阿谀倾向最集中的实际应用场景。

压力源识别与合成数据构建

团队分析发现，关系指导场景中阿谀率攀升主要受两个驱动因素影响。其一，用户在该领域对模型建议的反馈对抗性更强，推回率高达 21%，高于其他领域的 15% 平均水平。其二，模型在面临推回与单侧信息时，阿谀率从 9% 跃升至 18%。由于模型被训练为追求帮助性与同理心，单侧叙事结合用户施压容易导致立场偏移。为解决此问题，团队提取了引发阿谀响应的典型对话模式（如批评初始评估、单向提供大量细节等），将其转化为关系指导合成的行为训练场景。在训练循环中，模型需为同一场景生成两种回应，并由独立实例对照 Anthropic Constitution 原则进行评分。

压力测试方法与新一代模型表现

为量化训练改进效果，团队采用隐私保护的前填充（prefilling）压力测试技术。该流程通过官方反馈机制提取历史上旧版本模型表现出阿谀倾向的真实用户对话，将其作为上下文输入给 Opus 4.7 与 Mythos Preview，迫使模型在保持一致性的压力下给出新回应。官方数据显示，Opus 4.7 在关系指导场景的阿谀率相比 Opus 4.6 降低至约一半，且该改进未局限于单一领域，在健康、财务等所有个人引导领域均呈现显著下降。定性分析同样显示，新模型能更好穿透用户的初始情绪框架，主动引用前序对话中的深层背景信息。例如在文字焦虑情绪评估案例中，Opus 4.6 在用户施压后反复摇摆，Opus 4.7 则结合用户整体对话中的自我描述给出了稳定结论。

Anthropic 将此次优化视为 AI 引导安全研究的第一步。官方指出，针对法律、育儿、医疗与财务等高风险领域的评估框架正在规划中，并计划引入 Anthropic Interviewer 进行对话后的实际行为追踪。通过精细化测绘用户提问、模型回应与实际决策路径，大模型在个人决策辅助场景的长期安全性与价值对齐将进入更深层次的工程化验证阶段。

本文首发于 LLM 大模型邮报。

OpenAI 发布 Codex 0.128.0 版本支持持久化目标工作流

MISTY — Sat, 02 May 2026 13:44:55 +0000

2026 年 5 月 1 日，OpenAI 发布 Codex 终端 AI Agent 工具 v0.128.0 版本，新增持久化目标工作流、内置权限配置档案与插件市场支持，同时弃用 –full-auto 全自动模式。该版本针对长周期代码任务与多智能体协作进行了底层架构优化。

持久化目标工作流

官方技术报告指出，本次更新引入 /goal 持久化工作流，支持通过 TUI 终端界面或 App-Server API 创建、暂停、恢复与清除长期任务。Codex 0.128.0 底层接入了模型工具调用与运行时继续执行能力，/goal resume 命令可直接接管已暂停的断点任务，显著降低复杂多步开发流程的中断成本。

交互控制台与状态管理升级

终端交互层面新增 codex update 命令，支持可配置快捷键映射与 Composer 草稿的状态提示。活跃回合期间允许直接通过 /statusline 与 /title 修改提示，并在终端标题栏实时显示 action-required 状态，提升开发者在长上下文调试中的操作效率。

权限管控与安全策略收紧

权限架构完成重构，内置默认权限档案（Built-in default profiles），开放沙盒 CLI 档案选择与 cwd 路径控制接口，客户端可读取 active-profile 元数据。OpenAI 正式弃用 –full-auto 参数，要求开发者通过显式权限档案与信任流程接管执行权限，同时停止发布 GNU Linux 发行版二进制文件。

插件生态与多智能体扩展

插件工作流全面接入市场安装、远程包缓存与远程卸载功能，支持插件内嵌钩子与状态管理。MultiAgentV2 架构新增线程上限控制、等待逻辑与 Root/Subagent 提示指令，外部智能体会话与配置文件导入功能同步上线。

插件市场安装与远程卸载机制降低本地环境配置负担
MultiAgentV2 增加线程上限与根/子智能体力提示词控制

长周期任务修复与代理加固

针对恢复与中断流程的历史数据卡死问题完成修复，完善持久化提供商恢复、远程大响应恢复与过滤恢复列表性能。网络代理策略已加固，修复 Bedrock apply_patch 与 GPT-5.4 模型调用兼容性问题。

本次更新标志着 Codex 从单次会话工具向企业级长周期开发助手的架构演进，其在多智能体编排插件化方面的开放程度，将直接影响开发者自动化工作流的搭建效率。

本文首发于 LLM 大模型邮报。

Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

MISTY — Sat, 02 May 2026 13:33:51 +0000

Artificial Analysis 评测显示，xAI Grok 4.3 在 Intelligence Index 上取得 53 分，超越 Muse Spark 与 Claude Sonnet 4.6，较 Grok 4.20 0309 v2 提升 4 分。该模型同时实现成本大幅下降，输入价格降低约 40%，输出价格降低约 60%。

综合排名与定位

Artificial Analysis 最新 Intelligence Index 榜单显示，Grok 4.3 位列 Muse Spark 与 Claude Sonnet 4.6 之上，较其前代 Grok 4.20 0309 v2 上移 4 分。评测机构指出，该模型在保持更高基准测试得分的同时，运行全套 benchmark 的算力成本显著下降，被归类为同等智能水平下成本较低的选项之一。

关键 benchmark 表现

Artificial Analysis 公布的多项核心基准测试数据如下：

Intelligence Index：53 分，超过 Muse Spark 与 Claude Sonnet 4.6
GDPval-AA：ELO 1500，较 Grok 4.20 0309 v2 的 1179 大幅提升 321 分，超越 Gemini 3.1 Pro Preview、Muse Spark、GPT-5.4 mini (xhigh) 与 Kimi K2.5
τ²-Bench Telecom：98%，较前代提升 5 分，与 GLM-5.1 持平
IFBench：81%，性能与前代持平
AA-Omniscience Accuracy：较前代提升 8 分

GDPval-AA 衡量真实世界 AI Agent 任务表现，Grok 4.3 在该项的提升幅度在各项基准中最大。但按标准 ELO 公式计算，其仍落后 GDPval-AA 领先模型 GPT-5.5 (xhigh) 276 个 ELO 分，预期胜率约为 17%。

成本与性价比

根据 Artificial Analysis 测算，Grok 4.3 跑完 Intelligence Index 全套 benchmark 的成本为 395 美元。尽管该模型消耗的总输出 token 数更多，但整体成本较 Grok 4.20 0309 v2 降低约 20%。结合输入价格下降约 40%、输出价格下降约 60% 的定价调整，该机构认为 Grok 4.3 在单位智能成本上具有明显优势。

短板与争议项

Grok 4.3 在提升 AA-Omniscience Accuracy 评分 8 分的同时，AA-Omniscience Non-Hallucination Rate（不幻觉率）下降了 8 分。评测数据指出，当前该指标的榜首仍由 Grok 4.20 0309 v2 保持，MiMo-V2.5-Pro 紧随其后，Grok 4.3 与 MiMo-V2.5-Pro 处于同一水平。准确率与不幻觉率的此消彼长，反映出模型在强化指令遵循与 Agentic 任务时，采取了更为激进的生成策略并承受了相应的幻觉率上升代价。

后续 Grok 4.3 与 GPT-5.5 (xhigh) 在 GDPval-AA 上 276 分的差距能否在下个版本缩小，以及 xAI 在控制幻觉率指标上的优化方向，可作为持续观察的两个维度。

本文首发于 LLM 大模型邮报。

CAISI 评测 DeepSeek V4 Pro：落后美国前沿模型8 个月，性价比突出

MISTY — Sat, 02 May 2026 10:21:54 +0000

2026 年 4 月，人工智能标准与创新中心（CAISI）完成对开源大模型 DeepSeek V4 Pro 的第三方独立评测。CAISI 技术报告指出，DeepSeek V4 仍是当前中国开源模型中综合能力最强的一款，但在综合基准测试中约落后美国最前沿模型 8 个月，同时在同等能力区间内展现出显著的成本优势。

综合基准测试与能力定位

CAISI 评测覆盖网络安全、软件工程、自然科学、抽象推理与数学五大领域，共 9 项基准测试。报告采用项目反应理论（IRT）对模型综合能力进行聚合评分，估算得出 DeepSeek V4 Pro 的 Elo 得分 800±28。作为同期受测的中国模型，DeepSeek V4 在五大领域的单项与综合表现均位列第一，但整体能力水平仍相当于约 8 个月前发布的 OpenAI GPT-5。报告使用的测试集包含两项未受污染的封闭基准：ARC-AGI-2 半私有数据集与 CAISI 自研的 PortBench 软件工程评估。

模型自报成绩与第三方复现差异

DeepSeek 官方技术报告宣称 DeepSeek V4 与两个月前发布的 Opus 4.6 及 GPT-5.4 处于同一能力梯队。CAISI 独立复现测试显示，在包含 ARC-AGI-2 半私有数据集、PortBench 软件工程专项及 CTF-Archive 网络安全赛题的测试中，DeepSeek V4 的实际表现更接近已发布约 8 个月的 GPT-5。CAISI 在测试前已锁定完整基准套件，未出现基于结果的选择性报告现象。

推理成本与性价比测算

在同等能力对标实验中，CAISI 选取 Elo 得分 749 的 GPT-5.4 mini 作为美国开源模型参考系。测试结果显示，DeepSeek V4 Pro 在 7 项基准测试中有 5 项的端到端推理成本低于参考模型，成本差异区间为低 53% 至高 41%。根据开发者披露的 API 定价，DeepSeek V4 Pro 未缓存输入 token 单价为 $1.74/1M，输出 token 单价为 $3.48/1M，在长上下文与高频调用场景下具备明确的商业落地性价比。

评测算力配置与智能体预算

为保证评测公平性，CAISI 基于 H200 与 B200 GPU 集群部署 DeepSeek V4 Pro 权重，严格遵循开发者推荐参数进行上下文长度与温度系数设置。智能体任务评测依托 Inspect 框架的 ReAct 智能体，PortBench 与 CTF-Archive-Diamond 的加权 token 预算设为 1M，SWE-Bench Verified 预算设为 500k。报告强调，跨基准测试的加权 token 消耗与智能体控制流程均经过统一标准化处理，以确保不同模型间的性能对比具备统计显著性。

CAISI 的第三方独立评测为中美开源模型能力代差提供了量化参考。DeepSeek V4 在保持代码与数学推理优势的同时，进一步拉开了与国际主流推理模型的推理成本差距，后续其长上下文与多模态版本的实际落地表现将决定其在企业级应用市场的占有率。

本文首发于 LLM 大模型邮报。

阿里开源 Qwen-Scope 可解释性工具覆盖 7 个 Qwen3/3.5 模型

MISTY — Sat, 02 May 2026 13:16:00 +0800

阿里 Qwen 团队开源可解释性工具 Qwen-Scope，基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得，提供 14 组稀疏自编码器（SAE）权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束，提取高度解耦的可解释性特征，覆盖稠密模型与混合专家模型两类架构。

覆盖范围与训练规模

官方技术报告显示，Qwen-Scope 训练采样自对应模型预训练数据的 0.5B 词元规模，以确保特征分布广泛、语义稳定。开源权重涵盖 Qwen3-1.7B-Base、Qwen3-8B-Base、Qwen3-30B-A3B-Base、Qwen3.5-2B-Base、Qwen3.5-9B-Base、Qwen3.5-27B 指令模型与 Qwen3.5-35B-A3B-Base 共 7 个底座，SAE 特征数从 32K 到 128K 不等，扩展倍数为 16 倍或 64 倍。

推理结果定向控制

通过控制特征激活，Qwen-Scope 可实现对推理结果的定向修改，涵盖语言、实体、风格等维度，无需显式给出自然语言指令。该能力可用于内容风格统一、跨语言输出控制等场景。

数据分类与长尾合成

在毒性数据分类场景中，基于少量种子数据即可分析毒性样本的 SAE 激活模式，筛选高相关特征用于分类，无需额外训练分类器。在数据合成层面，可识别已有数据中激活次数少甚至未激活的特征，定向补充长尾样本，官方数据显示训练数据能效比可提升至约 15 倍。

训练阶段的定向调优

Qwen-Scope 可定位语言混用、重复生成等低频错误对应的异常激活特征。在监督微调阶段，可针对异常特征设计损失函数降低 badcase 频率；在强化学习阶段，可通过控制特征提高异常采样频率，增加学习奖励密度。

评估冗余度分析

通过对比不同评测集间的特征激活模式，Qwen-Scope 可量化评测集之间的冗余程度。Qwen 团队指出，部分常用评测集在激活特征上存在互相覆盖，导致重复评估，该工具可辅助挑选覆盖度更高、成本更低的测试样本。

Qwen-Scope 权重已上线 Hugging Face 与 ModelScope（魔搭）。可解释性工具与底座模型同步开源的做法，在国内大模型团队中较为少见，后续在第三方研究中的实际应用值得关注。

本文首发于 LLM 大模型邮报。

OpenAI 正式宣布 Codex Pets 宠物体验功能

MISTY — Sat, 02 May 2026 03:28:07 +0000

OpenAI 已在 Codex 应用中正式上线 Codex Pets 功能。根据 OpenAI Codex 官方设置文档，Pets 是一组可选的动画伙伴(optional animated companions for the app)，以悬浮覆盖层(floating overlay)形式存在，既承担陪伴角色，也作为 Codex 任务的实时状态指示器。用户可在 Settings 中前往 Appearance 并选择 Pets，挑选内置宠物或刷新本地自定义宠物，亦可通过 hatch-pet skill 创建专属宠物。

Codex Pets 是什么：Appearance 设置下的可选动画伙伴

根据官方文档，Codex Pets 的官方定义是**“optional animated companions for the app”(应用的可选动画伙伴)——意味着不启用不会影响 Codex 任何核心能力。该功能位于 Settings → Appearance 章节之下，与主题、配色、UI 字体、代码字体等外观配置属同一层级。在 Appearance 中选择 Pets，即可挑选一个内置宠物，或从本地 Codex home 目录刷新自定义宠物**(refresh custom pets from your local Codex home)。这里”local Codex home”的措辞点明了一个关键事实：自定义宠物以本地资产形式存在，而不是云端配置。

核心实用价值：跨应用悬浮的任务状态指示器

Codex Pets 看似装饰性，实则承担了状态指示器的实用角色。官方文档明确说明，Pets 悬浮覆盖层**“keeps active Codex work visible while you use other apps”——即在你切换到其他应用时依然保持 Codex 工作可见。覆盖层会反馈三类信息：当前活动的 thread、Codex 当前状态(running、waiting for input、ready for review 三种之一)，以及一段简短的进度提示**(short progress prompt)。这样开发者无需重新打开 thread 即可一眼看到变化(“glance at what changed without reopening the thread”)，对长任务执行场景极为友好。

三种等价切换方式：适配键盘党与鼠标党

官方为 Codex Pets 提供了三种功能等价的开关方式，以适应不同操作习惯。第一种是命令输入：在 composer(输入框)中直接键入 /pet，适合命令行习惯的开发者；第二种是设置面板按钮：进入 Settings → Appearance，点击 Wake Pet(唤醒)或 Tuck Away Pet(收起)，适合鼠标操作用户；第三种是快捷键命令菜单：按 Cmd+K(macOS)或 Ctrl+K(Windows / Linux)调出命令菜单后运行同名命令，效率最高。三种方式之间没有功能差异，可按场景灵活切换。

hatch-pet skill：创建自定义宠物的完整流程

若内置宠物不能满足需求，可通过 hatch-pet skill 创建自定义宠物，流程分三步。第一步，在 Codex 中运行安装命令：

$skill-installer hatch-pet

第二步，按 Cmd+K 或 Ctrl+K 打开命令菜单，选择 Force Reload Skills 重载 skills，确保 Codex 识别到新装的 hatch-pet。第三步，调用 hatch-pet 创建宠物：

$hatch-pet create a new pet inspired by my recent projects

官方示例提示语**“inspired by my recent projects”**暗示 hatch-pet 能结合用户上下文生成宠物，而非简单从模板中挑选。

本文首发于 LLM 大模型邮报。

Anthropic 测试代号 Jupiter V1 模型或将于 5 月 6 日大会公布

MISTY — Fri, 01 May 2026 04:54:57 +0000

据 TestingCatalog 报道，Anthropic 已对内部代号 Claude Jupiter V1 的新构建启动红队测试。该代号疑似遵循 Anthropic 此前以行星名称作为预发布安全测试标签的惯例，时间点临近 2026 年 5 月 6 日的 Code with Claude 开发者大会。这一观察构成了 Claude Jupiter V1 红队测试 曝光与 Code with Claude 大会的临近信号，但是否对应实际产品发布仍需以 Anthropic 官方公告为准。

内部代号命名规则与测试性质

Jupiter V1 仅为内部测试标识，据报道 Jupiter-v1-p 不会出现在公开 API 字符串或产品 UI 中。Anthropic 习惯在产品发布前使用行星名称（如 Neptune）标记安全测试阶段，这与公司早期披露的 Codename 命名惯例相符。红队测试本身是 Anthropic 责任扩展政策（Responsible Scaling Policy）下的常规步骤，要求任何前沿级模型部署前完成越狱探测与 Constitutional Classifier 压力测试，但这并不构成新模型必将发布的官方确认。

时间线对标与历史模式

Anthropic 将于 2026 年 5 月 6 日在旧金山举办 Code with Claude 开发者大会，伦敦与东京会议安排在稍后时间。根据 AiBattle 在 X 平台关于 Code with Claude 的爆料原帖，大会时间已确认为 2026 年 5 月 6 日。参考 2025 年 Neptune 代号的红队测试安排，同年 5 月中旬完成安全测试后即发布了 Claude 4 系列模型；Jupiter V1 当前的测试节奏与该模式相似。需指出的是，行星代号惯例与历史时间线吻合并不构成新模型必将发布的官方确认。

当前产品阵容留下的更新空间

Anthropic 当前公开模型阵容以 Opus 4.7 为旗舰，Sonnet 4.7 与 Haiku 4.7 尚未发布，留下中端与小型号位置。基于这一空缺，外界推测 Code with Claude 大会可能带来三种走向之一：4.7 系列在中小型号上的扩展、基于此前报道中提及的 Mythos（更早泄露的模型基础架构代号）的新一代模型，或介于两者之间的过渡更新。具体路径仍需以官方公告为准。

后续发布渠道的合理范围

若 Jupiter V1 最终对外发布，参考 Opus 4.7 此前的上线路径，新模型预计将在 Anthropic Platform、Claude Code 与 Claude 消费端应用同步推出。该判断属于基于历史模式的合理推断，并非官方时间表。读者在 5 月 6 日前应将所有相关信息视为待验证爆料。

Claude Jupiter V1 红队测试的曝光与 Code with Claude 大会的临近，构成一组可观察的时间线信号，但是否对应实际产品发布仍需以 Anthropic 官方公告为准。对中文开发者社区而言，值得关注的不止是是否有新模型发布，更包括 Sonnet 与 Haiku 中小型号是否在本轮一并刷新——这一点将直接影响 Claude Code、MCP 生态与本地集成方案的成本结构。

本文首发于 LLM 大模型邮报。

LLM 大模型邮报

Google 正在测试 Omni 视频模型 或将于 I/O 大会公布

Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向

OpenAI 发布 Codex 0.128.0 版本 支持持久化目标工作流

Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

CAISI 评测 DeepSeek V4 Pro：落后美国前沿模型8 个月，性价比突出

阿里开源 Qwen-Scope 可解释性工具 覆盖 7 个 Qwen3/3.5 模型

OpenAI 正式宣布 Codex Pets 宠物体验功能

Anthropic 测试代号 Jupiter V1 模型 或将于 5 月 6 日大会公布

Google 正在测试 Omni 视频模型或将于 I/O 大会公布

OpenAI 发布 Codex 0.128.0 版本支持持久化目标工作流

阿里开源 Qwen-Scope 可解释性工具覆盖 7 个 Qwen3/3.5 模型

Anthropic 测试代号 Jupiter V1 模型或将于 5 月 6 日大会公布