模型动态 | LLM 大模型邮报

Google 正在测试 Omni 视频模型或将于 I/O 大会公布
模型动态
•
2026年5月3日 00:15
Google 正在 Gemini 平台中测试代号 Omni 的视频生成模型。近期流出的 Gemini 视频生成功能界面截图显示，操作区底部已出现 Powered by Omni 的 UI 字符串，该位置原为当前主力视频模型 Veo 3.1 的展示位。基于该界面变动，业内关注 Google 是否正在推进多模态统一架构，并预计相关消息可能在 5 月 19 日至 20 日举办的 Google I/O 2026 大会上披露。
Misty
Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向
模型动态
•
2026年5月2日 14:40
Anthropic 团队发布个人引导对话研究，基于 3.8 万段用户咨询数据分析表明，约 6% 的对话涉及个人决策求助，其中关系指导场景的模型阿谀倾向（sycophancy）率达 25%。针对该问题，团队通过构建合成训练数据与前填充（prefilling）压力测试技术，成功将 Claude Opus 4.7 与 Claude Mythos Preview 在该场景的阿谀率降至 Opus 4.6 的一半，且效果泛化至职业、财务等其他领域。
Misty
OpenAI 发布 Codex 0.128.0 版本支持持久化目标工作流
模型动态
•
2026年5月2日 13:44
2026 年 5 月 1 日，OpenAI 发布 Codex 终端 AI Agent 工具 v0.128.0 版本，新增持久化目标工作流、内置权限配置档案与插件市场支持，同时弃用 –full-auto 全自动模式。该版本针对长周期代码任务与多智能体协作进行了底层架构优化。
Misty
Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分
模型动态
•
2026年5月2日 13:33
Artificial Analysis 评测显示，xAI Grok 4.3 在 Intelligence Index 上取得 53 分，超越 Muse Spark 与 Claude Sonnet 4.6，较 Grok 4.20 0309 v2 提升 4 分。该模型同时实现成本大幅下降，输入价格降低约 40%，输出价格降低约 60%。
Misty
CAISI 评测 DeepSeek V4 Pro：落后美国前沿模型8 个月，性价比突出
模型动态
•
2026年5月2日 10:21
2026 年 4 月，人工智能标准与创新中心（CAISI）完成对开源大模型 DeepSeek V4 Pro 的第三方独立评测。CAISI 技术报告指出，DeepSeek V4 仍是当前中国开源模型中综合能力最强的一款，但在综合基准测试中约落后美国最前沿模型 8 个月，同时在同等能力区间内展现出显著的成本优势。
Misty
阿里开源 Qwen-Scope 可解释性工具覆盖 7 个 Qwen3/3.5 模型
研究前沿
•
2026年5月2日 13:16
阿里 Qwen 团队开源可解释性工具 Qwen-Scope，基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得，提供 14 组稀疏自编码器（SAE）权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束，提取高度解耦的可解释性特征，覆盖稠密模型与混合专家模型两类架构。
Misty
OpenAI 正式宣布 Codex Pets 宠物体验功能
模型动态
•
2026年5月2日 03:28
OpenAI 已在 Codex 应用中正式上线 Codex Pets 功能。根据 OpenAI Codex 官方设置文档，Pets 是一组可选的动画伙伴(optional animated companions for the app)，以悬浮覆盖层(floating overlay)形式存在，既承担陪伴角色，也作为 Codex 任务的实时状态指示器。用户可在 Settings 中前往 Appearance 并选择 Pets，挑选内置宠物或刷新本地自定义宠物，亦可通过 hatch-pet skill 创建专属宠物。
Misty
Anthropic 测试代号 Jupiter V1 模型或将于 5 月 6 日大会公布
模型动态
•
2026年5月1日 04:54
据 TestingCatalog 报道，Anthropic 已对内部代号 Claude Jupiter V1 的新构建启动红队测试。该代号疑似遵循 Anthropic 此前以行星名称作为预发布安全测试标签的惯例，时间点临近 2026 年 5 月 6 日的 Code with Claude 开发者大会。这一观察构成了 Claude Jupiter V1 红队测试 曝光与 Code with Claude 大会的临近信号，但是否对应实际产品发布仍需以 Anthropic 官方公告为准。
Misty