LLM 大模型邮报
  • 首页
  • 工程实践
  • 教程指南
  • 行业观察
  • 模型动态
  • 研究前沿

    分类: 模型动态


    LLMPOSTS.com 模型动态分类追踪大模型生态的发布动向:覆盖 GPT、Claude、Gemini、Qwen、DeepSeek、Llama、Mistral 等主流模型家族的版本更新、参数规格、上下文窗口、benchmark 跑分与量化变体。涵盖 OpenAI、Anthropic、谷歌、Meta、阿里、字节、深度求索等厂商的官方发布、内部代号爆料与红队测试动态,为中文 AI 从业者提供第一时间的中文化技术解读与对比参考。


    全部分类

      • 模型动态 (8)‍•
      • 教程指南 (4)‍•
      • 工程实践 (3)‍•
      • 研究前沿 (1)
    • Google 正在测试 Omni 视频模型 或将于 I/O 大会公布

      Google 正在测试 Omni 视频模型 或将于 I/O 大会公布

      • 模型动态
      • •
      • 2026年5月3日 00:15
      Google 正在测试 Omni 视频模型 或将于 I/O 大会公布

      Google 正在 Gemini 平台中测试代号 Omni 的视频生成模型。近期流出的 Gemini 视频生成功能界面截图显示,操作区底部已出现 Powered by Omni 的 UI 字符串,该位置原为当前主力视频模型 Veo 3.1 的展示位。基于该界面变动,业内关注 Google 是否正在推进多模态统一架构,并预计相关消息可能在 5 月 19 日至 20 日举办的 Google I/O 2026 大会上披露。

      Misty
      Misty
    • Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向

      Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向

      • 模型动态
      • •
      • 2026年5月2日 14:40
      Anthropic 优化 Opus 4.7 降低关系引导场景阿谀倾向

      Anthropic 团队发布个人引导对话研究,基于 3.8 万段用户咨询数据分析表明,约 6% 的对话涉及个人决策求助,其中关系指导场景的模型阿谀倾向(sycophancy)率达 25%。针对该问题,团队通过构建合成训练数据与前填充(prefilling)压力测试技术,成功将 Claude Opus 4.7 与 Claude Mythos Preview 在该场景的阿谀率降至 Opus 4.6 的一半,且效果泛化至职业、财务等其他领域。

      Misty
      Misty
    • OpenAI 发布 Codex 0.128.0 版本 支持持久化目标工作流

      OpenAI 发布 Codex 0.128.0 版本 支持持久化目标工作流

      • 模型动态
      • •
      • 2026年5月2日 13:44
      OpenAI 发布 Codex 0.128.0 版本 支持持久化目标工作流

      2026 年 5 月 1 日,OpenAI 发布 Codex 终端 AI Agent 工具 v0.128.0 版本,新增持久化目标工作流、内置权限配置档案与插件市场支持,同时弃用 –full-auto 全自动模式。该版本针对长周期代码任务与多智能体协作进行了底层架构优化。

      Misty
      Misty
    • Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

      Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

      • 模型动态
      • •
      • 2026年5月2日 13:33
      Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

      Artificial Analysis 评测显示,xAI Grok 4.3 在 Intelligence Index 上取得 53 分,超越 Muse Spark 与 Claude Sonnet 4.6,较 Grok 4.20 0309 v2 提升 4 分。该模型同时实现成本大幅下降,输入价格降低约 40%,输出价格降低约 60%。

      Misty
      Misty
    • CAISI 评测 DeepSeek V4 Pro:落后美国前沿模型8 个月,性价比突出

      CAISI 评测 DeepSeek V4 Pro:落后美国前沿模型8 个月,性价比突出

      • 模型动态
      • •
      • 2026年5月2日 10:21
      CAISI 评测 DeepSeek V4 Pro:落后美国前沿模型8 个月,性价比突出

      2026 年 4 月,人工智能标准与创新中心(CAISI)完成对开源大模型 DeepSeek V4 Pro 的第三方独立评测。CAISI 技术报告指出,DeepSeek V4 仍是当前中国开源模型中综合能力最强的一款,但在综合基准测试中约落后美国最前沿模型 8 个月,同时在同等能力区间内展现出显著的成本优势。

      Misty
      Misty
    • Missing image

      阿里开源 Qwen-Scope 可解释性工具 覆盖 7 个 Qwen3/3.5 模型

      • 研究前沿
      • •
      • 2026年5月2日 13:16
      Missing image

      阿里 Qwen 团队开源可解释性工具 Qwen-Scope,基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得,提供 14 组稀疏自编码器(SAE)权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束,提取高度解耦的可解释性特征,覆盖稠密模型与混合专家模型两类架构。

      Misty
      Misty
    • OpenAI 正式宣布 Codex Pets 宠物体验功能

      OpenAI 正式宣布 Codex Pets 宠物体验功能

      • 模型动态
      • •
      • 2026年5月2日 03:28
      OpenAI 正式宣布 Codex Pets 宠物体验功能

      OpenAI 已在 Codex 应用中正式上线 Codex Pets 功能。根据 OpenAI Codex 官方设置文档,Pets 是一组可选的动画伙伴(optional animated companions for the app),以悬浮覆盖层(floating overlay)形式存在,既承担陪伴角色,也作为 Codex 任务的实时状态指示器。用户可在 Settings 中前往 Appearance 并选择 Pets,挑选内置宠物或刷新本地自定义宠物,亦可通过 hatch-pet skill 创建专属宠物。

      Misty
      Misty
    • Anthropic 测试代号 Jupiter V1 模型 或将于 5 月 6 日大会公布

      Anthropic 测试代号 Jupiter V1 模型 或将于 5 月 6 日大会公布

      • 模型动态
      • •
      • 2026年5月1日 04:54
      Anthropic 测试代号 Jupiter V1 模型 或将于 5 月 6 日大会公布

      据 TestingCatalog 报道,Anthropic 已对内部代号 Claude Jupiter V1 的新构建启动红队测试。该代号疑似遵循 Anthropic 此前以行星名称作为预发布安全测试标签的惯例,时间点临近 2026 年 5 月 6 日的 Code with Claude 开发者大会。这一观察构成了 Claude Jupiter V1 红队测试 曝光与 Code with Claude 大会的临近信号,但是否对应实际产品发布仍需以 Anthropic 官方公告为准。

      Misty
      Misty

    网站技术

    • Hugo
    • Cloudflare

    关注我们

    • XX(Twitter)
    • Sina Weibo微博
    • TelegramTelegram
    • RSSRSS

    友情链接

    • WinDiscover

    © 2026 LLM大模型邮报 · 保留所有权利