LLM 大模型邮报

OpenRouter 响应缓存功能上线测试与代理重试零成本

MISTY — Sun, 03 May 2026 12:23:28 +0000

OpenRouter 正式发布响应缓存（Response Caching）功能。启用后，相同 API 请求命中缓存将直接返回结果，耗时降至 80 到 300 毫秒，且不消耗 token 与计费。该功能已由开源社区开发者 Teknium 确认集成至 Hermes Agent 中。

OpenRouter 响应缓存的工作原理与性能表现

响应缓存位于模型提供商前端。当用户发送带有缓存标志的请求时，系统会将请求体、模型标识、API 密钥及流模式哈希为唯一的缓存键。若此前存在相同请求且未过期，系统直接从边缘节点返回结果，不经过模型提供商，不产生 token 消耗。

缓存查找平均耗时 4 毫秒。完整流或非流响应均能在 80 到 300 毫秒内返回，主体耗时集中在序列化与网络传输。作为对比，同一请求在无缓存状态下，Gemini 2.5 Flash 模型响应约需 1.3 秒，Kimi K2.6 需 4.6 秒，GPT-5.5 需 9.1 秒。OpenRouter 官方博客指出，命中缓存的调用不扣减任何请求或完成 token。Hermes Agent 项目更新确认已合并该缓存逻辑。

核心适用场景与提示词缓存的区别

该功能主要覆盖三大高频场景。首先是智能体重试，当工作流中途失败时，从初始步骤重试，已缓存的中间步骤可即时返回，仅对新增工作付费。其次是自动化测试套件，大语言模型驱动的重跑测试在填充缓存后实现完全确定性且零成本。最后是重复上下文处理，向同一模型重复发送包含系统提示与用户输入的固定请求时，首次调用后后续调用免单。

需注意的是，响应缓存独立于许多提供商原生的提示词缓存（Prompt Caching）。后者仅通过共用前缀缩短系统提示的计费长度，而响应缓存直接跳过模型调用，返回完整响应。用户可通过 HTTP 响应头 X-OpenRouter-Cache-Status: HIT 或 MISS 监控缓存效能，并结合 X-OpenRouter-Cache-Age 与 X-OpenRouter-Cache-TTL 查看存储时长。

配置方式与 API 端点支持范围

启用方式分为两种。用户可在每次 API 调用时添加 X-OpenRouter-Cache: true 头部，或在全局预设配置中设置 cache_enabled: true。缓存保留时间由 X-OpenRouter-Cache-TTL 控制，范围 1 秒至 24 小时（默认 5 分钟）。若需针对特定请求强制刷新，可发送 X-OpenRouter-Cache-Clear: true 头部。

当前功能处于 Beta 阶段。缓存基于 API 密钥隔离，不同密钥（即使属于同一账户）之间不共享缓存条目。支持端点覆盖 /chat/completions、/responses、/messages 与 /embeddings。传统 /completions 端点、音频接口、/rerank 及视频生成接口暂不支持。值得注意的是，内部处理的大型多模态文件（如超大尺寸图像或音视频附件）无法纳入缓存计算，标准尺寸的多模态输入仍可正常缓存。

OpenRouter 的响应缓存机制为智能体编排与高频评测任务提供了显著的链路优化方案。在 token 成本持续受到关注的环境下，该功能有望成为构建高容错性大语言模型应用的标准基础设施。具体性能表现与端点扩展节奏仍需观察 Beta 阶段的实际运行数据。

本文首发于 LLM 大模型邮报。

OpenAI Codex 更新：引入动画宠物与配置自动导入功能

MISTY — Sun, 03 May 2026 00:14:43 +0000

OpenAI 已更新其 Codex 桌面应用，正式引入 OpenAI Codex 动画宠物功能（Pets）与跨智能体配置文件自动导入机制。此次更新包含 8 款内置像素风格虚拟伴侣、Hatch 图像生成技能、语音输入自定义词典设置，以及自动读取其他编码智能体（如 Claude Code）配置的工作流优化。该版本迭代旨在降低多工具切换摩擦，同时推动 Codex 向桌面级全栈开发环境演进。

OpenAI Codex 动画宠物功能交互机制与社区生态

Codex 此次更新内置了 8 款像素风格动画宠物（Pets），这些虚拟伴侣可作为覆盖层悬浮于桌面顶层。即使在 Codex 窗口最小化时，Pets 仍保持可见，并通过短时消息气泡同步后台执行状态。用户可通过 /pet 指令召唤或隐藏宠物；当宠物在任务运行中发出提示时，点击即可打开回复路径，实现与智能体的双向交互。配合内置的 Hatch 技能，用户可上传任意图像将其转化为可交互动画宠物，文件将保存至 Codex 本地主目录以供打包分享。据 TestingCatalog 在 X 平台发布的推文，社区在功能上线后迅速响应，PetShare 等第三方分享目录于数小时内涌现，大量用户基于个人头像生成并分享定制宠物。

配置文件自动导入与跨工具工作流优化

同次更新还包含了可能具备更高长期实用价值的工具链改进。Codex 现已支持自动检测并导入由其他编码智能体遗留的配置文件，例如 Claude Code 的 CLAUDE.md。导入后，插件设置、项目规范与自定义规则可无缝继承，无需人工重写。根据 TestingCatalog 记录的开发者体验反馈，该机制在应用启动时将自动扫描新配置文件并提示导入。对于需要跨平台规避访问限制或进行多智能体并行测试的开发者而言，配置互通大幅降低了任务中途切换工具的操作成本。

语音词典优化与桌面超级应用定位

在桌面应用体验重塑方面，新发布的设置面板引入了语音输入自定义词典功能。用户可预先载入高频缩写与个人术语，防止语音引擎将其错误转写，从而缩短语音交互中的高频纠错时间。综合各项更新，OpenAI 正在将 Codex 的战略定位从单纯的编码指令中心，转向更具黏性的桌面级超级应用（Super-app）。结合此前报道中的 Atlas 算力布局，引入拟人化交互覆盖层、跨智能体配置可移植性以及语音辅助工具，反映出 OpenAI 将“体验趣味性”与“核心能力”置于同等优先级的战略路径。这一方向是否能在生产力场景中建立长期壁垒，仍有待市场验证。

本文首发于 LLM 大模型邮报。

OpenAI 发布 Claude Code Codex 插件支持多模式代码审查与任务委托

MISTY — Thu, 02 Apr 2026 08:25:57 +0000

OpenAI 正式发布开源插件 codex-plugin-cc，允许 Claude Code 用户无缝调用本地 Codex 进行代码审查、对抗审查与任务委托。该插件基于 Apache-2.0 许可证发布，仓库已更新至 v1.0.4，为开发者提供了在不切换终端的前提下接入另一套代码引擎的方案。

插件架构与无状态代理原理

codex-plugin-cc 的核心定位是工作流集成器而非独立运行时。插件通过调用本地已安装的 Codex CLI 与 App Server 完成操作代理，直接复用用户当前的身份认证状态、仓库环境检查出与 MCP 配置。这种架构避免了重复安装与额外登录流程，使得在 Claude Code 中调用 Codex 时的环境感知保持一致。

Claude Code Codex 插件核心命令与审查场景

插件提供三个核心子命令匹配不同工程阶段。

/codex:review 执行标准只读代码审查，输出质量与 Codex 内直接交互一致。该命令默认支持只读模式，不会执行代码修改。适用于未提交改动或对比分支的差异审查，可指定 –base 进行分支对比。

/codex:adversarial-review 为可引导的对抗性审查。插件允许在命令后附加 focus 文本，引导 Codex 针对特定风险点（如认证逻辑、数据安全、回滚策略、竞态条件等）发起压力测试。该命令适合上线前的高优先级审查，用于验证设计取舍与隐藏假设。

/codex:rescue 用于任务委托，支持调查 Bug、尝试修复或接管卡断的对话线程。该命令支持后台运行与断点续传，开发者可通过指定模型（如 gpt-5.4-mini 或 spark）与推理强度（medium/high）控制成本与速度。未指定参数时，Codex 自动选择默认配置。

所有耗时较长的任务推荐配置为后台执行，配合 /codex:status、/codex:result 与 /codex:cancel 管理进度与终止状态。

环境依赖与配置规则

插件运行依赖两项必要条件：ChatGPT 订阅（含免费版）或 OpenAI API Key，以及 Node.js 18.18 及以上版本。

安装后需执行 /codex:setup 校验环境，缺失时提供一键安装引导。配置文件沿袭 Codex 原生规则，支持用户级 ~/.codex/config.toml 与项目级 .codex/config.toml。开发者可在项目中配置默认模型与推理策略，例如强制使用 gpt-5.4-mini 配合 high 强度，配置项在受信任的项目目录下自动加载。

可配置审查门控的潜在风险

插件提供 –enable-review-gate 选项，启用后会在 Claude Code 会话准备退出前触发 Stop Hook，强制执行一轮针对性审查。若审查发现异常，则阻断退出流程。

OpenAI 官方明确警告该机制存在工程副作用：可能引发长时间运行的 Claude 与 Codex 循环对话，消耗大量可用额度。官方建议仅在实际监控会话的前提下启用，并需自行平衡自动化拦截与操作效率。

codex-plugin-cc 的发布标志着双智能体（Dual-Agent）协作策略正在进入工程化集成阶段。开发者可以通过单一终端编排两套代码引擎，利用 Claude 的上下文理解能力与 Codex 的本地执行环境形成互补。对于需要高频代码审查与后台任务委托的工作流而言，该方案提供了低延迟的串联路径；但配置审查门控时仍需控制边界，避免资源消耗失控。

本文首发于 LLM 大模型邮报。

LLM 大模型邮报

OpenRouter 响应缓存功能上线 测试与代理重试零成本

OpenAI Codex 更新：引入动画宠物与配置自动导入功能

OpenAI 发布 Claude Code Codex 插件 支持多模式代码审查与任务委托

OpenRouter 响应缓存功能上线测试与代理重试零成本

OpenAI 发布 Claude Code Codex 插件支持多模式代码审查与任务委托