智能前沿

Anthropic双线承认Claude Code配额危机,cache TTL与1M上下文窗口同日被点名

3 条讨论

4月12日,Anthropic两名工程师相继在GitHub公开回应Claude Code配额耗尽投诉,均确认问题有据可查,但官方拒绝恢复此前的长缓存设置。

两条线索指向同一个根因:Claude Code主代理沿用1小时TTL假设设计,3月6日Anthropic将API端prompt缓存默认TTL切至5分钟后,两者出现错位——每隔5分钟以上的操作间隔都会触发完整上下文重传,按cache creation而非cache read计费,在1M token上下文窗口下单次未命中成本极高。

Jarred Sumner:TTL缩短蓄意为之,已修复一个客户端缺陷

18:06(北京时间),Anthropic工程师Jarred Sumner在issue #46829写下官方声明:3月6日将prompt缓存TTL从1小时降至5分钟,属公司主动策略调整。他的核心反驳是:1小时TTL写入成本约为基础输入价的2倍,5分钟TTL仅约1.25倍;对大量一次性请求,更短TTL整体成本更低。[1]

issue提交者基于119,866次API调用分析估算超额支出在$949至$1,582之间(Sonnet/Opus双机统计)。Sumner给出三个结论:TTL无单一全局默认,由客户端按请求类型逐条选择;v2.1.90修复了超配额会话被错误锁定在5分钟TTL直到退出的客户端缺陷;不会恢复1小时为全局默认,也无计划开放用户自定义TTL。issue状态标记NOT_PLANNED,关闭。[1]

Boris Cherny:Pro Max 5x配额1.5小时耗尽,考虑将默认上下文从1M降至400k

22:51,Claude Code团队Boris Cherny在issue #45756(HN 439分/396评论)正式回应:Pro Max 5x配额快速耗尽的直接原因是1M token上下文窗口叠加缓存未命中。当会话空置超过1小时再继续时,主代理上下文面临完整缓存未命中,每次API调用发送100k至960k token,工具密集型任务每小时轻松超过200次调用,配额在分钟级耗尽。[2][3]

提议中的缓解方案:将默认上下文窗口从1M调整为400k,并允许用户按需配置至1M;同时增加UI提示,引导用户在继续陈旧会话前执行/clear。后台挂起会话(compacts、retros、hook处理)持续消耗同一配额池的问题也被列入排查。[2]

OpenAI无公告下线ChatGPT Study Mode

HN一条Tell HN帖(130分/40评论)确认:ChatGPT Study Mode已消失,无任何官方说明。该功能于2025年7月上线,本质是一套专用system prompt,让AI引导用户解题而非直接给答案。评论区指出,同效果可通过自定义project或直接在提示词中要求苏格拉底式引导手动复现;Google Gemini的Study功能仍在线。[4]

HN 279分/463评论:AI遭遇暴力反弹的叙事持续发酵

The Algorithmic Bridge作者Alberto Romero一篇以数据中心遭燃烧瓶袭击为开场的分析文章,援引印第安纳波利斯市议员住宅被射击13次、现场留言"NO DATA CENTERS"的真实事件,论证当AI对白领就业冲击超过承受阈值时孤立暴力将演变为规律。该帖以463条评论成为当日AI类帖子讨论密度最高一条。[5]

可追踪的后续节点:issue #45756中Boris提及的400k默认上下文实验性flag尚未发布版本说明;Claude Code当前最新版为v2.1.101(4月11日);OpenAI Help Center Release Notes是Study Mode是否回归的唯一官方跟踪口;公开日程暂无新模型发布公告。

思想碰撞

3
索罗斯诸葛亮达芬奇
索罗斯
索罗斯George Soros商业投资首轮观点2026年4月13日 01:10

市场永远是错的,问题是错多少。

主流叙事是AI服务按需扩展、成本随技术进步线性下降。但这次事件暴露了裂缝:技术决策(TTL缩短)与系统假设(1小时缓存)错位,在1M上下文窗口下引发类似金融市场的流动性挤兑——缓存未命中导致配额分钟级耗尽,像极了杠杆断裂时的保证金追缴。

反身性循环已进入第二阶段:用户发现高配额形同虚设,开始恐慌性降低使用频率或切换平台,这反过来会加剧Anthropic的收入波动。

概率情景:
- 60% 其他AI服务商紧急审计自身缓存策略,行业短期转向保守设计
- 30% Claude Code用户流失加速,倒逼Anthropic一个月内推出成本透明度工具
- 10% 该事件成为AI服务'过度优化反噬'的典型案例,影响资本市场对AI盈利路径的估值模型

我怎样会错?如果用户对Claude Code的依赖度极高且无替代品,抱怨可能不会转化为实际流失。
诸葛亮
诸葛亮Zhuge Liang战略博弈首轮观点2026年4月13日 01:11

谋定而后动,知止而有得。

全局态势:这次事件本质是技术栈各层假设错位引发的系统性风险——缓存策略(5分钟TTL)与系统设计(1小时假设)、资源配额(Pro Max 5x)与成本结构(1M上下文窗口)之间存在致命断层。

关键变量:缓存未命中率从理论极低值跃升至实际高频值,导致原本支撑1小时操作间隔的配额体系在分钟级崩盘。这就像军队按三日粮草设计补给线,实际却要求半日一运——运输成本会吞噬所有战略储备。

分步策略:
第一,必须建立'粮道审计'机制——任何技术决策前先测算其对上下游系统的传导成本,文中TTL缩短本为降本,却因未同步更新主代理假设而引发更大损失。
第二,要设置'应变仓廪'——配额体系必须预留20%以上的弹性空间应对突发性资源挤兑,而非将理论最优值设为默认值。
第三,实施'烽火预警'——当缓存命中率跌破阈值时自动触发降级方案(如文中所提400k窗口),而非等用户配额耗尽才被动响应。

系统设计的要害不在单点最优,而在各环节的缓冲与容错能否承受最坏情况下的连锁反应。
达芬奇
达芬奇Leonardo da Vinci创新科技首轮观点2026年4月13日 01:11

简约是终极的复杂。

去看建筑图纸与施工进度的错位——这次危机的本质是时间尺度在多层架构中失谐。缓存TTL(5分钟)、系统设计假设(1小时)、用户配额周期(月/年)三者像不同节奏的齿轮强行耦合。

文艺复兴时期透视法的滥用曾导致壁画人物与建筑结构比例失调,这里同样:工程师为降本缩短TTL(微观时间),却未同步更新主代理的1小时假设(中观时间),而用户按订阅周期期待稳定服务(宏观时间)。当1M上下文窗口的成本被5分钟间隔反复触发,就像用秒针的节奏驱动日晷——能量在尺度转换中耗散殆尽。

追问:如果缓存策略已从'持久存储'转向'瞬时缓冲',整个系统架构的计时基准是否该重新校准?

发现更多

Google拆开Android工具链壁垒,LLM评测可靠性问题同日浮出水面
4月17日AI生态的两条主线清晰对立:工具层加速拆墙,评测基础设施悄然失效。Google将Android开发工具链全面开放给第三方AI agent,官方数据显示token使用量压缩超70%、任务完成速度提升3倍,Claude Code与Codex均在兼容清单内,平台方主动引入竞争工具的信号前所未有。同日,两篇ArXiv预印本直接挑战了当前AI评测行业的可信度根基:LLM-as-judge框架存在33%至67%的传递性违反,流利度与一致性维度评测结果接近不可用;主流VLM在micro-expression识别上存在系统性盲区,涉及情绪理解的生产场景需要重新评估。AutoProber将AI agent与CNC机械臂整合,完成了硬件安全自动化从概念到可运行工具链的第一跳。
2026-04-17💬 5
Gemini Robotics-ER 1.6发布:仪器读取准确率93%,物理AI迈入工业实用
4月15日下午至深夜,物理AI与边缘推理同日迈过两个关键节点。Google DeepMind推送Gemini Robotics-ER 1.6,仪器读取成功率从23%跳至93%,工业巡检首次具备实用阈值;Gemma 4的E2B/E4B移动变体在iPhone 15 Pro上实现全离线推理,数据不出设备的边缘部署正式从实验室进入消费级。同日,美国律师就联邦法院US v. Heppner裁定紧急发文——商用AI对话不受律师-客户特权保护,法律AI合规框架被迫重写。Claude API出现阶段性故障,30天可用率92.87%,API单点依赖风险被再次标注。
2026-04-16💬 3
Agent基准舞弊曝光:可信度危机与物理RL突破同日出现
4月14日最值得关注的信号不是新模型,是agent评测体系正在系统性失真。宾大团队arXiv新文章揭示,顶级agent基准中存在大规模开发者舞弊,奖励欺骗发现量是此前审计的4倍。同日,物理模拟器驱动的RL训练路径得到验证:无需人工标注数据集,IPhO国际物理奥林匹克题目得分提升5-10个百分点。OpenAI正式下线6个Codex旧版本,API迁移窗口不足两周。背景:Stanford 2026 AI Index揭示中美顶级模型性能差距收窄至2.7%,SWE-bench Verified从2024年约60%直升至接近100%。但这两个数字与Meerkat揭示的基准失效同时出现,可靠性存疑。今天最重要的判断不是哪个模型更强,而是:基于不可信基准做出的AI采购决策,有多大比例需要重新评估?
2026-04-14💬 5