Anthropic双线承认Claude Code配额危机,cache TTL与1M上下文窗口同日被点名
4月12日,Anthropic两名工程师相继在GitHub公开回应Claude Code配额耗尽投诉,均确认问题有据可查,但官方拒绝恢复此前的长缓存设置。
两条线索指向同一个根因:Claude Code主代理沿用1小时TTL假设设计,3月6日Anthropic将API端prompt缓存默认TTL切至5分钟后,两者出现错位——每隔5分钟以上的操作间隔都会触发完整上下文重传,按cache creation而非cache read计费,在1M token上下文窗口下单次未命中成本极高。
Jarred Sumner:TTL缩短蓄意为之,已修复一个客户端缺陷
18:06(北京时间),Anthropic工程师Jarred Sumner在issue #46829写下官方声明:3月6日将prompt缓存TTL从1小时降至5分钟,属公司主动策略调整。他的核心反驳是:1小时TTL写入成本约为基础输入价的2倍,5分钟TTL仅约1.25倍;对大量一次性请求,更短TTL整体成本更低。[1]
issue提交者基于119,866次API调用分析估算超额支出在$949至$1,582之间(Sonnet/Opus双机统计)。Sumner给出三个结论:TTL无单一全局默认,由客户端按请求类型逐条选择;v2.1.90修复了超配额会话被错误锁定在5分钟TTL直到退出的客户端缺陷;不会恢复1小时为全局默认,也无计划开放用户自定义TTL。issue状态标记NOT_PLANNED,关闭。[1]
Boris Cherny:Pro Max 5x配额1.5小时耗尽,考虑将默认上下文从1M降至400k
22:51,Claude Code团队Boris Cherny在issue #45756(HN 439分/396评论)正式回应:Pro Max 5x配额快速耗尽的直接原因是1M token上下文窗口叠加缓存未命中。当会话空置超过1小时再继续时,主代理上下文面临完整缓存未命中,每次API调用发送100k至960k token,工具密集型任务每小时轻松超过200次调用,配额在分钟级耗尽。[2][3]
提议中的缓解方案:将默认上下文窗口从1M调整为400k,并允许用户按需配置至1M;同时增加UI提示,引导用户在继续陈旧会话前执行/clear。后台挂起会话(compacts、retros、hook处理)持续消耗同一配额池的问题也被列入排查。[2]
OpenAI无公告下线ChatGPT Study Mode
HN一条Tell HN帖(130分/40评论)确认:ChatGPT Study Mode已消失,无任何官方说明。该功能于2025年7月上线,本质是一套专用system prompt,让AI引导用户解题而非直接给答案。评论区指出,同效果可通过自定义project或直接在提示词中要求苏格拉底式引导手动复现;Google Gemini的Study功能仍在线。[4]
HN 279分/463评论:AI遭遇暴力反弹的叙事持续发酵
The Algorithmic Bridge作者Alberto Romero一篇以数据中心遭燃烧瓶袭击为开场的分析文章,援引印第安纳波利斯市议员住宅被射击13次、现场留言"NO DATA CENTERS"的真实事件,论证当AI对白领就业冲击超过承受阈值时孤立暴力将演变为规律。该帖以463条评论成为当日AI类帖子讨论密度最高一条。[5]
可追踪的后续节点:issue #45756中Boris提及的400k默认上下文实验性flag尚未发布版本说明;Claude Code当前最新版为v2.1.101(4月11日);OpenAI Help Center Release Notes是Study Mode是否回归的唯一官方跟踪口;公开日程暂无新模型发布公告。
“谋定而后动,知止而有得。”
关键变量:缓存未命中率从理论极低值跃升至实际高频值,导致原本支撑1小时操作间隔的配额体系在分钟级崩盘。这就像军队按三日粮草设计补给线,实际却要求半日一运——运输成本会吞噬所有战略储备。
分步策略:
第一,必须建立'粮道审计'机制——任何技术决策前先测算其对上下游系统的传导成本,文中TTL缩短本为降本,却因未同步更新主代理假设而引发更大损失。
第二,要设置'应变仓廪'——配额体系必须预留20%以上的弹性空间应对突发性资源挤兑,而非将理论最优值设为默认值。
第三,实施'烽火预警'——当缓存命中率跌破阈值时自动触发降级方案(如文中所提400k窗口),而非等用户配额耗尽才被动响应。
系统设计的要害不在单点最优,而在各环节的缓冲与容错能否承受最坏情况下的连锁反应。
“简约是终极的复杂。”
文艺复兴时期透视法的滥用曾导致壁画人物与建筑结构比例失调,这里同样:工程师为降本缩短TTL(微观时间),却未同步更新主代理的1小时假设(中观时间),而用户按订阅周期期待稳定服务(宏观时间)。当1M上下文窗口的成本被5分钟间隔反复触发,就像用秒针的节奏驱动日晷——能量在尺度转换中耗散殆尽。
追问:如果缓存策略已从'持久存储'转向'瞬时缓冲',整个系统架构的计时基准是否该重新校准?
“市场永远是错的,问题是错多少。”
反身性循环已进入第二阶段:用户发现高配额形同虚设,开始恐慌性降低使用频率或切换平台,这反过来会加剧Anthropic的收入波动。
概率情景:
- 60% 其他AI服务商紧急审计自身缓存策略,行业短期转向保守设计
- 30% Claude Code用户流失加速,倒逼Anthropic一个月内推出成本透明度工具
- 10% 该事件成为AI服务'过度优化反噬'的典型案例,影响资本市场对AI盈利路径的估值模型
我怎样会错?如果用户对Claude Code的依赖度极高且无替代品,抱怨可能不会转化为实际流失。