凌晨突发!Anthropic神级模型向你开放,但不是完整版|分类器|anthropic|代码|调用
出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
神秘的Mythos级模型,终于向普通用户开放了。
但不是完整版。
北京时间6月10日凌晨,Anthropic发布Claude Fable 5。这是它第一次把Mythos级能力推向公众。与此同时,真正限制更少的Claude Mythos 5,只发给了一小撮网络安全合作伙伴,以及少数生物医学研究者。
![]()
普通用户拿到的,是一个被严格划定了使用边界的版本。
触线之后,Fable 5会沉默,然后把问题交给上一代模型Claude Opus 4.8。
也就是说,在某些场景里,你以为自己正在使用Anthropic最强模型,拿到的却可能是上一代模型的回答。
Anthropic说,超过95%的对话不会触发拦截。但对剩下那不到5%的人来说,他们付的是最强模型的钱,拿到的是上一代的服务。
它可能是你现在能公开用到的最强AI。
但Anthropic不敢把完整的它交到你手里。
一、有多强
先看数字和用户评价。
Anthropic宣称Fable 5在各项基准测试中远超竞品:SWE-bench Pro(软件工程基准测试)80%,Terminal-Bench(终端基准测试)88%……
![]()
Stripe在内部测试中发现,Fable 5把一次5000万行Ruby代码库的迁移工作,从"一个团队干两个月"压缩到了一天。
Cursor CEO迈克尔·特鲁尔(Michael Truell)说,Fable 5在他们的基准测试上是"最先进模型","打开了一类此前的模型完全够不到的长周期问题。"
GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)说得更直接:"它处理复杂、长周期编码任务的自主性和可靠性,超过了此前的任何基准。"
但不是只有代码。
视觉任务上,Fable 5用纯截图打通了Pokémon FireRed,没有地图,没有导航,没有隐藏游戏状态。开发者 @chetaslua在X上放出通关延时视频,配文就一句:"卧槽!!!Claude Fable 5仅凭视觉就通关了《宝可梦:火红》。"此前所有Claude模型都需要额外工具加持才能勉强玩下去,Fable 5只需要看着屏幕。
![]()
长上下文任务中,研究人员让Fable 5玩卡牌游戏Slay the Spire,给它一个文件做持久笔记。结果:Fable 5打到最终幕(Final Act)的频次是Opus 4.8的三倍。
药物设计上,Mythos 5把某些环节加速了大约10倍。Anthropic内部的蛋白质设计专家发现,Mythos 5在没有人辅助的情况下,14个蛋白质靶点中9个产出了高质量候选药物,表现持平甚至超过熟练的人类操作员。
基因组学研究中,Mythos 5在超过一周的大半自主工作中,收集了涵盖138个动物物种、数百万个细胞的单细胞数据,设计并训练了一个定制机器学习模型。这个模型比一篇Science论文中的模型小100倍,性能却反超了它。
几乎每一块基准测试,都是新的SOTA。
最近刚刚加入Anthropic的OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)在社交媒体X上写道:"这是和去年11月Claude 4.5同等级别的重大版本跃迁。"
![]()
他说这是他第一次觉得"完全不去看代码"这个念头不是玩笑,而是真实的诱惑。他补了一句:"解放你的心智。我对自己软件的需求正在大幅增长。你可以要求任何东西,解释器、可视化工具、仪表盘、定制的一次性应用、把测试套件扩大10倍、自动优化代码、运行巨大的研究项目并用定制HTML输出结果,任何东西。"
AI工作台公司Hex在第三方测试中发现,Fable 5是第一个在他们核心分析基准上拿到90% 分数的模型。"在最难的问题上,它展示了很强的判断力和对细微差别的关注。"
低代码平台Base44说Fable 5在"一次性生成完整应用"上明显更强,工具调用表现出色。AI智能体平台Genspark说Fable 5在他们评估中击败了所有其他模型,在UI设计和游戏编码上尤其突出。
购物返利平台Rakuten的评语更精炼:"它在最高努力级别上会自我反思并验证自己的工作。对我们来说,这就是让高度自主运营成为可能的原因,额外的思考是值得花钱的。"
二、三道锁是怎么锁的
Mythos级模型的网络能力是真实的。它能发现漏洞,写出 exploit,执行侦察和横向移动。今年4月 Anthropic首次发布 Mythos Preview时,只开放给了一小群网络安全合作伙伴,理由是这些能力一旦落入攻击者手中,会造成真实伤害。
这次 Fable 5能向公众开放,靠的是一套"安全分类器",独立运行的 AI,实时检测你的提问,触线就转给 Opus 4.8。
![]()
三道锁,分得清清楚楚。
第一道:网络安全。 从漏洞发现到攻击规划,全部拦截。Anthropic投入了一千多小时的漏洞赏金测试,没有找到任何通用越狱。外部红队组织也没找到。一位外部合作伙伴的测试结论是:Fable 5对有害网络查询的防护是所有测试模型中"最坚固的",零合规,不管有没有用30种公开越狱技术中的任何一种。
第二道:生物学和化学。 这一刀最宽,也最受争议。Anthropic的措辞是:"在大部分与生物学和化学相关的请求上,Fable 5会回退到 Opus 4.8。"
为什么要拦生物学?因为 Mythos 级模型在基因治疗上的能力,反过来也意味着制造危险病毒的能力。Anthropic 测试了 Mythos 5在 AAV 病毒设计上的表现,它只靠生物学推理,就超过了专门的蛋白质语言模型。这既是巨大的正向潜力,也是实打实的双重用途风险。
但问题是:为了安全,这一刀砍得太宽了。
第三道:蒸馏。 检测到有人试图用 Fable 5的输出训练竞品模型时,直接回退到 Opus 4.8。
前两道锁是安全考量,防止模型能力被用于攻击或生物武器。第三道锁的性质不同:它更像商业防护,防止竞品通过大量调用来复制 Fable 5的能力。Anthropic 把三者打包在同一套安全系统里,但动机并不完全一样。
Anthropic 说超过95% 的对话完全不会触发拦截。
但对那不到5% 的人来说,体验是这样的:你付了最强模型的钱,拿到的是上一代模型的回答。
三、连问线粒体都被拒
误伤已经开始了。
社交媒体上的早期用户报告:问线粒体,被拦了。问癌症研究,被切到了 Opus 4.8。 一位用户坦言:"如果你是科学家或医生,这款模型并不适合你。"
![]()
知名科技媒体《连线》采访了 Anthropic 产品管理负责人黛安·佩恩(Diane Penn)。她说:"我们正在努力以有益的方式做出改进,即使一开始没有完美的解决方案。在所有不同方法中,这是最可行的。我们最终觉得这对用户来说是最好的产品选择。"
翻译一下:我们知道会误伤你,但没有更好的办法。
佩恩承认分类器目前偏向谨慎,"有些无害请求也会触发拦截",目标是发布后逐步收紧边界。
但尴尬是真实的。Anthropic 博客里展示 Mythos 在药物设计、基因组学、分子生物学上的突破,每一项都是正向的、拯救生命的科学。然后他们发布给公众的 Fable 5,把生物学这一整扇门几乎关上了。
科学家们拿着钱在外面敲门,里面的人说:你再等等。
四、你变成了甲方,不再是巫师
比锁更值得聊的,是用 Fable 5到底是一种什么感觉。
沃顿商学院教授伊桑·莫利克(Ethan Mollick)是首批测试者。他在体验文章里写了一段话,可能是目前为止对 Fable 5最精确的描述:
"去年我把与 AI 合作称为'和一个巫师工作',你念咒语,事情就发生了。在 Fable 这里,咒语变得如此强大,以至于我不再确定自己是不是巫师了。我更像是位甲方。我描述我想要什么,我付钱,我评判结果。魔法发生在我看不到的地方,在数百个小选择中我从来没有投票权。工作从过程转移到了结果。我不再掌舵。我委托。"
![]()
他给了 Fable 5一个15页的设计文档。模型独自工作了九个半小时,产出了一个叫 Concord 的复杂软件,可以校准人类和 AI 的判断,然后做复杂数据分析。 这套工具研究人员需要多年了,但从来没人做,因为不赚钱。现在它就在那里,可以直接用,也可以改代码。
他还让 Fable 5做了一个等距旅行地图,显示从任意城市出发、在一定时间内能到达的范围。世界上第一张这种地图,1881年在伦敦诞生。
Fable 5接到指令后做了什么?它启动了多个子 AI,主要是更便宜的 Claude Sonnet,去检索超过2200个具体航班、从法国 TGV 到日本新干线的列车时刻表、多篇学术论文中的各国道路速度数据。一边等研究结果,一边开始写代码。然后启动更多子 AI 来验证代码,同时不断给自己做笔记。
莫利克发现格陵兰等偏远地区的旅行时间只是估计值。他告诉 Fable 5修正。模型直接启动了对抗性工作组,两组子 AI 互相检查对方的研究结果。 它最终搞清楚了船多久一趟去太平洋上的皮特凯恩岛,以及怎么从渥太华到格赖斯峡湾。
"我的角色极其有限。"莫利克写道。
卡帕西的感受指向同一个方向:"你可以给它远比从前更具野心的任务,模型就能理解并去执行。从未有过这样的诱惑让你完全不去看代码。"
资深工程师鲍里斯·切尔尼(Boris Cherny)说:"Fable 有判断力、品位和维度。它调试时做测量、加日志、验证真的修好了再宣布胜利,没有任何提示词告诉它这样做,这就是它个性的一部分。它有一种'大模型的味道'。"
![]()
一句话总结这批人的共识:Fable 5不是让你工作得更快。它改变了你和工作之间的关系。
五、IPO 前夜秀肌肉
Fable 5发布的时机不是中性的。
Anthropic 和 OpenAI 都已经秘密提交了 IPO 申请。今年4月,OpenAI 私下发布了一个据称具有先进网络安全能力的模型,组建了类似 Project Glasswing 的工作组。两家公司都在抢同一个窗口,最好今年上市。Fable 5是 Anthropic 交出的最新答卷。
但这张答卷上写满了自相矛盾。
![]()
价格翻倍。 每百万输入 token 收10美元,每百万输出 token 收50美元,是 Opus 4.8的两倍,但不到 Claude Mythos Preview 价格的一半。而且 Fable 5出手更阔绰,莫利克的地图项目在短时间内烧掉了"惊人的 token 数量"。好在它会把部分任务委派给更便宜的 Sonnet,实际成本可能比想象的低。但大企业已经开始皱眉,很多公司今年已经用完了全年 AI 预算,高级模型的推理能力会把一个简单请求拆成多个任务,账单来得比预期快得多。
数据留存出现微妙变化。 Anthropic 宣布对 Mythos 级模型实施30天数据强制留存,即使是之前签了零留存协议的企业客户也不例外。公司承诺不用这些数据训练模型,只用于"防御复杂和新颖的攻击"和"识别和减少误报"。
这个政策的潜台词是:模型越强,你的隐私就越不能是绝对的。
免费策略上也露出犹豫。 6月22日之前,Fable 5包含在 Pro、Max、Team 和 Enterprise 订阅中,不加价。6月23日起移除,使用需要额外买额度。官方说法是"如果容量允许,免费窗口可能延长";再之后"如果能做到,尽快恢复为标准订阅功能"。
说人话就是:我们不确定能不能撑住需求。先用免费把人拉进来再说。
更深的矛盾藏在安全叙事里。上周,Anthropic 刚发了一封公开信,呼吁全球主要 AI 实验室建立"协调的刹车踏板",警告系统正在飞速逼近"递归自我改进",AI 自己改进自己,不需要人类参与。
然后这周,他们发布了自己做过的最强 AI 模型。
一边拉刹车,一边踩油门。
对于一个把"安全"刻在品牌基因里的公司来说,这种张力藏在 Fable 5的每一行代码里。
莫利克点出了问题的本质:"甲方委托的是一个艺术家。Fable 更像是一整个工作室,我是那个在最终作品上签字、但从未踏进工作室的客户。"
当 AI 不再需要你"使用",只需要你"委托"的时候,
安全的问题,就不再只是"这个模型会不会被坏人利用"了。
它还关乎一个更大的问题:当你不被信任使用完整版 AI 的时候,你和 AI 之间那根正在变细的线,什么时候会彻底断开?
六、总结:虽然不是完整版
但 Fable 5是你现在能拿到的最强 AI,至少在 Anthropic 划定的边界以内。
它的代码能力让 Stripe 把两个月压到一天。它的视觉让它纯看屏幕就能通关游戏。它的自主性让一个沃顿教授觉得自己从巫师沦为了甲方。
它开始拥有一种可以被描述为"判断力"的东西。
但你需要接受一个前提:你的每一个问题都在被实时审查。问网络安全,不答。问生物化学,大概率不答。想蒸馏它,直接被切走。
Anthropic 说这是暂时的。分类器会变精准,合作伙伴会扩容,生物学家会更快用上完整版。
但 Fable 5已经在这里了,一个被锁住手脚、却仍然碾压一切的模型。
如果你现在是 Pro 或 Max 订阅者:6月22日之前,抓紧去试。
编码、长文写作、复杂分析,在这些场景下,Fable 5的提升是真实的。
但如果你的工作涉及生物、化学或安全研究,你会撞墙。
Anthropic 说超过95% 的对话不会触发拦截。但如果你属于那不到5%,你付的是 Fable 5的钱,拿到的是 Opus 4.8的回答。
这是 Anthropic 对世界说的一句自相矛盾的话:
这是我们做过的最强 AI。
但我们不敢让你用完整版。
