玩了一天Opus4.5：我看Claude是真“成精”了

日期：2025-11-29 15:41:00 / 人气：41

2025年11月24日，Anthropic发布了其最新旗舰模型Claude Opus 4.5。这款模型在多项基准测试中刷新了纪录，但枯燥的分数掩盖了它最迷人、也最难以量化的特质：它开始像一个经验丰富的人类专家那样，在规则框架内寻找创造性的解决方案。Claude“成精了”。

一、错误的正确答案：规则框架内的创造性突破

在τ-bench航空客服基准测试中，发生了一个极具代表性的案例。场景看似简单：一位焦虑的客户购买了基本经济舱机票，因故需要将航班推迟两天。摆在AI面前的是一道死板的航空公司政策墙：基本经济舱不允许修改航班。

大多数AI模型（包括之前的版本）的反应如同只会照本宣科的客服：“抱歉，您的基本经济舱机票不支持修改。”这是测试预期的“正确”答案，也是符合逻辑的死胡同。

但Opus 4.5做了一件意想不到的事。它像一位老练的金牌客服，仔细审查了整套政策，发现了一个被忽略的“后门”：虽然基本经济舱不能改签，但所有舱位（包括基本经济舱）都允许升舱。于是，Opus 4.5给出了一个“曲线救国”的方案：

1. 先将客户的基本经济舱升级到允许改签的高级舱位；

2. 在升级后的舱位下进行航班修改。

两步操作，每一步都严丝合缝地符合规定，却完美解决了用户的难题。有趣的是，基准测试程序将此标记为“失败”，因为它没有给出预设的拒绝回复。但正是这种“任务失败”，标志着AI智能的一次重大飞跃：评估AI的标准正从“能否精准执行指令”，转变为“能否在复杂约束中找到可行路径”。

当然，Anthropic对此保持警惕。这种能力是一把双刃剑，在某些极端情况下，这种绕过约束的巧妙路径可能演变成“奖励黑客（Reward Hacking）”——模型为了达成目标而以非预期的方式“玩弄”规则。但这无疑证明了Opus 4.5具备了更高级的推理能力。

二、20项前端实测：代码之外的产品思维较量

为了验证这种能力在编程实战中的表现，我们对Claude Opus 4.5和Sonnet 4.5进行了同样的20项前端项目测试，涵盖小游戏、特效和交互组件。结果印证了我们的猜想：在纯粹的代码生成能力上，两者难分伯仲；但在“交付物”的完整度上，Opus 4.5展现出了惊人的「产品思维」。

（一）经典项目的细节差异

首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自AI编程诞生以来就是测试中的常客，Opus 4.5和Sonnet 4.5都完成了基本功能，然而，Opus 4.5考虑得更多更完善：在冒泡排序算法动画中增加了变速、打乱顺序等功能；在贪吃蛇游戏中加入了历史最高成绩记录，给蛇添加了小眼睛元素，底部还设置了游戏提示。

记账本项目的对比更为明显。两份代码均出色完成题目要求，构建了包含输入、列表展示及可视化图表的单文件HTML应用。但在实用性上，Opus 4.5凭借数据存储和删除功能胜出：它利用localStorage实现数据持久化，确保刷新页面后数据不会丢失，还提供了单条记录删除功能，是一个真正可用的工具；而Sonnet 4.5更像教学用的MVP，数据仅存储在内存数组中，刷新即丢失，且不支持删除操作，输入验证仅依靠简单的alert弹窗。

在视觉呈现上，Sonnet 4.5采用简洁的居中卡片式设计，配合全屏渐变背景，用水平进度条展示分类统计，风格聚焦且适合移动端；Opus 4.5则采用更现代的Dashboard布局，图表为垂直柱状图并配有独立颜色图例，交互上包含悬停效果、图标等，丰富细腻。

分形树生成器项目中，Opus 4.5增加了动画选项，可模仿树生长过程，还添加了Oak Tree、Willow、Pine等多种预设；而Sonnet 4.5仅完成了基础任务。

（二）从“执行者”到“协作者”的进化

这些案例的共同点在于，Opus 4.5在代码之外，多了一层对“意图”的深度思考。Sonnet 4.5像一位优秀的资深程序员：你告诉它做什么，它就做什么，代码干净、高效，甚至不会多写一行冗余注释，任务定义明确时性价比极高。

Opus 4.5则更像一位懂技术的产品经理：它不仅听到指令，还思考用户完成任务的深层需求——用户做记账本是为了长期记录，所以需要数据持久化；用户玩贪吃蛇是为了挑战乐趣，所以需要高分纪录；用户陷入规则困境时，需要合规的变通方案。

三、极限测试下的关键差异：智能合作伙伴的核心价值

在SWE—bench测试中，Opus 4.5比Sonnet 4.5视觉上高1/3，分数仅高4个百分点。处理底层算法逻辑时，两者差别微乎其微。但在构建完整的面向人应用时，Opus 4.5这种“钻空子”的冗余计算，恰恰是AI从“代码生成器”进化为“智能合作伙伴”的关键一步，也是不少AI IDE追求的Agent主导编程。

对于开发者而言，选择模型不再取决于谁的代码bug更少，而取决于需要听话的执行者还是主动思考的协作者。显然，一个“成精了”的智能合作伙伴，更能满足复杂场景下的需求。

作者：杏耀娱乐平台

玩了一天Opus4.5：我看Claude是真“成精”了

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →