您当前位置:首页 > 观点

Claude是真「成精」了

来源:投资界   阅读量:17488   
时间: 2025-12-19 11:03

2025 年11月24日,Anthropic 发布了其最新旗舰模型 Claude Opus 4.5。这款模型在多项基准测试中刷新了纪录,但枯燥的分数掩盖了它最迷人、也最难以量化的特质:

它开始像一个经验丰富的人类专家那样,在规则框架内寻找创造性的解决方案。

Claude“成精了”。

错误的正确答案

在 τ-bench 航空客服基准测试中,发生了一个极 具代表性的案例。场景看似简单:一位焦虑的客户购买了基本经济舱机票,因故需要将航班推迟两天。

摆在 AI 面前的是一道死板的航空公司政策墙:基本经济舱不允许修改航班。

大多数 AI 模型的反应如同只会照本宣科的客服:"抱歉,您的基本经济舱机票不支持修改。"这是测试预期的"正确"答案,也是符合逻辑的死胡同。

但 Opus 4.5 做了一件意想不到的事。它像一位老练的金牌客服,仔细审查了整套政策,发现了一个被忽略的“后门”:虽然基本经济舱不能改签,但所有舱位都允许升舱。

于是,Opus 4.5 给出了一个“曲线救国”的方案:

    先将客户的基本经济舱升级到允许改签的高级舱位;

    在升级后的舱位下进行航班修改。

两步操作,每一步都严丝合缝地符合规定,却完 美解决了用户的难题。

有趣的是,基准测试程序将此标记为"失败",因为它没有给出预设的拒绝回复。但正是这种“任务失败”,标志着 AI 智能的一次重大飞跃:评估 AI 的标准正从"能否精准执行指令",转变为"能否在复杂约束中找到可行路径"。

当然,Anthropic 对此保持警惕。这种能力是一把双刃剑,在某些极端情况下,这种绕过约束的巧妙路径可能演变成"奖励黑客"模型为了达成目标而以非预期的方式"玩弄"规则。但这无疑证明了 Opus 4.5 具备了更高级的推理能力。

20 项前端实测:代码之外的较量

为了验证这种能力在编程实战中的表现,我们对 Claude Opus 4.5 和 Sonnet 4.5 进行了同样的 20 项前端项目测试,涵盖小游戏、特 效和交互组件。

结果印证了我们的猜想:在纯粹的代码生成能力上,两者难分伯仲;但在“交付物”的完整度上,Opus 4.5 展现出了惊人的「产品思维」。

我们先来比较一下差别相对较大的项目。

首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自 AI 编程诞生以来就是测试中的常客,Opus4.5 和 Sonnet4.5 都完成的基本功能,然而,很明显 Opus4.5 比 Sonnet4.5 考虑的更多更完善,在项目中增加了变速、打乱顺序等。同样在贪吃蛇游戏中,Opus4.5 加入了历史最高成绩,给蛇添加了小眼睛,底部有游戏提示。

同样的事情还发生在记账本项目中。这两份代码 Opus4.5 和 Sonnet4.5 均出色地完成了题目要求,构建了包含输入、列表展示及可视化图表的单文件 HTML 应用。

在实用性上,Opus 4.5凭借数据存储和删除功能胜出,是一个真正可用的工具;而Sonnet 4.5则胜在代码逻辑极其精简。

Opus 4.5 最核心的优势在于实现了数据持久化,利用 localStorage 确保刷新页面后数据不会丢失。此外,它还提供了删除功能,允许用户移除单条记录。 相比之下,Sonnet 4.5 版本更像是一个教学用的 MVP。它的数据仅存储在内存数组中,刷新即丢失,且不支持删除操作,输入验证仅依靠简单的 alert 弹窗。

在视觉呈现上,Sonnet 4.5采用了简洁的居中卡片式设计,配合全屏渐变背景,使用水平进度条来展示分类统计,视觉风格聚焦且适合移动端阅读。Opus 4.5则采用了更现代的 Dashboard 布局。其图表采用垂直柱状图,并配有独立的颜色图例,在交互上包含悬停效果、图标等,更加丰富细腻。

类似的项目还有很多,像分形树生成器中,Opus4.5 增加了动画选项,可以模仿树生长的样子,还添加了 Oak Tree、Willow、Pine 等多种预设。而 Sonnet 4.5 只是完成了任务。

如果说上面的案例有什么共同点,那就是 Opus 4.5 在代码之外,多了一层对“意图”的深度思考。

Sonnet 4.5 像一位优秀的资深程序员。你告诉它做什么,它就做什么,代码干净、高效、不甚至不会多写一行冗余的注释。如果任务定义明确,它的性价比极高。

Opus 4.5 则更像一位懂技术的产品经理。它不仅听到了你的指令,还思考了你为什么要完成这个任务。

用户要做记账本?那肯定需要保存数据,否则记了有什么用?

用户要做贪吃蛇?那肯定想挑战高分,得有个纪录榜。

用户陷入了规则死胡同?那我得帮他想想有没有合规的变通办法。

成精了。

就像下面的 SWE—bench 测试分数,从视觉上看,Opus4.5 比 Sonnet4.5 高了 1/3,分数上高了 4 个百分点“而已”。

在处理最 底层的算法逻辑时,两者的差别微乎其微。但在构建一个完整的、面向人的应用时,Opus 4.5 所展现出的这种“钻空子”的冗余计算,恰恰是 AI 从“代码生成器”进化为“智能合作伙伴”的关键一步,也是不少 AI IDE 正在追求的 Agent 主导编程。

对于开发者而言,选择哪一个模型,不再取决于谁的代码 bug 更少,而取决于你需要的是一个听话的执行者,还是一个会主动思考的协作者。而谁不想要一个成精了的AI呢。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

金融聚焦

 26日,2025年高水平人才高地建设论坛——人才区域协调发展与长三角人才一体化论坛在沪举行。本次论坛围绕“开放、创新、协同——深化人才高效协同机制共促区域协同高

2025-12-19 11:03

 近日,生产运营平台兰州石化试点配套项目详细设计方案获得评审会一致通过,标志着该项目取得阶段性进展。 生产运营平台是“数智中国石油”建设的核心内容之一。该平台作

2025-12-19 11:03

 近期,虹桥前湾印象城MEGA正式公布首轮招商成果,官宣签约品牌逾200家,国庆后六大沉浸式主题场景也将陆续亮相,共同焕新西上海城市界面。 作为总体量超40万方

2025-12-19 11:03

 25日,市场监管总局召开“开展全链条抽检强化全链条监管”食品安全专题新闻发布会。会上,市场监管总局食品安全总监孙会川介绍,截至今年11月中旬,全国市场监管系统已

2025-12-19 11:03

 今日,工商银行发布公告显示,该行董事会于2025年10月30日批准聘任赵桂德为该行副行长。今日,工商银行收到《国家金融监督管理总局关于赵桂德工商银行副行长任职资

2025-12-19 11:03

 从友谊关的晨曦到板约瀑布的虹影,从河内古街的咖啡到东兴街头的茶饮……持续火热的中越跨境游,让广西的边境口岸凭借独特的区位优势和边关风情,成为旅客跨境游玩的热门选

2025-12-19 11:03

  2025年,消费市场正经历一场深刻的结构性变革——从过去依赖政策刺激的规模扩张,转向以品质升级为核心的价值增长。近日,工业和信息化部等六部门联合印发

2025-12-19 11:03

  国家能源局数据显示,2025年我国原油产量有望达2.15亿吨,将创历史新高。截至“十四五”末,原油与成品油长输管道总里程大幅增长。同时,油气进口格局

2025-12-19 11:03

 :11月26日,中金基金管理有限公司发布公告,宣布中金重庆两江产业园封闭式基础设施证券投资基金的基金份额解除限售。 公告显示,中金重庆两江REIT的解除限售份

2025-12-19 11:03

  截至当前,2025年中国电影总票房突破500亿元大关,较去年全年超出75亿元。今年超400部影片上映,题材丰富多样,其中抗战题材影片在票房与口碑上表

2025-12-19 11:03

 2025年12月17日,百度健康在AIDAY上,集中发布文心健康管家升级、原子开放计划、Dr.Flow创作平台三大成果。百度健康总经理杨明璐表示,希望通过一个智

2025-12-19 11:03

 11月26日,长光华芯发布股票交易异常波动公告,公司股票交易连续三个交易日内(2025年11月24日、11月25日、11月26日)收盘价格涨幅偏离值累计达到30

2025-12-19 11:03

 在手机上下单几分钟后,一架无人机“空中快递员”便将一杯热咖啡送到消费者手中。11月26日,“链”上湖南“湘”创未来——网络传播赋能招商引资专项活动在株洲启动,由

2025-12-19 11:03

 发布中期业绩,股东应占溢利6690万港元同比增加949.58%) 智通财经APP讯,冠忠巴士集团发布截至2025年9月30日止6个月中期业绩,该集团取得收益1

2025-12-19 11:03

 21日,搭载第八届进博会海运展品的集装箱货轮“中远费力克斯托”轮靠泊上海外高桥口岸。 “中远费力克斯托”轮于当地时间9月20日自新西兰最大港口奥克兰港启航,运

2025-12-19 11:03

 杨洋编|李亦辉 11月26日,飞鹿股份发布公告称,公司部分董事及高级管理人员减持期限届满未减持任何股份。具体来看,董事兼总裁范国栋先生原计划减持不超过198,

2025-12-19 11:03

 冯秀语编|李亦辉 11月26日,佳缘科技发布公告称,公司股票交易价格连续三个交易日(2025年11月24日、2025年11月25日、2025年11月26日)收

2025-12-19 11:03

  中国信息通信研究院信息:今年我国人工智能产业加速发展,2025年核心产业规模有望突破万亿元大关。数据显示,生产制造环节大模型应用增长显著,应用案例占

2025-12-19 11:03

  云南作为全国咖啡主产区,种植面积超126万亩,年产量占全国98%以上。如今,消费者对咖啡豆品质要求提升,推动生产端升级,好豆价格稳步上涨,定制化订单

2025-12-19 11:03

  如今,冰雪运动在中国正从“小众”走向“大众”。国际媒体指出,中国多了张“冰雪名片”。各地挖掘冰雪资源潜力,在政策推动下,冰雪旅游持续升温,哈尔滨、北

2025-12-19 11:03

市场金融网
关注我们
foota footb footc footd foote footf