切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交 ...
菲龙网编辑部7
有 744 人收听 TA
155927
主题
155944
回复
182418
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/136
《灼灼韶华》这才叫演技,车永莉的嫂子没脸没皮,良心都被狗吃了
0/131
《围猎》今晚开播,王阳张宥浩俞灏明等演绎缉毒英雄群像
0/142
辱华、恋爱脑、粗制滥造不如“中国短剧”,韩剧终于走向了末路!
0/140
《灼灼韶华》大结局:直到宋萍出庭帮褚韶华脱罪,才知程辉最好命
0/128
陈好:撕掉“完美妈妈”标签,做真实、懂取舍的独一份妈妈
0/139
《欢乐家长群2》王晓晨刘芮麟聊三搭:希望下次尝试新鲜风格
0/134
郑晓龙又一部年代剧,30位实力派助阵,我断言:这剧一播出就会火
0/136
电视剧《阵地》:凸显精神意志在抗战中的关键作用
0/139
《双轨》未上线就饱受争议,有网友抵制:她演就不看
查看TA的全部帖子>>
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷
时间:2025-9-25 10:53
0
102
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
henry 发自 凹非寺
量子位 | 公众号 QbitAI
Scale AI的新软件工程基准
SWE-BENCH PRO
,出现反转!
表面上看,“御三家”集体翻车,没一家的解决率超过
25%
GPT-5
Claude Opus 4.1
Gemini 2.5
分别以23.3%、22.7%、13.5%的解决率
“荣”登前三
但深入数据背后,则暗藏玄机。
前OpenAI研究员Neil Chowdhury表示,如果只看已提交的任务,GPT-5能达到
63%
的准确率,比Claude Opus 4.1的
31%
,高了近一倍!
(这怎么不算G又赢!?)
换句话说,GPT-5在擅长的题目上依旧稳健,与老基准SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型则直接拉垮到底。
那么,究竟是什么基准测试,让这些顶级模型如此狼狈?
SWE-BENCH PRO
先说结论,不是模型变菜了,而是题变难了。
与平均正确率高达
70%
SWE-Bench-Verified
相比,
SWE-BENCH PRO
严格得可不止一星半点。
一方面,作为OpenAI于2024年8月发布的测试集,SWE-Bench-Verified中的很多代码库已被用作大语言模型的预训练语料,存在着数据污染的风险。
另一方面,SWE-Bench-Verified还包含不少琐碎的问题,例如500个问题中有161个只需一两行修改。
这与工业软件工程中通常涉及的跨多文件、数百行修改的场景差距较大,从而无法真正反映实际开发场景中所面临的挑战。
基于此,SWE-BENCH PRO主打全新题目,以确保模型在训练阶段从未接触过测试内容,从而更真实地考验模型的实际能力。
涵盖1865个商业应用、B2B服务和开发者工具的多元化代码库
具体来说,SWE-BENCH PRO将这些代码库构建为以下三个子集:
公共集:来自采用copy-left许可证的11个公共代码库的731个问题。商业集:来自276个源自初创公司代码库的问题。保留集:来自采用copy-left许可证的12个公共代码库的858个问题。
(注:公共集将在HuggingFace上发布,商业集和保留集保持私有,商业集的测试结果会公开,保留集用于验证模型是否过拟合。每个问题由任务描述、相关测试集和可运行环境构成。)
这些从强Copyleft许可证(GPL)代码库和真实的初创公司获取的商业代码库能够有效地解决SWE-Bench-Verified存在的数据污染问题。
为了确保任务的复杂性,研究团队还排除了像1-10行代码编辑这样琐碎的编辑,保留了需要进行大量多文件修改的问题。
此外,为了防止模型对任何单一代码库产生过拟合,这些代码库都处于活跃状态并覆盖消费者应用、B2B服务和开发者工具平台。
接下来,就让我们看看研究者是如何在这些问题上进行测试的。
human in the loop的测试环节
为了将模型评估的重点放在
当模型获得充分细节后,能否实现给定的修复或补丁
上。
研究团队在SWE-Bench Verified的基础上,将SWE-BENCH PRO中的每个问题都经过了人工增强,并加入了问题陈述、需求说明以及接口信息。
首先,研究团队提供一个待解决问题的问题陈述并在必要时补充上下文信息。
其次,针对潜在的歧义问题,对于每个问题,列出了一系列需求并指定相应的类和函数。
之后,在环境方面,每个任务都在一个容器化的、用于特定语言的环境中进行评估。
在测试阶段,研究通过
fail2pass
测试验证问题是否已解决,通过
pass2pass
测试确保现有功能保持完整。
其中,为了确保测试质量,fail2pass测试会经过人工筛选,去掉与任务不相关或过于宽泛的测试。
对于偶尔失败的测试,则会运行三次,以确保结果稳定。
实验结论
正如我们开头提到的,大语言模型在SWE-BENCH PRO上的解决率仅为
中等水平
,远低于SWE-Bench Verified中的70% 。
其中,在公共集上,GPT-5和Claude Opus 4.1分别实现了23.3%和22.7%的最高解决率,显著优于小规模模型,Claude Sonnet 4也达到了16.3%的解决率。
不过,像DeepSeek Qwen-3 32B和GPT-4o这样的老模型表现就多少有点不尽人意了,仅为3.4%和3.9%。
在商业集上,即便是最优模型的得分也低于20%。
这表明当前模型在解决真实商业场景中的问题时,能力仍然非常有限。
针对这一苦涩的实验结果,研究人员展开了进一步的分析,结论如下:
首先,
编程语言的难度
代码库以及模型的种类
被视为影响模型表现的关键因素。
Go和Python通常表现较好,一些模型在这些语言上的解决率超过 30%,而JavaScript和TypeScript则波动较大,从0%到超过30%不等。不同代码库的解决率差异也很明显,一些代码库普遍偏低(低于 10%),另一些则超过50%。前沿模型如Claude Opus 4.1和GPT-5在大多数编程语言和代码库中表现稳定,小规模模型则更易出现接近零的解决率。
其次,不同的模型的失败原因往往各不相同。
OPUS 4.1的主要失败模式是语义理解不足,错误解答占35.9%,语法错误占24.2%,表明其技术执行能力较强,但在问题理解和算法正确性方面存在挑战。
GPT-5的结果显示在工具使用的有效性上可能存在差异,但错误解答相对较少。
SONNET 4的主要失败模式是上下文溢出(35.6%)和显著的无休止文件读取行为(17.0%),表明其在上下文管理和文件导航策略上存在局限。
GEMINI 2.5的失败模式则较为均衡,涵盖工具错误(38.8%)、语法错误(30.5%)和错误解答(18.0%),显示其在多个维度上保持了一定能力。
QWEN3 32B作为开源模型,表现出最高的工具错误率(42.0%),凸显了集成化工具使用对于高效代理的重要性。
不难看出,GPT-5虽然延续了以往“会就会,不会就不会”的答题策略,但面对高企的未回答率(
63.1%
),它的表现仍然不够看。
那么,谁会成为第一个突破30%的大模型呢?
[1]https://x.com/vbingliu
[2]https://scale.com/leaderboard/swe_bench_pro_public
[3]https://x.com/ChowdhuryNeil/status/1969817448229826798
[4] https://scale.com/research/swe_bench_pro
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
菲龙广场
菲律宾新闻
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部