切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
刚刚,GPT-5内测抢先泄露!推理强到离谱,智商被曝140超 ...
菲龙网编辑部7
有 744 人收听 TA
154468
主题
154485
回复
180895
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/29
《我在顶峰等你》首播,写实、干正事、还有趣,女性爽剧,质量高
0/23
为新剧增重10斤,杨幂发声
0/23
豆瓣评分7.9,古装魔幻喜剧的天花板!男女主一直被男主伤害
0/25
你说《凡人修仙传》韩立到底喜欢哪个姑娘?
0/30
看完《锦月如歌》,不禁感慨:明星飞升,真是选择大于努力!
0/31
《凡人修仙传》韩立拿杨过剧本,成5个女人心魔,一见误终生
0/28
《凡人修仙传》看到韩立对墨彩环、董萱儿不同态度,才知他最爱谁
0/24
N刷《甄嬛传》才知,皇后安排甄嬛住承乾宫的算计,到底有多深
0/28
天下一统:中华文明史诗·纪录片《中华》第二部《刻骨铭心》第四集《昆仑》今晚播出
查看TA的全部帖子>>
刚刚,GPT-5内测抢先泄露!推理强到离谱,智商被曝140超越人类天才
时间:2025-8-8 09:37
0
22
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
新智元报道
编辑:Aeneas KingHZ
【新智元导读】GPT-5终于要来了,就在刚刚,已经有人通过Copilot放出了GPT-5的惊人实测,推理能力强到离谱。明天凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano全家桶将悉数登场,全网已经high起来了。
就在明天,GPT-5总算要靴子落地了。
周五凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano将同时推出。全网用户都可以立即通过API和ChatGPT访问这三个模型。
经过十来天的营销和造势,众位看官们的热情也是被激到了最高点,明天OpenAI要是拿不出什么硬货来,恐怕是要被嘲了。
就在今天,还有关于GPT-5的消息放出。
比如这种GPT-5基准测试的结果,已经开始全网疯传。
数据显示,它在SimpleBench上的得分已经达到了90%,高于之前的62%。而人类高中生在此基准上的得分为85.7%。
另外还有两张泄露的GPT-5基准测试如下。
比如,GPT-5的智商或逼近140。
在ARC-AGI 2的Benchmark上,GPT-5也是一骑绝尘。
与此同时,一些GPT-5的惊人实测,也已经提前放出了!
GPT-5的惊人示例
注意,无论是上图中的基准测试,还是下面的demo,都是通过Copilot得到的。
很多网友发现,在某些情况下,微软Copilot已经开始调用GPT-5。
在Copilot产品中出现的「智能模式」字样,都暗示着由GPT-5驱动的专门推理或自适应行为。
SVG机器人检查(通过Copilot上的GPT-5)
TestingCatalog通过某些使用场景(例如Robot SVG 测试)确认,Copilot在某些情况下已在GPT-5上悄悄运行。
Copilot的智能模式自称是GPT-5
而通过Copilot,已经有手快的网友给GPT-5测试来不同示例。
他的评价是:我怀疑这只是GPT-5的一个小版本,但仍然具有推理能力。这头猛兽的威力,会让你大吃一惊!
1. 「旋转六边形中的弹跳球」测试。
2. 制作一个GTA克隆版。
可以看出GPT-5表现很不错,它做出了地图和几辆NPC汽车,碰撞机制也做得很好。
3. 制作一个未来感十足的AI按钮。
4. 制作一个可运行的单文件俄罗斯方块游戏。
5. 用HTML/JS编写一个像素画编辑器。
用户可以设置网格大小、选择颜色,并可以将图片导出为PNG格式。
6. 在一个 HTML文件中制作一个可拖拽的看板(待办事项/进行中/已完成),所有代码均使用HTML/JS/CSS。
7. 制作一个神经网络可视化工具,结果令人惊呆。
8. 在一个HTML文件中制作一个康威生命游戏模拟器。
用户可以绘制单元格、播放/暂停、调整速度以及保存/加载模式。
9. 使用Three.js制作一个3D飞行模拟器。
10. 用纯HTML/JS创建一个横向卷轴平台游戏。
键盘控制、收集金币、胜负条件——一个文件,像素画风。
11. 在一个HTML/JS文件中编写一个交互式化学分子构建器——拖动原子、捕捉键、实时查看分子式更新。
12. 用一个HTML文件制作一个3D太阳系模拟器——包含行星轨道、点击查看详情、太阳动画以及时间加速/减速控制。
网友称,这是实测的所有示例中自己最喜欢的一个。
GPT-oss
基准测试+实测来了
而GPT-5还没发布,OpenAI就已经凭GPT-oss给全网整了个大的。
就在昨天,时隔数年后OpenAI终于对得起自己的名字了──
经过数月预告之后,他们发布了自2019年以来的首批开放权重的大语言模型:
➤ gpt-oss-120b:共1168亿个参数,其中活跃参数为51亿个。
➤ gpt-oss-20b:共209亿个参数,其中活跃参数为36亿个。
直接跻身HuggingFace模型榜单第一和第二。
就在刚刚,多项基准测试结果出炉,GPT-oss直接一举登顶开源王座。
智能体基准测试平台
hud
发推:
gpt-oss 120B(高配版)在GPQA Diamond、AIME 2024、AIME 2025和Codeforces等评测中,领先于主流开源模型(Deepseek R1、Qwen3、Llama 4、Kimi K2),斩获最高分。
有人发现,在Intelligence基准测试中,GPT-oss-120b在高推理设置下的得分为8.6%,仅略低于o3。
可以说,它是名副其实的SOTA开源模型。
「ArtificialAnalysis」也对
OpenAI gpt-oss模型进行了独立的基准测试。
OpenAI的gpt-oss模型的独立基准测试显示:gpt-oss-120b超越了Meta的Llama模型,跻身全美开源权重模型No.1,其智能指数得分达到58。
在日新月异的AI领域,这已恍如隔世。要知道,ChatGPT本身发布至今还不到三年。
在智能上,这两种模型在大小和稀疏性方面都得分极高。可以看到,120B击败了o3-mini,但落后于o4-mini和o3。
注意,120B是可以在单个H100上运行的最智能的模型,而20B是可以在消费级GPU上运行的最智能的模型。在ArtificialAnalysis的大多数评估中,这两种模型的排名似乎相似,表明它们没有突出的弱点。
如果和其他开放权重模型pk的话,虽然GPT-oss-120b的得分没有超过DeepSeek R1 0528的59分或Qwen3 235B 2507的64分,但值得注意的是,它的总参数和活动参数都比这两个模型小得多。
DeepSeek R1的总参数为671B,活动参数为37B,并且以FP8精度原生发布,这使其总文件大小(和内存需求)比GPT-oss-120b大了10倍以上。
Epoch AI在测试后得出结论:尽管使用了相似的计算量,GPT-oss-20b在基准测试中的表现比GPT-3好得多。
GPT-oss-20b在MMLU上的得分比GPT -3高41.4pp,在GPQA diamond上的得分可能高出41.5pp以上。
在HealthBench上,GPT-oss-120b几乎与o3持平,超过了GPT-4o和o4-mini,使其成为OpenAI目前为止效率最高的模型。
实际测试:本地可跑
GPT-oss-120b轻松通过「旋转六边形中的弹跳球」测试:
而且还有人发现,AlphaXiv基于GPT OSS可以快速获取下上文、标准参考文献等,帮我们更快理解研究论文。
一个非常好用的功能是,我们可以针对论文的任何部分进行手动选择、进行针对性提问,还能艾特其他论文,快速进行比较。
关键是,这次在笔记本电脑上的确可以跑:
在MacBook M4 Max 上,gpt-oss 120b:
48 token/s 高性能模式
35 token/s 正常模式
23 token/s 低功耗模式
在NVIDIA RTX 5090上,gpt-oss-20b运行速度非常快,每秒能处理大约160到180个令牌。
但OpenAI为何重金豪赌开源模型?
卷死对手,豪赌未来
就在今天,外媒The Information发表了一篇深度分析:OpenAI为何愿意花巨大代价,重金豪赌开源模型?
微妙的是,这其中少不了中国开源大军的影响。
在智能方面,OpenAI的gpt-oss尚不及DeepSeek R1的59和Qwen3 235B的64──开源最强还是中国制造。
去年年底,DeepSeek凭借开放权重模型R 1异军突起,一鸣惊人。
而OpenAI再次拥抱开源AI,是一步妙棋。
首先,通过为开发者和美国政府提供能开放权重模型新选项,OpenAI可以赢得他们的好感,树立正面可靠的公共形象。
这更是一场高风险但明智的豪赌,赌的是
这些模型能击垮竞争对手
。
具体而言,奥特曼正是向其对手扎克伯格学了一招,后者的Meta公司将Llama模型作为开放权重发布,目的就是让开发者不再愿意为Meta对手的模型付费。
颇具讽刺意味的是,现在Meta成了被OpenAI此番开放权重发布冲击最大的公司。Meta最新的Llama 4表现平平,令人失望。
Meta开启了一轮AI研究员的招聘,已经疯狂到如此地步:人工智能工程师Yangshun Tay透露,他在领英上晒出OpenAI的offer后,Meta在几小时内就主动联系了他。
然而,面临威胁的不仅是 Meta。由于新的开放权重模型性能极为出色,开发者很可能会因此放弃Anthropic、谷歌甚至OpenAI自家的商业模型。既然能用上免费的开放权重模型,谁还会为GPT-4o或o1买单呢?
不过,正如之前所指出的,尽管旧模型的成本在快速下降,但开发者似乎仍愿意为最顶尖的模型支付费用。因此,OpenAI可能在赌:
旧模型的收入占比已经足够小,就算为了在此过程中击败对手而牺牲掉这部分收入,也毫不足惜。
OpenAI敢于这么做,可能预示着其即将推出的GPT-5模型将非常强大。换言之,
OpenAI必然相信,GPT-5的卓越性能足以让开发者心甘情愿地为其支付高昂的费用。
另外一些开发者告诉媒体记者,对于需要将AI模型运行在自己「本地部署」服务器上的大型企业而言,OpenAI的新模型不啻为一大福音。
一位创始人谈到,迄今为止,他们在本地部署性能稍逊的Llama和Mistral模型,然后再偶尔调用OpenAI、Anthropic 或谷歌提供的云端AI服务。而现在,他们将能够完全在本地环境使用OpenAI品牌的模型了。
参考资料:
https://x.com/theinformation/status/1953097373011329456
https://x.com/hunoematic/status/1953210897171874195
https://x.com/ArtificialAnlys/status/1952887733803991070
https://x.com/minchoi/status/1953100882028937266
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
新手报到
菲龙广场
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部