切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项 ...
菲龙网编辑部7
有 744 人收听 TA
153588
主题
153605
回复
179971
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/43
张译李光洁蒋欣等齐聚《以法之名》 演绎新时代检察官风采
0/44
一部网络微短剧引出版权纠纷,晋江、哇唧唧哇“开撕”
0/47
影版《长安的荔枝》开始预热,客串阵容堪称豪华,竟然还有马伯庸
0/45
意难平!《长安的荔枝》3位"戏混子",没有他们,这部剧堪称完美
0/50
《长安的荔枝》结局看似完美,其实还有3个大坑没填,让人意难平
0/50
《临江仙》看完花如月白九思三婚三离,发现中年人的婚姻是在渡劫
0/45
一口气炫8集!5部Netflix悬疑神剧
0/43
新《聊斋》火热来袭,宋祖儿演姥姥美到出戏,新版聂小倩更是惊喜
0/50
蒋欣“损”张译真有一套?《以法之名》开播,系优酷白夜剧场“守正系列三部曲”首部大剧
查看TA的全部帖子>>
3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o
时间:2025-6-24 12:07
0
139
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
智东西
作者 李水青
编辑 心缘
智东西6月23日报道,月之暗面今日开源多模态模型Kimi-VL-A3B-Thinking-2506,这是其首个开源多模态推理模型Kimi-VL-A3B-Thinking发布两个月后的更新版本,可凭借2.8B激活参数(16B总参数)在多项测评中超越GPT-4o、Qwen2.5-VL-7B等模型。
▲Hugging Face截图
开源地址:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506
与之前的版本相比,2506版本提供了多项全新或改进的功能:
1、它在消耗更少tokens的同时思考得更聪明:
2506版本在多模态推理基准上达到了更好的准确率:MathVision上得分为56.9(+20.1),MathVista上为80.1(+8.4),MMMU-Pro上为46.3(+3.2),MMMU上为64.0(+2.1),而平均需要减少20%的思考长度。
2、思考过程更清楚可见:
与之前的思考版本不同,2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如MMBench-EN-v1.1(84.4)、MMStar(70.4)、RealWorldQA(70.0)、MMVet(78.4),超越或匹配其非思考模型(Kimi-VL-A3B-Instruct)的能力。
3、扩展至视频场景:
2506版本在视频推理和理解基准方面也有显著提升。它在VideoMMMU上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在Video-MME上达到71.9,与Kimi-VL-A3B-Instruct相当。
4、分辨率进一步提升:
2506版本支持单张图像320万像素(1792×1792),比上一版本提升了4倍。这在高分辨率感知和OS-agent基准测试中带来了显著提升:在V* Benchmark(未使用额外工具)上得分为83.2,在ScreenSpot-Pro上得分为52.8,在OSWorld-G上得分为52.5。
具体来看,与业界顶尖模型和Kimi-VL的两个先前版本的比较,2506版本测试性能明显提升:
在通用多模态方面,2506版本在MMBench-EN-v1.1(Acc)、OCRBench(Acc)、MMStar(Acc)、MMVet(Acc)多项测评的得分超过OpenAI的GPT-4o。
在推理能力方面,2506版本在MMMU(val,Pass@1)、MMMU-Pro(Pass@1)上的测试成绩超过Qwen2.5-VL-7B、Gemma3-12B-IT,不如GPT-4o,但差距有所缩小。
在数学能力方面,2506版本在MATH-Vision(Pass@1)、MathVista_MINI(Pass@1)中得分大超GPT-4o。
在视频能力方面,2506版本在VideoMMMU(Pass@1)、MMVU(Pass@1)、Video-MME(w/sub.)多项测评中超过Qwen2.5-VL-7B、Gemma3-12B-IT,与GPT-4o的差距缩小。
在Agent落地方面,2506版本在ScreenSpot-Pro(Acc)、ScreenSpot-V2(Acc)、OSWorld-G(Acc)测试中得分都超越Qwen2.5-VL-7B。
在长文本方面,2506版本在MMLongBench-DOC(Acc)测试中超越Qwen2.5-VL-7B,与GPT-4o接近。
如下图所示,与30-70B的开源模型对比,2506版本的大部分测试已经超越Qwen2.5-VL-32B、Gemma3-27B-IT,看齐Qwen2.5-VL-72B。
来源:Hugging Face
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
中国新闻
菲龙广场
华人世界
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部