切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
DeepSeek昨天开源的新模型,有点邪门。
菲龙网编辑部7
有 744 人收听 TA
156442
主题
156459
回复
182955
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/100
行走江河看中国 | 在三峡,感受国之重器的青春脉动
0/84
东西问丨欧阳安:为何说中国主动参与塑造了全球化?
0/97
东西问丨张松林:唐青花“青白美学”何以成为跨文明对话的视觉语言?
0/97
嫦娥六号月壤发现罕见陨石撞击残留 刷新太阳系物质迁移理论
0/95
外媒聚焦四中全会:彰显中国发展信心和战略定力
0/95
美方威胁进一步限制对华出口飞机零部件 外交部回应
0/143
荷兰出现首例猴痘病毒新毒株感染病例
0/148
巴黎检方称卢浮宫被盗珠宝价值约8800万欧元
0/151
高市早苗当选日本第104任首相 新内阁名单公布
查看TA的全部帖子>>
DeepSeek昨天开源的新模型,有点邪门。
时间:2025-10-22 17:20
0
104
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
DeepSeek 又整出新东西来了,只用到原本十分之一 token,就能存下几乎一样的文字信息,这压缩比,香农看了都要流泪,冯·诺伊曼看了都要沉默。
更是直接把一堆老外给钓成了翘嘴。
昨天,DeepSeek 发布了新模型 DeepSeek-OCR,OCR 这东西咱们都熟悉,就是把图片里的文字给识别出来。
经常用微信的差友应该知道,微信客户端里的图片,被咱们点开后,是可以直接复制文字的。
没错,这就是一种 OCR 技术的应用。
但是 DeepSeek 这次的 「技能 OCR」则是刚好相反,它可以把大量文字变成一张图片,作为 AI 的“记忆载体”。
是的,用文字来存储信息,已经不够满足它了。
过去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己,在读取数据的用的都是一种方式:
文字,也就是平时常说的 token。
我们写的 Prompt,会被转换成一大堆的 token 给大模型,我们提供的参考资料,会被转换成一大堆的 token 给大模型,就算是能识别图像的多模态的大模型,也是要先把图片转换成了一段文字描述,来交给大模型来做辨认才行。
但文字 token 真的就是大模型理解世界的唯一方式么?
DeepSeek 决定试一试新的路子,毕竟,如果咱们把一张图片和一段文字放在一起,前者明显可以包含下更多的信息。
比如这个描述,就不够全面
既然如此,那我们能不能直接用图片来训练大模型?
于是 DeepSeek 就开始整,结果发现这个用图片训练出来的模型,既中看,又中用。
一方面,它可以用更少的 token,来记住更多的内容。
在测试文档理解能力的任务里,DeepSeek-OCR 只用了
100 个视觉 token,
就超过了需要 256 个 token 的 GOT-OCR 2.0。
再放狠点,它用
不到 800 个视觉 token
, 就吊打了平均要
6000+ token
的 MinerU 2.0。
这就意味着、当我们让大模型开始使用图像的这种方式来记住数据了之后,模型就有能力用更少的token资源,来取得更好的表达效果。
另外,DeepSeek-OCR 还支持多种分辨率和压缩模式,来适应不同复杂度的文档:
比如说一张只有图片背景和标题文案的 PPT,可能只需要 64 个 视觉token 就足够表示了。
如果这页的文字内容比较多,那就会自动切换到 Large 模式,用上最多 400 个 视觉token 来记录。
如果觉得还不够的话,DeepSeek-OCR 还能支持动态调整的 Gundam 模式来记忆图片,主打一个应记就记,分清轻重缓急的记。
而且比起过去只能识别文字的传统模型来说,DeepSeek-OCR 能记住的数据还会更多。
论文里的一张柱状体,DeepSeek-OCR 能够自动把它给识别成 Excel 格式给保存下来。
文章里出现的有机化合物的分子结构图片,也能自动转化为标准的 SMILES(简化分子线性输入规范)格式存储。
不但能记住图片本身,DeepSeek-OCR 还会同时记住这张图片的位置,记住图片附近的文字在写些什么东西。。。
过去很多看不到的二维信息,都会被 DeepSeek-OCR 给再次捕获。
这玩意的价值有多大,可能大家一下都还没意识到。
这两年做大模型,除了显卡不够之外的最大问题,就是没有训练的数据了。
常规的数据集之前都用过了,想要再搞点高质量的数据集,要么偷偷去网上爬,要么花大价钱去买,再要么就是想办法自己合成。
但现在,很多过去没采集到的数据,就可以在二维信息里被采集到了。
就比如说很多论文文件,过去,大模型只能学到里面的文字信息,但是里面的各种图表,插图那都是两眼一摸黑。
但用上了 DeepSeek-OCR 之后,就可以把之前缺的这部分给无痛补上了。
实际上 DeepSeek 也是这么想的,在论文里还特意提了一嘴,
说这个新模型在一张 A100 上,一天可以给大模型采集出 20 万页以上的训练数据。
所以说,在有了 DeepSeek-OCR 之后,过去的所有数据都值得用它来再识别一遍。
毫无疑问,这些数据,又会成为下一个大模型的养料。
另一方面,用二维的方式来存储数据后,整个模型运行起来也变得更省资源了。
咱都知道,我们在用大模型的时候,聊天聊的越久、上下文越长,这个模型就越容易出 bug。
这是因为大模型在运行的时候,要处理每一个单词,和其他所有单词的关系。
你把对话的长度增加一倍,整个模型的计算量就增加了四倍,增加了两倍,那整个模型的计算量就变成了原本的九倍。
这也是为啥现在大模型厂商都在给你限制上下文长度的原因之一,你要是在一个对话里聊的太嗨了的话,成本要直接卷上天去了。
而在用上了图像记忆之后,DeepSeek 可以把 token 的数量,压缩到原本的十分之一。。。
同时,还不会让性能有太大的损失。
在论文里可以看到,初出茅庐的 DeepSeek-OCR,就能用原本 1/10 的token 数量,达到原模型 96.5%的准确率。
即使哥们再狠点,给它压缩个20倍,模型的准确率,也还能保持个六成左右。。。
同时,DeepSeek 的研究人员还发现了一件好玩的事情。
他们会感觉大模型通过不同的清晰度来存储图像的方式,其实和我们人类遗忘信息的方式很像。
对我们人类来说,遗忘是一个循序渐进的过程。
刚发生的事情,就有点像是 DeepSeek 用 Gundam 模式存下来的数据,最清晰。
而随着时间的推移,这件事的重要性也会逐渐降低,存储它的格式也会从最大的 Gundam 一路降级,从 Large 一路降到最小的 Tiny,占用的 token 数量也会越来越少。
把这个概念引入到大模型里的话,咱们就可以把最近的聊天记录,用“4K HDR蓝光” 的格式来存储,而那些早年不太重要的聊天记录,则是给压缩成 480P 的文件保存。
通过这种主动遗忘的方式,是否能让大模型的上下文能力变得更强呢?
这个想法很有意思,只不过目前就连 DeepSeek 自己也没能给出一个明确的答案。
不过好在 DeepSeek-OCR 还是和过去一样开源的,相信这个问题,要不了多久就会变成热门,整出不少新东西来。
最后,提到开源,我还注意到另外一件事。。。
这次研究不但是 DeepSeek 自己的成果,也是开源社区集体的胜利
比如训练数据里,用到了 华为的 Wukong 数据集,在生成样本文字时,借助了 百度的 PaddleOCR,而在图像特征提取部分,核心组件竟然是 Meta 开源的 SAM,在视觉语义理解层面,还整合了 OpenAI 的 CLIP 模型。
正是这些来自全球的开源成果,被 DeepSeek 重新编织成了一个能“用图片思考”的 AI。
所以,R2 什么时候会来呢。
撰文:
早起
编辑:
江江 & 面线
美编:
焕妍
图片、资料来源:
DeepSeek 官网
Bilibili、小红书
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
菲律宾新闻
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部