切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Qwen开源版Banana来了!原生支持ControlNet
菲龙网编辑部7
有 744 人收听 TA
156057
主题
156074
回复
182554
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/124
辽宁微短剧首登央视频 《沈阳1931》以光影传承不朽精神
0/117
韩国这次彻底玩脱了,引起3国观众集体抵制,损失的可不止几个亿
0/122
《许我耀眼》从谎言自救到撕掉伪装,赵露思戏里戏外都在自我救赎
0/119
闪电评论丨《我们的河山》:以真实笔触绘就抗战史诗,彰显当代价值
0/126
《绝命法官》5集过后,贫富差距问题成为焦点,穷人活该背罪吗
0/118
灼灼韶华:夏初最珍贵之处,是他给褚韶华种下了蓝图和希望
0/110
灼灼韶华:直到倪香影逆袭,才懂褚韶华八万大洋买断康二妞的真相
0/115
以客厅喜剧呈演真实生活 《欢乐家长群2》热播
0/117
《雍正王朝》:李卫、邬先生为什么会出现在山西和田文镜见面
查看TA的全部帖子>>
Qwen开源版Banana来了!原生支持ControlNet
时间:2025-9-24 09:33
0
146
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
时令 发自 凹非寺
量子位 | 公众号 QbitAI
Qwen版Banana来了!
刚刚,Qwen推出了新图像编辑模型——Qwen-Image-Edit-2509。
不仅支持
多图融合
,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等
单图一致性
。
除此之外,它还
原生支持ControlNet
,可通过关键点图改变人物姿势,还可轻松实现换装需求。
图像编辑之余,Qwen还开源了端到端全模态模型
Qwen3-omni
,表现也可圈可点。既可当语音翻译助手,还能立不同的人设,甚至支持方言输出。
下面具体来看。
支持多图输入
新图像编辑的首要更新就是支持了
多图输入
。
先看一个“
人物+人物
”生成结婚照的例子。
输入两张图片:
然后,输入以下提示词:
结果闪亮登场:
不喜欢中式婚礼的也没事,我们还可以生成西式的,主打一个用户就是上帝。
再看“
人物+场景
”的应用,感觉可轻轻松松实现环球旅行。
令我比较惊讶的是,这还真不是简单的图像拼接,它甚至贴合场景改变了主角的神态,闭眼享受阳光的动作、躺椅上的影子,说实话,p图我都p不出来这么细。
下面轮到“
人物+物体
”了,我把它称为最快拥有奢侈品包包和豪车的方式。
此外,多图输入也支持
ControlNet
常用的关键点图,比如改变人物姿势。
还能在改变关键点的同时,进行换装。
除此之外,普通证件照、形象照、生活照也是so easy。
想要Banana大火的美式精英风?无论是半身还是全身照,你想要的Qwen都有。
还能进行不同的姿势编辑,俏皮、比心、举黑板都是不在话下。
基于新模型上述图像编辑能力,再加上其本身特色的文字生成能力,团队发现它还很擅长制作表情包。
当然,对于更长的文字,新模型也依然可以在保持人物一致性的前提下进行渲染。
更有意思的是,它还可以给老照片进行修复,比如给照片上色。
还可以修复破损照片。
但是,这个美颜……
除了真实人物,生成卡通玩偶、文创也是分分钟的事啦。
咦?这左下角不就是Nano Banana爆火的手办吗?Qwen新模型效果看起来也是很不错的。
1个物品太简单了,咱们再换个有14只猫的图片试一下。
哇哦,猫的数量是对的,效果也是相当可以。
除了图像方面,新模型还专门增强了文字一致性,支持了包括字体类型编辑、字体颜色编辑和字体材质编辑。
此外,它还支持定点文字编辑,细致到可将圈出来的错字进行定点修改。
效果是这样滴:
不仅如此,新模型还支持深度图控制,保持物体与场景的一致性。
哎呀,这泥泞的道路、茂盛的丛林、真实的车辙印,真的不是户外山地车的广告吗?
只有关键点也不耽误出图,无论男女、无论古代还是现代、无论什么穿着,Qwen都能统统搞定。
最后就是根据草图来控制生图,这一老一少真给人一种时光穿梭的感觉,再配个bgm氛围感直接拉满。
还有端到端全模态模型
Qwen不仅在图像编辑上表现优异,它还开源了端到端、全模态大模型
Qwen3-omni
,不仅能够无缝处理文本、音频、图像和视频等多种输入形式,还能边生成文字边实时合成语音。
主要特点如下所示:
跨模态的领先性能
:在36项音频及音视频基准测试中,Qwen3-omni斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言方面
:Qwen3-omni支持119种文本语言、19种语音输入语言和10种语音输出语言。
不仅是实时翻译助手,还能直接总结网页内容,然后用你所需要的语言输出。
更快响应
:端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
长音频
:支持长达30分钟音频理解。
个性化
:支持system prompt随意定制,可以修改回复风格,人设等。
比如广东幼儿园老师或是四川女汉子。
咦,那么问题来了,这些方言是否标准噻?
工具调用
:支持function call,实现与外部工具/服务的高效集成。
开源通用音频Captioner
:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。
不仅能分析音乐风格,还能推理数学题,甚至还能当起语音助手唤醒其他应用。
这花里胡哨的功能真是令人眼花缭乱,感兴趣的读者赶紧去试试吧。
参考链接:
[1]https://huggingface.co/Qwen/Qwen-Image-Edit-2509
[2]https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
[3]https://github.com/QwenLM/Qwen3-Omni
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
吃货天地
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部