讨论

模型前沿

#Qwen #文生图 #文生视频 #多模态

Qwen-Image、Wan 这类模型出来之后，国内多模态工作流会怎么变？

感觉国内产品已经不只是做聊天和检索了，多模态和创作链路正在快速成熟。

沈沐大约 2 个月前

1.8k

最近国内模型在图像和视频上的推进速度非常快。对做产品的人来说，关键问题已经变成：这些能力应该怎样嵌进真实工作流，而不是只做展示。

想听大家聊聊

你最看好哪个多模态环节先进入日常生产？
视频和图片创作，哪一类团队会先把它们真正用起来？

最好能结合你自己所在团队的场景来讲，不只是站在旁观者角度判断。

参与讨论

0 条

登录后参与

还没有人参与讨论，来发表第一个观点

相关推荐

结合当前内容、你的浏览习惯和搜索偏好推荐。

RAG-Anything：一个框架搞定PDF、表格、公式、图片的多模态RAG检索

RAG-Anything：一个框架搞定PDF、表格、公式、图片的多模态RAG检索你是不是也被这些问题折磨过？领导甩来一份50页的PDF报告，让你半小时内提炼核心结论；学术论文里密密麻麻的数学公式和实验数据表格，传统RAG工具一解析全变成乱码；产品经理扔过来一份PPT加上Excel数

#RAG#多模态#知识图谱+1

IP地址：香港特别行政区

0019

Gemini Robotics-ER 1.6：Google让机器人学会读仪表，准确率93%

Google DeepMind今天发布了Gemini Robotics-ER 1.6，这是其具身推理（Embodied Reasoning）模型的重大升级。简单说：以前机器人只能“看”和“动”，现在它能“想”了——而且想得相当靠谱。两个模型，一个大脑一双腿理解这次升级的关键是Googl

#Gemini Robotics#具身智能#Google DeepMind+1

IP地址：香港特别行政区

0021

GPT-6发布：为它OpenAI关停Sora、撕毁10亿合约

4月14日，OpenAI正式发布GPT-6（代号Spud/土豆）。这颗土豆的分量却不轻——耗资超20亿美元、动用10万张H100、历时18个月研发，以200万Token上下文、40%性能跃升和全新Symphony原生多模态架构，重新定义了大模型的能力天花板。但封神之路的代价同样惊人：为了GPT-

#GPT-6#OpenAI#Symphony+2

IP地址：香港特别行政区

0026

智谱GLM-5V-Turbo实测：设计稿直出代码，多模态编程的拐点到了？

智谱GLM-5V-Turbo实测：设计稿直出代码，多模态编程的拐点到了？ 2026年4月2日，智谱发布GLM-5V-Turbo——首个原生多模态Coding基座模型。这不是又一个"能看图的模型"，而是把视觉理解和代码生成从底层焊在一起的工程体系。为什么这个发布值得关注过去一年，A

#GLM-5V-Turbo#智谱#多模态编程+2

IP地址：香港特别行政区

0030