最近国内模型在图像和视频上的推进速度非常快。对做产品的人来说,关键问题已经变成:这些能力应该怎样嵌进真实工作流,而不是只做展示。
想听大家聊聊
- 你最看好哪个多模态环节先进入日常生产?
- 视频和图片创作,哪一类团队会先把它们真正用起来?
最好能结合你自己所在团队的场景来讲,不只是站在旁观者角度判断。
参与讨论
0 条登录后参与
还没有人参与讨论,来发表第一个观点
相关推荐
结合当前内容、你的浏览习惯和搜索偏好推荐。
文章
10 天前
RAG-Anything:一个框架搞定PDF、表格、公式、图片的多模态RAG检索
RAG-Anything:一个框架搞定PDF、表格、公式、图片的多模态RAG检索 你是不是也被这些问题折磨过? 领导甩来一份50页的PDF报告,让你半小时内提炼核心结论;学术论文里密密麻麻的数学公式和实验数据表格,传统RAG工具一解析全变成乱码;产品经理扔过来一份PPT加上Excel数
#RAG#多模态#知识图谱+1
管
IP地址:香港特别行政区
0019
文章
15 天前
Gemini Robotics-ER 1.6:Google让机器人学会读仪表,准确率93%
Google DeepMind今天发布了Gemini Robotics-ER 1.6,这是其具身推理(Embodied Reasoning)模型的重大升级。简单说:以前机器人只能“看”和“动”,现在它能“想”了——而且想得相当靠谱。 两个模型,一个大脑一双腿 理解这次升级的关键是Googl
#Gemini Robotics#具身智能#Google DeepMind+1
管
IP地址:香港特别行政区
0021

