Gate 新闻消息,4月23日——Google 研究人员(包括何凯明和谢赛宁)发布了一篇论文,介绍 Vision Banana,这是一种通用型视觉理解模型,通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像,使得在不需要任务特定架构或损失函数的情况下,通过图像生成即可实现分割、深度估计和表面法线预测。
在语义分割方面,Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点;在指列表达式分割(referring expression segmentation)方面,它超过了 SAM 3 Agent。不过,在实例分割(instance segmentation)方面,它落后于 SAM 3。对于 3D 任务,度量深度估计在四个标准数据集上取得了 0.929 的平均准确率,超过 Depth Anything V3 的 0.918;推理时仅使用合成数据,无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。
微调过程仅将少量视觉任务数据混入原始图像生成训练,从而保留了模型的生成能力——在生成质量测试中,其性能与原始 Nano Banana Pro 相当。论文提出,视觉中的图像生成预训练与语言中的文本生成预训练相类似:模型在生成过程中学习图像理解所需的内部表征,而指令微调只是释放这种能力。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
DeepSeek 开源 TileKernels:大型模型训练与推理的 GPU 内核库
Gate News 消息,4月23日——DeepSeek 已在 MIT 许可下开源了 TileKernels,这是一款使用 TileLang 编写的 GPU 内核库,面向大型语言模型的训练与推理。TileLang 是 tile-ai 团队开发的领域专用语言,用于在
GateNews6 分钟前
三星SDS扩展与Google Cloud的合作伙伴关系,以AI和安全服务服务受监管领域
Gate 新闻消息,4月23日——三星SDS扩大了与Google Cloud的合作伙伴关系,为受监管行业(包括政府和金融服务)提供AI、云计算和安全服务。
这些公司将为需要数据本地化、低延迟和具备韧性的基础设施的客户部署 Google Distributed Cloud
GateNews30 分钟前
Sullivan & Cromwell 因在法庭文件中出现 AI 幻觉及 40 条错误引文而道歉
Gate News 消息,4月23日——华尔街大型律师事务所 Sullivan & Cromwell 向一名联邦法官道歉,此前他们提交了一份法庭文件,文件中包含约 40 条不正确的引文以及其他错误,这些问题是由 AI 幻觉导致的。该事务所全球重组团队联合负责人 Andrew Dietderich
GateNews46 分钟前
腾讯发布并开源混元 Hy3 预览版:295B 参数
快讯,4月23日——腾讯发布并开源了混元 Hy3 预览版,这是一种融合快慢思考的混合专家(MoE)语言模型。该模型总参数量为 2950 亿,其中激活参数为 210 亿,支持最长 256K 的上下文长度
GateNews1小时前
韩国、越南在人工智能、能源与数据基础设施领域签署70+份谅解备忘录
Gate News 消息,4月23日——韩国和越南在韩国总统李在明于4月23日对河内进行国事访问期间,签署了 (MOUs) 超过70份谅解备忘录,涵盖人工智能、能源、基础设施和电信。由500多名高管参加的商业论坛讨论了人工智能以及电力行业生态系统,
GateNews1小时前
AI 答题引擎集体污染:Gemini 3 正确答案中 56% 无来源支持
本文指出 AI 答題引擎在查詢時會即時引用網頁;若來源為 AI 生成或缺乏證據,便會污染结果;无需再训练即可生效,这称为检索污染(retrieval contamination)。Gemini3 虽然正确率高,但 56% 的答案缺乏可验证来源;Lily Ray、Grokipedia 等案例表明 AI 容易被自创内容欺骗。结论是引用层与可靠作者脱钩,形成自我强化的污染循环,使用者仍须回溯原始来源,勿把回答当成事实查核终点。
鏈新聞abmedia1小时前