苹果发布多模态AI模型UniGen 1.5，单模型实现图像理解、生成与编辑

2025-12-22

2513

爱思助手，科技媒体9to5Mac援引12月18日的报道称，苹果研究团队近日发布了多模态AI模型UniGen 1.5。该模型的突破性在于成功将图像理解、生成与编辑三大核心功能整合于单一系统之内。

苹果发布多模态AI模型UniGen 1.5，单模型实现图像理解、生成与编辑

不同于以往依赖多个专用模型分别处理不同任务的传统方案，UniGen 1.5构建了一个统一的框架，仅用一个模型即可同时执行图像理解、生成与编辑。研究团队指出，这种一体化架构能让模型利用其强大的图像理解能力来提升生成质量，从而实现更精准、更连贯的视觉内容输出。

在图像编辑方面，精准理解用户复杂或细微的修改指令一直是业界难题。为此，苹果团队创新性地引入了名为“编辑指令对齐”的后训练阶段。该技术并非让模型直接修改图像，而是要求模型根据原始图像和编辑指令，先预测出目标图像的详细文本描述。

苹果发布多模态AI模型UniGen 1.5，单模型实现图像理解、生成与编辑

这一“先描述，后生成”的中间步骤，迫使模型在输出最终图像前必须深入理解用户的编辑意图，从而显著提高了编辑的准确性和可控性。

除了指令对齐技术，UniGen 1.5的另一重要贡献是在强化学习层面实现了创新。研究团队设计了一套统一的奖励机制，可同时应用于图像生成和图像编辑的训练过程。

此前，由于编辑任务在修改幅度上跨度极大，从细微调整到彻底重构，实现统一的奖励评判极为困难。此项突破使得模型在处理各类视觉任务时，能遵循一致的质量优化标准，显著提升了系统的鲁棒性和稳定性。

苹果发布多模态AI模型UniGen 1.5，单模型实现图像理解、生成与编辑

在多项业界基准测试中，UniGen 1.5表现出了强大的竞争力。数据显示，在GenEval和DPG-Bench测试中，其得分分别达到0.89和86.83，显著优于BAGEL、BLIP3o等近期热门模型。在图像编辑专项测试ImgEdit中，它以4.31的综合得分，不仅超越了OminiGen2等开源模型，其表现更是与GPT-Image-1等专有闭源模型持平。

尽管整体表现卓越，UniGen 1.5目前仍存在一些局限性。研究人员在论文中坦言，由于所采用的离散去标记器在控制细粒度结构方面能力不足，模型在生成图像内嵌文字时容易出错。此外，在某些编辑场景下，模型偶尔会出现主体特征漂移的问题，例如改变猫的毛发纹理或导致鸟的羽毛颜色产生偏差。这些问题已被列为团队未来的重点优化方向。

特别声明：本文版权归文章作者所有，仅代表作者观点，不代表爱思助手观点和立场。本文为第三方用户上传，仅用于学习和交流，不用于商业用途，如文中的内容、图片、音频、视频等存在第三方的知识产权，请及时联系我们删除。