新闻详情

苹果发布多模态AI模型UniGen 1.5,单模型实现图像理解、生成与编辑

前天

385

爱思助手,科技媒体9to5Mac援引12月18日的报道称,苹果研究团队近日发布了多模态AI模型UniGen 1.5。该模型的突破性在于成功将图像理解、生成与编辑三大核心功能整合于单一系统之内


苹果发布多模态AI模型UniGen 1.5,单模型实现图像理解、生成与编辑


不同于以往依赖多个专用模型分别处理不同任务的传统方案,UniGen 1.5构建了一个统一的框架,仅用一个模型即可同时执行图像理解、生成与编辑。研究团队指出,这种一体化架构能让模型利用其强大的图像理解能力来提升生成质量,从而实现更精准、更连贯的视觉内容输出。


在图像编辑方面,精准理解用户复杂或细微的修改指令一直是业界难题。为此,苹果团队创新性地引入了名为“编辑指令对齐”的后训练阶段。该技术并非让模型直接修改图像,而是要求模型根据原始图像和编辑指令,先预测出目标图像的详细文本描述。


苹果发布多模态AI模型UniGen 1.5,单模型实现图像理解、生成与编辑


这一“先描述,后生成”的中间步骤,迫使模型在输出最终图像前必须深入理解用户的编辑意图,从而显著提高了编辑的准确性和可控性。


除了指令对齐技术,UniGen 1.5的另一重要贡献是在强化学习层面实现了创新。研究团队设计了一套统一的奖励机制,可同时应用于图像生成和图像编辑的训练过程。


此前,由于编辑任务在修改幅度上跨度极大,从细微调整到彻底重构,实现统一的奖励评判极为困难。此项突破使得模型在处理各类视觉任务时,能遵循一致的质量优化标准,显著提升了系统的鲁棒性和稳定性。


苹果发布多模态AI模型UniGen 1.5,单模型实现图像理解、生成与编辑


在多项业界基准测试中,UniGen 1.5表现出了强大的竞争力。数据显示,在GenEval和DPG-Bench测试中,其得分分别达到0.89和86.83,显著优于BAGEL、BLIP3o等近期热门模型。在图像编辑专项测试ImgEdit中,它以4.31的综合得分,不仅超越了OminiGen2等开源模型,其表现更是与GPT-Image-1等专有闭源模型持平。


尽管整体表现卓越,UniGen 1.5目前仍存在一些局限性。研究人员在论文中坦言,由于所采用的离散去标记器在控制细粒度结构方面能力不足,模型在生成图像内嵌文字时容易出错。此外,在某些编辑场景下,模型偶尔会出现主体特征漂移的问题,例如改变猫的毛发纹理或导致鸟的羽毛颜色产生偏差。这些问题已被列为团队未来的重点优化方向。


特别声明:本文版权归文章作者所有,仅代表作者观点,不代表爱思助手观点和立场。本文为第三方用户上传,仅用于学习和交流,不用于商业用途,如文中的内容、图片、音频、视频等存在第三方的知识产权,请及时联系我们删除。


Windows
Mac OS
iOS
Android
Linux
爱思助手
Windows 64位 适用本机
V9.06 2025-11-12
立即下载
Windows 32位 适用本机
V9.06 2025-11-12
立即下载
爱思助手
Intel 芯片 如何区分芯片类型?
V9.01 2025-12-03
立即下载
Apple 芯片
V9.01 2025-12-02
立即下载
如何区分芯片类型?
1、在屏幕左上角点击苹果图标,选择“关于本机”
2、在“处理器”或“芯片”中查看是“Intel”还是“
Apple”
请通过“爱思助手电脑端”来安装“iOS 端”
1、 安装“爱思助手的 Win/Mac/Linux 中任意一个电脑端”
2、 打开电脑端,用数据线连接设备到电脑
3、 连接成功后,等待电脑端自动为设备安装移动端,或在电脑端找到“安装移动端”手动点击安装
手机扫码安装“爱思助手”
爱思助手
deb 文件
V3.09.001 2025-10-24
立即下载
rpm 文件
V3.09.001 2025-10-24
立即下载
Windows
iOS
Android
TV
爱思投屏
Windows 64位 适用本机
V6.0.23 2025-12-23
立即下载
Windows 32位 适用本机
V6.0.23 2025-12-23
立即下载
iOS 设备无需安装应用,具体投屏步骤如下
1、 在 Windows 电脑上安装“爱思投屏”
2、 在 iOS 设备的“控制中心”中找到“屏幕镜像”
3、 点开屏幕镜像后,在列表中选择主机发起投屏
4、 或使用 USB 数据线将手机与电脑连接后发起投屏
手机扫码安装“爱思投屏”
爱思投屏TV V1.0.17
2025-10-13
TV 系统要求: Android 7.0 及以上版本
下载电视版安装包,拷贝到U盘再把U盘插入电视或机顶盒USB接口,从主页文件夹中选择安装包安装