阿里开源ACE++,无训练,一张图搞定换装,全面超越 LoRA?

文章目录

  • ACE是什么?
  • 简要说明
  • 核心架构
  • 技术创新
  • 应用场景演示
  • 官网摘要原文和资源地址
  • 范例
  • 肖像
  • 主体
  • 本地编辑
  • 具体应用

阿里通义实验室最新开源的ACE++ —— 这个被称为“AI图像编辑革命”的工具,彻底颠覆了传统设计流程!只需一张图,无需训练,就能实现角色换装、品牌迁移、场景重构。

ACE是什么?

ACE++ 是一款基于扩散模型的图像生成与编辑工具,支持通过自然语言指令或视觉参考,实现高质量、高一致性的图像创作。其核心能力包括:

  1. 一致性生成:保持人物肖像、主题物体的跨场景一致性(如虚拟试穿、品牌标志迁移);
  2. 精准编辑:局部重绘、风格转换、元素增减,且不破坏原图结构;
  3. 多模态输入:支持文本指令、参考图像、掩码等多种条件组合,灵活适配复杂需求。

ACE++ 的主要功能

  • 高质量人物肖像生成:通过 ACE++ Portrait 模型,可以根据用户输入的指令生成高质量的人物肖像,同时保持人物面部特征和风格的一致性。
  • 主题一致性保持:ACE++ Subject 模型可以在不同的场景中生成具有特定主题的图像,例如将某个标志或物体放置在不同的背景中。
  • 局部图像编辑:ACE++ LocalEditing 模型支持对图像的特定区域进行重新绘制或修改,同时保留原有图像的结构和风格。
  • 风格化编辑:用户可以通过指令对图像进行风格化处理,例如将普通照片转换为艺术风格或特定的视觉效果。
  • 上下文感知内容填充:根据图像的上下文信息,智能地填充缺失或需要修改的部分,确保生成的图像在视觉上自然且一致。
  • 指令驱动的交互:用户可以通过简单的自然语言指令来控制图像的生成和编辑过程,例如指定生成特定风格的人物肖像或要求在图像中添加、删除或修改某个元素。
  • 多任务支持:ACE++ 支持多种图像处理任务,包括虚拟试穿、标志粘贴、照片修复、电影海报编辑等。
阿里开源ACE++,无训练,一张图搞定换装,全面超越 LoRA?插图

简要说明

核心架构

基于指令驱动的扩散模型框架,采用两阶段训练方案:

  • 预训练阶段:继承FLUX.1等文本到图像模型的生成能力
  • 微调阶段:支持综合指令集处理,提供完整微调与轻量化微调双版本

技术创新

  • 改进长上下文条件单元(LCU),实现多任务统一处理
  • 利用图像生成先验知识,提升处理效率
  • 支持全功能版和垂直领域专用版模型部署

应用场景演示

主题驱动生成:

  • IP形象延展:将卡通角色融入游戏主机、包装设计等商业场景
  • 品牌标识应用:展示商标在礼盒、数字广告牌等载体的多样化呈现
  • 创意产品设计:毛绒玩具在都市、航海等主题环境中的多形态表现

人像一致性编辑:

  • 角色换装:实时生成古风/超级英雄/职业装等多风格形象
  • 场景迁移:人物无缝融入中国古建筑/沙漠/北极等背景
  • 肖像风格化:支持迪士尼卡通化等艺术风格转换

灵活指令处理:

  • 元素替换:服装颜色调整、物品增减
  • 动态改造:交通工具火星行驶、海浪增强等场景特效
  • 跨介质转换:照片转插画风格、现实转赛博朋克风格

局部精细编辑:

  • 对象移除/修复:精准消除指定物体
  • 区域着色:局部色彩调整
  • 文本编辑:添加/去除指定文字

技术优势

  • 支持自然语言指令和视觉参考双重引导
  • 保持主体特征一致性
  • 实现像素级精细控制
  • 适配商业设计全流程需求

该框架已获CVPR 2025收录,相关技术细节可参考原始论文。

系统提供API接口和本地部署方案,满足不同规模企业的图像创作需求。

官网摘要原文和资源地址

我们提出了ACE++,这是一个基于指令的扩散框架,能够处理多种图像生成和编辑任务。受FLUX.1-Fill-dev提出的修复任务输入格式启发,我们改进了ACE中引入的长上下文条件单元(Long-context Condition Unit, LCU),并将这一输入范式拓展到任意编辑和生成任务。为充分利用图像生成先验知识,我们开发了一个两阶段训练方案来最小化微调FLUX.1-dev等强大文本到图像扩散模型的工作量。

在第一阶段,我们使用文本到图像模型的0-ref任务数据进行预训练。社区中许多基于文本到图像基础模型后续训练的方法都符合这一阶段的训练范式,例如主要处理绘制任务的FLUX.1-Fill-dev可作为初始化来加速训练过程。在第二阶段,我们对上述模型进行微调以支持ACE定义的所有通用指令。为促进ACE++在不同场景的广泛应用,我们提供覆盖完整微调和轻量化微调的完整模型集合,同时兼顾通用适用性和垂直场景适用性。定性分析展现了ACE++在生成图像质量和指令跟随能力方面的优越性。

范例

肖像

纵向一致性生成,以保持纵向的一致性。

阿里开源ACE++,无训练,一张图搞定换装,全面超越 LoRA?插图1

主体

主体驱动的图像生成任务,用于保持特定主体在不同场景中的一致性。

阿里开源ACE++,无训练,一张图搞定换装,全面超越 LoRA?插图2

本地编辑

重新绘制图像的蒙版区域,同时保持编辑区域的原始结构信息。

阿里开源ACE++,无训练,一张图搞定换装,全面超越 LoRA?插图3

具体应用

ACE++ 模型通过简单的调整支持广泛的下游任务。以下是一些示例,我们期待看到社区探索更多利用 ACE++ 模型的令人兴奋的应用程序。

阿里开源ACE++,无训练,一张图搞定换装,全面超越 LoRA?插图4

微海报

评论留言