[[2411.19156.pdf]]
这篇论文提出了一种新的图像编辑框架,称为“LoRA of Change(LoC)”,旨在通过视觉指令(例如前后图像对)进行高效的图像编辑。与自然语言指令的模糊性和多重解释相比,视觉指令能够更准确地反映用户的意图。通过利用LoRA(低秩适配)技术,该框架能够动态生成针对特定指令的LoRA,进而提高模型的可解释性和可重用性。
本文首先分析了现有基于视觉指令的图像编辑方法的不足之处,尤其是它们对配对数据(即包含查询图像和目标图像的四元组数据)的依赖,这限制了模型的泛化能力。而LoC框架通过引入LoRA反向优化技术,克服了这一限制,能够只依赖配对数据进行大规模训练。论文的实验结果显示,LoC框架在多种真实世界的视觉指令上表现优异,生成的图像质量高,能够准确对齐用户意图。
具体而言,LoC框架通过一个超网络(Hypernetwork)来生成指令特定的LoRA,并与一个冻结的生成模型结合,优化图像编辑任务。实验表明,借助LoRA反向训练,模型能够有效地捕捉前后图像对之间的“变化”,并且减少视觉信息泄露带来的问题。
经过 extensive 的定性和定量实验,LoC不仅在图像质量和用户意图的对齐上优于现有方法,还支持多种类型的图像编辑,包括添加、移除、操控、风格迁移等。总的来说,LoC为基于视觉指令的图像编辑任务提供了一种新的解决方案,同时具有良好的可解释性和可重用性。