SuperEdit – 字节跳动及其他机构推出的创新图像编辑技术与方法探讨

SuperEdit是什么

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法，基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令，与原始图像和编辑图像对更准确地对齐，引入对比监督信号，进一步优化模型训练。SuperEdit不需要额外的视觉语言模型（VLM）或预训练任务，仅依赖高质量的监督信号，在多个基准测试中实现显著的性能提升。

SuperEdit的主要功能

高精度图像编辑：根据自然语言指令对图像进行精确编辑，支持全局、局部、风格等多种类型的编辑任务。
高效训练：在少量训练数据和较小模型规模下实现高性能，降低训练成本。
保留原始图像质量：在执行编辑任务时，最大限度地保留原始图像的结构和细节，避免不必要的修改。

SuperEdit的技术原理

扩散模型的生成属性：基于扩散模型在不同推理阶段的生成属性来指导编辑指令的纠正。扩散模型在早期阶段关注全局布局，在中期阶段关注局部对象属性，在后期阶段关注图像细节，风格变化贯穿整个采样过程。
编辑指令纠正：基于输入原始图像和编辑图像对到视觉语言模型（VLM），生成描述两者差异的编辑指令。定义统一的纠正指南，确保生成的编辑指令更准确地反映原始图像和编辑图像之间的实际变化。
对比监督信号：引入对比监督信号。通过生成错误的编辑指令，创建正负样本对，用三元组损失函数训练模型，更好地区分正确的编辑指令和错误的指令。
高效训练策略：SuperEdit在训练过程中用少量高质量的编辑数据，避免大规模数据集带来的计算负担。基于优化监督信号，在少量数据和较小模型规模下实现与复杂架构相当甚至更好的性能。
模型架构：基于InstructPix2Pix框架，用预训练的扩散模型（如Stable Diffusion）作为基础模型，基于纠正编辑指令和对比监督信号进行微调。