天天观察:如何简单高效地定制自己的文本作画模型?
强烈建议先阅读:一文弄懂 Diffusion Model
1. 论文信息标题:Multi-Concept Customization of Text-to-Image Diffusion
作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.
(资料图)
原文链接:https://arxiv.org/pdf/2212.04488.pdf
代码链接:https://www.cs.cmu.edu/~custom-diffusion/
2. 引言最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。
但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:
首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。
3. 方法总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。
对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:
概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。
而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的
由于我们的方法仅更新与文本特征相对应的key和value投影矩阵,因此我们可以将它们合并,以允许使用多个微调概念生成。让集合
推荐
- 天天观察:如何简单高效地定制自己的文本作画模型?
- 【世界新要闻】民法典小区高空抛物砸坏玻璃你怎么办
- 我国力争到2025年规划完成沙化土地治理任务1亿亩
- 湖南万达“成长记”:12城16店 砥砺奋进第十年
- 世界关注:江城安心保在外地买药能报销吗
- 迷你辣椒蟹怎么分公母?|环球时讯
- 东方锆业(002167)12月29日主力资金净卖出595.90万元-天天信息
- 借去花逾期期17天会怎样|世界新视野
- 厦门灵玲国际马戏城元旦节门票多少钱?-看点
- 美国冬季风暴重灾区雪深难清理 交通电力仍部分中断-全球快报
- 东莞塘厦新冠疫苗第四针接种点在哪
- 1月3日见!NV要发新显卡 你买不买?
- A股异动 | 大为股份开盘涨停 拟220亿元投建锂矿产资源综合利用及锂电池产业链项目等
- 要闻速递:号召读书的句子精选401句
- 我阳了...
- 天天微资讯!众源新材12月28日盘中涨停
- 密谋绑架密歇根州女州长,男子重囚16年_环球时快讯
- 热文:12月27日基金净值:华夏创成长ETF最新净值0.5625,涨1.22%
- 左江科技:与中移(成都)产业研究院签订战略合作协议-焦点报道
- 天天热点!莱美药业董秘回复:公司重点品种研发进度请您参见公司定期报告“管理层讨论与分析”相关内容
- HY兴业投资:在美债收益率提振下,美元/日元上涨至三日内的高水平突破133.00
- 天天新资讯:中科创达: 《章程(草案)(GDR上市后适用)》及其附件修订对比表
- 派生科技(300176)11月28日主力资金净卖出527.22万元
- 【世界报资讯】石家庄循环化工园区以更大力度上项目稳投资添动力
- 济源市气象台发布道路结冰黄色预警「III级/较重」「2022-12-25」
- 天天简讯:她曾是央视一姐,辞职后变成为公司董事长,54岁素颜出镜风采依旧
- 新疆铁路货运量首破两亿吨 提前8天完成全年生产任务指标
- 世界今头条!北京银行: 北京银行股份有限公司关于召开2023年第一次临时股东大会的通知
- 29.8亿元!财政部提前下达河南省补助资金支持安居工程建设 当前通讯
- AMD的超频记录被打破 i9-13900K超到9GHz
- 12月22日热点行业分析:红黄药酒、白酒行业领涨
- 世界最资讯丨阿牛智投:行情转折还需等待
- 全球最新:小赢卡贷网贷逾期三个月征信会怎么样
- 环球热点评!创新技术获上海市经信委资助 北信源工控安全业务或迎新机遇
- 当前热点-网贷10万还不起会不会被起诉
- 今日热搜:【解码2023河南经济发展②】河南如何加强市场化引才?专家提出这些建议
- 全球热消息:“60后”退休群体撬动“不一样”的养老服务业
- 直击调研 | 老百姓(603883.SH):自有品牌销售占比达到19.8% 深度整合怀仁药房仍需时间 微资讯
- 【焦点热闻】西安—达州“复兴号”动车1月1日开行 万源步入“动车时代”
- 热点评!中国信通院赵相楠:预防软件供应链风险需营造安全可信网络空间生态环境
- 宜人贷网贷逾期1千征信会怎么样
- 今日热议:许昌经济技术开发区:打击传销宣传进社区
- 环球视点!库里空砍32+5+5生死时刻走步致命 最后一攻成诱饵
- 发展新能源是实现能源本质安全的主要选择
- 世界信息:德信服务集团(02215.HK)授出3.15亿元贷款
- 本周盘点(12.12-12.16):苏美达周跌3.95%,主力资金合计净流出1266.23万元 每日观察
- 天天快消息!离婚后拒付子女培训费,法院成功执结6600元
- 任职资格获批:葛仁余正式接棒江苏银行行长|环球滚动
- 天天热点!公司向股东借款合同怎样写要注意哪些问题
- 异动快报:神雾节能(000820)12月15日9点38分触及涨停板
- 合同诈骗罪贷款诈骗,具体如何处罚? 天天短讯
- 【世界新要闻】贴近需求送服务 倡树文明好风尚
- 之江生物(688317)12月13日主力资金净卖出7681.08万元-环球观察
- 天天滚动:鑫海建元为高净值人员提供帮助
- 金钟股份:12月12日获融资买入87.21万元,占当日流入资金比例16.08%
- 焦点快看:水晶光电(002273.SZ):拟推第六期员工持股计划 筹资总额上限为4580.68万元
- 如何面向零零后开设大学写作课_环球热推荐
- 全球新动态:“女鞋第一股”金蝉脱壳,卖鞋终归不如搞直播
- 内幕交易江特电机细节全曝光,赣锋锂业被罚442万 全球快播报
- 全球通讯!华大智造(688114)12月7日主力资金净卖出378.86万元
- 股票行情快报:中炬高新(600872)12月6日主力资金净卖出9037.26万元|全球热文
- 就地过节 露营度假!“微度假”成今年十一假期新趋势
- 超四成转化至制造业领域!我国科技成果转化合同项数超46万项
- 前4个月甘肃外贸进出口总值209.8亿元 同比增长8.1%
- 株洲首座220千伏“多站合一”变电站将于6月投运
- 合肥市龙河口引水工程取水口围堰顺利合龙
- 中宣部:斩断伸向未成年人的盗版侵权“魔爪”
- 国务院开展根治欠薪冬季专项行动 为农民工追讨欠薪68.62亿元
- 坚决打击网络暴力 帮助网民切实维护自身权益
- 七台河市鹿山煤矿二井发生矿震 4人被困井下
- 暂停27天后 福建仙游火车站重启
- “大工匠”传经送宝
- 黑龙江七台河一煤矿发生矿震 目前井下4人被困
- 湖南临澧凌晨拉响防空警报 回应:短路引起故障
- 广东国庆假期高速公路车流总量超5000万车次 大湾区车流量同比增长10%
- 南海热带低压加强为台风 海南发布台风三级预警
- 广东升级广交会期间疫情防控举措 所有持证人员核酸检测“应检尽检”
- 国庆假期北京市接待旅游总人数861.1万人次
- 高福、童贻刚团队:新冠病毒溯源将是一场“持久战”
- 四川水利国庆假期全力应战最强秋汛
- 南海热带低压将于8日夜间至9日上午在海南岛东部登陆
- 聊天群背后的黑色产业链 金钱诱惑下被害人变成害人者
- 黑龙江省绥化市全域均为低风险地区
- 走近网瘾少年们:他们沉迷网络的病根何在?
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- “双减”后首个长假:亲子游、研学游需求集中释放
- 天山脚下,触摸丝路发展新脉动
- 且看新疆展新颜
- 《山海情》里“凌教授”的巨菌草丰收啦
- “双减”出台两个月,组合拳如何直击减负难点?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
X 关闭
行业规章
X 关闭