创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
国产 gv
自客岁以来,文本到图像生成模子取得了巨猛进展,模子的架构从传统的基于UNet慢慢回荡为基于Transformer的模子。
Playground Research最近发布了一篇论文,详备先容了团队最新的、基于DiT的扩散模子Playground v3(简称PGv3),将模子参数目彭胀到240亿,在多个测试基准上达到了起始进的性能,更擅长图形遐想。
论文衔接:https://arxiv.org/abs/2409.10695国产 gv
数据衔接:https://huggingface.co/datasets/playgroundai/CapsBench
与传统依赖于预测验话语模子如T5或CLIP文本编码器的文本到图像生成模子不同,PGv3实足集成了大型话语模子(LLMs),基于全新的深度交融(Deep-Fusion)架构,应用仅解码器(decoder-only)大型话语模子的学问,来进行文本到图像生成任务。
此外,为了提高图像描画的质料,究诘东谈主员征战了一个里面描画生成器(in-house captioner),省略生成不同详备进程的描画,丰富了文本结构的各样性,还引入了一个新的基准CapsBench来评估详备的图像描画性能。
实验终结标明,PGv3在文本领导解任、复杂推理和文本渲染准确率方面阐扬出色;用户偏好究诘标明,PGv3模子在常见的遐想应用中,如心绪包(stickers)、海报和logo遐想,具有越过东谈主类的图形遐想才气,还省略精准收敛RGB颜料和多话语意会。
PGv3模子架构
Playground v3(PGv3)是一个潜扩散模子(LDM),使用EDM公式进行测验。像DALL-E 3、Imagen 2和Stable Diffusion 3等其他模子雷同,PGv3旨在执行文本到图像(t2i)生成任务。
PGv3实足集成了一个大型话语模子(Llama3-8B),以增强其在提表露会妥协任方面的才气。
文本编码器
Transformer模子中的每层捕捉到的表露不同,包含不同级别的单词级和句子级信息,圭臬作念法是使用T5编码器或CLIP文本编码器的终末一层输出,或是结合倒数第二层的输出,不外,究诘东谈主员发现遴荐用于蜿蜒文本转图像模子的最好层极端忙活,迥殊是使用解码器立场的大型话语模子时,具有更复杂的里面表露。
究诘东谈主员合计,信息清爽过LLM每层的一语气性是其生成才气的关节,而LLM中的学问横跨了系数层,而不是被某一层的输出所封装,是以PGv3在遐想时,复制了LLM的系数Transformer块,不错从LLM的每个对应层中齐赢得守密镶嵌输出。
这种面孔不错充分应用LLM完好意思的「念念考经过」,省略携带模子效法LLM的推理和生成经过,是以在生成图像时,不错完好意思更好的领导解任和一致性才气。
模子结构
PGv3接受了DiT立场的模子结构,图像模子中的每个Transformer块齐确立得与话语模子(Llama3-8B)中的对应块调换,仅包含一个属眼光层和一个前馈层,参数也调换,如守密维度大小、属眼光头的数目和属眼光头的维度,而况只测验了图像模子部分。
在扩散采样经过中国产 gv,话语模子部分只需要发轫一次,就不错生成系数中间守密镶嵌。
与大大量传统的基于CNN的扩散模子不同,Transformer模子将图像特征的自属眼光与图像和文本特征之间的交叉属眼光分开,然后进行集合属眼光操作,不错从图像和文本值的组合池中索要干系特征,而况能减少贪图本钱和推理时辰,底下还有一些对性能进步有效的操作:
1. Transformer块之间的U-Net跨越诱导。
2. 中间层的token下采样,在32层中,在中间层将图像键和值的序列长度减少了四倍,使系数这个词网罗雷同于唯有一个下采样的传统卷积U-Net,稍微加速了测验和推理时辰,而且莫得性能下落。
3. 位置镶嵌,与llama3中的旋转位置镶嵌(RoPE)调换,由于图像是二维的特征,是以究诘东谈主员探索了2D版块的RoPE:
「插值-PE」(interpolating-PE)面孔无论序列长度怎样,保合手肇始和扫尾位置ID固定后,在中间插值位置ID,不外该面孔在测验差别率上严重过拟合,而况无法泛化到未见过的纵横比。
比拟之下,「彭胀-PE」(expand-PE)面孔步骤列长度成比例增多位置ID,不使用任何妙技或归一化,性能阐扬细致,莫得败表示差别率过拟合的迹象。
新的VAE
潜扩散模子(LDM)的变分自编码器(VAE),关于详情模子的细粒度图像质料上限来说极端伏击。
究诘东谈主员将VAE的潜通谈数从4增多到16,增强了合成细节的才气,比如较小的面部和翰墨;除了在256×256差别率下进行测验外,还彭胀到512×512差别率,进一步提高了重建性能。
CapsBench描画基准
图像描画评估是一个复杂的问题,当今的评估想法主要分为两类:
1. 基于参考的想法,如BLEU、CIDEr、METEOR、SPICE,使用一个真确描画或一组描画来贪图相似度当作质料度量,模子得分受到参考面孔的规则;
2. 无参考想法,如CLIPScore、InfoMetIC、TIGEr,使用参考图像的语义向量或图像的多个区域来贪图所建议描画的相似度想法,但污点是,关于密集图像和长而详备的描画,语义向量不具备代表性,因为包含的办法太多。
一种新式的评估面孔是基于问题的想法,从描画中生成问题,并使用这些问题评估所建议的描画,有助于全面评估文本到图像模子。
受到DSG和DPG-bench的启发,究诘东谈主员建议了一种反向的图像描画评估面孔,在17个图像类别中生成「是-否」问答对:通用、图像类型、文本、颜料、位置、关系、相对位置、实体、实体大小、实体局面、计数、厚谊、无极、图像伪影、私知名词(寰球学问)、调色板和颜色分级。
在评估经过中,使用话语模子仅基于候选描画复兴问题,谜底选项为「是」、「否」和「不适用」。
CapsBench包含200张图像和2471个问题,平均每张图像12个问题,遮盖电影场景、卡通场景、电影海报、邀请函、告白、失业照相、街头照相、情状照相和室内照相。
实验终结
忘忧草社区在线播放究诘东谈主员对比了Ideogram-2(左上),PGv3(右上)和Flux-pro(左下),当以缩略图局面稽查时,3个模子的图像看起来相似,定性各异很小。
当放大查验细节和纹理时,就能看出昭彰区别:Flux-pro生成的皮肤纹理过于平滑,雷同于3D渲染的遵守,不够真确;Ideogram-2提供了更真确的皮肤纹理,但在解任领导词方面阐扬不好,领导词很长的情况下,就会丢失关节细节。
比拟之下,PGv3在解任领导和生成真确图像方面齐阐扬出色,还展现出昭彰优于其他模子的电影质感。
指示解任
彩色文本代表模子未能捕捉到的具体细节,不错看到PGv3遥远省略解任细节。跟着测试领导变长,并包含更多详备信息时,PGv3的上风变得尤为昭彰,究诘东谈主员将这种性能进步归功于咱们集成了大型话语模子(LLM)的模子结构和先进的视觉-话语模子(VLM)图像描画系统。
文本渲染
模子省略生成各样类别的图像,包括海报、logo、心绪包、竹素封面和演示幻灯片,PGv3还省略复现带有定制文本的心绪包,并凭借其高大的领导解任和文本渲染才气,创造出具有无穷脚色和构图的全新心绪包。
RGB颜料收敛
PGv3在生成本体中完好意思了非常邃密的颜料收敛,越过了圭臬调色板,凭借其高大的领导解任才气和专科测验,PGv3使用户省略使用精准的RGB值精准收敛图像中每个对象或区域的颜料,极详察宜需要精准颜料匹配的专科遐想场景。
多话语才气
收成于话语模子天生省略意会多种话语,并构建出细致的干系词表露,PGv3省略当然地施展各样话语的领导,而况多话语才气仅通过极少的多话语文本和图像对数据集(数万张图像)就实足了。
参考尊府:
https://arxiv.org/abs/2409.10695