SD3
如果要将Stable Diffusion3模型部署,需要完整无误的拆解每一个操作,完全对齐每一次特征处理。 Stable Diffusion3模型所需的模块非常复杂,总共需要3个Text Encoder,1个DiT的扩散模型,一个VAE的图像编解码模型。

上图绘制了SD3各个模块间的连接和特征拼接传递的处理过程。Text Encoder是一个小的clip模型,Text Encoder2是一个稍大一点的clip模型, T5是一个很大的特征提取模型。对于一个prompt,确定采样步数,使用vae随机生成latent按如上的维度连接方式,经过指定步数扩散后将最后的image hidden state送给vae的图像解码模块得到最终的生成图像。红色框代表扩散模型多次扩散的输入输出节点。