SD3 process Qwen3-RL-with-QAT Qwen3-RL tensorflow模型转onnx模型转tensorrt动态batchsize code vectorzation tensorflow onnx tensort tensorflow python deploy tensorflow C++ deploy tensorflow ckpt to pb From conv to atrous Person ReID Image Parsing Show, Attend and Tell Neural Image Caption Generation with Visual Attention dense crf Group Normalization 灵敏度和特异性指标人体姿态检测 segmentation标注工具利用多线程读取数据加快网络训练利用tensorboard调参深度学习中的loss函数汇总纯C++代码实现的faster rcnn windows下配置caffe_ssd use ubuntu caffe as libs use windows caffe like opencv windows caffe implement caffe model convert to keras model Fully Convolutional Models for Semantic Segmentation Transposed Convolution, Fractionally Strided Convolution or Deconvolution 基于tensorflow的分布式部署用python实现mlp bp算法用tensorflow和tflearn搭建经典网络结构 Data Augmentation Tensorflow examples Training Faster RCNN with Online Hard Example Mining RNN(循环神经网络)推导深度学习中的稀疏编码思想利用caffe与lmdb读写图像数据分析voc2007检测数据用python写caffe网络配置 ssd开发将KITTI的数据格式转换为VOC Pascal的xml格式 Faster RCNN 源码分析在Caffe中建立Python layer 在Caffe中建立C++ layer 为什么CNN反向传播计算梯度时需要将权重旋转180度 Caffe使用教程（下） Caffe使用教程（上） CNN反向传播 Softmax回归 Caffe Ubuntu下环境配置

CUDA usage llamacpp usage tensorrt docker制作软件安装使用命令抢购脚本 Docker使用 bash shell命令使用记录 pip使用命令 C++文件遍历 python computer vision How to use glog Windows下搭建github pages

成果三年研究生生涯感悟

python实现各种排序算法

flappyBird DQN Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks Fast-style-transfer 使用Tensorflow做Prisma图像风格迁移

windows编译tensorflow tensorflow单机多卡程序的框架 tensorflow的操作 tensorflow的变量初始化和scope tensorflow模型恢复与inference的模型简化 tensorflow使用LSTM tensorflow使用记录 tensorflow安装 tensorflow DQN

python usage CNN感受野计算 C++小程序 python小程序

pytorch examples

深度学习 49

windows编译tensorflow tensorflow单机多卡程序的框架 tensorflow的操作 tensorflow的变量初始化和scope 人体姿态检测 segmentation标注工具 tensorflow模型恢复与inference的模型简化利用多线程读取数据加快网络训练 tensorflow使用LSTM pytorch examples 利用tensorboard调参深度学习中的loss函数汇总纯C++代码实现的faster rcnn tensorflow使用记录 windows下配置caffe_ssd use ubuntu caffe as libs use windows caffe like opencv windows caffe implement caffe model convert to keras model flappyBird DQN Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks Fast-style-transfer tensorflow安装 tensorflow DQN Fully Convolutional Models for Semantic Segmentation Transposed Convolution, Fractionally Strided Convolution or Deconvolution 基于tensorflow的分布式部署用python实现mlp bp算法用tensorflow和tflearn搭建经典网络结构 Data Augmentation Tensorflow examples Training Faster RCNN with Online Hard Example Mining 使用Tensorflow做Prisma图像风格迁移 RNN(循环神经网络)推导深度学习中的稀疏编码思想利用caffe与lmdb读写图像数据分析voc2007检测数据用python写caffe网络配置 ssd开发将KITTI的数据格式转换为VOC Pascal的xml格式 Faster RCNN 源码分析在Caffe中建立Python layer 在Caffe中建立C++ layer 为什么CNN反向传播计算梯度时需要将权重旋转180度 Caffe使用教程（下） Caffe使用教程（上） CNN反向传播 Softmax回归 Caffe Ubuntu下环境配置

技术 1

Windows下搭建github pages

感悟 1

三年研究生生涯感悟

编程语言 3

C++文件遍历 python computer vision How to use glog

算法基础 1

python实现各种排序算法

软件使用 2

软件安装使用命令 pip使用命令

code 4

python usage CNN感受野计算 C++小程序 python小程序

搭建环境 1

使用记录

Linux使用 1

bash shell命令

docker使用 2

tensorrt docker制作 Docker使用

医疗 1

灵敏度和特异性指标

python使用 1

抢购脚本

llamacpp 1

llamacpp usage

CUDA 1

CUDA usage

SD3 process

2025年12月24日

SD3

如果要将Stable Diffusion3模型部署，需要完整无误的拆解每一个操作，完全对齐每一次特征处理。 Stable Diffusion3模型所需的模块非常复杂，总共需要3个Text Encoder,1个DiT的扩散模型，一个VAE的图像编解码模型。

上图绘制了SD3各个模块间的连接和特征拼接传递的处理过程。Text Encoder是一个小的clip模型，Text Encoder2是一个稍大一点的clip模型， T5是一个很大的特征提取模型。对于一个prompt,确定采样步数，使用vae随机生成latent按如上的维度连接方式，经过指定步数扩散后将最后的image hidden state送给vae的图像解码模块得到最终的生成图像。红色框代表扩散模型多次扩散的输入输出节点。

blog comments powered by Disqus