from diffusers import DPMSolverMultistepScheduler
pipeline.scheduler = DPMSolverMultistepScheduler.from_config(pipeline.scheduler.config)
device = "cuda" if torch.cuda.is_available() else "cpu"
pipeline = pipeline.to(device)
generator = torch.Generator("cuda").manual_seed(0)
# 设置时间步为20（默认是50）
images = pipeline(prompt, generator=generator, num_inference_steps=20).images
image = images[0]
display(image)

使用torch.float16加速

1 2	`- pipeline = DiffusionPipeline.from_pretrained(model_id, use_safetensors=True) + pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)`

latent diffusion

High-Resolution Image Synthesis with Latent Diffusion Models

代码仓库

https://github.com/compvis/latent-diffusion

讲解，但是你不一定能看得懂 https://zhuanlan.zhihu.com/p/582693939

推荐教程：

【【渣渣讲课】试图做一个正常讲解Latent / Stable Diffusion的成年人】【渣渣讲课】试图做一个正常讲解Latent / Stable Diffusion的成年人_哔哩哔哩_bilibili

渣渣讲课的笔记【AI绘图学习笔记】Latent Diffusion Model（上）——论文解读_latent diffusion models-CSDN博客

controlnet

Adding Conditional Control to Text-to-Image Diffusion Models

GitHub - lllyasviel/ControlNet: Let us control diffusion models

zhuanlan.zhihu.com

学会调库

参见hugging face difffusers

HCP-diffusion: Diffusion工具箱

GitHub - IrisRainbowNeko/HCP-Diffusion: A universal Stable-Diffusion toolbox

视频生成

【【中文】视频扩散模型，三小时入门到精通，Mike Shou, Video Diffusion Models, 2023】

【中文】视频扩散模型，三小时入门到精通，Mike Shou, Video Diffusion Models, 2023_哔哩哔哩_bilibili

image+2.png

stable video diffusion

Stable Video Diffusion (SVD)可以从图片生成短视频

不支持文本控制

论文

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

【Stable Video Diffusion论文】视频生成SD，Stability AI又一开源力作_哔哩哔哩_bilibili

GitHub - Stability-AI/generative-models: Generative Models by Stability AI

huggingface.co

帧间连续性

在使用 Stable Video Diffusion（SVD）或其他类似的视频生成模型时，帧之间的连续性是一个关键问题。为了保证生成的视频帧之间具有平滑的过渡和一致性，通常会采用以下几种技术和方法：

时间一致性约束

时间嵌入（Temporal Embedding）：在 SVD 中，每一帧的时间信息会被显式地编码为时间嵌入向量。这些嵌入向量被输入到模型中，使得模型能够感知帧与帧之间的时间关系，从而生成具有时间连续性的内容。
时间注意力机制（Temporal Attention）：通过引入跨帧的注意力机制，模型可以在生成某一帧时参考前一帧或后一帧的信息，从而确保帧间的一致性。

帧间条件生成

条件扩散（Conditional Diffusion）：在生成当前帧时，模型可以以前一帧作为条件输入。这样，当前帧的生成过程会受到前一帧的影响，从而保持视觉上的一致性。
双向扩散（Bidirectional Diffusion）：除了从前向后生成帧外，还可以从后向前生成帧，并结合两者的输出进行融合，进一步提升帧间连续性。

光流估计与运动建模

光流引导（Optical Flow Guidance）：通过计算相邻帧之间的光流场，模型可以学习物体在帧间的运动轨迹，从而生成更加连贯的动态效果。
运动先验（Motion Prior）：引入预训练的运动模型（如基于物理的运动模拟或深度学习的运动预测模型），帮助生成更自然的运动。

帧间正则化

帧差损失（Frame Difference Loss）：在训练过程中，加入帧间差异的损失函数，鼓励相邻帧之间的像素变化尽可能小，从而减少闪烁或不连续的现象。
一致性损失（Consistency Loss）：通过约束相邻帧在特征空间中的相似性，确保生成的帧在语义和外观上具有一致性。

多尺度生成与融合

多分辨率生成（Multi-Resolution Generation）：在不同分辨率下生成帧，然后逐步融合，以确保低频信息（如背景）和高频信息（如细节）都能保持连续性。
金字塔结构（Pyramid Structure）：采用金字塔式的生成方式，先生成粗略的帧序列，再逐步细化，从而避免帧间跳跃。

后处理技术

帧插值（Frame Interpolation）：在生成的帧之间插入额外的中间帧，利用插值算法（如基于光流的插值）来增强连续性。
去噪与平滑（Denoising and Smoothing）：对生成的视频进行后处理，例如应用高斯模糊或时间域滤波，以减少帧间的突变。

数据增强与训练策略

时间对齐数据增强（Temporal Alignment Augmentation）：在训练数据中引入时间对齐的增强操作，例如随机裁剪、缩放或旋转，使模型学会处理帧间变化。
长序列训练（Long Sequence Training）：使用较长的视频片段进行训练，让模型更好地捕捉长时间依赖关系。