额外节点 ComfyUI Essentials

Cosmos图像到视频潜在

CosmosImageToVideoLatent 2025-10-13 760

CosmosImageToVideoLatent用于将起始图像和结束图像编码成视频latent，并自动填充中间latent，同时生成一个noise mask 来告诉后续模型哪些部分是“需要采样”的。使用 VAE 将起始图像 (start_image) 和/或结束图像 (end_image) 编码成latent，填入latent视频张量对应位置，其余部分留空（保留为 0 或加 noise），生成一个用于视频扩散模型的初始化latent。

节点中英文对比

按当前节点配置，分别展示中文与英文节点结构。

中文节点

Cosmos图像到视频潜在

vae

开始图像

结束图像

Latent

宽度

1280

高度

704

长度

121

批量大小

英文节点

CosmosImageToVideoLatent

vae

start_image

end_image

LATENT

width

1280

height

704

length

121

batch_size

参数说明

依据当前节点关联的 `NodesItems` 数据展示输入、输出与控件说明。

输入参数

vae vae

用于编码图像的 VAE 模型。

开始图像 start_image

起始图像（可选）。

结束图像 end_image

结束图像（可选）。

输出参数

Latent LATENT

生成的视频潜在图像（latent video）。

控件参数

宽度 width

视频图像的宽度，默认 1280，范围 16 到 MAX_RESOLUTION，步长 16。

高度 height

视频图像的高度，默认 704，范围 16 到 MAX_RESOLUTION，步长 16。

长度 length

视频长度，默认 121，范围 1 到 MAX_RESOLUTION，步长 8。

批量大小 batch_size

批处理大小，默认 1，范围 1 到 4096。

详细说明

结合节点用途、参数和调用方式，给出更完整的说明内容。