第三方插件 ComfyUI-LatentSyncWrapper

LatentSync1.6 Node

LatentSync1.6 Node 2026-01-30 316

用于同步处理图像（视频帧）和音频数据，并执行推理以生成输出视频和音频。LatentSync1.6

节点中英文对比

按当前节点配置，分别展示中文与英文节点结构。

中文节点

LatentSync1.6 Node

images

audio

images

audio

seed

lips_expression

inference_steps

英文节点

LatentSync1.6 Node

images

audio

images

audio

seed

lips_expression

inference_steps

依据当前节点关联的 `NodesItems` 数据展示输入、输出与控件说明。

输入参数

images images

一组输入图像（视频帧），要求为形如 [B, H, W, C] 的张量序列。至少应包含多帧，图像应为 RGB 格式，输入前建议统一尺寸。

audio audio

包含 waveform（Tensor）与 sample_rate（采样率）的字典对象。输入音频自动重采样至 16kHz，用于驱动唇部表情变化。

输出参数

images images

输出图像序列（同步动画帧）。

audio audio

处理后音频（已重采样为 16kHz）。

控件参数

seed seed

随机种子。

lips_expression lips_expression

范围：1.0 ~ 3.0，控制嘴部动作幅度（即 guidance scale）。建议范围 1.2~2.0，数值越高唇部越夸张。

inference_steps inference_steps

迭代推理步数，范围：1~999。越大生成质量越高，但耗时越长。一般设置在 10~30 足够。

结合节点用途、参数和调用方式，给出更完整的说明内容。

暂无节点说明