第三方插件 ComfyUI-WanVideoWrapper

FantasyTalking Wav2Vec Embeds

FantasyTalking Wav2Vec Embeds 2026-01-30 294

将一段输入语音（音频）通过 Wav2Vec2 和 FantasyTalking 模型处理，输出一个用于控制人物口型动作的视频嵌入（FANTASYTALKING_EMBEDS），可与 MimicMotionSampler 等节点联合使用，生成语音驱动的虚拟人说话动画。FantasyTalking Wav2Vec

节点中英文对比

按当前节点配置，分别展示中文与英文节点结构。

中文节点

FantasyTalking Wav2Vec Embeds

wav2vec_model

fantasytalking_model

audio

fantasytalking_embeds

num_frames

fps

audio_scale

audio_cfg_scale

英文节点

FantasyTalking Wav2Vec Embeds

wav2vec_model

fantasytalking_model

audio

fantasytalking_embeds

num_frames

fps

audio_scale

audio_cfg_scale

参数说明

依据当前节点关联的 `NodesItems` 数据展示输入、输出与控件说明。

输入参数

wav2vec_model wav2vec_model

加载的语音特征提取模型。

fantasytalking_model fantasytalking_model

FantasyTalking 所需的音频投影模型，含内置 proj_model 投影网络。

audio audio

原始音频输入，格式为 {"waveform": tensor, "sample_rate": int}。

输出参数

fantasytalking_embeds fantasytalking_embeds

输出包含 FantasyTalking 专用嵌入结构，包含音频特征、帧对齐长度及控制参数。

控件参数

num_frames num_frames

目标视频帧数（即输出与音频对齐的帧数）。

fps fps

视频帧率，用于计算音频截取时长。

audio_scale audio_scale

音频语义引导强度。越大越依赖音频表达语义。

audio_cfg_scale audio_cfg_scale

CFG 风格的双路径增强：>1 时启用“双推理”机制，一次使用音频，一次不使用音频条件。

详细说明

结合节点用途、参数和调用方式，给出更完整的说明内容。

暂无节点说明