FantasyTalking Wav2Vec Embeds

FantasyTalking Wav2Vec Embeds 2026年1月30日 16:37 85 人浏览

节点功能：将一段输入语音（音频）通过 Wav2Vec2 和 FantasyTalking 模型处理，输出一个用于控制人物口型动作的视频嵌入（FANTASYTALKING_EMBEDS），可与 MimicMotionSampler 等节点联合使用，生成语音驱动的虚拟人说话动画。FantasyTalking Wav2Vec

节点中英文对比

wav2vec_model

fantasytalking_model

audio

fantasytalking_embeds

num_frames

fps

audio_scale

audio_cfg_scale

FantasyTalking Wav2Vec Embeds

wav2vec_model

fantasytalking_model

audio

fantasytalking_embeds

num_frames

fps

audio_scale

audio_cfg_scale

FantasyTalking Wav2Vec Embeds - 参数说明

输入参数

wav2vec_model

加载的语音特征提取模型。

fantasytalking_model

FantasyTalking 所需的音频投影模型，含内置 proj_model 投影网络。

audio

原始音频输入，格式为 {"waveform": tensor, "sample_rate": int}。

输出参数

fantasytalking_embeds

输出包含 FantasyTalking 专用嵌入结构，包含音频特征、帧对齐长度及控制参数。

控件参数

num_frames

目标视频帧数（即输出与音频对齐的帧数）。

fps

视频帧率，用于计算音频截取时长。

audio_scale

音频语义引导强度。越大越依赖音频表达语义。

audio_cfg_scale

CFG 风格的双路径增强：>1 时启用“双推理”机制，一次使用音频，一次不使用音频条件。

暂无节点说明