FantasyTalking Wav2Vec Embeds
节点功能:将一段输入语音(音频)通过 Wav2Vec2 和 FantasyTalking 模型处理,输出一个用于控制人物口型动作的视频嵌入(FANTASYTALKING_EMBEDS),可与 MimicMotionSampler 等节点联合使用,生成语音驱动的虚拟人说话动画。FantasyTalking Wav2Vec
节点中英文对比
FantasyTalking Wav2Vec Embeds
num_frames
fps
audio_scale
audio_cfg_scale
FantasyTalking Wav2Vec Embeds
num_frames
fps
audio_scale
audio_cfg_scale
FantasyTalking Wav2Vec Embeds - 参数说明
输入参数
wav2vec_model
加载的语音特征提取模型。
fantasytalking_model
FantasyTalking 所需的音频投影模型,含内置 proj_model 投影网络。
audio
原始音频输入,格式为 {"waveform": tensor, "sample_rate": int}。
输出参数
fantasytalking_embeds
输出包含 FantasyTalking 专用嵌入结构,包含音频特征、帧对齐长度及控制参数。
控件参数
num_frames
目标视频帧数(即输出与音频对齐的帧数)。
fps
视频帧率,用于计算音频截取时长。
audio_scale
音频语义引导强度。越大越依赖音频表达语义。
audio_cfg_scale
CFG 风格的双路径增强:>1 时启用“双推理”机制,一次使用音频,一次不使用音频条件。
暂无节点说明