FantasyTalking Wav2Vec Embeds

节点功能:将一段输入语音(音频)通过 Wav2Vec2 和 FantasyTalking 模型处理,输出一个用于控制人物口型动作的视频嵌入(FANTASYTALKING_EMBEDS),可与 MimicMotionSampler 等节点联合使用,生成语音驱动的虚拟人说话动画。FantasyTalking Wav2Vec
节点中英文对比
FantasyTalking Wav2Vec Embeds
  • wav2vec_model
  • fantasytalking_model
  • audio
  • fantasytalking_embeds
  • num_frames
    fps
    audio_scale
    audio_cfg_scale
    FantasyTalking Wav2Vec Embeds
  • wav2vec_model
  • fantasytalking_model
  • audio
  • fantasytalking_embeds
  • num_frames
    fps
    audio_scale
    audio_cfg_scale
    FantasyTalking Wav2Vec Embeds - 参数说明
    输入参数
    wav2vec_model
    加载的语音特征提取模型。
    fantasytalking_model
    FantasyTalking 所需的音频投影模型,含内置 proj_model 投影网络。
    audio
    原始音频输入,格式为 {"waveform": tensor, "sample_rate": int}。
    输出参数
    fantasytalking_embeds
    输出包含 FantasyTalking 专用嵌入结构,包含音频特征、帧对齐长度及控制参数。
    控件参数
    num_frames
    目标视频帧数(即输出与音频对齐的帧数)。
    fps
    视频帧率,用于计算音频截取时长。
    audio_scale
    音频语义引导强度。越大越依赖音频表达语义。
    audio_cfg_scale
    CFG 风格的双路径增强:>1 时启用“双推理”机制,一次使用音频,一次不使用音频条件。
    暂无节点说明
    节点列表 首页