第三方插件 ComfyUI-WanVideoWrapper

FantasyTalking Wav2Vec Embeds

FantasyTalking Wav2Vec Embeds 193

将一段输入语音(音频)通过 Wav2Vec2 和 FantasyTalking 模型处理,输出一个用于控制人物口型动作的视频嵌入(FANTASYTALKING_EMBEDS),可与 MimicMotionSampler 等节点联合使用,生成语音驱动的虚拟人说话动画。FantasyTalking Wav2Vec

节点中英文对比

按当前节点配置,分别展示中文与英文节点结构。

中文节点
FantasyTalking Wav2Vec Embeds
  • wav2vec_model
  • fantasytalking_model
  • audio
  • fantasytalking_embeds
  • num_frames
    fps
    audio_scale
    audio_cfg_scale
    英文节点
    FantasyTalking Wav2Vec Embeds
  • wav2vec_model
  • fantasytalking_model
  • audio
  • fantasytalking_embeds
  • num_frames
    fps
    audio_scale
    audio_cfg_scale

    参数说明

    依据当前节点关联的 `NodesItems` 数据展示输入、输出与控件说明。

    输入参数
    wav2vec_model wav2vec_model
    加载的语音特征提取模型。
    fantasytalking_model fantasytalking_model
    FantasyTalking 所需的音频投影模型,含内置 proj_model 投影网络。
    audio audio
    原始音频输入,格式为 {"waveform": tensor, "sample_rate": int}。
    输出参数
    fantasytalking_embeds fantasytalking_embeds
    输出包含 FantasyTalking 专用嵌入结构,包含音频特征、帧对齐长度及控制参数。
    控件参数
    num_frames num_frames
    目标视频帧数(即输出与音频对齐的帧数)。
    fps fps
    视频帧率,用于计算音频截取时长。
    audio_scale audio_scale
    音频语义引导强度。越大越依赖音频表达语义。
    audio_cfg_scale audio_cfg_scale
    CFG 风格的双路径增强:>1 时启用“双推理”机制,一次使用音频,一次不使用音频条件。

    详细说明

    结合节点用途、参数和调用方式,给出更完整的说明内容。

    暂无节点说明

    同类节点导航

    继续浏览同一分类下的相邻节点,方便串联学习。