第三方插件 ComfyUI-Index-TTS

Index TTS

Index TTS 2025-12-31 419

该节点用于把输入的文本（text）变成语音（Audio），并输出生成时用到的随机种子（seed）和带有简易时间轴的字幕（SimplifiedSubtitle）。

节点中英文对比

按当前节点配置，分别展示中文与英文节点结构。

中文节点

Index TTS

参考音频

音频

随机种子

简易时间轴字幕

文本内容

模型版本

Index-TTS

指定语言

auto

语速

1.0

随机数种子

多样性控制

0.1

保留概率前

0.8

概率最高采样

惩罚重复生成

10.0

惩罚生成文本长度

束宽

最大梅尔声谱图

600

句子分割方式

auto

英文节点

Index TTS

reference_audio

audio

seed

SimplifiedSubtitle

text

model_version

Index-TTS

language

auto

speed

1.0

seed

temperature

0.1

top_p

0.8

top_k

repetition_penalty

10.0

length_penalty

num_beams

max_mel_tokens

600

sentence_split

auto

参数说明

依据当前节点关联的 `NodesItems` 数据展示输入、输出与控件说明。

输入参数

参考音频 reference_audio

参考音频，用于提取说话人的音色/风格，使生成语音克隆或相似于此音频。

输出参数

音频 audio

合成语音的音频数据。

随机种子 seed

随机种子，确定合成时的随机性。相同的参数和种子会生成一致的语音。

简易时间轴字幕 SimplifiedSubtitle

附带简易时间轴的字幕文本（对应语音分段）

控件参数

文本内容 text

要转换成语音的文本内容，支持多行。

模型版本 model_version

模型版本选择，可选项：Index-TTS: 原始模型版本（默认），IndexTTS-1.5: 新版本模型。

指定语言 language

指定语音生成的语言，auto: 自动检测语言（默认），zh: 中文，en: 英文。

语速 speed

语速因子（0.5~2.0，默认1.0）。

随机数种子 seed

随机数种子。

多样性控制 temperature

多样性控制（默认1.0, 0.1~1.5），高温度输出更活跃/多变，低温度更“死板”。

保留概率前 top_p

采样时保留概率前p的token（默认0.8, 0.0~1.0），控制生成内容的多样性

概率最高采样 top_k

每步只从概率最高的k个token中采样（默认30,1~100），限制结果多样性。

惩罚重复生成 repetition_penalty

惩罚重复生成（默认10.0, 1.0~15.0），数值越大越不容易重复。

惩罚生成文本长度 length_penalty

惩罚生成文本的长度（默认0, -5.0~5.0），正数生成更短，负数更长。

束宽 num_beams

beam search束宽（默认3, 1~10），越大生成越“精细”，速度越慢

最大梅尔声谱图 max_mel_tokens

最大梅尔声谱图token数（默认600, 100~1500），影响最大音频长度。

句子分割方式 sentence_split

句子分割方式（默认auto），auto自动分句，ma-nual需用户分割。

详细说明

结合节点用途、参数和调用方式，给出更完整的说明内容。