SONIC_PreData

SONIC_PreData 2026年1月30日 17:09 108 人浏览

节点功能：主要用于预处理音频、图像，并生成 Sonic 模型所需的数据。SONIC_

节点中英文对比

SONIC_PreData

clip_vision

vae

audio

image

weight_dtype

data_dict

min_resolution

duration

expand_ratio

SONIC_PreData

clip_vision

vae

audio

image

weight_dtype

data_dict

min_resolution

duration

expand_ratio

SONIC_PreData - 参数说明

输入参数

clip_vision

传入一个类型为 CLIP_VISION 的视觉模型，用于图像和音频的对比学习或映射。

vae

传入一个变分自编码器（VAE），用于图像的编码和解码操作。

audio

传入音频数据，类型为 AUDIO，包含音频波形等信息。

image

传入图像数据，类型为 IMAGE，包含图像内容。

weight_dtype

数据类型，决定了在计算过程中使用的精度（如浮动精度等）。

输出参数

data_dict

返回一个字典 SONIC_PREDATA，包含多个数据字段（如 test_data、ref_tensor_list、config、image_embeddings 等），这些数据用于进一步的处理或推理。

控件参数

min_resolution

图像最小分辨率，控制图像缩放大小。

duration

音频的持续时间，影响音频处理的范围。

expand_ratio

面部裁剪时，图像裁剪区域的扩展比例。

暂无节点说明