SONIC_PreData
节点功能:主要用于预处理音频、图像,并生成 Sonic 模型所需的数据。SONIC_
节点中英文对比
SONIC_PreData
min_resolution
duration
expand_ratio
SONIC_PreData
min_resolution
duration
expand_ratio
SONIC_PreData - 参数说明
输入参数
clip_vision
传入一个类型为 CLIP_VISION 的视觉模型,用于图像和音频的对比学习或映射。
vae
传入一个变分自编码器(VAE),用于图像的编码和解码操作。
audio
传入音频数据,类型为 AUDIO,包含音频波形等信息。
image
传入图像数据,类型为 IMAGE,包含图像内容。
weight_dtype
数据类型,决定了在计算过程中使用的精度(如浮动精度等)。
输出参数
data_dict
返回一个字典 SONIC_PREDATA,包含多个数据字段(如 test_data、ref_tensor_list、config、image_embeddings 等),这些数据用于进一步的处理或推理。
控件参数
min_resolution
图像最小分辨率,控制图像缩放大小。
duration
音频的持续时间,影响音频处理的范围。
expand_ratio
面部裁剪时,图像裁剪区域的扩展比例。
暂无节点说明