图层工具:JoyCaption2(高级)
节点功能:一个高级 多模态 LLM 图像描述生成系统,可为输入图像生成专业格式的描述文本(就是将前面的两个节点进行合并)。LayerUtility: JoyCaption2(Advance)-
节点中英文对比
图层工具:JoyCaption2(高级)
llm_model
device
dtype
vlm_lora
caption_type
caption_length
user_prompt
max_new_tokens
top_p
temperature
cache_model
use_global_model
LayerUtility: JoyCaption2(Advance)
llm_model
device
dtype
vlm_lora
caption_type
caption_length
user_prompt
max_new_tokens
top_p
temperature
cache_model
use_global_model
图层工具:JoyCaption2(高级) - 参数说明
输入参数
image
输入的图像列表。
extra_options
可选项,包含额外的语义注入与角色名字段。
输出参数
text
输出的描述文本字符串数组,与输入图像一一对应。
控件参数
llm_model
指定使用的语言模型名称。
device
模型加载与推理所使用的设备。当前仅支持:cuda。
dtype
模型加载的数据类型,可选值:
nf4:近似低精度高效推理
bf16:较高精度更适合复杂场景
vlm_lora
指定是否加载视觉相关的 LoRA 模块,可选值:
text_model:加载图文联合微调模块
none:不加载
caption_type
指定输出描述文本的风格。
Descriptive:正式详细,用于专业记录说明。
Descriptive (Informal):口语随意,适用于日常交流。
Training Prompt:精准简洁,服务模型训练。
MidJourney:创意生动,激发艺术想象。
Booru tag list:标签罗列,方便分类检索。
Art Critic:专业点评,用于艺术鉴赏。
Social Media Post:活泼吸睛,适合社交分享。
caption_length
描述文本长度,可选值:
any、very short、short、medium-length、long、very long 或指定精确长度如 30, 100, 260 等
user_prompt
用户自定义提示,附加在提示词前或中间,用于引导输出内容。
max_new_tokens
最大生成 token 数量。范围 8~4096。
top_p
nucleus sampling 中的截断概率。范围 0~1。
temperature
采样温度,范围 0~1。控制生成的随机性。
cache_model
是否缓存加载的模型对象,供下次节点复用。
use_global_model
是否使用全局缓存模型。与 cache_model 结合使用。
暂无节点说明