第三方插件
was-node-suite-comfyui
BLIP Analyze Image
节点中英文对比
按当前节点配置,分别展示中文与英文节点结构。
中文节点
BLIP Analyze Image
mode
question
min_length
max_length
num_beams
no_repeat_ngram_size
early_stopping
英文节点
BLIP Analyze Image
mode
question
min_length
max_length
num_beams
no_repeat_ngram_size
early_stopping
参数说明
依据当前节点关联的 `NodesItems` 数据展示输入、输出与控件说明。
输入参数
images
images
输入的图像张量序列。节点会遍历其中的每一张图像,转为PIL后送入BLIP模型处理。注意:需要确保图像张量格式与转换函数兼容,且模型以 RGB 输入。
blip_model
blip_model
提供一个已经加载好的BLIP模型。
输出参数
FULL_CAPTIONS
FULL_CAPTIONS
一个合并字符串,按处理顺序拼接各条 caption/answer,中间以空行分隔。
CAPTIONS
CAPTIONS
列表形式,每个元素对应一张输入图像的单条文本。
控件参数
mode
mode
工作模式选择,包括"caption":对图像进行自由描述,生成自然语言说明;"interrogate":对图像进行问答,需要结合 question 参数。
question
question
仅在 mode="interrogate" 时使用,作为对图像提出的问题。默认问题是“What does the background consist of?背景由什么组成?”。建议尽量明确、具体,例如:“What color is the car?”(车是什么颜色?)
min_length
min_length
生成文本的最小长度约束(以token计),默认24,范围1~1024。数值越大,输出越不会过短,但可能引入冗余。建议:caption模式:20-30起步,图像复杂时可上调。interrogate模式:若希望简明回答,可适当降低,如10-20。
max_length
max_length
生成文本的最大长度,默认64,范围2~1024。过小可能截断信息,过大可能冗长或跑偏。建议:caption:64-128常用;简要描述用48-64。interrogate:一般32-64足够,追求简洁可24-48。
num_beams
num_beams
Beam Search的束宽。越大越可能提升质量与一致性,但速度更慢。建议:快速出结果:3-5,重质量:6-8(代价是更慢)。
no_repeat_ngram_size
no_repeat_ngram_size
解码时避免重复的n-gram大小。默认3可以有效减少啰嗦和重复句式,范围:1~12。若发现重复严重可上调到4;若需要更自由的生成可下调到2。
early_stopping
early_stopping
Beam Search的早停标志。True时在满足停止条件后尽早结束。优点:加快生成、避免过长;缺点:在某些情况下可能减少多样性或覆盖不全。一般caption设为False以保证完整性;interrogate追求简洁可设True。
详细说明
结合节点用途、参数和调用方式,给出更完整的说明内容。
暂无节点说明
同类节点导航
继续浏览同一分类下的相邻节点,方便串联学习。
上一篇
已经是同类节点中的第一篇
下一篇
BLIP Model Loader
第三方插件