BLIP Analyze Image
节点中英文对比
BLIP Analyze Image
mode
question
min_length
max_length
num_beams
no_repeat_ngram_size
early_stopping
BLIP Analyze Image
mode
question
min_length
max_length
num_beams
no_repeat_ngram_size
early_stopping
BLIP Analyze Image - 参数说明
输入参数
images
输入的图像张量序列。节点会遍历其中的每一张图像,转为PIL后送入BLIP模型处理。注意:需要确保图像张量格式与转换函数兼容,且模型以 RGB 输入。
blip_model
提供一个已经加载好的BLIP模型。
输出参数
FULL_CAPTIONS
一个合并字符串,按处理顺序拼接各条 caption/answer,中间以空行分隔。
CAPTIONS
列表形式,每个元素对应一张输入图像的单条文本。
控件参数
mode
工作模式选择,包括"caption":对图像进行自由描述,生成自然语言说明;"interrogate":对图像进行问答,需要结合 question 参数。
question
仅在 mode="interrogate" 时使用,作为对图像提出的问题。默认问题是“What does the background consist of?背景由什么组成?”。建议尽量明确、具体,例如:“What color is the car?”(车是什么颜色?)
min_length
生成文本的最小长度约束(以token计),默认24,范围1~1024。数值越大,输出越不会过短,但可能引入冗余。建议:caption模式:20-30起步,图像复杂时可上调。interrogate模式:若希望简明回答,可适当降低,如10-20。
max_length
生成文本的最大长度,默认64,范围2~1024。过小可能截断信息,过大可能冗长或跑偏。建议:caption:64-128常用;简要描述用48-64。interrogate:一般32-64足够,追求简洁可24-48。
num_beams
Beam Search的束宽。越大越可能提升质量与一致性,但速度更慢。建议:快速出结果:3-5,重质量:6-8(代价是更慢)。
no_repeat_ngram_size
解码时避免重复的n-gram大小。默认3可以有效减少啰嗦和重复句式,范围:1~12。若发现重复严重可上调到4;若需要更自由的生成可下调到2。
early_stopping
Beam Search的早停标志。True时在满足停止条件后尽早结束。优点:加快生成、避免过长;缺点:在某些情况下可能减少多样性或覆盖不全。一般caption设为False以保证完整性;interrogate追求简洁可设True。
暂无节点说明