BLIP Analyze Image

BLIP Analyze Image 2026年1月30日 13:26 85 人浏览

节点中英文对比

BLIP Analyze Image

images

blip_model

FULL_CAPTIONS

CAPTIONS

mode

question

min_length

max_length

num_beams

no_repeat_ngram_size

early_stopping

BLIP Analyze Image

images

blip_model

FULL_CAPTIONS

CAPTIONS

mode

question

min_length

max_length

num_beams

no_repeat_ngram_size

early_stopping

BLIP Analyze Image - 参数说明

输入参数

images

输入的图像张量序列。节点会遍历其中的每一张图像，转为PIL后送入BLIP模型处理。注意：需要确保图像张量格式与转换函数兼容，且模型以 RGB 输入。

blip_model

提供一个已经加载好的BLIP模型。

输出参数

FULL_CAPTIONS

一个合并字符串，按处理顺序拼接各条 caption/answer，中间以空行分隔。

CAPTIONS

列表形式，每个元素对应一张输入图像的单条文本。

控件参数

mode

工作模式选择，包括"caption"：对图像进行自由描述，生成自然语言说明；"interrogate"：对图像进行问答，需要结合 question 参数。

question

仅在 mode="interrogate" 时使用，作为对图像提出的问题。默认问题是“What does the background consist of？背景由什么组成？”。建议尽量明确、具体，例如：“What color is the car?”（车是什么颜色？）

min_length

生成文本的最小长度约束（以token计），默认24，范围1~1024。数值越大，输出越不会过短，但可能引入冗余。建议：caption模式：20-30起步，图像复杂时可上调。interrogate模式：若希望简明回答，可适当降低，如10-20。

max_length

生成文本的最大长度，默认64，范围2~1024。过小可能截断信息，过大可能冗长或跑偏。建议：caption：64-128常用；简要描述用48-64。interrogate：一般32-64足够，追求简洁可24-48。

num_beams

Beam Search的束宽。越大越可能提升质量与一致性，但速度更慢。建议：快速出结果：3-5，重质量：6-8（代价是更慢）。

no_repeat_ngram_size

解码时避免重复的n-gram大小。默认3可以有效减少啰嗦和重复句式，范围：1~12。若发现重复严重可上调到4；若需要更自由的生成可下调到2。

early_stopping

Beam Search的早停标志。True时在满足停止条件后尽早结束。优点：加快生成、避免过长；缺点：在某些情况下可能减少多样性或覆盖不全。一般caption设为False以保证完整性；interrogate追求简洁可设True。

暂无节点说明