BLIP Analyze Image

节点中英文对比
BLIP Analyze Image
  • images
  • blip_model
  • FULL_CAPTIONS
  • CAPTIONS
  • mode
    question
    min_length
    max_length
    num_beams
    no_repeat_ngram_size
    early_stopping
    BLIP Analyze Image
  • images
  • blip_model
  • FULL_CAPTIONS
  • CAPTIONS
  • mode
    question
    min_length
    max_length
    num_beams
    no_repeat_ngram_size
    early_stopping
    BLIP Analyze Image - 参数说明
    输入参数
    images
    输入的图像张量序列。节点会遍历其中的每一张图像,转为PIL后送入BLIP模型处理。注意:需要确保图像张量格式与转换函数兼容,且模型以 RGB 输入。
    blip_model
    提供一个已经加载好的BLIP模型。
    输出参数
    FULL_CAPTIONS
    一个合并字符串,按处理顺序拼接各条 caption/answer,中间以空行分隔。
    CAPTIONS
    列表形式,每个元素对应一张输入图像的单条文本。
    控件参数
    mode
    工作模式选择,包括"caption":对图像进行自由描述,生成自然语言说明;"interrogate":对图像进行问答,需要结合 question 参数。
    question
    仅在 mode="interrogate" 时使用,作为对图像提出的问题。默认问题是“What does the background consist of?背景由什么组成?”。建议尽量明确、具体,例如:“What color is the car?”(车是什么颜色?)
    min_length
    生成文本的最小长度约束(以token计),默认24,范围1~1024。数值越大,输出越不会过短,但可能引入冗余。建议:caption模式:20-30起步,图像复杂时可上调。interrogate模式:若希望简明回答,可适当降低,如10-20。
    max_length
    生成文本的最大长度,默认64,范围2~1024。过小可能截断信息,过大可能冗长或跑偏。建议:caption:64-128常用;简要描述用48-64。interrogate:一般32-64足够,追求简洁可24-48。
    num_beams
    Beam Search的束宽。越大越可能提升质量与一致性,但速度更慢。建议:快速出结果:3-5,重质量:6-8(代价是更慢)。
    no_repeat_ngram_size
    解码时避免重复的n-gram大小。默认3可以有效减少啰嗦和重复句式,范围:1~12。若发现重复严重可上调到4;若需要更自由的生成可下调到2。
    early_stopping
    Beam Search的早停标志。True时在满足停止条件后尽早结束。优点:加快生成、避免过长;缺点:在某些情况下可能减少多样性或覆盖不全。一般caption设为False以保证完整性;interrogate追求简洁可设True。
    暂无节点说明
    节点列表 首页