BAGEL
BAGEL 是一个开源的多模态基础模型,拥有 70 亿个活跃参数(总计 140 亿)。它采用混合Transformer专家(MoT)架构,并使用两个独立的编码器来捕捉图像的像素级和语义级特征。BAGEL 通过在数万亿的交错多模态 tokens 上进行预训练、持续训练和监督微调,扩展了 MoT 的能力。
主要特点:
- 强大的多模态理解和生成能力: 在标准的多模态理解排行榜上超越了像 Qwen2.5-VL 和 InternVL-2.5 这样的顶尖开源 VLM。
- 优秀的文本到图像生成质量: 生成的图像质量可以与强大的专业生成器(如 SD3)相媲美。
- 卓越的图像编辑能力: 在经典的图像编辑场景中,其表现优于领先的开源模型,并扩展到自由形式的视觉操作、多视图合成和世界导航等更高级的任务,这些任务超越了之前的图像编辑模型。
- 涌现能力: 随着预训练的规模扩大,在理解、生成和编辑任务上都取得了持续的性能提升,并展现出多模态推理能力。
使用场景:
BAGEL 适用于各种需要理解、生成和编辑图像的场景,例如:
- 多模态理解: 回答关于图像的问题,理解图像中的场景和对象。
- 文本到图像生成: 根据文本描述生成逼真的图像。
- 图像编辑: 修改现有图像,例如改变对象的颜色、形状或姿势,添加或删除对象。
- 自由形式的视觉操作: 执行复杂的图像编辑任务,例如将一个物体的风格应用到另一个物体上,或者根据用户的意图修改图像。
- 多视图合成: 从多个角度生成同一场景的图像。
- 世界导航: 在虚拟环境中导航。
- 其他潜在应用: 可以应用于教育、娱乐、艺术创作、产品设计等多个领域。
总之,BAGEL 是一个功能强大且多功能的模型,具有广泛的应用前景,能够推动多模态人工智能的发展。