雪貂：在任何粒度的任何地方引用和研磨任何东西论文-英

行研报告 11 2024-09-30 0 worker

报告编号：81111
报告名称：雪貂：在任何粒度的任何地方引用和研磨任何东西论文-英
报告来源：互联网用户上传
关键词：行研报告
报告页数：30 页
预览页数：6
报告格式：pdf
上传时间：2024-08-03
简介摘要: (原创分析) 本文介绍了Ferret，这是一个新型的多模态大型语言模型，具备理解和指代任何形状和粒度的图像区域以及准确指代开放词汇描述的能力。Ferret通过一种混合区域表示法，将离散坐标和连续特征结合起来表示图像中的区域，并采用了空间感知视觉采样器来处理不同形状区域的视觉特征。为了统一指代和指代，Ferret采用了自然语言数值形式表示区域坐标，同时配备了一个强大的混合区域表示法，以表示图像中的区域。为了训练Ferret，本文构建了GRIT数据集，这是一个包含约110万个多模态对话的指令调优数据集，涵盖了多个层次的空间知识。GRIT数据集由三部分组成：转换自公共数据集的数据、通过ChatGPT和GPT-4生成的指令调优数据，以及用于提高模型稳健性的负样本数据。在评估中，Ferret在标准指代和指代基准测试上表现出色，并优于现有的多模态大型语言模型。此外，Ferret还展示了在需要精确边界框的应用中特别出色的能力，这些应用需要精确的指代和指代能力。总的来说，Ferret是一个强大的多模态大型语言模型，具备指代和指代的能力，并且具有在复杂多模态聊天中整合这些能力的潜力。