苹果研究人员推出Ferret:一种用于高级图像理解和描述突破性多模态语言模型

2023-10-30 15:00:41 站长之家网络整理0

生活网10月30日消息:研究人员在最新的一项研究中介绍了Ferret，这是一款多模式语言模型，旨在实现高级图像理解和描述。该研究聚焦于视觉-语言学习中的关键问题，即如何融合地理信息和语义知识，以便模型能够同时引用和定位图像中的元素。研究指出，引用和定位是两项关键的能力，前者要求模型理解语义描述，后者要求模型在图像中定位相关区域。

为了解决这一问题，哥伦比亚大学和 Apple 的研究人员提出了Ferret模型，这是一款基于MLLM（多模式大语言模型）的新型模型，具备强大的全局理解能力。

Ferret模型的关键特点在于它可以同时处理自由文本和引用区域。它采用了一种混合区域表示方法，结合了离散坐标和连续视觉特征，以处理不同形状的区域，如点、框、涂鸦和复杂多边形。这种灵活性使Ferret能够更准确地理解和描述图像中的元素，提高了人机交互的全面性。

为了训练Ferret模型，研究人员创建了GRIT（Ground-and-Refer Instruction-Tuning）数据集，其中包括1.1百万个样本，用于指导模型进行引用和定位。该数据集包含了不同层次的空间知识，包括区域描述、连接、物体和复杂的推理。通过精心设计的模板，大部分数据从当前的视觉-语言任务中转化而来，如对象识别和短语定位，以用于指导模型。

研究人员还利用ChatGPT/GPT-4等工具，收集了34，000多个引用和定位对话，以帮助模型进行训练。他们还进行了空间感知的负数据挖掘，以增强模型的鲁棒性。Ferret模型表现出高度的开放式空间感知和定位能力，能够在引用和定位任务上表现优于传统模型。此外，研究人员认为引用和定位能力应该融入日常人机交流中，以实现更广泛的应用。

为了评估Ferret模型的性能，研究人员创建了Ferret-Bench，包括三种新类型的任务:引用描述、引用推理和对话中的定位。他们将Ferret与目前使用的最佳MLLM模型进行比较，发现Ferret的性能平均优于它们20.4%。此外，Ferret还具有减少对象幻觉的显著能力。

Ferret模型，它具备了在MLLM中进行精细和开放式引用和定位的能力。Ferret采用了一种混合区域表示方法，配备了独特的空间感知视觉采样器。此外，他们创建了GRIT数据集，用于模型训练，并评估了Ferret在不同任务中的性能。这一研究为多模式语言模型领域带来了突破性进展，为图像理解和描述提供了新的可能性。

项目网址:https://github.com/apple/ml-ferret

论文网址:https://arxiv.org/abs/2310.07704v1

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 苹果研究人员推出Ferret:一种用于高级图像理解和描述突破性多模态语言模型

更多>最新的资讯

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家