GPT-4V搞不明白勾股定理！最新基准测试错误率竟高达90%

2023-11-01 06:00:33 站长之家网络整理0

生活网10月31日消息:近日，马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用，比如将勾股定理错误应用于非直角三角形，并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

研究人员将这些错误分为两大类，即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库，对问题和图像背景作出不恰当的先入为主的假设，而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性，以确保模型能够准确地理解并回答问题。

HallusionBench测试包括大约200组视觉问答，其中近一半由人工专家创作。测试涵盖了多个领域，包括数学、文化、体育、地理等，涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调，GPT-4V在回答视觉问题组的错误率高达近90%。此外，研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力，发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。

这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论，特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进，以提高它们的视觉理解能力，减少语言和视觉之间的错觉，并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识，以及推动其在现实世界中的应用具有重要意义。

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: GPT-4V搞不明白勾股定理！最新基准测试错误率竟高达90%

更多>最新的资讯

• 抖音粉丝团15级要多少人民币	• 抖音粉丝团15级升到16级多少抖币
• 旱的旱死涝的涝死是什么意思下一句呢	• 抖音16级粉丝团要多少人民币
• 2025什么小生意好做又赚钱	• 零食店进货渠道在哪里进啊
• 零食批发一手货源市场在哪里	• 零食批发商一手货源进货渠道有哪些
• 批发零食在哪个网站进货	• 零食批发去哪里拿货便宜

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家