开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

2024-04-29 09:54:25 站长之家网络整理3

生活网 4月29日消息:InternVL 家族的开源套件提供了一种商用多模态模型的可行开源替代方案。其中，最新发布的 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能，这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的可商用开源模型之一。

InternVL 家族的模型涵盖了多个领域，包括视觉感知和跨模态检索。其在视觉感知方面，利用 ViT-22B 模型在 ImageNet-1K、ImageNet-Real、ImageNet-V2等数据集上取得了优异表现，展现出强大的图像分类能力。另外，InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展，为多模态模型的发展贡献了重要的技术突破。

作为一款人工智能产品，InternVL 家族的亮点在于其开源套件的多模态模型，尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型，而且还具备强大的多模态对话能力，并且支持中文，拥有较强的 OCR 能力。

除此之外，InternVL 家族的模型还具备动态分辨率的支持，为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。

产品入口：https://top.aibase.com/tool/internvl

体验网址：https://huggingface.co/spaces/OpenGVLab/InternVL

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

更多>最新的资讯

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家

开源多模态LLM InternVL 1.5：具备OCR能力 可解读4K图片

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片