微软研究人员推新AI方法，用合成数据改进高质量文本嵌入

2024-01-04 15:00:54 站长之家网络整理1

生活网 1月4日消息:微软公司的研究团队最近提出了一种独特且简单的方法，用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤（少于1，000步），就取得了令人瞩目的成果。相比于现有的方法，该方法不依赖于多阶段的预训练和有限的标记数据微调，避免了繁琐的训练流程和手动收集数据集的问题，这些数据集通常在任务多样性和语言覆盖方面存在问题。

该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同，该方法使用基本的对比损失函数，将开源的仅解码的大型语言模型在生成的合成数据上进行微调。

研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果，而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时，该模型在 BEIR 和 MTEB 基准测试上取得了新的记录，成为了文本嵌入领域的最先进方法。

专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力，该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。

该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求，相较于当前的多阶段系统，更加简洁高效。

论文网址:https://arxiv.org/abs/2401.00368

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 微软研究人员推新AI方法，用合成数据改进高质量文本嵌入

更多>最新的资讯

• 抖音粉丝团15级要多少人民币	• 抖音粉丝团15级升到16级多少抖币
• 旱的旱死涝的涝死是什么意思下一句呢	• 抖音16级粉丝团要多少人民币
• 2025什么小生意好做又赚钱	• 零食店进货渠道在哪里进啊
• 零食批发一手货源市场在哪里	• 零食批发商一手货源进货渠道有哪些
• 批发零食在哪个网站进货	• 零食批发去哪里拿货便宜

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家