微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

2024-04-29 15:01:03 站长之家网络整理2

生活网4月29日消息:近日，微软研究人员提出的 LongRoPE 方法首次将预训练的大型语言模型（LLM）的上下文窗口扩展至2048k 个 token，实现了8倍的扩展同时保持原始短上下文窗口的性能，而无需进行架构变化和复杂微调。

该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供更好的初始化，并在非微调情况下实现了8倍扩展;引入了渐进扩展策略，首先微调256k 长度的 LLM，然后在微调扩展的 LLM 上进行第二次位置插值，以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。

实验结果表明，LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k，并在256k 的范围内展现出整体困惑度下降的趋势，同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性，也为未来的研究和应用奠定了坚实的基础。

产品入口：https://top.aibase.com/tool/longrope

论文链接:https://arxiv.org/abs/2402.13753

代码链接:https: //github.com/microsoft/LongRoPE

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

更多>最新的资讯

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家