OpenLM：一个专为中等规模语言模型设计的模型训练库

2023-09-28 15:00:13 站长之家网络整理0

生活网9月28日消息:OpenLM是一个旨在训练中等规模语言模型的PyTorch代码库，它强调了最大化GPU利用率和训练速度的设计。该库已经通过训练OpenLM-1B和OpenLM-7B两个语言模型，分别在1.6T和1.25T的文本标记上进行验证，取得了令人瞩目的成果。OpenLM-1B在零样本文本分类和多项选择任务中表现出色，超越了一些类似规模的竞争模型。OpenLM-7B则在性能上接近了其他大型模型，如LLAMA-7B和MPT-7B。

文章详细介绍了OpenLM的模型架构、训练数据来源以及训练过程。值得注意的是，OpenLM采用了GPT-NeoX令人满意的分词工具，但采用了LayerNorm而非RMSNorm，因为后者尚未添加融合的RMSNorm操作。此外，1B模型采用了AdamW优化器，而7B模型则采用了不同的学习率和全局批量大小，以实现更好的性能。

文章还提供了有关模型验证和评估的信息，包括验证损失和零样本评估结果。OpenLM-7B在不断的训练中持续提高了零样本性能，在1.25T标记上，在11个任务中有7个任务的表现优于竞争模型。这表明OpenLM具有很大的潜力，并且可以在不断扩大规模的情况下提供出色的性能。

最后，文章提出了未来工作方向，包括支持多模态模型、专家混合和数据集组合，以及扩大OpenLM以支持训练更大的语言模型。OpenLM的团队成员和致谢也在文章中列出，表明了该项目的合作性质和开源精神。

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: OpenLM：一个专为中等规模语言模型设计的模型训练库

更多>最新的资讯

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家