生活网4月29日 消息:潞晨科技旗下文生视频模型开源项目 Open-Sora 近日进行了重大更新,新版本可以生成16秒时长、720P 高清视频。
在本次更新中,团队对1.0版本的 STDiT 架构进行了关键性改进,提高了模型的训练稳定性和整体性能。新版本采用了多阶段训练方法,有效地提升了视频生成质量,训练流程中引入了 QK 归一化技术和旋转位置编码。此外,Open-Sora 还支持多时间、分辨率、长宽比和帧率的训练,具备多模态功能,可以处理文本到图像、文本到视频、图像到视频等任务。
Open-Sora 的架构升级和训练流程优化使得视频生成更加稳定和高效。团队引入了掩码策略来支持图像和视频的条件化处理,提供了详细的掩码策略配置指南,增强了模型在处理图像条件化任务时的学习效果。另外,在数据收集和预处理方面,团队建立了自动化的流程,包括场景分割、字幕处理、数据评分与筛选等步骤,优化了数据集的质量和数量。
Open-Sora 的更新版本在模型稳定性、训练效率和功能扩展等方面都取得了显著进展,为用户提供了更加强大和多样化的视频生成能力。
项目入口:https://top.aibase.com/tool/open-sora