Yandex开源LLM训练工具YaFSDP，GPU资源节省高达20%

295 0 0

2024年6月11日，莫斯科——在人工智能领域，训练大型语言模型（LLM）一直是一个既耗时又资源密集的过程。然而，近日跨国科技公司Yandex推出了一项重大创新——YaFSDP，一个开源的LLM训练工具，旨在通过优化GPU通信和减少内存使用量，来提高训练效率并节省成本。

Yandex一直致力于推动全球人工智能社区的发展，此次将YaFSDP开源，无疑是向这一承诺迈出的坚实一步。这一工具不仅为全球的LLM开发人员和人工智能爱好者提供了强大的支持，还展示了Yandex在AI领域的深厚实力和创新精神。

据Yandex高级开发专家、YaFSDP团队成员Mikhail Khruschev介绍，YaFSDP作为FSDP的增强版，在LLM训练的最耗通信阶段表现出色。通过优化GPU间的通信效率，确保训练时只需必要的处理器内存，并使GPU交互不间断，YaFSDP显著提升了训练效率。

具体来说，与FSDP相比，YaFSDP的训练速度提升最高可达26%，具体取决于架构和参数数量。这意味着，通过使用YaFSDP，AI开发人员可以在训练模型时节省高达20%的GPU资源。这一进步对于降低训练成本、提高训练效率具有重要意义。 Yandex开源LLM训练工具YaFSDP，GPU资源节省高达20%

在涉及具有700亿个参数的模型预训练场景中，使用YaFSDP可以节省大约150个GPU的资源。这意味着，对于依赖GPU进行模型训练的机器学习工程师和公司来说，每月可以节省高达50万美元到150万美元的成本（取决于虚拟GPU提供商或平台）。这一数字足以证明YaFSDP在资源节省方面的显著效果。

Mikhail Khruschev表示：“YaFSDP在130亿至700亿个参数的模型上表现出色，尤其在300亿至700亿个参数范围内表现尤为惊人。目前，YaFSDP最适合基于LLaMA架构的广泛使用之开源模型。”这一广泛的适用性使得YaFSDP成为AI开发人员的重要工具之一。

值得一提的是，Yandex在开源领域有着丰富的经验和传统。除了YaFSDP之外，该公司还分享过其他几款在ML社区中很受欢迎的工具，如CatBoost（一种高性能的基于决策树的梯度提升库）、YTsaurus（分布式存储和处理的大数据平台）、AQLM（最先进的量化算法之一，用于大型语言模型的极限压缩）以及Petals（旨在简化LLM训练和微调过程的库）。这些工具不仅为AI开发人员提供了强大的支持，还推动了整个AI社区的发展。

Yandex开源LLM训练工具YaFSDP的推出，无疑是AI领域的一大喜讯。这一工具不仅提高了LLM训练的效率，还通过节省GPU资源降低了训练成本。对于AI开发人员来说，这意味着他们可以更加高效地进行模型训练，加速AI技术的发展和应用。同时，Yandex的开源传统也展示了该公司对于推动AI社区发展的坚定承诺和不懈努力。我们期待在未来看到更多类似的创新成果出现，共同推动AI技术的繁荣和发展。