DeepSeek高性能并行文件系统3FS实现6.6 TiB/s聚合吞吐,重塑AI数据密集型应用格局

AI每日新闻2周前发布 shen
153 0

近日,正值DeepSeek开源周的压轴之日,一项颠覆性的技术成果横空出世——3FS(Fire-Flyer File System)正式对外发布。这一专为现代SSD和RDMA网络带宽量身定制的并行文件系统,凭借其无与伦比的数据访问性能,迅速成为深度学习及其他数据密集型应用的强大后盾。开源地址现已开放,供全球开发者共同探索与贡献:https://github.com/deepseek-ai/3FS。同时,基于3FS构建的数据处理框架Smallpond也同步亮相,为数据处理领域带来一股清新之风:https://github.com/deepseek-ai/smallpond。

3FS:性能巅峰,重塑存储边界

3FS的问世,标志着分布式文件系统在性能上的一次飞跃。在DeepSeek团队的精心打造下,3FS在180节点集群中实现了惊人的6.6 TiB/s聚合读取吞吐量,这一数字不仅刷新了行业记录,更是对现有存储解决方案的一次全面超越。在25节点集群的GraySort基准测试中,3FS同样展现出了非凡实力,达到了3.66 TiB/min的吞吐量,充分证明了其在大数据处理场景下的卓越表现。

更令人瞩目的是,3FS在每个客户端节点的KVCache查找峰值吞吐量上,也突破了40 GiB/s的大关。这意味着,在处理海量数据时,3FS能够以前所未有的速度响应用户请求,极大提升了数据密集型应用的运行效率。

技术架构层面,3FS采用了去中心化的设计,这一创新之举不仅简化了系统结构,降低了维护成本,还赋予了3FS更强的扩展性和容错能力。同时,3FS还实现了强一致性语义,确保了数据在多节点间的同步与一致性,为AI训练、推理等关键任务提供了坚实的保障。DeepSeek高性能并行文件系统3FS实现6.6 TiB/s聚合吞吐,重塑AI数据密集型应用格局

应用场景:赋能AI,简化开发

3FS的核心优势在于其高性能、强一致性和易用性,这些特性使其成为了AI工作负载的理想选择。在DeepSeek的V3/R1版本中,3FS已被广泛应用于训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索以及推理过程中的KVCache查找等多个关键环节,显著提升了AI模型的训练速度和推理效率。

特别是在数据准备阶段,3FS的高吞吐能力使得大数据集的加载变得轻而易举;在数据加载环节,3FS的低延迟特性确保了AI模型能够实时获取所需数据;而在检查点设置和推理缓存方面,3FS的强一致性语义则保障了数据的一致性和完整性,避免了因数据不一致而导致的模型训练失败或推理错误。

Smallpond:轻量级数据处理新星

除了3FS之外,DeepSeek还开源了基于3FS的数据处理框架Smallpond。Smallpond构建于DuckDB和3FS之上,是一款集高性能、可扩展性和易用性于一身的轻量级数据处理工具。它能够处理PB级数据集,却无需长期运行的服务支持,大大降低了数据处理的门槛和成本。

Smallpond的推出,不仅丰富了DeepSeek的开源生态,更为广大开发者提供了一种全新的数据处理解决方案。通过结合3FS的高性能存储能力和DuckDB的灵活查询能力,Smallpond能够在保证数据处理效率的同时,提供便捷的数据访问和查询接口,进一步简化了分布式应用程序的开发流程。

DeepSeek此次开源的3FS和Smallpond,无疑为AI和数据密集型应用领域注入了新的活力。通过开放源代码,DeepSeek不仅展示了其在高性能存储和数据处理方面的深厚积累,更向全球开发者发出了携手共创未来的诚挚邀请。

AI旋风期待,随着越来越多的开发者加入到3FS和Smallpond的社区中来,这些开源项目将不断得到完善和优化,为AI和数据密集型应用的发展贡献更多智慧和力量。同时,我们也相信,在开源精神的引领下,DeepSeek将继续引领技术创新潮流,为推动人工智能产业的繁荣发展贡献自己的力量。

© 版权声明

相关文章

暂无评论

暂无评论...