DeepSpeed是一个深度学习优化库,它可以使分布式训练变得容易、高效和有效。
10x更大的模型5x更快地训练最小的代码更改DeepSpeed可以在当前一代的GPU集群上训练具有超过千亿个参数的DL模型,而与最新技术相比,其系统性能可以提高5倍以上。DeepSpeed的早期采用者已经生产出一种语言模型(LM, LanguageModel),它具有超过170亿个参数,称为Turing-NLG(TuringNaturalLanguageGeneration,图灵自然语言生成),成为LM类别中的新 SOTA。
DeepSpeedAPI是在PyTorch上进行的轻量级封装,这意味着开发者可以使用 PyTorch中的一切,而无需学习新平台。此外,DeepSpeed管理着所有样板化的SOTA训练技术,例如分布式训练、混合精度、梯度累积和检查点,开发者可以专注于模型开发。同时,开发者仅需对PyTorch模型进行几行代码的更改,就可以利用DeepSpeed独特的效率和效益优势来提高速度和规模。
评论