近日,北京智源人工智能研究院(簡稱智源研究院)發(fā)布大規(guī)模并行訓練效率提升器TDS。作為超大規(guī)模智能模型系統(tǒng)“悟道”的階段進展,TDS(Tsinghua/Temporary DeepSpeed)插件將進一步優(yōu)化現(xiàn)今最流行的DeepSpeed 并行計算框架,從而“多快好省”地訓練一個大模型。
據介紹,數(shù)據、算法、算力是當前人工智能技術崛起的重要驅動力。利用海量數(shù)據訓練大規(guī)模機器學習模型,有助于人類充分學習數(shù)據中蘊含的知識,達到更好的訓練效果。
然而,隨著訓練規(guī)模的擴大,單張GPU卡的顯存與計算效率已經無法滿足訓練的需要,通過分布式訓練框架實現(xiàn)多GPU并行訓練成為了一種新的剛需。為了提升多GPU并行訓練的效率,研發(fā)更高效的并行計算框架十分必要。
為應對大規(guī)模計算集群高效訓練方法的需求,智源研究院發(fā)揮其在硬件設計、模型架構、編程框架研發(fā)等方面的優(yōu)勢,組織智源“悟道”團隊科研人員研發(fā)了 TDS 插件,對當下主流的并行計算框架進行了優(yōu)化。
據介紹,TDS 插件重新實現(xiàn)了DeepSpeed的流水線,通過適配器模式封裝了DeepSpeed 的其它功能,該插件十分易于使用。如果已經完成了對 DeepSpeed 的安裝,只需要將TDS的代碼拷貝到工程中,然后加載 DeepSpeed 庫即可。(鄭金武)
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。