發(fā)布時間:2024-12-23 02:51:37 來源:下愚不移網(wǎng) 作者:知識
11月12日消息,加速計算摩爾線程宣布,國產(chǎn)正式開源高性能線性代數(shù)模板庫MUTLASS,開庫以便開發(fā)者能夠更高效地針對摩爾線程GPU MUSA Core、發(fā)摩Tensor Core等單元進行編程,爾線加速基于國產(chǎn)GPU的程開算子開發(fā)以及算法創(chuàng)新。
在此之前,源高摩爾線程已經(jīng)相繼開源OpenCV-MUSA計算機視覺庫、加速計算MooER音頻理解大模型、國產(chǎn)vLLM-MUSA大語言模型高速推理框架。開庫
▼ MUTLASS開源地址:
https://github.com/MooreThreads/mutlass
在數(shù)值計算和深度學習領域,發(fā)摩矩陣乘法(GEMM)及其變種,爾線比如FlashAttention、程開Convolution,源高是加速計算構建復雜上層應用的基石。
不夠,為了追求更高的算子融合效率,或者更創(chuàng)新的算法,開發(fā)者們往往需要超越標準化計算接口的限制,如標準BLAS接口以及芯片廠商的計算庫接口,以實現(xiàn)高性能的定制化算子。
MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是為滿足這一需求而設計。
作為摩爾線程專為自研MUSA架構優(yōu)化的高性能計算庫,MUTLASS是基于開源模板庫CUTLASS進行的MUSA適配和定制化開發(fā)、優(yōu)化。
針對矩陣乘法及相關變種,MUTLASS提供了一系列高性能的C++模板組件,并采用了與muDNN庫類似的分層分解及數(shù)據(jù)搬運策略,以確保性能的充分發(fā)揮。
在本次開源的版本中,摩爾線程適配了CuTe后端庫,為其增加了第三代MUSA架構的MMA計算原語,支持TF32/FP16/BF16/INT8等多種數(shù)據(jù)精度,并以此為基礎,初步實現(xiàn)了矩陣乘法、默認實例庫、性能測試器及相關工具包的支持。
借助MUTLASS,開發(fā)者們既可以靈活復用不同層級的模板組件,也可以按需修改各種模板組件的實現(xiàn)細節(jié),以較低的開發(fā)成本實現(xiàn)定制化的高性能算子,從而在摩爾線程全功能GPU上充分釋放性能,并嘗試更多的算法創(chuàng)新。
摩爾線程將持續(xù)優(yōu)化MUTLASS的性能,并不斷引入新的功能。
相關文章
隨便看看