11月5日消息,加速近日,替代摩爾線程上線了大語言模型高速推理框架開源項目vLLM的線程MUSA移植版本,為開發(fā)者提供基于摩爾線程全功能GPU進行開源項目MUSA移植的開源范例。
摩爾線程表示,加速正努力圍繞自主研發(fā)的替代統(tǒng)一系統(tǒng)架構(gòu)GPU、MUSA軟件平臺,線程構(gòu)建完善好用的開源MUSA應(yīng)用生態(tài)。
vLLM是加速一個高效且易用的大模型推理和服務(wù)框架,支持創(chuàng)新的替代PagedAttention內(nèi)存管理、連續(xù)批處理請求、線程CUDA/HIP圖的開源快速模型執(zhí)行、CUDA核心優(yōu)化、加速分布式推理支持等,替代可顯著提高大語言模型(LLM)的線程推理性能。
目前,vLLM已在各種大語言模型中得到廣泛應(yīng)用,成為業(yè)界常用的開源大模型推理框架。
摩爾線程基于vLLM v0.4.2版本,進行了移植適配,使之支持摩爾線程GPU后端Device,并完全開源,開發(fā)者可以二次開發(fā)、升級vLLM到社區(qū)更新版本等。
值得一提的是,得益于摩爾線程MUSA架構(gòu)的先進性、軟件棧對CUDA的優(yōu)良兼容性,通過MUSIFY代碼自動轉(zhuǎn)換工具,用戶可以快捷地將原有的CUDA代碼遷移到MUSA平臺,實現(xiàn)替代。
同時,CUDA相關(guān)庫的調(diào)用,也可以快速替換為相應(yīng)的MUSA加速庫,如算子庫muDNN、集合通信庫MCCL、線性代數(shù)庫muBLAS等。
摩爾線程通過MUSA軟件棧對CUDA軟件棧接口兼容,大幅提升了應(yīng)用移植的效率,縮短了開發(fā)周期,還提供MUSIFY自動代碼移植工具等一系列實用工具和腳本。
摩爾線程vLLM-MUSA開源地址:
https://github.com/MooreThreads/vLLM_musa