微軟攜手 NVIDIA 助推 RTX AI PC 上的 AI 開發(fā)
最新 AI 工具和功能加速 RTX AI PC 上的微軟 Windows 應(yīng)用開發(fā)
生成式 AI 賦能的筆記本電腦和 PC 正在推動(dòng)游戲、內(nèi)容創(chuàng)作、攜手生產(chǎn)力和程序開發(fā)更進(jìn)一步。助推目前,微軟超過 600 款 Windows 應(yīng)用和游戲已在全球超過 1 億臺(tái) GeForce RTX AI PC 上本地運(yùn)行 AI,提供快速、可靠的攜手低延遲體驗(yàn)。
在 Microsoft Ignite 大會(huì)上,助推NVIDIA 與微軟聯(lián)合推出多個(gè)工具,幫助 Windows 開發(fā)者在 RTX AI PC 上快速構(gòu)建和優(yōu)化 AI 賦能的應(yīng)用,使本地 AI 更加便捷。這些新工具使應(yīng)用和游戲開發(fā)者能夠利用強(qiáng)大的微軟 RTX GPU 加速 AI 智能體、應(yīng)用助手和數(shù)字人等應(yīng)用的攜手復(fù)雜 AI 工作流。
RTX AI PC 通過多模態(tài)小語言模型為數(shù)字人賦能
我們來認(rèn)識(shí)一下 James,助推一個(gè)熟知 NVIDIA 及其產(chǎn)品的交互式數(shù)字人。James 將 NVIDIA NIM 微服務(wù)、微軟NVIDIA ACE 和 ElevenLabs 數(shù)字人技術(shù)相結(jié)合,攜手可提供自然的沉浸式交互體驗(yàn)。
NVIDIA ACE 是助推一套數(shù)字人技術(shù),可以讓智能體、助手和虛擬形象栩栩如生。微軟為了深度理解信息,攜手以更強(qiáng)的情境感知能力做出響應(yīng),數(shù)字人必須能夠像人一樣在視覺上感知世界。
提升數(shù)字人交互的助推真實(shí)感,需要能夠感知和理解周圍環(huán)境更細(xì)微差別的技術(shù)。為此,NVIDIA 開發(fā)了多模態(tài)小語言模型,可同時(shí)處理文本和圖像信息,在角色扮演方面表現(xiàn)出色,并針對(duì)響應(yīng)速度進(jìn)行了優(yōu)化。
NVIDIA 即將推出的 Nemovision-4B-Instruct 模型利用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架進(jìn)行蒸餾、剪枝和量化,使其體積小到足以在 RTX GPU 上以開發(fā)者所需的精度運(yùn)行。該模型使數(shù)字人能夠理解現(xiàn)實(shí)世界和屏幕上的視覺圖像,以做出相關(guān)的響應(yīng)。多模態(tài)作為智能體工作流的基礎(chǔ),讓我們得以窺見未來,屆時(shí)數(shù)字人只需極少的用戶輔助,即可進(jìn)行推理并采取行動(dòng)。
NVIDIA 還推出了 Mistral NeMo Minitron 128k Instruct 系列模型,這是一套專為優(yōu)化的高效數(shù)字人交互而設(shè)計(jì)的長上下文小語言模型。這一系列模型提供 8B、4B 和 2B 參數(shù)版本的靈活選項(xiàng),以平衡在 RTX AI PC 上運(yùn)行的速度、顯存用量和模型精度。模型單次推理可以處理大量數(shù)據(jù),無需進(jìn)行數(shù)據(jù)分割和重組。這些模型提供 GGUF 格式,為低功耗設(shè)備的效率進(jìn)行優(yōu)化,并與多種編程語言兼容。
利用面向Windows 的NVIDIA TensorRTModel Optimizer 加速生成式AI
將模型引入 PC 環(huán)境時(shí),開發(fā)者面臨著有限的顯存和計(jì)算資源,這為本地運(yùn)行 AI 提出了挑戰(zhàn)。開發(fā)者希望模型可以被更多人使用,同時(shí)精度損失最小。
今天,NVIDIA 公布了 NVIDIA TensorRT Model Optimizer (ModelOpt) 的更新,為 Windows 開發(fā)者提供了針對(duì) ONNX Runtime 部署的模型優(yōu)化方案。借助最新更新,TensorRT ModelOpt 可將模型優(yōu)化為 ONNX 格式,以便使用 CUDA、TensorRT 和 DirectML 等 GPU 運(yùn)行后端在 ONNX 運(yùn)行時(shí)環(huán)境中部署模型。
最新更新使模型可優(yōu)化為 ONNX 檢查點(diǎn),以便通過 CUDA、TensorRT 和 DirectML 等執(zhí)行提供商在 ONNX 運(yùn)行時(shí)環(huán)境中部署模型,從而提高整個(gè) PC 生態(tài)系統(tǒng)的精度和吞吐量。
在部署時(shí),與 FP16 模型相比,這些模型可將顯存占用減少 2.6 倍。這可提高吞吐量,同時(shí)精度損失降到最低,使其能夠在更多的 PC 上運(yùn)行。
詳細(xì)了解從 Windows RTX AI PC 到 NVIDIA Blackwell 驅(qū)動(dòng)的 Azure 服務(wù)器等 Microsoft 系統(tǒng)開發(fā)者如何改變用戶日常與 AI 交互的方式。
本文地址:http://www.qzaqs.com/news/15d83399151.html
版權(quán)聲明
本文僅代表作者觀點(diǎn),不代表本站立場。
本文系作者授權(quán)發(fā)表,未經(jīng)許可,不得轉(zhuǎn)載。