全球首個(gè)!英偉達(dá)發(fā)布了一把用于“聲音的瑞士軍刀”
11月26日訊,全球英偉達(dá)近日展示了其最新研發(fā)的首個(gè)聲音士軍人工智能模型——Fugatto。
Fugatto是英偉用于一款基于生成式Transformer架構(gòu)的人工智能模型,其完整版配備了25億個(gè)參數(shù),達(dá)發(fā)的瑞刀并在由32個(gè)NVIDIA H100 Tensor Core GPU組成的布把NVIDIA DGX系統(tǒng)上進(jìn)行了訓(xùn)練。
這款模型的全球主要功能在于能夠修改和生成聲音效果,專(zhuān)為音樂(lè)、首個(gè)聲音士軍電影和視頻游戲制作人設(shè)計(jì),英偉用于英偉達(dá)將其形象地稱(chēng)為“聲音的達(dá)發(fā)的瑞刀瑞士軍刀”。
據(jù)NVIDIA應(yīng)用音頻研究經(jīng)理Rafael Valle透露,布把Fugatto的全球研發(fā)初衷是創(chuàng)建一個(gè)能夠像人類(lèi)一樣理解和生成聲音的模型。
它支持多種音頻生成和轉(zhuǎn)換任務(wù),首個(gè)聲音士軍是英偉用于首個(gè)展示緊急屬性的基礎(chǔ)生成式AI模型,這得益于其各種訓(xùn)練能力的達(dá)發(fā)的瑞刀交互以及組合自由格式指令的能力。
Fugatto的布把功能十分強(qiáng)大,能夠根據(jù)文本描述生成音效和音樂(lè),例如將鋼琴演奏轉(zhuǎn)換成人聲歌唱,或改變錄音的口音和情緒。
對(duì)于音樂(lè)制作人而言,F(xiàn)ugatto可以幫助他們快速制作原型或編輯歌曲創(chuàng)意,嘗試不同的風(fēng)格、聲音和樂(lè)器,同時(shí)添加效果并提高現(xiàn)有軌道的整體音頻質(zhì)量。
廣告代理商則可以利用Fugatto快速定位多個(gè)地區(qū)或情況的現(xiàn)有廣告活動(dòng),將不同的口音和情感應(yīng)用于畫(huà)外音。
視頻游戲開(kāi)發(fā)人員則可以使用該模型修改游戲中預(yù)先錄制的素材,或根據(jù)文本說(shuō)明和可選的音頻輸入動(dòng)態(tài)創(chuàng)建新素材。
另外,F(xiàn)ugatto 的新穎性主要體現(xiàn)在以下方面:
首先,在推理過(guò)程中,該模型采用了稱(chēng)為ComposableART的技術(shù),能夠組合在訓(xùn)練期間只能單獨(dú)看到的指令。
例如,通過(guò)組合提示,可以要求模型以法國(guó)口音說(shuō)出帶有悲傷情緒的文本。
此外,該模型在指令之間進(jìn)行插值的能力使用戶(hù)能夠?qū)ξ谋局噶钸M(jìn)行精細(xì)控制,如重音的沉重程度或悲傷的程度。
其次,F(xiàn)ugatto還能夠生成隨時(shí)間變化的聲音,NVIDIA將這一功能稱(chēng)為時(shí)間插值。
例如,它可以模擬暴雨穿過(guò)區(qū)域的聲音,雷聲逐漸增強(qiáng),然后慢慢消失在遠(yuǎn)處。這一功能使用戶(hù)能夠精細(xì)地控制音景的演變方式。
最后,與大多數(shù)只能重現(xiàn)所接觸的訓(xùn)練數(shù)據(jù)的模型不同,F(xiàn)ugatto允許用戶(hù)創(chuàng)建以前從未見(jiàn)過(guò)的音景。
例如,它可以模擬雷雨隨著鳥(niǎo)兒的歌聲緩和為黎明的場(chǎng)景。
總而言之,F(xiàn)ugatto憑借其功能多樣性和創(chuàng)新性,在音頻領(lǐng)域具有廣闊的發(fā)展空間。
相關(guān)推薦
- 打破僵局!泰拉頭球破門(mén),勒沃庫(kù)森領(lǐng)先10人拜仁
- 苗原:涉假賭黑給梅州的失敗埋下伏筆 球隊(duì)能否存在將是看點(diǎn)
- 結(jié)束本賽季的征程!球隊(duì)會(huì)向著更高的目標(biāo)繼續(xù)努力!我們下賽季見(jiàn)
- 結(jié)束本賽季的征程!球隊(duì)會(huì)向著更高的目標(biāo)繼續(xù)努力!我們下賽季見(jiàn)
- 漸入佳境!米蘭各項(xiàng)賽事取得3連勝,連續(xù)7場(chǎng)不敗
- 憾失冠軍!賽后高天意在隊(duì)友懷中痛哭流涕??申花球迷仍支持球隊(duì)
- PGS5/6 : 無(wú)干擾的情況團(tuán)戰(zhàn)TM & 17 團(tuán)戰(zhàn)勝率直觀感受
- [流言板]持續(xù)進(jìn)步!布勞恩全場(chǎng)9中7,三分4中3,得到21分6籃板2助攻