免费观看黄色视频wwww,日本午夜成人电影免费观看,欧美一级a在线作爱免费观看,黄色视频免费在线观看,亚洲美女av免费观看,日韩毛片在线3p,亚洲黄色在线免费观看

<label id="n72fx"></label>

<optgroup id="n72fx"><center id="n72fx"></center></optgroup>

? 首頁 ? 娛樂 ? 國產全AI游戲來了一段文字、一張圖就能生成模擬開放世界游戲視頻正文

國產全AI游戲來了一段文字、一張圖就能生成模擬開放世界游戲視頻

娛樂 2024-12-23 03:14:22 48826

距離普通人憑想法就能做出游戲的國產時代，又近了一步。戲段戲視

AI 游戲生成天花板今年以來不斷突破，文字就在昨天，張圖國產游戲 AI 團隊也加入卷出了新高度。生擬開

國產全AI游戲來了一段文字、一張圖就能生成模擬開放世界游戲視頻

巨人網(wǎng)絡發(fā)布了 " 千影 QianYing" 有聲游戲生成大模型，成模其中包括游戲視頻生成大模型 YingGame、放世視頻配音大模型 YingSound。界游

先來感受一段 1 分 26 秒的國產生成樣片：

用一段文字、一張圖，戲段戲視就能生成模擬開放世界游戲的文字視頻，并且有聲、張圖可交互，生擬開可操控角色的成模多種動作。

面向開放世界游戲，放世無需游戲引擎

概括來說，YingGame 是一個面向開放世界游戲的視頻生成大模型，研究團隊來自巨人網(wǎng)絡 AI Lab、清華大學 SATLab，首次實現(xiàn)角色多樣動作的交互控制、自定義游戲角色，同時具備更好的游戲物理仿真特性。

精確的物理規(guī)律仿真

從生成的視頻中看，無論是汽車碰撞、火焰燃燒這類大場面，還是水中慢走、障礙物自動繞行這種人物行進，都表現(xiàn)出了出色的遵循物理規(guī)律能力。

多樣動作控制

交互對游戲至關重要，YingGame 能夠理解用戶的輸入交互，包括文本、圖像或鼠標、鍵盤按鍵等操作信號，從而讓用戶能夠操控游戲角色的多樣動作。

視頻中展示了角色在開槍、變身、施法、使用道具、攀爬、匍匐、跑跳等肢體動作的交互，相比同類模型更加豐富、絲滑。

角色個性化與精細主體控制

YingGame 還支持輸入一張角色圖片，實現(xiàn)角色自定義生成，同時對角色主體實現(xiàn)精細化控制，從過去的 AI 捏臉跨越到現(xiàn)在的 AI 捏人。

第一人稱視角

此外，還看到模型生成的第一人稱視角的游戲畫面，不得不說，這個視角有很足的游戲沉浸感。

怎么實現(xiàn)的？

從技術上看，YingGame 通過融合跨模態(tài)特征、細粒度角色表征、運動增強與多階段訓練策略，以及所構建的高效、高質量游戲視頻訓練數(shù)據(jù)生產管線，使得生成內容具備可交互能力的多樣動作控制、角色自定義與精細主體控制、復雜運動與動作連續(xù)性等特性。

在交互性實現(xiàn)上，YingGame 結合了多個 Interactive Network 模塊：理解用戶輸入的多模態(tài)交互方式，實現(xiàn)多樣動作控制的多模態(tài)交互網(wǎng)絡 — MMIN ( Multi-Modal Interactive Network ) ；實現(xiàn)復雜與連續(xù)角色動作生成的動作網(wǎng)絡 — IMN ( Interactive Motion Network ) ；自定義角色生成與提高角色生成質量的角色網(wǎng)絡 — ICN ( Interactive Character Network ) 。

此外，為實現(xiàn)高質量訓練數(shù)據(jù)構建，巨人 AI 團隊設計了一條高效的游戲視頻數(shù)據(jù)處理管線：

基于場景與高光產出高質量視頻片段，其中對高光視頻片段進行音頻信息提取，作為 V2A 訓練集；

基于運動得分、美學評分等進行視頻過濾；

vLLM-based video caption 流程，并對結果進行 clip score 文本視頻對齊評分過濾；

多任務數(shù)據(jù)處理，如分割、主體檢測、姿勢估計、深度估計、相機運動估計等。

讓 AI 游戲進入有聲時代

除了 YingGame 之外，巨人還發(fā)布了針對視頻配音場景的多模態(tài)音效生成大模型 YingSound。

這是在此之前 AI 游戲生成領域沒有實現(xiàn)的，而 " 聲音 " 是游戲的基本要素。

YingSound 由巨人網(wǎng)絡 AI Lab、西工大 ASLP Lab 和浙江大學等聯(lián)合研發(fā)，它最重要的技能是：給無聲視頻配音效，實現(xiàn)音畫同步。

直接聽聽 YingSound 生成的效果：

YingSound 有超強的時間對齊和視頻語義理解能力，支持多種類型的高精細度音效生成，并且具備多樣化應用場景泛化能力，包括游戲視頻、動漫視頻、真實世界視頻、AI 生成視頻等。

理解各種視頻畫面能力一絕

來一段游戲的配音示例，通過演示視頻可以清晰看到，這個模型能夠精確地生成與場景高度匹配的音效，包括開鏡、炮轟、射擊等聲音，完美還原坦克進攻與士兵防守射擊的聲音，創(chuàng)造了沉浸式的游戲體驗。

△視頻源自《戰(zhàn)地游戲》錄屏

在動漫場景中，模型展示了對復雜劇情的理解能力。例如，在一段鳥兒互相扔蛋的動畫中，模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列卡點且高度符合視頻內容的音效。

△視頻源自動畫《Boom》片段

再來看看以下小球快速移動的畫面，模型生成的聲音能夠精準匹配畫面的動態(tài)變化，并針對小球不同狀態(tài)生成相應的場景音效，充分展現(xiàn)了其對動畫內容的深度理解。

△視頻源自 3D 動畫短片《The Marble》片段

在真實世界場景中，通過一段激烈的乒乓球對戰(zhàn)視頻，模型能夠精準地生成每次擊球所產生的音效，甚至還生成了球員跑動時鞋底與地面摩擦的聲音，這充分展現(xiàn) YingSound 對視頻整體語義的深刻理解和出色的音效生成能力。

△視頻源自乒乓球比賽測評結果領先

研究團隊公開了 YingSound 的兩個核心模塊：基于 DiT 的 Flow-Matching 構建的音效生成模塊，以及多模態(tài)思維鏈（Multi-modal CoT）控制模塊，為音效生成提供精準支持。

在音效生成模塊中，團隊基于 DiT 的 Flow-Matching 框架，提出了創(chuàng)新的音頻 - 視覺融合結構（Audio-Vision Aggregator, AVA）。該模塊通過動態(tài)融合高分辨率視覺與音頻特征，確保跨模態(tài)對齊效果。通過多階段訓練策略，逐步從 T2A 過渡到 V2A，并采用不同數(shù)據(jù)配比訓練，使模型具備從文本、視頻或二者結合生成高質量音效的能力。

同時，團隊設計了多模態(tài)視頻 - 音頻鏈式思維結構（Multi-modal CoT），結合強化學習實現(xiàn)對少樣本情況下音效生成的精細控制，可廣泛適用于短視頻、動漫及游戲等配音場景。

團隊精心構建了符合行業(yè)標準的 V2A（video-to-audio）數(shù)據(jù)集，覆蓋了電影、游戲、廣告等多場景、多時長的音視頻內容。為確保數(shù)據(jù)質量，研究團隊還設計了一套完善的數(shù)據(jù)處理流程，涵蓋數(shù)據(jù)收集、標注、過濾和剪輯。針對不同視頻類型的復雜性與差異性，團隊基于多模態(tài)大語言模型（MLLMs）及人工標注，完成時間戳和聲音事件的高質量標注。同時，通過嚴格篩選，過濾掉背景音樂干擾及音視頻不同步的內容，最終生成符合行業(yè)標準要求的訓練數(shù)據(jù)，為后續(xù)研究與開發(fā)提供了堅實基礎。

通過客觀指標測評可以看出，YingSound 大模型在整體效果、時間對齊和視頻語義理解等客觀測評上均達到業(yè)界領先水平。

長期來看，視頻生成技術因其展現(xiàn)出的取代游戲引擎的潛力，勢必會對游戲行業(yè)帶來顛覆式創(chuàng)新。

通過文字描述就能創(chuàng)作一個游戲，不再是異想天開。這個領域的發(fā)展速度之快超乎想象，AI 將帶來游戲創(chuàng)作平權，未來游戲創(chuàng)作的唯一限制可能只是創(chuàng)作者們的想象力。

今年年初，史玉柱談到巨人網(wǎng)絡在探索打造一個 AI 游戲孵化平臺，降低做游戲的門檻，讓普通人也能做游戲。這不，年底就交了第一份 " 作業(yè) "，期待他們在 AI 游戲賽道的下一步規(guī)劃。

本文地址：http://www.qzaqs.com/news/77e57199351.html

版權聲明

本文僅代表作者觀點，不代表本站立場。
本文系作者授權發(fā)表，未經許可，不得轉載。

全站熱門

拜仁最近5個賽季德國杯成績：3次倒在第2輪，從未進過4強

《奪寶奇兵：古老之圈》首發(fā)缺失光追

孕婦快生自家車更新系統(tǒng)只能打車上熱搜：官方回應！網(wǎng)友直呼黑的太明顯

記者：如果科斯蒂奇和米利克能離隊，尤文將免簽德佩擔任替補前鋒

PCL的目標，居然只是不讓韓拿冠。。。

記者：如果科斯蒂奇和米利克能離隊，尤文將免簽德佩擔任替補前鋒

Windows11進入新階段！微軟確認Win11 24H2大范圍推送開啟

Win11隱藏功能被發(fā)現(xiàn)：設置中可調整攝像頭分辨率和幀率等

友情鏈接

©2024 Powered By 下愚不移網(wǎng) - 網(wǎng)站地圖

本站的部分內容來源于互聯(lián)網(wǎng)，如不慎侵犯到您的權益，請聯(lián)系我們，我們會在36小時內刪除。

<input id="ijqa9"></input>

<label id="ijqa9"><button id="ijqa9"><dl id="ijqa9"></dl></button></label>

<optgroup id="ijqa9"></optgroup>