11月20日,出席在酷+科技峰會(huì)科技創(chuàng)新專(zhuān)場(chǎng),RockAI CEO劉凡平發(fā)表了《大模型與物理空間:從單體智能到群體智能》的主題演講,主要探討了當(dāng)前大模型面臨的諸多問(wèn)題、群體智能是酷科未來(lái)方向,以及大模型從單體智能到群體智能的發(fā)展路徑。
在演講中,技峰劉凡平首先對(duì)大模型現(xiàn)狀與問(wèn)題進(jìn)行了分析,主要為現(xiàn)有大模型的局限、現(xiàn)有架構(gòu)不足。示大勢(shì)當(dāng)前大模型應(yīng)用形式多為單體推理,模型依賴(lài)海量數(shù)據(jù)和強(qiáng)大算力,存在不合理性。其學(xué)習(xí)模式與人類(lèi)不同,群體缺乏在現(xiàn)實(shí)生活中實(shí)時(shí)學(xué)習(xí)、交互的出席能力,且Transformer架構(gòu)在存儲(chǔ)帶寬、訓(xùn)練效果、酷科多模態(tài)能力、技峰實(shí)時(shí)性、示大勢(shì)能耗散熱等方面存在問(wèn)題。模型OpenAI等面臨算力和數(shù)據(jù)充足但仍存在問(wèn)題的群體困境,算法才是核心。Transformer架構(gòu)的出席原作者及圖靈獎(jiǎng)獲得者如楊立昆、辛頓等也指出其存在的酷科問(wèn)題,如Scaling Law極限問(wèn)題、計(jì)算資源浪費(fèi)等,技峰因此我們需要更好的架構(gòu)。
Yan架構(gòu)正是在這樣的背景下誕生的,它是首個(gè)國(guó)產(chǎn)化非Transformer架構(gòu)。Yan架構(gòu)多模態(tài)大模型在性能和效率上優(yōu)于同類(lèi),可達(dá)到Llama3 8B的水平,訓(xùn)練效率更高,推理吞吐更大,且能在樹(shù)莓派等多種低算力設(shè)備上部署。上述創(chuàng)新依據(jù)的基礎(chǔ)原理包含MCSD和類(lèi)腦激活機(jī)制。類(lèi)腦激活機(jī)制模擬人腦神經(jīng)元激活模式,選擇性激活部分參數(shù),降低算力依賴(lài),實(shí)現(xiàn)訓(xùn)練與推理同步,從而大幅提升模型性能。
關(guān)于通用人工智能的終局,RockAI認(rèn)為是群體智能。RockAI在大模型領(lǐng)域首倡“群體智能”概念,并找到了實(shí)現(xiàn)路徑,且已走在路上。實(shí)現(xiàn)群體智能需具備自主學(xué)習(xí)、人機(jī)交互和適配更多終端三個(gè)條件。群體智能迭代路線包括創(chuàng)新性基礎(chǔ)架構(gòu)、多元化硬件生態(tài)、自適應(yīng)智能進(jìn)化和協(xié)同化群體智能四個(gè)階段。RockAI處于第三階段并在追求群體智能,與OpenAI模式不同,堅(jiān)持在算法層面做創(chuàng)新。當(dāng)前Transformer架構(gòu)雖存在問(wèn)題,但數(shù)據(jù)采集方式已使其有智能涌現(xiàn)能力,若將大模型引入物理世界有望實(shí)現(xiàn)超指數(shù)級(jí)智能化增長(zhǎng)。
了解更多干貨,詳見(jiàn)劉凡平的演講全文(共5217字,約需20分鐘)。
大模型現(xiàn)狀與問(wèn)題分析
在開(kāi)始之前,我想讓大家思考幾個(gè)小問(wèn)題,可能在座很多人都想過(guò)這些問(wèn)題,尤其是技術(shù)類(lèi)的同仁們。
第一個(gè)是,我們現(xiàn)在離通用人工智能到底還有多遠(yuǎn)?這個(gè)答案現(xiàn)在沒(méi)有一家能說(shuō)得清楚。當(dāng)前的大模型是否具備突破通用人工智能的潛力?OpenAI當(dāng)時(shí)出來(lái)的時(shí)候,很多人都說(shuō)它是走向了通用人工智能。但是從現(xiàn)在的實(shí)際情況來(lái)看,是這樣嗎?好像不是。看OpenAI最近的一些演講,你會(huì)發(fā)現(xiàn)他們說(shuō)Scaling Law似乎異常了,這是OpenAI自己的研究員在說(shuō)這件事情。
第二個(gè)是,我們現(xiàn)在的大模型是否真正能夠有自己的學(xué)習(xí)模式?現(xiàn)在大模型的模式是先預(yù)訓(xùn)練、再微調(diào),然后再去做運(yùn)用推理,但這好像違背了我們的常識(shí)。為什么?因?yàn)槿丝梢栽诂F(xiàn)實(shí)生活中學(xué)習(xí),而現(xiàn)在的大模型不具備這個(gè)能力。那是不是說(shuō)明我們的大模型發(fā)展遇到了問(wèn)題?這個(gè)問(wèn)題我們?cè)诤芏嗄昵熬鸵呀?jīng)發(fā)現(xiàn)了。Transformer架構(gòu)在2017年出來(lái)的時(shí)候,我是它忠實(shí)的擁護(hù)者,那個(gè)時(shí)候我基本上想到一切只要是序列相關(guān)的事情,第一時(shí)間就想到Transformer,GPT-1和GPT-2我全部都用過(guò)。
回到現(xiàn)在來(lái)看,Transformer作為當(dāng)前大模型的核心,它真的是無(wú)可替代的嗎?
這些問(wèn)題,其實(shí)都是我們創(chuàng)新的起點(diǎn),所以RockAI是從很多年前就開(kāi)始在做底層技術(shù)的研究。但是我們很低調(diào),因?yàn)椴淮虬袼詣e人不知道我們,事實(shí)上我們很愿意跟大家分享在技術(shù)上的一些成果。
不得不承認(rèn)的一個(gè)點(diǎn)是,我們目前訓(xùn)練的大模型,不管是哪一家訓(xùn)練的,都是一個(gè)單體智能的大模型。它需要我們從物理世界獲得海量數(shù)據(jù),這些海量數(shù)據(jù)給到服務(wù)器上,然后讓更大的算力去訓(xùn)練它。這個(gè)過(guò)程是不太合理的,為什么要把那么多數(shù)據(jù)放到服務(wù)器上整理出來(lái)給它,而不是讓模型直接走向現(xiàn)實(shí)的世界來(lái)做這個(gè)事情呢?
我們今天在座的大概有一兩百人,如果說(shuō)我們每個(gè)人都是一個(gè)終端,大腦就是我們的模型。其實(shí)我們的大腦是走向了物理世界去學(xué)習(xí),而不是我們把數(shù)據(jù)送到大腦里面,走向物理世界才是最根本的東西。所以我們非常贊同像李飛飛他們提到的空間智能等等,但我們更認(rèn)為群體智能是邁向未來(lái)的更好的一個(gè)階梯。
群體智能是未來(lái)方向
為什么是群體智能呢?
因?yàn)槿后w智能在自然界中是廣泛存在的,人類(lèi)社會(huì)發(fā)展到今天,一定是依靠群體智能。每個(gè)人不會(huì)一出生就絕對(duì)聰明,但是你可以在學(xué)校里學(xué)習(xí),跟同學(xué)、同事交流,在交流的過(guò)程中獲得更多的知識(shí)。你可以翻閱一千年以前古人寫(xiě)的書(shū)籍學(xué)習(xí)知識(shí),會(huì)發(fā)現(xiàn)我們學(xué)習(xí)的東西其實(shí)都是基于別人而產(chǎn)生的。
那我們?yōu)槭裁床幌嘈湃后w智能才是走向更好的一個(gè)狀態(tài)呢?非要投入上億或者上十億的資金去買(mǎi)服務(wù)器,在全世界的范圍內(nèi)找數(shù)據(jù)去訓(xùn)練一個(gè)模型嗎?我覺(jué)得這也是OpenAI現(xiàn)在面臨的非常重要的一個(gè)問(wèn)題,它的算力已經(jīng)是全球第一,數(shù)據(jù)已經(jīng)是最多的,但還在說(shuō)算力不夠,問(wèn)題出在哪里呢?我們說(shuō)AI的三要素是數(shù)據(jù)、算法、算力。那么多數(shù)據(jù)已經(jīng)有了,算力也有了,那核心問(wèn)題在哪里呢?肯定就在算法,所以我們?cè)敢鈭?jiān)持在算法上做創(chuàng)新。
我們認(rèn)為實(shí)現(xiàn)群體智能有三個(gè)必要條件:
第一,自主學(xué)習(xí)。
自主學(xué)習(xí),是我們一定要讓模型在設(shè)備端以及其他任何一個(gè)場(chǎng)景下,都能夠?qū)W習(xí)。如果模型只能在設(shè)備上做推理,它一定陪大家不久,因?yàn)樗荒軐W(xué)習(xí)你所擁有的一切知識(shí)。而物理世界是因?yàn)槿伺c人之間的交互產(chǎn)生更多的數(shù)據(jù),這些數(shù)據(jù)是要被實(shí)時(shí)學(xué)習(xí)到的。
就像今天大家坐在一起交流AI,如果現(xiàn)在讓一個(gè)云端的大模型來(lái)訓(xùn)練它,就得把所有視頻、音頻收集起來(lái)放到服務(wù)器上去訓(xùn)練。但這樣真的好嗎?肯定不是。如果有個(gè)大模型就在眼前,它可以在這里直接學(xué)習(xí)、吸收今天的內(nèi)容,這才是最好的方式。
所以自主學(xué)習(xí)是指訓(xùn)推同步,比如這會(huì)兒我在介紹的時(shí)候,就是一個(gè)推理的過(guò)程,但如果和大家有什么交流,或者我看到一些新東西,就是我實(shí)時(shí)學(xué)習(xí)的過(guò)程,我的訓(xùn)練和學(xué)習(xí)是同時(shí)進(jìn)行的。
第二,人機(jī)交互。
人機(jī)交互是目前傳統(tǒng)的大模型(Transformer架構(gòu))都在努力做的一件事情。
第三,適配更多的終端。
只有更多的終端擁有AI,才有可能實(shí)現(xiàn)群體智能。就像人類(lèi)社會(huì)一樣,只有更多的人的存在,才可能有人類(lèi)社會(huì)的文明。
Transformer架構(gòu)的大模型能否成為群體智能的單元大模型?很難。
為什么它很難呢?我們很久之前在內(nèi)部總結(jié)過(guò),第一是它的存儲(chǔ)帶寬限制、訓(xùn)練效果不佳還有幻覺(jué)影響,第二是多模態(tài)能力的不確定性,以及實(shí)時(shí)性,實(shí)時(shí)性基本上是它的致命痛點(diǎn)。第三是能耗和散熱,要在設(shè)備上能夠完整地跑起來(lái),它所帶來(lái)的能耗遠(yuǎn)遠(yuǎn)高于以前的一些算法。由此,我們認(rèn)為從實(shí)踐的角度來(lái)說(shuō),Tansformer架構(gòu)的大模型很難成為群體智能的單元大模型,這是基于我們幾年前的工作經(jīng)驗(yàn)和實(shí)踐得出的。
但其實(shí)最近一年,人工智能的三巨頭本吉奧(Joshua Bengio)、楊立昆(Yann LeCun)和辛頓(Geoffrey Hinton),辛頓也是前段時(shí)間諾貝爾獎(jiǎng)的獲得者,他們都提到過(guò)現(xiàn)在大模型的一些情況,尤其是楊立昆,他在推特上直接說(shuō)不做大模型了。
今年上半年英偉達(dá)GDC大會(huì),黃仁勛邀請(qǐng)了Transformer架構(gòu)的7位作者(8位中的7位),其中有兩位都提到Transformer的事情,這個(gè)世界需要比Transformer更好的東西,另外一位提到一個(gè)簡(jiǎn)單的“2+2”就需要模型里面所有的參數(shù)參與運(yùn)算。大家想想這是錯(cuò)誤的,怎么能算一個(gè)“2+2”讓所有的參數(shù)參與運(yùn)算呢?
其實(shí)Transformer架構(gòu)的原作者早就知道這些問(wèn)題了。但是ChatGPT在2022年火的時(shí)候大家忽視了這些問(wèn)題,一股腦鉆進(jìn)去,而我們是保持頭腦清醒的一部分人。
我們認(rèn)為通用人工智能要走下去,至少經(jīng)歷四個(gè)階段:
第一階段是架構(gòu)重塑。架構(gòu)一定得改,如果用現(xiàn)有的架構(gòu),一定走不到通用人工智能。我們自己已經(jīng)完成了第一步非Transformer架構(gòu)的工作。
第二階段是單體推理。單體推理是說(shuō)設(shè)備上只能做推理,不做訓(xùn)練。目前絕大部分Transformer架構(gòu)的模型都在這樣一個(gè)階段,不管在服務(wù)器也好、在手機(jī)上,只能做推理,不能做學(xué)習(xí)。
RockAI是在第三階段單體智能,不僅能做推理,還能做學(xué)習(xí)。
第四階段是我們目前在追求的一個(gè)方向,群體智能,這也是我們自己認(rèn)為通用人工智能應(yīng)該走的一個(gè)路徑。這個(gè)路徑與國(guó)內(nèi)跟隨的模式不太一樣,國(guó)內(nèi)跟隨了OpenAI,我們和OpenAI的模式、思路完全不一樣。所以我們也堅(jiān)信在很多年前我們選擇創(chuàng)業(yè)時(shí),就已經(jīng)是正確的方向。因?yàn)槲覀冇X(jué)得,現(xiàn)在OpenAI遇到的問(wèn)題,其實(shí)就是我們?cè)诮鉀Q的問(wèn)題。
新架構(gòu)的模型,才是正解!
我們?cè)?月測(cè)了模型的一些性能,這是直接從論文截出來(lái)的,沒(méi)有公開(kāi)打榜。
RockAI的Yan1.3是3B的模型,已經(jīng)達(dá)到Llama3 8B的水平。大家可能會(huì)好奇,為什么我們會(huì)選擇Llama3的8B?因?yàn)閲?guó)內(nèi)部分模型廠商是用Llama3的8B來(lái)套殼,以3B達(dá)到8B的效果,意味著我們的信息密度遠(yuǎn)遠(yuǎn)高于Llama。在這樣的情況下我們套不了殼,因?yàn)闆](méi)法用他們的東西。
不僅是效果層面,在訓(xùn)練效率上,同樣的數(shù)據(jù)、同樣的參數(shù)量級(jí)下,如果Transformer架構(gòu)的模型訓(xùn)練要700個(gè)小時(shí),我們只需要100個(gè)小時(shí);同樣的資源、同樣的數(shù)據(jù)、同樣的參數(shù)量級(jí)下,推理吞吐大概是它的5倍,也就是如果一臺(tái)服務(wù)器它只能給10個(gè)人用,我們可以給50個(gè)人用。
這種性能和效率各方面的提升再次證明了一個(gè)問(wèn)題——非Transformer架構(gòu)才是有價(jià)值的。我們應(yīng)該去探索更多的路,而不應(yīng)該去follow別人,一旦進(jìn)入follow的模式,創(chuàng)新就丟失了。尤其在技術(shù)領(lǐng)域,其實(shí)國(guó)內(nèi)的技術(shù)人員非常優(yōu)秀,但是我們的創(chuàng)新還不足。
這是我們模型目前的結(jié)構(gòu),它是一個(gè)完全端到端、秒級(jí)實(shí)時(shí)響應(yīng)的模型。
RockAI一直專(zhuān)注于基礎(chǔ)技術(shù)的創(chuàng)新,我想重點(diǎn)跟大家分享兩個(gè)機(jī)制。
第一,MCSD。
在研究MCSD模塊的過(guò)程中,我們也驗(yàn)證了Scaling Law機(jī)制,但只是過(guò)程性的驗(yàn)證,并不是說(shuō)要去做Scaling Law??梢赃@樣理解,Transformer架構(gòu)是一個(gè)藍(lán)牌的燃油汽車(chē),Attention機(jī)制是它的核心,是它的發(fā)動(dòng)機(jī),我們采用MCSD模塊把它的發(fā)動(dòng)機(jī)變成電機(jī),它的響應(yīng)性能等方面就變得更快。
第二,類(lèi)腦激活機(jī)制。
這是在國(guó)內(nèi)、硅谷,甚至歐洲都沒(méi)有實(shí)現(xiàn),而RockAI已經(jīng)實(shí)現(xiàn)的一套方式。我們也申請(qǐng)了專(zhuān)利,包括國(guó)際專(zhuān)利。
類(lèi)腦激活機(jī)制,大家可以想象一個(gè)很簡(jiǎn)單的場(chǎng)景:當(dāng)你看電影時(shí),大腦的視覺(jué)皮層會(huì)被大量激活,因?yàn)榇竽X要處理這些視覺(jué)信息的輸入,但是電影看完后回到家里休息,閉上眼睛,這時(shí)候大腦的視覺(jué)皮層是被抑制的,沒(méi)有激活。所以人的大腦工作時(shí),并不是所有的參數(shù)都會(huì)參與運(yùn)算,而是根據(jù)實(shí)際場(chǎng)景選擇性地激活一部分。
人的大腦包括視覺(jué)區(qū)、聽(tīng)覺(jué)區(qū)和語(yǔ)言功能區(qū)等多個(gè)功能區(qū)域。類(lèi)腦激活機(jī)制我們用到模型里,最開(kāi)始也是隨機(jī)了大量的神經(jīng)元,神經(jīng)元之間沒(méi)有任何關(guān)系,不像Transformer架構(gòu)在定義的時(shí)候結(jié)構(gòu)已經(jīng)固定好,每一個(gè)參數(shù)都不能改變,而我們每一個(gè)參數(shù)是可以調(diào)整的。
在這樣的情況下,我們通過(guò)大量的數(shù)據(jù)自適應(yīng)訓(xùn)練,實(shí)現(xiàn)處理推理和訓(xùn)練時(shí)只有少部分功能被激活。比如說(shuō)人在聽(tīng)聲音時(shí)聽(tīng)覺(jué)區(qū)會(huì)被激活,反映在模型里,聽(tīng)覺(jué)區(qū)的參數(shù)會(huì)被激活,而視覺(jué)和其他區(qū)域的參數(shù)不會(huì)被激活,所以算力一定會(huì)降下去。
這就是為什么人的大腦只有20多瓦的能耗,但是能支撐起大約860億參數(shù)的運(yùn)行。而現(xiàn)實(shí)物理世界里Transformer架構(gòu)的模型,2000瓦的GPU服務(wù)器可能都不能支撐上千億參數(shù)的運(yùn)行。核心問(wèn)題在于算法層面,所以我們?cè)谒惴▽用孀隽撕芏鄤?chuàng)新。
也正是因?yàn)樗惴▽用娴膭?chuàng)新,所以我們今年5月就做到全球首個(gè)真正在樹(shù)莓派上部署大模型,而且是多模態(tài)大模型。我們也已經(jīng)通過(guò)今年的世界人工智能大會(huì)對(duì)外展示。直到現(xiàn)在,過(guò)去6個(gè)多月,還沒(méi)有另外一家廠商能夠在樹(shù)莓派上部署模型,姑且不說(shuō)多模態(tài)大模型,連自然語(yǔ)言的大模型都無(wú)法部署。為什么?因?yàn)樗惴ǖ讓右欢ㄒ獎(jiǎng)?chuàng)新,如果沒(méi)有創(chuàng)新是做不到的。
同時(shí)我們還可以在手機(jī)、家里的電視、路由器等使用場(chǎng)景中部署模型,這意味著我們可以讓更多的設(shè)備用上我們的AI。結(jié)合實(shí)現(xiàn)群體智能的三個(gè)必要條件,讓更多的設(shè)備用上人工智能,再加上自主學(xué)習(xí)能力,它就可以在終端發(fā)揮更大的能力。其實(shí)可以理解為我們每個(gè)人就是一個(gè)終端,只是這個(gè)終端有很強(qiáng)大的學(xué)習(xí)能力,所以人類(lèi)從生物界里面走出來(lái)了。如果說(shuō)機(jī)器的智能也是這樣,那是不是可以認(rèn)為這才是通往通用人工智能最好的路徑呢?
大模型最核心的能力是什么?自主學(xué)習(xí)能力。
這也是為什么我們不打榜單的原因,很多時(shí)候榜單只能作為參考,模型本身“出生”的時(shí)候,它的聰明程度沒(méi)有太大關(guān)系。以我們自己為例,不管是在學(xué)校,還是走向社會(huì),伴隨我們最好的能力不是現(xiàn)在掌握的知識(shí),而是自身的學(xué)習(xí)能力。假如現(xiàn)在讓我在從來(lái)沒(méi)干過(guò)的金融崗位上工作,即使我并不具備這方面知識(shí),但我的學(xué)習(xí)能力足夠強(qiáng),那么我就能在這個(gè)領(lǐng)域里有所表現(xiàn)。
自主學(xué)習(xí)能力遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)在榜單上評(píng)測(cè)的科學(xué)、數(shù)學(xué)、邏輯等能力,這是我們認(rèn)為支撐人工智能下一步發(fā)展最關(guān)鍵的力量,也是目前Transformer架構(gòu)的大模型遇到的困境。我們認(rèn)為因?yàn)樗痪邆渥灾鲗W(xué)習(xí)的能力,也就不具備在物理世界里持續(xù)進(jìn)化的能力。
一旦自主學(xué)習(xí)實(shí)現(xiàn)之后,它就會(huì)形成個(gè)性化,個(gè)性化是人類(lèi)社會(huì)發(fā)展的一個(gè)趨勢(shì)。大家可以發(fā)現(xiàn),從2000年左右互聯(lián)網(wǎng)發(fā)展,那個(gè)時(shí)候我們看到的新聞網(wǎng)站基本上一樣,后來(lái)有了推薦,每個(gè)人看到的新聞就不一樣。到現(xiàn)在無(wú)論是抖音還是其他視頻平臺(tái),每個(gè)人看到的視頻都不一樣,個(gè)性化趨勢(shì)非常明顯。
大模型也一樣,它最終要服務(wù)于社會(huì)生產(chǎn)和勞動(dòng),如果說(shuō)大模型不能做到個(gè)性化,一個(gè)絕對(duì)的云端通用大模型能解決的問(wèn)題少之又少。它應(yīng)該從宏觀的適配自然場(chǎng)景、適配業(yè)務(wù),到微觀的適配到每一個(gè)人,這樣走下去。而這個(gè)過(guò)程最重要的是自主學(xué)習(xí),如果沒(méi)有自主學(xué)習(xí),一定會(huì)遇到瓶頸,就像現(xiàn)在的Transformer架構(gòu)。
當(dāng)然,從我們自己的角度來(lái)說(shuō),要構(gòu)建的就是群體智能。我們從最底層的Yan架構(gòu)大模型開(kāi)始,這是千里之行的第一步。這一步完成之后,就是構(gòu)建通用人工智能操作系統(tǒng)。我們現(xiàn)在已經(jīng)在手機(jī)、樹(shù)莓派、PC、無(wú)人機(jī)等等這些設(shè)備上完全運(yùn)行了我們的大模型,之后會(huì)把模型變成一個(gè)操作系統(tǒng),讓更多的設(shè)備能夠使用。當(dāng)每一臺(tái)設(shè)備都擁有智能能力以及自主學(xué)習(xí)能力之后,它就會(huì)形成群體智能。
我們認(rèn)為群體智能迭代的路線有四個(gè)階段:
第一步是創(chuàng)新性基礎(chǔ)架構(gòu)。這個(gè)如果沒(méi)有突破,后面都是零。Transformer架構(gòu)現(xiàn)在遇到的問(wèn)題,包括熱議的Scaling Law似乎異常等等問(wèn)題,就是因?yàn)榈谝徊經(jīng)]有做好,而我們?cè)诤芏嗄昵熬鸵庾R(shí)到了。
第二步是多元化硬件生態(tài),讓更多的設(shè)備用起來(lái)。
第三步是自適應(yīng)智能進(jìn)化,在設(shè)備上自主進(jìn)化。
第四步是協(xié)同化群體智能,設(shè)備與設(shè)備之間串聯(lián)起來(lái),形成相互學(xué)習(xí)、協(xié)同效應(yīng)。
Transformer架構(gòu)的訓(xùn)練模式,需要從物理世界去獲得廣泛的數(shù)據(jù),大家有沒(méi)有想過(guò)這個(gè)數(shù)據(jù)從哪里來(lái)的?
一個(gè)人產(chǎn)生的數(shù)據(jù)是非常有限的,基本上在社會(huì)里可以忽略不計(jì),但是兩個(gè)人產(chǎn)生的和四個(gè)人產(chǎn)生的數(shù)據(jù)是指數(shù)級(jí)增長(zhǎng)的?,F(xiàn)在的Transformer架構(gòu)的模型把這些數(shù)據(jù)收集起來(lái),放到云端訓(xùn)練,大家可以理解為,把人類(lèi)社會(huì)群體智能產(chǎn)生的社會(huì)活動(dòng)數(shù)據(jù),喂給Transformer架構(gòu)大模型。因?yàn)樗庆o止不動(dòng)的,所以需要喂數(shù)據(jù)讓它去訓(xùn)練、學(xué)習(xí)。
但是我們必須得讓它走出來(lái),如果說(shuō)現(xiàn)階段通過(guò)采集數(shù)據(jù)的方式已經(jīng)讓它有智能涌現(xiàn)的能力,那么讓模型進(jìn)入物理世界,它所產(chǎn)生的數(shù)據(jù)遠(yuǎn)遠(yuǎn)比采集的多,智能化程度就會(huì)得到超指數(shù)級(jí)的一個(gè)增長(zhǎng),這個(gè)過(guò)程中才會(huì)產(chǎn)生真正的智能,而這樣的智能才是我們真正想要的。
所以通往通用人工智能這條路,我們一直認(rèn)為不是OpenAI選擇的那條路,而是群體智能之路。不久前Google發(fā)了一篇paper專(zhuān)門(mén)講群體智能,剛好印證了我們之前的很多想法。今天的技術(shù)峰會(huì)匯聚了很多技術(shù)的創(chuàng)新者和技術(shù)的領(lǐng)先者們,這是一個(gè)很好的契機(jī),我們應(yīng)該鼓勵(lì)更多的人去做創(chuàng)新,而不是follow,這樣中國(guó)的通用人工智能發(fā)展才有可能有希望。
謝謝大家!