阿里云通義開(kāi)源首個(gè)多模態(tài)推理模型QVQ 視覺(jué)推理比肩OpenAI o1
作者:休閑 來(lái)源:焦點(diǎn) 瀏覽: 【大 中 小】 發(fā)布時(shí)間:2024-12-27 00:36:36 評(píng)論數(shù):
12月25日,阿里阿里云通義千問(wèn)發(fā)布業(yè)界首個(gè)開(kāi)源多模態(tài)推理模型QVQ-72B-Preview。云通義開(kāi)源首QVQ展現(xiàn)出超預(yù)期的個(gè)多視覺(jué)理解和推理能力,在解決數(shù)學(xué)、模態(tài)模型物理、推理科學(xué)等領(lǐng)域的覺(jué)推肩復(fù)雜推理問(wèn)題上表現(xiàn)尤為突出。多項(xiàng)評(píng)測(cè)數(shù)據(jù)顯示,理比QVQ超越了此前的阿里視覺(jué)理解模型「開(kāi)源王者」Qwen2-VL,整體表現(xiàn)與「滿血版」OpenAI o1、云通義開(kāi)源首Claude3.5 Sonnet等推理模型相當(dāng)。個(gè)多目前,模態(tài)模型開(kāi)發(fā)者可在魔搭社區(qū)和HuggingFace平臺(tái)上直接體驗(yàn)。推理
人類的覺(jué)推肩推理能力植根于語(yǔ)言思維和視覺(jué)記憶中,正因此,理比利用視覺(jué)理解增強(qiáng)大模型推理能力,阿里成為AI技術(shù)的前沿探索之一。一個(gè)月前,通義發(fā)布AI推理模型QwQ-32B-Preview,即斬獲SuperCLUE的AI推理模型榜單「全球開(kāi)源冠軍」;如今,通義團(tuán)隊(duì)在Qwen2-VL-72B開(kāi)源模型基礎(chǔ)上,研發(fā)出多模態(tài)推理模型QVQ-72B-Preview,可實(shí)現(xiàn)更仔細(xì)的逐步推理,視覺(jué)推理能力也顯著進(jìn)步,在解決復(fù)雜問(wèn)題時(shí)表現(xiàn)驚艷。
在考察模型視覺(jué)理解及推理的MMMU評(píng)測(cè)中,QVQ取得了70.3分,水平已達(dá)大學(xué)級(jí)別;在聚焦數(shù)學(xué)的視覺(jué)推理測(cè)試MathVista中,QVQ得分超過(guò)OpenAI o1,印證了其強(qiáng)大的圖形推理能力;在更具多樣性和學(xué)科廣度的MathVison評(píng)測(cè)中,QVQ表現(xiàn)超越Claude3.5及GPT4o,說(shuō)明QVQ更擅長(zhǎng)解決真實(shí)數(shù)學(xué)問(wèn)題;在奧賽級(jí)別的OlympiadBench基準(zhǔn)測(cè)試中,QVQ也展現(xiàn)了出色的視覺(jué)推理能力。
QVQ是一個(gè)會(huì)基于視覺(jué)進(jìn)行深度思考推理的大模型。QVQ不但能感知更準(zhǔn)確的視覺(jué)內(nèi)容,并據(jù)此作出更細(xì)致的分析推理,還會(huì)質(zhì)疑自身假設(shè),仔細(xì)審視其推理過(guò)程的每一步,經(jīng)過(guò)深思熟慮后給出最后結(jié)論。QVQ可以輕松識(shí)別“梗圖”內(nèi)涵;看真實(shí)照片可合理推斷出物體個(gè)數(shù)及高度等信息;在面對(duì)數(shù)學(xué)、物理、化學(xué)等各科學(xué)領(lǐng)域難題,QVQ能像人甚至科學(xué)家一樣,給出思考過(guò)程和準(zhǔn)確答案。
目前,QVQ-72B-Preview已在魔搭社區(qū)和HuggingFace等平臺(tái)上開(kāi)源,開(kāi)發(fā)者可上手體驗(yàn)。據(jù)了解,一個(gè)月前開(kāi)源的推理模型QwQ受到全球開(kāi)發(fā)者熱捧,一發(fā)布就登上HuggingFace模型趨勢(shì)榜榜首。截至目前,通義千問(wèn)Qwen的衍生模型數(shù)突破7.8萬(wàn)個(gè),已超越Llama成為全球規(guī)模最大的AI模型群。