過(guò)年關(guān)啦!阿里送上了今年最后一份禮物—— “眼睛”模型QVQ,其中V代表視覺。它只需讀取圖像和指令,就可以開始思考。 I’m watching you! 據(jù)介紹,這可能是全球第一個(gè)視覺推理模型,也可以把它理解為上個(gè)月開源的阿里版o1模型QwQ的視覺版本。 可以解決數(shù)物化生等各領(lǐng)域問(wèn)題。 讀梗圖、數(shù)鴨子也不在話下。 目前該模型處于實(shí)驗(yàn)階段,開放測(cè)試。 結(jié)果可能因?yàn)樵L問(wèn)過(guò)多,網(wǎng)頁(yè)一度還404了。 從性能表現(xiàn)上看,QVQ在MMMU 上的得分為 70.3,這一結(jié)果超過(guò)GPT-4o、Claude 3.5 Sonnet,但比o1模型還差了那么一點(diǎn)。 阿里開源首個(gè)視覺推理模型 官方給了幾個(gè)演示Demo,讓咱們好好感知一下它的推理能力。 首先來(lái)看這道數(shù)學(xué)題。 再來(lái)個(gè)幾何題,算算這個(gè)沙發(fā)的面積。 高中化學(xué)題:圖片中的濾液E是什么化學(xué)物質(zhì)? 它的答案是:硫酸亞鐵溶液。 他們?cè)谒膫(gè)數(shù)據(jù)集對(duì)眼睛模型QVQ-72B-Preview進(jìn)行了評(píng)估,包括MMMU、MathVista、MathVision、OlympiadBench,主要考察數(shù)學(xué)多模態(tài)推理以及綜合理解推理方面的能力。 QVQ-72B-Preview在 MMMU 基準(zhǔn)測(cè)試中取得了70.3分,大大超過(guò)了其前身 Qwen2-VL-72B-Instruct。 此外,在其余三個(gè)以數(shù)學(xué)和科學(xué)問(wèn)題為重點(diǎn)的基準(zhǔn)測(cè)試中,該模型也表現(xiàn)出了卓越的性能,縮小了與o1模型之間的差距。 不過(guò)目前該模型屬于是團(tuán)隊(duì)的實(shí)驗(yàn)研究模型,不是特別穩(wěn)定,有幾個(gè)限制需要注意。 語(yǔ)言混合和代碼切換:該模型可能會(huì)意外地混合語(yǔ)言或在語(yǔ)言之間切換,從而影響回答的清晰度。 遞歸推理:模型可能會(huì)陷入循環(huán)邏輯模式,產(chǎn)生冗長(zhǎng)的回復(fù)而無(wú)法得出結(jié)論。 安全和道德方面的考慮:該模型需要加強(qiáng)安全措施,以確保性能可靠和安全,用戶在部署時(shí)應(yīng)謹(jǐn)慎。 性能和基準(zhǔn)限制:盡管該模型在視覺推理方面有所改進(jìn),但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外,在多步驟視覺推理過(guò)程中,模型可能會(huì)逐漸失去對(duì)圖像內(nèi)容的關(guān)注,從而導(dǎo)致幻覺。 好好預(yù)防針打了,那咱們淺淺實(shí)測(cè)一波。 比如這道考驗(yàn)谷歌版o1的題目: 如何利用這些數(shù)字加起來(lái)等于30? 結(jié)果它識(shí)別出來(lái)了這幾個(gè)球?qū)?yīng)的數(shù)字,沒有意識(shí)到9號(hào)球可以翻轉(zhuǎn)成6號(hào)球,然后就陷入無(wú)盡的思考之中。。。 在blog最后,他們也透露了接下來(lái)的目標(biāo)——增強(qiáng)視覺語(yǔ)言基礎(chǔ)模型,使其具備基于視覺信息進(jìn)行深度思考和推理的高級(jí)能力。 把時(shí)間拉長(zhǎng),他們計(jì)劃是將更多的模態(tài)整合到統(tǒng)一的模型中,能夠應(yīng)對(duì)復(fù)雜的挑戰(zhàn)并參與科學(xué)探索。 (模型盡頭是AI For Science?) 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。