首頁 > 科技要聞 > 科技> 正文

陶哲軒用AI證明方程理論,19天進度99.99%!論文即將上線

新智元 整合編輯:太平洋科技 發(fā)布于:2024-10-15 14:58

AI,已成為菲爾茲獎得主最得心應(yīng)手的工具。

大約三周前,陶哲軒提出了一個協(xié)作項目——

結(jié)合專業(yè)和業(yè)余數(shù)學(xué)家、自動定理證明器、AI工具,以及證明輔助語言Lean,來描述與4694條幺半群(magmas)方程定理定理相關(guān)的蘊含圖。

這些定理最多可以使用,四次幺半群運算來表達。

也就是說,需要確定4694條定理之間可能存在4694 * (4694 - 1) = 22028942蘊含的關(guān)系真?zhèn)巍?/span>

這一項目在9月25日發(fā)布當(dāng)天便啟動了,如今,已經(jīng)緊鑼密鼓進行了19天。

剛剛,陶哲軒公布了項目的最新進展:

從已解決原始蘊含關(guān)系角度來看,截至目前,項目進度已完成99.9963%。

在需要解決的22028942個蘊含關(guān)系中,8178279個被證明為真,13854531個被證明為假,只有826個仍未解決。

而且,項目每一天的進展,他都記錄到了個人日志中。

一起看看,陶哲軒如何通過「眾包方式」,探索數(shù)學(xué)新領(lǐng)域。

方程理論項目,進度99.99%

在集合中,有249個蘊含關(guān)系推測為假,并且很快就證明了是假的。

出于編譯效率的考量,他們并沒有在Lean中記錄每一個證明,只在其中證明了一個較小的592790個蘊含關(guān)系集合,然后通過傳遞性推導(dǎo)出更廣泛的蘊含關(guān)系集合。

例如,利用如果方程X蘊含方程Y,方程Y蘊含方程Z,那么方程X蘊含方程Z的事實。

他們還很快利用蘊含圖對偶對稱性,對其進一步簡化。

經(jīng)過項目志愿者的不懈努力,陶哲軒稱現(xiàn)在有了很多出色的可視化工具(尚未完成的),來檢查蘊含圖的各個部分。

比如,如下這張圖描述了方程1491:x = (y ◇ x) ◇ (y ◇ (y ◇ x ))的所有結(jié)果。

陶哲軒將其稱之為「Obelix law」。它還有一個伙伴Asterix law,即方程65:x = y ◇ (x ◇ (y ◇ x ))。

如下是,他們正在研究的所有方程定理的表格,以及它們蘊含/被蘊含定理數(shù)量。

這些界面也在某種程度上與Lean集成。

比如,我們可以點擊查看Obelix law蘊含方程359,陶哲軒將其作為題目,讓大家進行挑戰(zhàn)。他暗示,在Lean中僅用4行就可以完成證明。

在過去的幾周里,他還了解到這些定理中,有許多之前已經(jīng)出現(xiàn)在文獻中。

由此,這里編制了這些方程的「導(dǎo)覽」。

例如,除了眾所周知的交換律(方程43)、結(jié)合律(方程4512)之外,一些方程(方程14、方程29、方程381、方程3722、方程3744)曾出現(xiàn)在一些Putnam數(shù)學(xué)競賽中;

方程168定義了一個引人入勝的結(jié)構(gòu),被稱為「中心幺半群」(central groupoid)。特別是,由Evans和Knuth研究過,并且是Knuth-Bendix完成算法的關(guān)鍵靈感來源;

而方程1571則對指數(shù)為二的阿貝爾群(abelian groups)進行了分類。

根據(jù)Birkhoff完備性定理,如果一個方程定理蘊含另一個,那么它可以通過有限次重寫操作來證明。

不過,所需的重寫次數(shù)可能相當(dāng)長。

上面提到的1491蘊含359的證明已經(jīng)相當(dāng)具有挑戰(zhàn)性,需要四到五次重寫。

另外,方程1689蘊含方程2的證明,更是極其冗長。盡管如此,標(biāo)準(zhǔn)的自動定理證明器,如Vampire,完全有能力證明絕大多數(shù)這些蘊含關(guān)系。

更微妙的是反蘊含關(guān)系,在這種情況下必須證明定理X不蘊含定理Y。原則上,只需要展示一個遵循X但不遵循Y的幺半群即可。

在很大一部分情況下,他們可以簡單地搜索小型有限幺半群——比如兩個、三個或四個元素的幺半群——來獲得這種反蘊含關(guān)系。

但這些并不足夠,事實上,他們只知道有些反蘊含關(guān)系,只能通過構(gòu)造無限幺半群來證明。

比如,現(xiàn)在已知的Asterix law不蘊含Obelix law,但所有反例必然是無限的。

有趣的是,已知的構(gòu)造方法與集合論中著名的forcing技術(shù)有一些相似之處,即不斷向(部分)幺半群添加「通用」元素,以forcing存在具有某些特定屬性的反例。

不過,這里的構(gòu)造肯定比集合論構(gòu)造簡單得多。

他們還從「線性」幺半群x ◇ y = ax + by構(gòu)造中取得了有益的進展。這些構(gòu)造存在于交換環(huán)和非交換環(huán)中。

與「匯聚」(confluent)方程定理相關(guān)的自由幺半群,以及更普遍的具有完整重寫系統(tǒng)的定理。

因此,未解決的蘊含關(guān)系數(shù)量繼續(xù)穩(wěn)步減少。

遵循標(biāo)準(zhǔn)GitHub實踐,論文很快上線

經(jīng)過相當(dāng)繁忙的后端設(shè)置和「滅火」(putting out fires)工作后,項目現(xiàn)在運行得相當(dāng)順利。

項目在Lean Zulip頻道上協(xié)調(diào),所有貢獻都通過GitHub上的拉取請求(pull request)過程進行,并通過基于問題的GitHub項目進行跟蹤。

另外兩位維護者Pietro Monticone、Shreyas Srinivas為其提供了寶貴的監(jiān)督。

與之前的PFR形式化項目相比,這次項目的工作流程遵循了標(biāo)準(zhǔn)的GitHub實踐,大致如下:

如果在Zulip討論過程中,明確需要完成某些特定任務(wù)以推進項目(比如,在Lean中形式化討論線程中已經(jīng)推導(dǎo)出的蘊含關(guān)系證明),就會創(chuàng)建一個「問題」(通常由陶哲軒自己或其他維護者創(chuàng)建),其他貢獻者可以「認(rèn)領(lǐng)」這個問題,單獨工作(使用主GitHub倉庫的本地副本)。

然后提交「拉取請求」將他們的貢獻合并回主倉庫。這個請求隨后可以由維護者和其他貢獻者審查,如果獲得批準(zhǔn),就會關(guān)閉相關(guān)問題。

更廣泛地說,他們正努力記錄這個設(shè)置中的所有過程和經(jīng)驗教訓(xùn)。

這將成為即將發(fā)表的關(guān)于這個項目的論文的一部分,現(xiàn)正處于初步規(guī)劃階段,可能會包括數(shù)十位作者。

陶哲軒表示,自己對項目取得的進展非常滿意,而且許多最初的期望已經(jīng)實現(xiàn)。

在科學(xué)方面,他們發(fā)現(xiàn)了一些新的技術(shù)和構(gòu)造,用來證明一個給定的方程理論不蘊含另一個;他們還發(fā)現(xiàn)了一些具有有趣特征的奇特代數(shù)結(jié)構(gòu),如Asterix和Obelix對,是通過系統(tǒng)性搜索方式被發(fā)現(xiàn)的。

參與者方面,非常多樣化,從各個職業(yè)階段的數(shù)學(xué)家、計算機科學(xué)家,到感興趣的學(xué)生和業(yè)余愛好者。

此外,Lean平臺在整合人工生成和機器生成的貢獻方面表現(xiàn)良好。

機器生成在數(shù)量上是迄今為止最大的貢獻來源,但許多自動生成往往是基于人類最初在特殊情況下發(fā)現(xiàn)的,然后由項目的不同成員進行推廣和形式化。

在討論線程中,他們還進行了許多非正式的數(shù)學(xué)論證,但這些論證往往會迅速在Lean中形式化,消除了關(guān)于正確性的爭議就。

進而,研究人員可以轉(zhuǎn)而專注于如何最好地部署各種經(jīng)過驗證的技術(shù),來解決剩余的蘊含關(guān)系。

AI并未做出重大貢獻

原本,陶哲軒期待看到現(xiàn)代AI工具,能夠在項目中做出重大貢獻。

但實際上,它們以一種輔助、次要的方式被使用。

比如,通過GitHub Copilot等工具來加速編寫Lean證明、LaTeX文檔框架、其他軟件代碼。

此外,他們的幾個可視化工具,也主要是使用Claude等大模型共同編寫的。

然而,對于解決蘊含關(guān)系這一核心任務(wù),更「傳統(tǒng)」的自動定理證明器表現(xiàn)更好。

不過,目前剩余的大約700個蘊含關(guān)系,大多數(shù)不適合使用傳統(tǒng)工具來處理。

有幾個蘊含關(guān)系(特別是涉及Asterix和Obelix那些),已經(jīng)讓人類專家困惑多日。

陶哲軒認(rèn)為,在解決剩余的、更困難的蘊含關(guān)系時,現(xiàn)代AI可能會發(fā)揮更重要的作用。

本文來源:新智元

新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部