Demis Hassabis：大規模預訓練、RLHF、思維鏈等，我很確定它們會成為 AGI 最終架構的一部分。這些技術走到今天已經證明了太多東西。我不太能想像兩年後我們會發現這是條死路，這對我來說說不通。但在已有的東西之上，可能還差一兩樣。持續學習（continual learning）、長程推理（long-term reasoning）、記憶的某些方面，還有些問題沒解決。

AGI 需要全部搞定。也許現有技術加上一些漸進式創新就能擴展到那個程度，但也可能還剩一兩個大的關鍵點需要被突破。我不覺得會超過一兩個。我個人判斷有沒有這種未解的關鍵點，概率大概五五開。所以在 Google DeepMind，我們兩條線都在推進。

Gary Tan：我跟一堆 Agent 系統打交道，最讓我震驚的是，底層來來回回就是同一套權重。所以持續學習這個概念特別有意思，因為現在我們基本上是在用膠帶臨時糊的，比如那些「夜間夢境周期」之類的東西。

Demis Hassabis：對，那些夢境周期挺酷的。我們過去在情景記憶的整合上就思考過這個問題。我博士研究的就是海馬體怎麼把新知識優雅地融入已有的知識體系。大腦在這方面做得極好。

它在睡眠期間完成這個過程，尤其是快速眼動睡眠（REM sleep）時，把重要的經歷回放一遍以便從中學習。我們最早的 Atari 程序 DQN（DeepMind 在 2013 年發表的深度 Q 網絡，首次用深度強化學習在 Atari 遊戲上達到人類水平）能掌握 Atari 遊戲，一個關鍵方法就是經驗回放（experience replay）。

這從神經科學裡學來的，把成功的路徑反覆回放。那是 2013 年的事了，放在 AI 領域算上古時期，但那時它非常關鍵。

我同意你說的，現在我們確實在用膠帶糊。把所有東西塞進上下文窗口裡。這感覺不太對。就算我們做的是機器而不是生物大腦，理論上可以有百萬、千萬級別的上下文窗口，而且記憶可以是完美的，但查找和檢索的成本仍然存在。在當下這個需要具體決策的時刻，找到真正相關的信息並不簡單，即使你能把所有東西都存下來。所以我覺得記憶這個領域還有很大的創新空間。

Gary Tan：說實話，百萬 token 的上下文窗口已經比我預期的大多了，能做很多事。

Demis Hassabis：對大多數它該用的場景來說是夠大的。但你想一下，上下文窗口大致相當於工作記憶。人類工作記憶平均只有七個數字，我們有百萬甚至千萬級別的上下文窗口。問題是我們把什麼都往裡塞，包括不重要的、錯誤的信息，目前這種做法相當粗暴。而且如果你現在要處理實時視頻流，天真地把所有 token 都記錄下來，一百萬 token 其實只夠大約 20 分鐘。但如果你想讓系統理解你一兩個月內的生活狀況，那還遠遠不夠。

Gary Tan：DeepMind 一向深度投入強化學習和搜索，這種哲學在你們現在構建 Gemini 的過程中嵌入了多深？強化學習是不是仍然被低估了？

Demis Hassabis：可能確實被低估了。這方面的關注度有起有伏。我們從 DeepMind 成立第一天就在做 Agent 系統。所有 Atari 和 AlphaGo 上的工作，本質上都屬於強化學習 Agent，能自主完成目標、做出決策、制定計劃的系統。當然我們當時選的是遊戲領域，因為複雜度可控，然後逐步做更複雜的遊戲，比如 AlphaGo 之後做了 AlphaStar，基本上我們把能做的遊戲都做了。

接下來的問題是，能不能把這些模型泛化為世界模型或語言模型，而不僅僅是遊戲模型。過去幾年我們就在做這件事。今天所有領先模型的思考模式和思維鏈推理，本質上就是 AlphaGo 當年開創東西的再回歸。

我覺得我們當年做的很多工作跟今天高度相關，我們正在重新審視那些老想法，用更大的規模、更通用的方式去做，包括蒙特卡洛樹搜索（Monte Carlo tree search）等各種強化學習的方法。AlphaGo 和 AlphaZero 的那些思想跟今天的基礎模型極度相關，我認為未來幾年的進步很大一部分會來自於此。

蒸餾與小模型

**Gary Tan：**現在要更聰明就需要更大的模型，但同時蒸餾技術也在進步，小模型可以變得相當快。你們的 Flash 模型很強，基本能達到前沿模型 95% 的效果，但價格只有十分之一。對嗎？

**Demis Hassabis：**我覺得這是我們的核心優勢之一。你得先建最大的模型來獲得前沿能力。我們最大的優勢之一是能很快地把那些能力蒸餾並壓縮到越來越小的模型裡。蒸餾這套方法本來就是我們發明的，我們現在仍然是世界頂尖。而且我們有很強的業務動力去做這件事。我們大概是全球最大的 AI 應用平台。

擁有 AI Overviews 和 AI Mode，以及 Gemini，現在 Google 的每一個產品，包括地圖、YouTube 等，都在集成 Gemini 或相關技術。這涉及數十億用戶，以及十幾個十億級用戶的產品。它們必須速度極快、效率極高、成本極低、延遲極低。這給了我們極大的動力去把 Flash 和更小的 Flash-Lite 模型做到極致高效，我希望這最終也能服務好用戶的各類工作。

**Gary Tan：**我好奇這些小模型到底能聰明到什麼程度。蒸餾有沒有極限？50B 或 400B 的模型能不能跟今天最大的前沿模型一樣聰明？

**Demis Hassabis：**我不覺得我們已經碰到了信息論上的極限，至少目前沒有人知道有沒有碰到。也許某天會遇到某種信息密度的天花板，但現在我們的假設是，一個前沿的 Pro 模型發布後，在半年到一年內，它的能力就能被壓縮到非常小的、幾乎可以跑在邊緣設備上的模型裡。

你們也能在 Gemma 模型上看到這一點，我們的 Gemma 4 模型在同體量下表現非常強。這都用到了大量蒸餾技術和小模型效率優化技術。所以我真的沒看到什麼理論極限，我覺得我們離那個極限還遠得很。

**Gary Tan：**現在有個很離譜的現象，即工程師能做的工作量大概是六個月前的 500 到 1000 倍。這個房間裡有些人大概在做相當於 2000 年代一個 Google 工程師 1000 倍的工作量。Steve Yegge 講過這個。

**Demis Hassabis：**我覺得很興奮。小模型有很多用途。一個是成本低，而且速度快會同樣會帶來好處。在寫代碼或其他任務中，你能迭代得更快，尤其是跟系統協作的時候。快速的系統即使不是最前沿，比如只有前沿的 90% 到 95%，但這完全夠用了，而且你在迭代速度上賺回來的遠超那個 10%。

另一個大方向是把這些模型跑在邊緣設備上，不光是為了效率，也是為了隱私和安全。想想各種處理非常私人信息的設備，還有機器人，對你家裡的機器人，你會希望本地跑一個高效且強大的模型，只在特定場景下把任務委託給雲端的大模型。音頻和視頻流都在本地處理、數據留在本地，我能想像這會是一個很好的終極狀態。

記憶與推理

Gary Tan：回到上下文和記憶。模型目前是無狀態的，如果有了持續學習能力，開發者的體驗會是什麼樣？你怎麼引導這樣的模型？

Demis Hassabis：這個問題很有意思。缺乏持續學習是當前 Agent 無法完成完整任務的一個關鍵瓶頸。現在的 Agent 對任務的局部環節很有用，你可以把它們拼起來做一些很酷的事，但它們無法很好地適應你所在的具體環境。這就是它們還不能真正「發射後不管」的原因，它們需要能學習你的具體場景。要達到完全的通用智能，這個問題必須解決。

Gary Tan：推理方面走到哪了？模型現在的思維鏈很強，但在一些聰明本科生不會犯的錯誤上還是會翻車。具體需要改什麼？推理上你預期會有什麼進展？

Demis Hassabis：思考範式上還有大量創新空間。我們做的事情仍然相當粗糙、相當暴力。可以有很多改進方向，比如監控思維鏈的過程，在思考中途做干預。我經常覺得，不管是我們的系統還是競爭對手的系統，它們在某種程度上會過度思考，陷入循環。

我有時候喜歡拿 Gemini 下棋來觀察。所有領先的基礎模型在下棋方面其實都相當差，這很有意思。

看它們的思考軌跡很有價值，因為棋是一個被充分理解的領域，我能很快判斷它是不是走偏了，推理是不是有效。我們看到的情況是，它有時候考慮一步棋，意識到是步臭棋，但又找不到更好的，結果繞了一圈還是走了那步臭棋。一個精確的推理系統不應該出現這種情況。

這種巨大的落差仍然存在，但修復它可能只需要一兩個調整。這就是為什麼你會看到所謂的「鋸齒狀智能」（jagged intelligence），它一方面能解 IMO 金牌級別的題，另一方面換個方式提問就會犯小學數學的錯誤。在對自身思維過程的內省上，好像還缺了點什麼。

Agent 的真實能力

**Gary Tan：**Agent 是個大話題。有人說是炒作。我個人覺得才剛開始。DeepMind 內部研究對 Agent 能力的真實判斷是什麼，跟外面的宣傳差距有多大？

**Demis Hassabis：**我同意你說的，我們才剛開始。要達到 AGI，你必須有一個能主動替你解決問題的系統。這對我們來說一直很清楚。Agent 就是那條路，我覺得我們才剛起步。

大家都在摸索怎麼讓 Agent 更好地配合工作，我們在個人實驗上做了很多探索，在座的很多人應該也是。怎麼讓 Agent 融入工作流，讓它不只是錦上添花，而是真正在做根本性的事情。目前我們還在實驗階段。可能也就最近兩三個月才開始真正找到特別有價值的場景。技術大概也就剛好到了那個程度，不再是玩具演示，而是真的在給你的時間和效率帶來價值。

我經常看到有人啟動幾十個 Agent 讓它們跑幾十個小時，但我還不確定產出能匹配這個投入。

我們還沒看到有人用 vibe coding 做出一款登頂應用商店排行榜的 3A 遊戲。我自己也寫過，在座很多人也做過一些不錯的小 demo。我現在半小時就能做出一個《Theme Park》的原型，當年 17 歲的我花了六個月。

我有種感覺，如果你花一整個夏天去做，可以做出真正不可思議的東西。但它仍然需要工藝和人的靈魂、品味，你必須確保把這些東西帶進你所構建的任何產品裡。事實上現在還沒有哪個小孩做出了賣出一千萬份的爆款遊戲，按理說以當前的工具投入，這應該是有可能的。所以還缺點什麼，可能跟流程有關，可能跟工具有關。我預計未來 6 到 12 個月內會看到那樣的成果。

**Gary Tan：**其中多大程度上會是全自動的？我覺得不會一上來就是全自動。更可能的路徑是在座的人先做到 1000 倍效率，然後出現有人用這些工具做出了暢銷應用、暢銷遊戲，之後更多環節才會被自動化。

**Demis Hassabis：**對，這就是你應該先看到的。

**Gary Tan：**也有一部分原因是，有些人確實在這麼做了，但他們不願意公開說 Agent 幫了多少忙。

**Demis Hassabis：**可能是。但我想聊聊創造力這個問題。我經常舉 AlphaGo 的例子，大家都知道第二局第 37 手。對我來說，我一直在等那樣的時刻出現，它出現之後我才啟動了科學項目比如 AlphaFold。我們在從首爾回來的第二天就開始做 AlphaFold，那是十年前了。我這次去韓國就是慶祝 AlphaGo 十周年。

但僅僅走出 Move 37 是不夠的。它很酷，很有用。但這個系統能不能發明圍棋本身？如果你給它一段高層描述，比如「一個五分鐘能學會規則、但窮盡一生也難以精通的遊戲，美學上很優雅，一個下午能下完一盤」，然後系統返回給你的結果是圍棋。今天的系統做不到這一點。問題是為什麼？

**Gary Tan：**在座的人裡可能就有誰能做到。

Demis Hassabis：如果有人做到了，那答案就不是系統缺了什麼，而是我們使用系統的方式有問題。這說不定就是正確答案。也許今天的系統就有這個能力，只是需要一個足夠天才的創作者來驅動它，提供那種項目的靈魂，同時這個人要跟工具高度融合，幾乎跟工具合為一體。如果你日夜泡在這些工具裡並且具備深度創造力，也許就能做出超乎想像的東西。

開源與多模態模型

**Gary Tan：**換個話題聊開源。最近 Gemma 的發布讓非常強的模型可以在本地運行。你怎麼看？AI 會不會變成用戶自己掌握的東西，而不是主要留在雲端？這會改變誰能用這些模型來構建產品嗎？

**Demis Hassabis：**我們是開源和開放科學的堅定支持者。你提到的 AlphaFold，我們全部免費開放了。我們的科學工作至今仍然發表在頂級期刊上。Gemma 方面，我們想為同等體量創造世界領先的模型。目前 Gemma 的下載量已經達到大約 4000 萬次，而且才發布了兩周半。

我還認為在開源領域有西方技術棧的存在很重要。中國的開源模型很優秀，目前在開源領域領先，但我們認為 Gemma 在同體量下非常有競爭力。

對我們來說還有一個資源問題，沒有人有多餘的算力去做兩個全尺寸前沿模型。所以我們目前的決策是：邊緣模型用於 Android、眼鏡、機器人等，最好做成開放模型，因為一旦部署到設備上，它們本身就是暴露的，不如直接徹底開放。我們在納米級別統一了開放策略，這在戰略上也說得通。

**Gary Tan：**上台前我給你演示了我做的 AI 操作系統，我能直接用語音跟 Gemini 交互，給你演示東西我還挺緊張的，不過居然跑通了。Gemini 從一開始就是多模態構建的。我用過很多模型，直接語音到模型的交互加上工具調用能力的深度和上下文理解，目前沒有任何模型能跟 Gemini 相比。

**Demis Hassabis：**對。對於 Gemini 系列一個還沒被充分認識到的優勢就是我們從一開始就按多模態來構建。這讓起步階段比只做文本要難，但我們相信長期會從中受益，現在已經開始兌現了。

比如世界模型方面，我們在 Gemini 之上構建了 Genie（DeepMind 開發的生成式交互環境模型）。機器人領域也一樣，Gemini Robotics 將建立在多模態基礎模型上，我們在多模態上的優勢會成為競爭護城河。我們在 Waymo（Alphabet 旗下自動駕駛公司）上也越來越多地使用 Gemini。

想像一下跟隨你進入真實世界的數字助手，可能在你的手機或眼鏡上，它需要理解你周圍的物理世界和環境。我們的系統在這方面極強。我們會繼續在這個方向投入，我認為我們在這類問題上的領先優勢是很大的。

Gary Tan：推理成本在快速下降。當推理基本免費時，什麼變得可能了？你們團隊的優化方向會因此改變嗎？

**Demis Hassabis：**我不確定推理會真正免費，Jevons’ Paradox（傑文斯悖論，指效率提升反而導致總消耗量增加）擺在那裡。我覺得所有人最終會把能拿到的算力全部用掉。

可以想像數百萬個 Agent 組成的群體協同工作，或者一小組 Agent 沿著多個方向同時思考然後做集成。我們都在實驗這些方向，所有這些都會吃掉可用的推理資源。

能源方面，如果我們解決了可控核聚變、室溫超導、最優電池等問題中的幾個，我認為通過材料科學我們會做到，那能源成本可以趨近於零。但晶片的物理製造等環節仍然有瓶頸，至少未來幾十年是這樣。所以推理端仍然會有配額限制，仍然需要高效地使用。

下一個科學突破

**Gary Tan：**幸好小模型越來越聰明了。在座有很多生物和生物技術領域的創始人。AlphaFold 3 已經超越了蛋白質，擴展到更廣譜的生物分子。我們離建模完整的細胞系統還有多遠？這是不是一個完全不同難度級別的問題？

**Demis Hassabis：**Isomorphic Labs 進展非常好。AlphaFold 只是藥物發現流程中的一個環節，我們在做相鄰的生物化學研究，設計具有正確性質的化合物等，很快會有重大的發布。

我們的最終目標是做出一個完整的虛擬細胞，一個你可以施加擾動的全功能細胞模擬器，其輸出足夠接近實驗結果，並且有實際用途。你可以跳過大量搜索步驟，生成大量合成數據來訓練其他模型，讓它們預測真實細胞的行為。

我估計距離完整的虛擬細胞大約還有十年。我們在 DeepMind 科學側正從虛擬細胞核開始做，因為細胞核相對自成體系。這類問題的關鍵是，能不能切出一個複雜度合適的切片，它足夠自包含，你能合理地近似其輸入和輸出，然後專注於這個子系統。細胞核從這個角度看很合適。

另一個問題是數據不夠。我跟做電子顯微鏡和其他成像技術的頂級科學家聊過。如果能在不殺死細胞的前提下對活細胞進行成像，那將是顛覆性的。因為那樣就能把它轉化為一個視覺問題，而視覺問題我們知道怎麼解。

但據我了解，目前還沒有技術能在納米級分辨率下對活的動態細胞進行成像且不破壞它。你能拍到那個分辨率的靜態圖像，現在已經非常精細了，這很讓人興奮，但不足以直接把它變成一個視覺問題。

所以有兩條路，一條是硬體驅動、數據驅動的方案；另一條是構建更好的可學習模擬器來模擬這些動力學系統。

**Gary Tan：**你不只看生物。材料科學、藥物發現、氣候建模、數學，如果必須排個序，未來五年哪個科學領域會被改造得最徹底？

**Demis Hassabis：**每個領域都讓人興奮，這也是為什麼這一直是我最大的熱情所在，也是我 30 多年來從事 AI 的原因。我一直認為 AI 會是科學的終極工具，用於推進科學理解、科學發現、醫學以及我們對宇宙的認知。

我們最初表述使命的方式是兩步。第一步，解決智能，即構建 AGI；第二步，用它解決其他所有問題。後來不得不調整措辭，因為有人會問「你們真的是說解決所有問題嗎」？

我們確實是這個意思。現在大家開始理解這意味著什麼了。具體來說，我指的是解決那些我稱之為「根節點問題」的科學領域，那些一旦突破就能解鎖全新發現分支的領域。AlphaFold 就是我們想做的事情的原型。

全球超過三百萬研究者，幾乎每個生物學研究者現在都在用 AlphaFold。我從一些製藥公司高管朋友那裡聽說，今後發現的幾乎每一種藥物都會在藥物發現流程的某個環節用到 AlphaFold。我們為此感到自豪，這也是我們希望 AI 能產生的那種影響力。但我覺得這只是開始。

我想不出有哪個科學或工程領域是 AI 幫不上忙的。你提到的那些領域，我覺得差不多處於「AlphaFold 1 時刻」，結果已經很有希望，但還沒有真正攻克該領域的大挑戰。未來兩年在所有這些領域我們都會有很多進展可談，從材料科學一直到數學。

**Gary Tan：**感覺像是普羅米修斯式的，給人類一種全新的能力。

**Demis Hassabis：**沒錯。當然正如普羅米修斯故事的寓意一樣，我們也必須謹慎對待這種能力被怎麼使用、用在什麼地方，以及同一套工具被濫用的風險。

成功經驗

**Gary Tan：**在座有很多人在嘗試創辦將 AI 應用於科學的公司。在你看來，真正推進前沿的創業公司和那些只是給基礎模型套層 API、然後自稱「AI for Science」的創業公司，區別在哪？

**Demis Hassabis：**我在想如果今天我坐在你們的位置上，在 Y Combinator 看項目，我會怎麼做。一件事是你必須預判 AI 技術的走向，這本身就很難。但我確實認為把 AI 的走向跟另一個深科技領域結合起來，有巨大的機會。這個交叉點，不管是材料、醫學還是其他真正困難的科學領域，特別是涉及原子世界的，在可預見的未來都不會有捷徑。這些領域不會因為下一次基礎模型更新就被碾壓。但如果你要找防禦性強的方向，這是我會推薦的。

我個人一直偏愛深科技。真正持久且有價值的東西沒有容易的。我總是被深科技吸引。2010 年我們起步的時候 AI 就是深科技——投資人跟我說「我們已經知道這東西不行」，學術界也認為這是一個 90 年代試過然後失敗的小眾方向。

但如果你對自己的想法有信念——為什麼這次不同，你的背景有什麼獨特的組合——理想情況下你自己在機器學習和應用領域都是專家，或者你能組建這樣的創始團隊——那裡面有巨大的影響力和價值可以創造。

**Gary Tan：**這個信息很重要。一件事做成之後看起來理所當然，但做成之前所有人都在反對你。

**Demis Hassabis：**當然，所以你必須做自己真正有熱情的事。對我來說，不管發生什麼我都會做 AI。我很小的時候就決定了這是我能想到的最有影響力的事情。事實也證明了這一點，但也可能不會，也許我們早了 50 年。

而且它也是我能想到的最有趣的事情。即使今天我們還蹲在一個小車庫裡、AI 還沒做出來，我也還是會想辦法繼續做。也許我會回學術界，但我會找到某種方式繼續下去。

**Gary Tan：**AlphaFold 算是你追了一個方向，然後賭對了的例子。什麼讓一個科學領域適合產生 AlphaFold 式的突破？有沒有規律，比如某種目標函數？

**Demis Hassabis：**我確實應該找個時間把這個寫下來。從 AlphaGo 和 AlphaFold 等所有 Alpha 項目中我學到的經驗是，我們現有的技術在以下情況效果最好。

第一，問題具有巨大的組合搜索空間，越大越好，大到沒有任何暴力窮舉或特殊算法能解決。圍棋的走法空間和蛋白質的構型空間都遠超宇宙中原子的數量。第二，你能清晰地定義目標函數，比如蛋白質的自由能最小化，或者圍棋中的贏棋，這樣系統可以做梯度上升。第三，有足夠的數據，或者有一個模擬器能生成大量分布內的合成數據。

如果這三個條件成立，那以今天的方法就能走很遠，去找到你需要的那根「稻草堆中的針」。藥物發現也是同一個邏輯：存在某種化合物能治療這種疾病並且沒有副作用，只要物理定律允許它存在，唯一的問題就是怎麼高效、可行地找到它。我認為 AlphaFold 第一次證明了這類系統有能力在海量搜索空間中找到這種針。

**Gary Tan：**我想升一個層次。我們在談人類用這些方法創造了 Alpha

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

DeepMind創始人專訪：AGI架構、Agent現狀與下一个十年的科學突破

編輯導語

精華語錄

AGI 路線與時間線

記憶與上下文窗口

推理的缺陷

Agent 與創造力

蒸餾與小模型

科學發現與「愛因斯坦測試」

深科技創業建議

AGI 實現路徑

蒸餾與小模型

記憶與推理

Agent 的真實能力

開源與多模態模型

下一個科學突破

成功經驗

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂