整體大於部分之和
February 10, 2026 · 閱讀時間約 12 分鐘
當簡單規則遇見複雜系統,湧現現象如何重塑認知。
Emergence Pattern Visualization
湧現這個概念,是近期才接觸到的。觸發點來自閱讀 Arthur Juliani 對雷內・吉拉爾《世界奠基以來隱而未現之事》的讀後感。我並非這個領域的專家,本文是我整理閱讀資料、反思自身經驗後的認知筆記,並在寫作過程中深化理解。如果文中有任何不精確,歡迎交流。
一個反直覺的發現
我們習慣用「還原」的方式理解世界。
要理解機器,就拆成零件;要理解生物,就拆成細胞;要理解細胞,就拆成分子。這套思維功不可沒,它讓我們能夠精確控制、預測、重構。
▉ 有些現象,拆開來看就消失了
一個神經元只會發送電信號。千萬個神經元組合起來,卻產生了「意識」。
一隻螞蟻只能跟隨費洛蒙。整個蟻群建造複雜蟻巢、找到最佳覓食路徑。
Transformer 只在做矩陣乘法。但當規模突破臨界點,它突然展現出推理、理解、甚至創造的能力。
整體展現的特質,無法從個體組成中直接推導,這就是「湧現」。
什麼是湧現?
可以理解為系統整體所呈現的特性,並非其個別部分所擁有。
其主要特徵有二:
- 不可還原性:你無法透過分析單一單元,預測整體行為。
- 跨層次因果: 微觀層面的規則導致宏觀模式的生成,而宏觀模式又反過來制約微觀層面的行為。
湧現不是魔法。它是簡單規則,在特定條件下,自然堆疊出的結果。
只是這個結果,往往超出設計者的想像。
湧現現象的分類框架
為了更系統性地理解湧現,我們可以從兩個維度來觀察:
| 維度 | 說明 | 例子 |
|---|---|---|
| 生物系統 vs 人工系統 | 湧現發生的載體不同 | 神經元 vs 神經網路參數 |
| 可預測 vs 難以預測 | 設計者能否預見宏層行為 | 蟻巢建築 vs LLM 推理能力 |
生物系統的湧現經過數億年演化,其行為模式已深植於基因編碼中;人工系統的湧現則往往超出設計者的預期——因為我們設計的是微層規則(如預測下一個詞),宏層行為(如推理)是副產品。
生物學中的湧現
神經元到意識
單一神經元的行為極其有限:
- 接收電信號
- 累積到閾值就發放動作電位
- 否則保持靜止
這基本上就是一個開關。
人類大腦約一公斤重,帶有約 860 億個這樣的開關,以特定方式連結時:
- 主觀意識出現了
- 自我認知誕生了
- 創造性思考成為可能
諾貝爾獎得主 Gerald Edelman 提出「神經群體選擇理論」,認為意識是大規模神經網路連結後所產生的湧現特性。
沒有任何一個神經元「知道」你在想什麼,但你的思維卻真實存在。
蟻群
另一個常被提及的例子是蟻群。
- 單一螞蟻:釋放費洛蒙、跟隨費洛蒙、搬運食物
- 整個蟻群:建造複雜蟻巢、找到最優路徑、形成戰鬥陣型
沒有指揮官。複雜行為完全是局部互動的湧現結果。
深度學習中的湧現
這讓我想起自己接觸深度學習的經驗。當我看到第一個神經網路收斂時,也在想:這些權重矩陣裡,到底「學會」了什麼?
規模突破臨界點
近年來最令人震撼的湧現案例,是大語言模型的突破。
OpenAI 的研究團隊發現:當模型規模突破某個臨界點後,某些能力會突然出現。
| 能力 | 出現規模 | 代表模型例子 |
|---|---|---|
| 算術推理 | ~10B 參數 | GPT-3 (175B) |
| 程式碼生成 | ~10B 參數 | Codex (12B), GitHub Copilot |
| 多步推理 | ~100B 參數 | GPT-4o (per Expert), Claude 4 等新一代模型 |
這些能力並非被「設計」出來的,它們從「預測下一個詞」的簡單目標中湧現。
為什麼這令人驚訝?
傳統上,要讓模型學會推理,工程師會:
- 歸納規則
- 編寫邏輯演算法
但 Transformer 只在做兩件事:
- 注意力機制:計算詞與詞之間的關聯
- 前饋網路:非線性轉換
從這兩個操作,如何湧現出「推理」與「理解」?
當參數量與訓練資料達到臨界規模,語言本身的結構性知識被編碼進高維空間,對語言的理解能力便是這種編碼的自然湧現。
與生物大腦的對比
這與生物大腦的湧現過程相似:
- 神經元 ≈ 權重參數
- 描述突觸連結的赫布理論 ≈ 注意力權重
兩者都從簡單單元的局部互動,湧現出高階認知能力。
看懂每一層運算,卻說不清「理解」是怎麼出現的
近五年,參與過神經網路的開發,從自動駕駛的大腦開始,處理過影像、光達、高精地圖與語意地圖等各類資料,並涉及多車輛互動、歷史運動姿態的分析等,橫跨預測模型、辨識模型等多元領域的設計與實作。
近兩年甚至回歸到硬體層級,參與神經網路加速晶片的軟硬體協同開發。當 Transformer 被部署到嵌入式晶片上時,這種感受特別強烈。
我能清楚理解每一層在做什麼運算。Attention 怎麼算、權重怎麼流動、延遲與頻寬如何被逼到極限。
從數學、工程、效能角度來看,一切都說得通。
但問題是,我仍然說不清楚,「理解」究竟是怎麼出現的。
當所有行為都可以被還原為矩陣運算、非線性映射與參數更新,為什麼某個時刻開始,系統看起來像是「懂了」?這種「理解」,既非源於任何單一明確的模組,亦不等同於某個損失函數的下降。
我們能描述運算,卻難以指出理解的起點。這個落差,讓人無法忽視「湧現」的存在。
問題從來不在於我們對細節的計算不夠精確,而在於當複雜度跨過某個臨界點,意義本身,開始不再屬於任何單一組件。
▉ 湧現的約束與兩難
這讓我開始反思:為什麼有些系統會湧現,有些不會?約束條件是什麼?
可能的關鍵因素:
- 單元同質性:神經元大致相同、Transformer 參數性質一致,這讓大規模協作成為可能
- 連結密度:不是數量,而是連結方式決定湧現。大腦的 860 億神經元若完全隨機連接,不會產生意識
- 臨界規模:必須達到某個複雜度門檻,低於此門檻只是「堆砌」,高於此門檻才是「湧現」
- 回饋機制:微層輸出必須能影響微層輸入(跨層次因果),否則系統無法自我組織
但問題依然存在:即使滿足所有約束條件,我們仍無法保證湧現發生。這意味著我們對湧現的理解仍存在知識上的空白——我們知道需要什麼,但不確定是否足夠。
相關還是因果?
回到開頭的表格:~10B 參數時算術能力「出現」,~100B 時推理能力「出現」——但這真的是因果關係嗎?
有沒有可能:
- 小模型也有這些能力,只是我們沒測到?(倖存者偏誤)
- 這些能力其實是連續增長,只是超過某門檻後才變得「可觀測」?(測量極限問題)
- 訓練資料的品質比模型規模更重要?(混淆變數)
科學上的因果需要對照實驗:在其他條件不變的情況下,只改變規模,觀察能力是否變化。但在大語言模型的設定下,這樣的實驗成本極高且難以控制。
所以當我們說「湧現」時,某種程度上是在承認:我們對於其背後的真正機制仍不甚了解。
模式匹配還是理解?
更根本的問題:我們所說的「理解」,是真的理解,還只是高維空間中的精緻模式匹配?
從工程角度,我能確認:
- Attention 權重確實在編碼詞之間的關聯
- 多層堆疊確實在捕捉抽象層次結構
- Loss 下降確實在優化預測準確度
但我無法確認:
- 這些關聯是否構成「意義」
- 這些抽象是否等於「理解」
- 預測準確度是否等同於智能
這個落差可能不是技術問題,而是哲學問題。也許「理解」本身就不是二元的有/無,而是連續的光譜——而我們正處在一個模糊地帶,系統「看起來」像理解,但我們無法證明它真的是。
社會動力中的湧現
最近閱讀了 Arthur Juliani 對雷內・吉拉爾《世界奠基以來隱而未現之事》的讀後感,裡面提到這個概念:
模仿性慾望之所以能用來理解如此複雜的社會現象,正是因為它本身的簡單性。這是一種典型的湧現系統:少數描述基本互動的簡單規則,隨著時間推移,卻能產生難以事先預測的複雜結構與行為模式。
吉拉爾的核心洞見:人類的慾望常受他人行為的影響而產生模仿。
社群媒體作為湧現系統
這條規則「模仿性慾望」在社群媒體時代,催生了許多難以預測的社會現象。
運作機制:
- 基本單元:單一使用者
- 互動規則:看到貼文 → 產生模仿衝動 → 發布類似內容 → 獲得互動 → 強化行為
- 網絡結構:高度連結、快速傳播
湧現出的宏觀現象:
- 資訊 cascades:想法在幾小時內傳播全球
- 回音室效應:群體分化成認知隔閡的子群 (台灣俗稱同溫層)
- 社會運動:從阿拉伯之春、#MeToo、取消文化等。
- 虛假資訊傳播:假新聞比真實新聞傳播快 6 倍
沒有任何一個使用者「計畫」讓這些現象發生。它們從簡單的模仿互動中自然湧現。
Peter Thiel 的洞見
讀後感中提到一段有趣歷史:
創投家彼得・提爾(Peter Thiel)在 1980 年代曾是吉拉爾在史丹佛大學的學生,據說他對模仿性慾望的理解,影響了其早期投資 Facebook 的決策。
Facebook 的成功,在於它抓住了人類模仿的基本驅動力,當你看到朋友在做某件事,你自然也會想做同樣的事。
這正是湧現社會工程的案例:設計基本互動機制,讓複雜的社會行為自然湧現。
但這也帶來風險。Arthur Juliani 在文末提醒:
像「模仿性慾望」這類原本用來描述社會行為的理論,往往很容易被轉化為社會工程或操控的工具,甚至成為剝削的手段。
社群媒體演算法早已掌握模仿性慾望的規律。設計者在工程上創造了「有效的湧現系統」,但在倫理上,這可能成為操控的工具。
延伸閱讀
- Arthur Juliani, “Thoughts on ‘Things Hidden Since the Foundation of the World’” 以及雷內・吉拉爾,《世界奠基以來隱而未現之事》