以太坊協議所面臨的一個最為長久且尚未解決的挑戰,就是由于狀態數據規模不斷增長而帶來的問題,以太坊區塊鏈上的許多操作(創建賬戶、寫入一個合約存儲槽、發送 ETH 到一個新的賬戶……)都會給以太坊添加狀態內容(也即是給狀態數據增加數據對象),而所有全節點都必須存儲全量的狀態數據,這樣才能驗證新區塊以及制造新區塊,這些操作只需事務的發送者一次性繳交按 gas 用量來計量的手續費,但會給整個網路造成永久的持續性成本,因為節點需要存儲這些新數據(而未來加入的節點也需要在同步過程中下載這些數據),
這是系統設計中的一個顯著的失衡,可能會讓以太坊系統變得越來越難用,因為狀態中充斥著不再有用處的 “垃圾數據”,本文的目的是詳細解釋問題產生的根源,以及一些解決該問題的方法,如果我們能實現某個解決方案,這將為安全地大幅提高區塊 Gas 上限 鋪平道路,
本文所論述的研究領域仍在推進中,隨時有可能出現更新、更好的想法和更優雅的權衡。
引言:問題出在哪?
“狀態” 指的是節點若想處理新產生的區塊和事務就必須存有的資訊。狀態與 “歷史” 完全不同,后者是關于過去時間的資訊,節點可以保存這些資訊以便日后重新廣播或歸檔,但并不是處理區塊鏈所必需的。
在以太坊協議中,狀態資訊包括:
- 賬戶的 ETH 余額 和 nonce(流水號)
- 智能合約的代碼
- 智能合約的存儲項(storage)
- 與共識機制相關的數據(近期的區塊哈希值,叔塊;權益證明的共識數據還包括驗證者的公鑰以及及其記錄在信標鏈上的活動,等等)
歷史資訊則由舊的區塊和收據組成,EVM 中沒有操作碼可以讓你訪問舊區塊、舊事務和內容和收據輸出,所以節點丟棄這些數據也仍然能驗證新區塊,所以這些是歷史資訊,
上述狀態資訊列表中的最后一項 —— 共識機制相關數據 —— 在設計上已經精心限制了其規模,因此我們不太需要為此困擾,但前面三項,就令人頭大了。這三類狀態資訊的規模會隨著時間推移而不斷增大,因為不斷會有新用戶加入網路,他們會創建新的賬戶、新的合約,還會加入合約、收到 token 什么的,
難辦的是,許多狀態用過之后就會靜靜地躺在那里(不會再被觸及);一旦某個用戶停用某個應用之后,就會產生一些 “垃圾狀態” —— 不會再派上用場,但會永遠存在那里,
理論上,用戶可以做到 “垃圾不落地”。用戶可以僅發布帶有 SELFDESTRUCT 條件的合約,等他們再也用不上這個合約的時候,就調用這個操作碼移除這個合約、清空其 token 余額;他們還可以使用智能合約錢包,通過一個已有的外部持有賬戶(EOA)來發送交易,而無需生成一個新的 EOA(EOA 狀態是沒法刪除的),
但是在實踐中,這樣的激勵非常少,而適當的狀態清理的技術復雜性又太大了。在許多合約中,給任何人賦予這樣調用 SELFDESTRUCT 的權限都是不合適的(人們想要的就是 “無法終止” 的應用!),而且,也會給用戶體驗和代碼上也會增加很多復雜性。實際上,由于 SELFDESTRUCT 用處極其有限而副作用極大,我更傾向于永遠移除這個操作碼。如果我們真想控制狀態數據的規模,我需要的是一個網路中的節點可以 默認 丟棄不再被使用的 “垃圾狀態” 的方法。
無狀態客戶端
這個問題的一類解決方案基于 “無狀態客戶端” 的觀念(此文是論述這個觀念的出處 ,此處是演講視訊)。基本原理是,讓區塊驗證不再以持有全局狀態為前提。相反,區塊會自帶證據(或者叫 “見證數據(witness)”),證明其所訪問狀態的值。就跟現在的設計一樣,區塊內會包含一個 “狀態根(state root)”,所訪問的值可以對應著狀態根得到證明(譯者注:默克爾證明即是一種常見的證明技術),以太坊現在的狀態樹方案(默克爾帕特里夏樹)支持這樣的證明技術,像二進制樹或者 Verkle Trie 這樣更高效的方案也可以。見證數據也會證明處理完該塊后新狀態根的正確性,
無狀態性有兩種形式:
- 弱無狀態性:出塊者仍然需要完整的狀態,以為(自己制造的)區塊生成見證數據;但驗證區塊的階段可以是無狀態的;
- 強無狀態性:沒有任何節點需要完整的轉臺,反過來,是交易發送者需要提供見證數據,而出塊者可以聚合這些數據。交易發送者自己負責存儲為所關切的賬戶生成見證數據所需的部分狀態樹,
強無狀態性是一個非常 “優雅” 的解決方案,因為它把責任完全轉移給了用戶,雖然為了保證實踐中的良好用戶體驗,我們需要創造某些類型的協議來幫助不運行個人節點的用戶維護狀態、并處理用戶需要與意料之外的賬戶交互的情形,打造這樣的協議非常難。
此外,所有類型的無狀態性都提高了網路所需的數據帶寬;而強無狀態性還需要交易聲明其所交互的賬戶及存儲項的鍵(概念上這個叫做 “訪問列表”)。
一個更溫和的解決方案:狀態過期
更溫和的解決方案可以歸結為不同形式的 “狀態過期” 方案。必須持續得到訪問的狀態才能保持 “激活狀態”;而長期無人問津的狀態會變成 “失活”(或者叫 “過期的”)。具體用什么機制來更新狀態,有很多選擇(例如預付 “租金”,或者只需訪問那個狀態),但一般原則是,除非某個狀態對象被顯式地更新,否則就以某種形式處于失活狀態,因此,任何創建新狀態對象(以及更新已有狀態對象)的活動,都只能成為節點在一段時間內的負擔,而不像現在這樣變成永久負擔,
失活狀態,故名思義,就不是 “狀態” 的一部分;想要處理區塊或創建區塊的節點無需存儲失活狀態。不過,失活狀態不是被完全刪除了!在所有類型的狀態過期提案中,都預設了某種方法可以 “復活” 已經失活的狀態。
一般原則是,激活狀態的使用與當前相同,而失活狀態則需通過上述無狀態客戶端的機制來使用。復活一個過期狀態對象的事務需要提供一個證據(見證數據),來證明該對象是失活狀態的一部分,為了能夠生成這樣的證據,用戶自己需要存儲和維護至少一部分失活狀態(對應于其所關切的失活狀態對象的那部分),
何時過期
決定過期條件的設計也有很多種。最常見的幾種是:
- 直接租金:逐塊逐塊收取 “租金”,直接以每個賬戶(或其他狀態對象)的余額來支付;狀態對象的余額降到了零,該賬戶就過期了。
- 剩余存活時間值:每個狀態對象都存儲一個 ”剩余存活時間“ 值,這個值可以通過支付費用來增加
- 觸達即刷新:每個狀態對象都存儲一個 ”剩余存活時間“ 值,并且每逢讀取或寫入該賬戶都會增加該值
- 所有狀態對象定期過期(例如每 6 個月一次):也就是 ReGenesis 提案(中文譯本)
我自己越來越喜歡 ”觸達即刷新“ 方案,因為(1)它避免了應用需要創造復雜的經濟模型來讓用戶承擔狀態租金;以及(2)它保證了激活狀態的規模有一個清晰的上限(區塊 Gas 上限 / 觸達狀態對象的 Gas 消耗量 × 狀態存活的時長),讓大量狀態按照規律的時間間隔過期的方案(也就是 ReGenesis)也有同樣的好處,但也有一些有趣的權衡:關鍵好處是,過期方案更簡單(無需遍歷整棵狀態樹而逐個逐個地滅活狀態對象),但關鍵不足是,跨過一個過期時點后,你再激活自己的狀態對象時,需要多少見證數據會跟你觸達狀態對象的時間點有關。
賬戶層面的過期 vs. 存儲槽層面的過期
狀態過期的邏輯既可以運營到賬戶層面,也可以運用到單個存儲槽層面。當前,我強烈偏向于在存儲槽層面實現狀態過期方案,因為很多合約賬戶的存儲槽數量是不受限制的,任意用戶都能加入合約并增加合約名下的存儲槽的數量(例如,空投就是一個已經出現過的案例)。不管使用什么樣的賬戶層過期方案,想要實際限制狀態的規模,租金的數量都必須與合約內存儲槽的數量成比例(或者存活時間與之成反比),結果是,用戶還是能夠僅支付一次性的費用就給合約及其用戶施加 永久的持續性成本,
要解決這個問題,合約要么加入復雜的內部邏輯,將存儲操的租金 “轉嫁” 給用戶,要么重新設計自己合約的模式,轉向使用 CREATE2 操作碼創建新的合約并使用這些合約來充當存儲槽。不管是哪種辦法,最后都會變成等價于存儲槽層面的過期方案,因此,我個人認為,我們應該僅在合約存儲槽層面實現狀態過期方案,
但是,存儲槽層面的過期方案也有自己的缺點:每個存儲槽都要增加一個元數據,指明它何時過期(或者說是否已經失活),這也意味著 “復活沖突問題”(詳見下文)不僅會影響賬戶,也會影響存儲槽,
