本文探討了區塊鏈數據可訪問性的發展歷程,比較了 The Graph、Chainbase 和 Space and Time 三種數據服務協定在架構和 AI 技術應用上的特點,指出區塊鏈數據服務正向智慧化和安全化方向發展,並將在未來繼續作為行業基礎設施發揮重要作用。

作者:Trustless Labs

1 引言

從 2017 年的第一波 dApp Etheroll、ETHLend 與 CryptoKitties 開始,到如今各式各樣基於不同區塊鏈的金融、遊戲與社交 dApp 百花齊放,當我們談論去中心化的鏈上應用時,是否曾思考過這些 dApp 在交互中所採納的各類數據的源頭?

2024 年,熱點聚焦於 AI 與 Web3,在人工智慧的世界里,數據就像是其成長與進化的生命源泉。 正如植物依賴陽光和水分才能茁壯成長,AI 系統同樣依賴海量的數據來不斷「學習」和「思考」。 沒有數據,AI 的演算法再精妙也不過是空中樓閣,無法發揮其應有的智慧與效能。

本文從區塊鏈數據可訪問性(Data Accessibility)的角度,深入分析了行業發展過程中區塊鏈數據索引的演變,並對比了老牌數據索引協定 The Graph 與新興的區塊鏈數據服務協定 Chainbase 和 Space and Time,特別探討了這兩個結合 AI 技術的新晉協定在數據服務與產品架構特色的異同。

2 數據索引的繁與簡:從區塊鏈節點到全鏈資料庫

2.1 數據源頭:區塊鏈節點

從一開始瞭解「區塊鏈是什麼」時,我們就常看到這樣一句話:區塊鏈是去中心化的記帳本。 區塊鏈節點是整個區塊鏈網路的基礎,承擔著記錄、存儲和傳播鏈上所有交易數據的責任。 每個節點都擁有一份完整的區塊鏈數據副本,確保網路的去中心化特性得以維持。 然而,對於普通用戶來說,自建和維護一個區塊鏈節點並非易事。 這不僅需要專業的技術能力,還伴隨著高昂的硬體和頻寬成本。 同時,普通的節點查詢能力也有限,無法以開發人員需要的格式查詢數據。 因此,儘管理論上每個人都可以運行自己的節點,但實際操作中,使用者通常更傾向於依賴第三方服務。

為了解決這一問題,RPC(遠端過程調用)節點供應商應運而生。 這些供應商負責節點的成本和管理,並通過 RPC 端點提供數據。 使得使用者可以無需自建節點,便可輕鬆訪問區塊鏈數據。 公共 RPC 端點是免費的,但有速率限制,可能會對 dApp 的用戶體驗產生負面影響。 私有 RPC 端點通過減少擁塞提供更好的性能,但即使是簡單的數據檢索也需要大量的來回通信。 這使得它們請求繁重,對於複雜的數據查詢效率低下。 此外,私有 RPC 端點通常難以擴展,並且缺乏跨不同網路的相容性。 但節點供應商標準化的 API 介面給予了使用者存取鏈上的數據更低的門檻,為後續的數據解析和應用打下了基礎。

2.2 數據解析:從原型數據到可用數據

從區塊鏈節點獲取的數據往往是經過加密和編碼處理的原始數據。 這些數據雖然保留了區塊鏈的完整性和安全性,但其複雜性也增加了數據解析的難度。 對於普通使用者或者開發者來說,直接處理這些原型數據需要大量的技術知識和計算資源。

數據解析的過程在這一背景下顯得尤為重要。 通過將複雜的原型數據進行解析,轉換為更易理解和操作的格式,用戶可以更直觀地理解和利用這些數據。 數據解析的成功與否直接決定了區塊鏈數據應用的效率和效果,是整個數據索引流程中的關鍵一步。

2.3 數據索引器的演進

隨著區塊鏈數據量的增加,數據索引器的需求也日益增加。 索引器在組織鏈上數據並將其發送到資料庫以便於查詢方面起著至關重要的作用。 索引器的工作原理是索引區塊鏈數據並通過類似於 SQL 的查詢語言(GraphQL 等 API)使其隨時可用。 通過提供查詢數據的統一介面,索引器允許開發人員使用標準化查詢語言快速準確地檢索所需的信息,從而大大簡化了流程。

  不同類型的索引器通過各種方式優化數據檢索:

  1. 完整節點索引器:這些索引器運行完整的區塊鏈節點並直接從中提取數據,確保數據完整準確,但需要大量的存儲和處理能力。
  2. 輕量級索引器:這些索引器依靠完整節點根據需要獲取特定數據,從而減少存儲要求但可能會增加查詢時間。
  3. 專用索引器:這些索引器專門針對某些類型的數據或特定的區塊鏈,可優化特定用例的檢索,例如 NFT 數據或 DeFi 交易。
  4. 聚合索引器:這些索引器從多個區塊鏈和來源提取數據,包括鏈下資訊,提供統一的查詢介面,這對於多鏈 dApp 特別有用。

目前,乙太坊檔案節點(Archive Node)在 Geth 用戶端中的存檔模式佔用了約 13.5 TB 的存儲空間,而在 Erigon 用戶端下,存檔需求約為 3 TB。 隨著區塊鏈的不斷增長,檔案節點的數據存儲量也會隨之增加。 面對如此龐大的數據量,主流索引器協議不僅支援多鏈索引,還針對不同應用的數據需求,定製了數據解析框架。 例如,The Graph 的「子圖」(Subgraph)框架就是一個典型案例。

索引器的出現大大提升了數據的索引和查詢效率。 與傳統的 RPC 端點相比,索引器可以高效地索引大量數據,並支援高速查詢。 這些索引器允許使用者執行複雜的查詢,輕鬆過濾數據,並在提取後進行分析。 此外,一些索引器還支援聚合來自多個區塊鏈的數據源,避免在多鏈 dApp 中需要部署多個 API 的問題。 通過在多個節點上分散式運行,索引器不僅提供了更強的安全性和性能,也減少了集中式 RPC 提供者可能帶來的中斷和停機風險。

相比之下,索引器通過預先定義的查詢語言,使得使用者可以在無需處理底層複雜數據的情況下,直接獲取所需資訊。 這種機制顯著提高了數據檢索的效率和可靠性,是區塊鏈數據訪問的重要創新。

2.4 全鏈資料庫:向流優先對齊

使用索引節點查詢數據通常意味著 API 成為消化鏈上數據唯一門戶。 然而,當一個專案進入擴展階段時,往往需要更靈活的數據源, 而這是標準化的 API 無法提供的。 隨著應用需求的複雜化,初級數據索引器與其標準化的索引格式逐漸難以滿足越來越多樣化的查詢需求,例如搜索、跨鏈訪問或鏈下數據映射。

在現代數據管道架構中,「流優先」方法已經成為解決傳統批處理局限性的一種方案,能夠實現實時的數據攝取、處理和分析。 這種范式的轉變使得組織能夠對傳入數據立即作出回應,從而幾乎即時地得出洞察並做出決策。 類似地,區塊鏈數據服務提供者的發展也正朝著構建區塊鏈數據流的方向前進,傳統索引器服務商均陸續推出了以數據流方式獲取即時區塊鏈數據的產品,例如 The Graph 的 Substreams,Goldsky 的 Mirror,也有如 Chainbase 和 SubSquid 這樣根據區塊鏈生成數據流的實時數據湖。

這些服務旨在解決對區塊鏈交易進行即時解析和提供更全面查詢能力的需求。 正如「流優先」架構通過降低延遲和增強回應能力,革新了傳統數據管道中的數據處理和消費方式一樣,這些區塊鏈數據流服務商也希望通過更先進且成熟的數據源,支援更多應用程式的發展並輔助鏈上數據分析。

通過現代數據管道的視角重新定義鏈上數據的挑戰,我們得以從全新的角度看待鏈上數據的管理、存儲和提供的全部潛力。 當我們開始將子圖和乙太坊 ETL 等索引器視為數據管道中的數據流而非最終輸出時,便可以設想一個能夠為任何業務用例量身定製高性能數據集的可能世界。

3 AI + 資料庫?深入對比 The Graph, Chainbase, Space and Time

3.1 圖表

The Graph 網路通過一個去中心化的節點網路來實現多鏈數據索引和查詢服務,促進開發者便捷地索引區塊鏈數據並構建去中心化應用。 其主要的產品模式為數據查詢執行市場和數據索引緩存的市場,這兩個市場本質都是服務於使用者的產品查詢需求,其中數據查詢執行市場具體指消費者為所需的數據選擇合適的提供數據的索引節點付費,數據索引緩存的市場則是索引節點依據子圖的歷史索引熱度、收取的查詢費、鏈上策展人對子圖輸出的需求調動資源分配的市場。

子圖(Subgraphs)是 The Graph 網路中的基礎數據結構。 它們定義了如何從區塊鏈中提取並轉換數據為可查詢的格式(例如 GraphQL 模式)。 任何人都可以創建子圖,且多個應用可以重複使用這些子圖,這提升了數據可複用性和使用效率。

The Graph 產品結構(來源:The Graph 白皮書)

The Graph 網路由四個關鍵角色構成:索引器、策展人、委託人和開發者,他們共同為 web3 應用提供數據支援。 以下是他們各自的職責:

  • 索引器(Indexer):索引器是 The Graph 網路中的節點運營商,索引節通過質押 GRT(The Graph 的原生代幣)參與網路,提供索引和查詢處理服務。
  • 委託者(Delegator):委託者是那些將 GRT 代幣質押給索引節點以支援其運營的使用者。 委託者通過他們所委託的索引節點賺取部分獎勵。
  • 策展人(Curator):策展人負責信號哪些子圖應該被網路索引。 策展人幫助確保有價值的子圖被優先處理。
  • 開發者(Developer):與前三者作為供應方不同,開發者是需求方,是 The Graph 的主要使用者。 他們創建並提交子圖至 The Graph 網路,等待網路滿足需求數據。

目前 The Graph 已經轉向全面的去中心化子圖託管服務,不同的參與方之間有流通的經濟激勵確保系統運轉:

  • 索引節點獎勵:索引節點通過消費者的查詢費用和部分 GRT 代幣區塊獎勵來賺取收益。
  • 委託者獎勵:委託者通過他們所支援的索引節點獲得部分獎勵。
  • 策展人獎勵:如果策展人信號了有價值的子圖,他們可以從查詢費用中獲得部分獎勵。

事實上,The Graph 的產品也在 AI 浪潮中迅速發展。 作為 The Graph 生態系統的核心開發團隊之一,Semiotic Labs 一直致力於利用 AI 技術優化索引定價和使用者查詢體驗。 當前,Semiotic Labs 開發的 AutoAgora、Allocation Optimizer 和 AgentC 工具分別在多個方面提升了生態系統的性能。

  • AutoAgora 引入動態定價機制,基於查詢量和資源使用方式即時調整價格,優化定價策略,確保索引器的競爭力和收入最大化。
  • Allocation Optimizer 解決了子圖資源分配的複雜問題,幫助索引器實現資源的最佳配置,以提升收入和性能。
  • AgentC 是一個實驗性工具,允許使用者通過自然語言訪問 The Graph 的區塊鏈數據,從而提升用戶體驗。

這些工具的應用使得 The Graph 結合 AI 輔助進一步提升了系統的智慧化和使用者友好度。

3.2 Chainbase

Chainbase 是一個全鏈數據網路,將所有區塊鏈數據整合到一個平臺,方便開發者更輕鬆地構建和維護應用程式。 它的獨特功能包括:

  • 實時數據湖:Chainbase 提供了一個專門用於區塊鏈數據流的實時數據湖,使得數據在生成時即可被即時訪問。
  • 雙鏈架構:Chainbase 基於 Eigenlayer AVS 構建了一個執行層,與 CometBFT 的共識演算法形成並行的雙鏈架構。 這種設計增強了跨鏈數據的可程式設計性和可組合性,支援高輸送量、低延遲和最終性,並通過雙重質押模型提升了網路安全性。
  • 創新數據格式標準:Chainbase 引入了一種名為「manuscripts」的全新數據格式標準,優化了加密行業中數據的結構化和利用方式。
  • 加密世界模型:憑藉其龐大的區塊鏈數據資源,Chainbase 結合 AI 模型技術,打造了能夠有效理解、預測區塊鏈交易並與之交互的 AI 模型。 目前已推出基礎版模型 Theia,供公眾使用。

這些功能使 Chainbase 在區塊鏈索引協定中脫穎而出,尤其注重實時數據的可訪問性、創新的數據格式,以及通過鏈上和鏈下數據的結合,創建更智慧的模型以提升洞察力。

Chainbase 的 AI 模型 Theia 是其區別於其他數據服務協定的關鍵亮點。 Theia 基於 NVIDIA 開發的 DORA 模型,結合鏈上和鏈下數據以及時空活動,學習並分析加密模式,並通過因果推理做出回應,從而深入挖掘鏈上數據的潛在價值和規律,為使用者提供更加智慧化的資料服務。

AI 賦能的數據服務使 Chainbase 不再僅僅是一個區塊鏈數據服務平臺,而成為一個更具競爭力的智慧化數據服務商。 通過強大的數據資源和 AI 的主動分析,Chainbase 能夠提供更廣泛的數據洞察,並優化使用者的數據處理過程。

 3.3 空間與時間

Space and Time(SxT)意在打造可驗證的計算層,在去中心化數據倉庫上擴展零知識證明,從而為智慧合約、大語言模型和企業提供可信的數據處理。 目前 Space and Time 已獲得 2000 萬美元最新一輪的 A 輪融資,由 Framework Ventures、Lightspeed Faction、Arrington Capital 和 Hivemind Capital 領投。

在數據索引和驗證領域,Space and Time 引入了一種全新的技術路徑——Proof of SQL。 這是 Space and Time 開發的一種創新零知識證明(ZKP)技術,確保在去中心化數據倉庫上執行的 SQL 查詢是防篡改的和可驗證的。 當運行查詢時,Proof of SQL 會生成一個加密證明,驗證查詢結果的完整性和準確性。 這個證明附加在查詢結果上,使任何驗證者(如智能合約等)都可以獨立確認數據在處理過程中未被篡改。 傳統的區塊鏈網路通常依賴共識機制來驗證數據的真實性,而 Space and Time 的 Proof of SQL 實現了一種更為高效的數據驗證方式。 具體來說,在 Space and Time 的系統中,一個節點負責數據的獲取,而其他節點則通過 zk 技術驗證該數據的真實性。 這種方式改變了共識機制下多個節點重複索引相同數據的到最終達成共識獲取數據的資源損耗,提升了系統的整體性能。 隨著這項技術的成熟,它為著重數據可靠性的一系列傳統行業使用區塊鏈上數據構造產品打造了落腳石。

同時,SxT 一直與微軟 AI 聯合創新實驗室密切合作,加速研發生成式 AI 工具,方便使用者更輕鬆地通過自然語言處理區塊鏈數據。 目前在 Space and Time Studio 中,使用者可以體驗輸入自然語言查詢,而 AI 會自動將其轉換為 SQL 並代表使用者執行查詢語句呈現使用者需要的最終結果。

 3.4 差異對比

結論與展望

綜上所述,區塊鏈數據索引技術從最初的節點數據源頭,經過數據解析和索引器的發展,最終演進到 AI 賦能的全鏈數據服務,經歷了一個逐步完善的過程。 這些技術的不斷演進,不僅提高了數據訪問的效率和準確性,還為用戶帶來了前所未有的智能化體驗。

展望未來,隨著 AI 技術和零知識證明等新技術的不斷發展,區塊鏈數據服務將進一步智慧化和安全化。 我們有理由相信,區塊鏈數據服務將在未來作為基礎設施繼續發揮重要作用,為行業的進步和創新提供有力支援。

免責聲明:作為區塊鏈資訊平臺,本站所發佈文章僅代表作者及嘉賓個人觀點,與 Web3Caff 立場無關。 文章內的資訊僅供參考,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。