LLM 不是萬靈藥,需要針對具體業務需求進行應用。 既要利用 LLM 的高效率,同時也要注意結果的準確性。

作者:Lesley,Shelly,Footprint Analytics 研究員

GPT 的橫空出世將全球的目光吸引至大語言模型,各行各業都嘗試著利用這個「黑科技」提高工作效率,加速行業發展。 Future3 Campus 攜手 Footprint Analytics 共同深入研究 AI 與 Web3 結合的無限可能,聯合發佈了《AI 與 Web3 數據行業融合現狀、競爭格局與未來機遇探析》研報。

該研報分為上下兩篇,本文為上篇,由 Footprint Analytics 研究員 Lesley、Shelly 共同編撰。 下篇由 Future3 Campus 研究員 Sherry、Humphrey 共同編撰。

摘要:

  • LLM 技術的發展讓人們更加關注 AI 與 Web3 的結合,新的應用範式正在逐步展開。 本文中,我們將重點研究如何利用 AI 提升 Web3 數據的使用體驗和生產效率。
  • 由於行業尚處早期階段和區塊鏈技術的特性,Web3 數據行業面臨著諸多挑戰,包括數據來源、更新頻率、匿名屬性等,使得利用 AI 解決這些問題成為新關注點。
  • LLM 相對於傳統人工智慧的可擴展性、適應性、效率提升、任務分解、可訪問性和易用性等優勢,為提高區塊鏈數據的體驗和生產效率提供了想像空間。
  • LLM 需要大量高品質數據進行訓練,而區塊鏈領域垂直知識豐富且數據公開,可以為 LLM 提供學習素材。
  • LLM 也可以幫助生產和提升區塊鏈數據的價值,例如數據清洗、標註、生成結構化數據等。
  • LLM 不是萬靈藥,需要針對具體業務需求進行應用。 既要利用 LLM 的高效率,同時也要注意結果的準確性。

1.AI 與 Web3 的發展與結合

1.1.AI 的發展歷史

人工智慧(AI)的歷史可以追溯到上個世紀 50 年代。 自 1956 年起,人們開始關注人工智慧這一領域,逐漸發展出了早期的專家系統,幫助專業領域解決問題。 此後,機器學習的興起,拓展了 AI 的應用領域,AI 開始更廣泛地應用在各行各業。 到如今,深度學習和生成式人工智慧爆發,帶給了人們無限可能性,其中的每一步都充滿了不斷的挑戰與創新,以追求更高的智能水準和更廣泛的應用領域。

圖 1:AI 發展歷程

2022 年 11 月 30 日,ChatGPT 面世,首次展示了 AI 與人類低門檻、高效率交互的可能性。 ChatGPT 引發了對人工智慧的更廣泛探討,重新定義了與 AI 互動的方式,使其變得更加高效、直觀和人性化,也推動了人們對更多生成式人工智慧的關注,Anthropic(Amazon)、DeepMind(Google)、Llama 等模型也隨後進入人們的視野。 與此同時,各行各業的從業者也開始積極探索 AI 會如何推動他們所在領域的發展,或者尋求通過與 AI 技術的結合在行業中脫穎而出,進一步加速了 AI 在各個領域的滲透。

1.2.AI 與 Web3 的交融

Web3 的願景從改革金融體系開始,旨在實現更多的用戶權力,並有望引領現代經濟和文化的轉變。 區塊鏈技術為實現這一目標提供了堅實的技術基礎,它不僅重新設計了價值傳輸和激勵機制,還為資源分配和權力分散提供了支援。

圖 2:Web3 發展歷程

早在 2020 年,區塊鏈領域的投資公司 Fourth Revolution Capital(4RC)就曾指出,區塊鏈技術將和 AI 結合,通過對金融、醫療、電子商務、娛樂等全球行業的去中心化,以實現對現有行業的顛覆。

目前,AI 與 Web3 的結合,主要是兩大方向:

● 利用 AI 去提升生產力以及用戶體驗。

● 結合區塊鏈透明、安全、去中心化存儲、可追溯、可驗證的技術特點,以及 Web3 去中心化的生產關係,解決傳統技術無法解決的痛點或者激勵社區參與,提高生產效率。

市場上 AI 與 Web3 的結合有以下的一些探索方向:

圖 3:AI 與 Web3 結合全景圖

● 數據:區塊鏈技術可以應用在模型數據存儲上,提供加密數據集,保護數據隱私和記錄模型使用數據的來源、使用方式,以及校驗數據的真實性。 通過訪問和分析存儲在區塊鏈上的數據,AI 可以提取有價值的資訊,並用於模型訓練和優化。 同時,AI 也可以作為數據生產工具,去提高 Web3 數據的生產效率。

● 演算法:Web3 中的演算法可以為 AI 提供更安全、可信和自主控制的計算環境,為 AI 體統提供加密保障,在模型參數上,內嵌安全防護欄,防止系統被濫用或者惡意操作。 AI 可以與 Web3 中的演算法進行交互,例如利用智慧合約執行任務、驗證數據和執行決策。 同時,AI 的演算法也可以為 Web3 提供更智慧化和高效的決策和服務。

● 算力:Web3 的分散式計算資源可以為 AI 提供高性能的計算能力。 AI 可以利用 Web3 中的分散式計算資源進行模型的訓練、數據分析和預測。 通過將計算任務分發到網路上的多個節點,AI 可以加快計算速度,並處理更大規模的數據。

在本文中,我們將重點探索如何利用 AI 的技術,去提升 Web3 數據的生產效率以及使用體驗。

2. Web3 數據現狀

2.1. Web2 & Web3 數據行業對比

作為 AI 最核心的組成部分「數據」,在 Web3 跟我們熟悉的 Web2 很著很多的區別。 差異主要是在於 Web2 以及 Web3 本身的應用架構導致其產生的數據特徵有所不同。

2.1.1. Web2 & Web3 應用架構對比

圖 4:Web2 & Web3 應用架構

在 Web2 架構中,通常是由單一實體(通常是一家公司)來控制網頁或者 APP,公司對於他們構建的內容有著絕對的控制權,他們可以決定誰可以訪問其伺服器上的內容和邏輯,以及使用者擁有怎樣的權益,還可以決定這些內容在網上存在的時長。 不少案例表明,互聯網公司有權改變其平臺上的規則,甚至中止為使用者提供服務,而使用者對此無法保留所創造的價值。

而 Web3 架構則借助了通用狀態層(Universal State Layer)的概念,將一部分或者全部的內容和邏輯放置在公共區塊鏈上。 這些內容和邏輯是公開記錄在區塊鏈上的,可供所有人訪問,使用者可以直接控制鏈上內容和邏輯。 而在 Web2 中,使用者需要帳戶或 API 金鑰才能與區塊鏈上的內容進行交互。 用戶可以直接控制其對應的鏈上內容和邏輯。 不同於 Web2,Web3 使用者無需授權帳戶或 API 金鑰就能與區塊鏈上的內容進行交互(特定管理操作除外)。

2.1.2. Web2 與 Web3 數據特徵對比

圖 5:Web2 與 Web3 數據特徵對比

Web2 數據通常表現為封閉和高度受限的,具有複雜的許可權控制,高度成熟、多種數據格式、嚴格遵循行業標準,以及複雜的業務邏輯抽象。 這些數據規模龐大,但互操作性相對較低,通常存儲在中央伺服器上,且不注重隱私保護,大多數是非匿名的。

相比之下,Web3 數據更加開放,訪問許可權更廣泛,儘管成熟度較低,以非結構化數據為主,標準化較為罕見,業務邏輯抽象相對簡化。 Web3 的數據規模相對 Web2 較小,但它具有較高的互操作性(比如 EVM 相容),並可分散或集中存儲數據,同時強調使用者隱私,使用者通常採用匿名方式進行鏈上交互。

2.2. Web3 數據行業現狀與前景,以及遇到的挑戰

在 Web2 時代,數據如石油的「儲量」般珍貴,訪問和獲取大規模數據一直是極大的挑戰。 在 Web3 中,數據的開放性和共用性一下子讓大家覺得「石油到處都是」。,使得 AI 模型能夠更輕鬆地獲取更多的訓練數據,這對於提高模型性能和智慧水平至關重要。 但對 Web3 這個「新石油」的數據處理依然有很多問題待解決,主要有以下幾個:

● 數據來源:鏈上數據「標準」繁雜分散,數據處理花費大量人工成本

處理鏈上數據時,需要反覆執行耗時而勞動密集的索引過程,需要開發者和數據分析師花費大量時間和資源來適應不同鏈、不同專案之間的數據差異。 鏈上數據行業缺乏統一的生產和處理標準,除了記錄到區塊鏈帳本上的,events,logs,and traces 等都基本上是專案自己定義和生產(或生成)的,這導致非專業交易者很難辨別並找到最準確和可信的數據,增加了他們在鏈上交易和投資決策中的困難。 比如,去中心化交易所 Uniswap 和 Pancakeswap 就有可能在數據處理方法和數據口徑上存在差異,過程中的檢查和統一口徑等工序進一步加大了數據處理的複雜性。

●  数据更新:链上数据体量大且更新频率高,难以及时地处理成结构化数据

区块链是时刻变动的,数据更新以秒甚至毫秒级别计。数据的频繁产生和更新使其难以维持高质量的数据处理和及时的更新。因此,自动化的处理流程是十分重要的,这也是对于数据处理的成本和效率的一大挑战。Web3 数据行业仍处于初级阶段。随着新合约的层出不穷和迭代更新,数据缺乏标准、格式多样,进一步增加了数据处理的复杂性。

●  数据分析:链上数据的匿名属性,导致数据身份难以区分

鏈上數據通常不包含足夠的資訊來清晰識別每個位址的身份,這使得數據在與鏈下的經濟、社會或法律動向難以聯動。 但是鏈上數據的動向與現實世界緊密相關,瞭解鏈上活動與現實世界中特定個體或實體的關聯性對於特定的場景比如數據分析來說十分重要。

隨著大語言模型(LLM)技術引發的生產力變更討論,能否利用 AI 來解決這些挑戰也成為 Web3 領域的一個焦點關注之一。

3.AI 與 Web3 數據碰撞產生的化學反應

3.1. 傳統 AI 與 LLM 的特徵對比

在模型訓練方面,傳統 AI 模型通常規模較小,參數數量在數萬到數百萬之間,但為了確保輸出結果的準確性,需要大量的人工標註數據。 LLM 之所以如此強大,部分原因在於其使用了海量的語料擬合百億、千億級以上的參數,極大地提升了它對自然語言的理解能力,但這也意味著需要更多的數據來進行訓練,訓練成本相當高昂。

在能力範圍和運行方式上,傳統 AI 更適合特定領域的任務,能夠提供相對精準和專業的答案。 相比之下,LLM 更適合通用性任務,但容易產生幻覺問題,這意味著在一些情況下,它的回答可能不夠精確或專業,甚至完全錯誤。 因此,如果需要和客觀,可信任,和可以追溯的結果,可能需要進行多次檢查、多次訓練或引入額外的糾錯機制和框架。

圖 6:傳統 AI 與大模型語言模型(LLM)的特徵對比

3.1.1. 傳統 AI 在 Web3 數據領域的實踐

傳統 AI 已經在區塊鏈數據行業展現了其重要性,為這一領域帶來了更多創新和效率。 例如,0xScope 團隊採用 AI 技術,構建了基於圖計算的群集分析演算法,通過不同規則的權重分配來説明準確識別使用者之間的相關位址。 這種深度學習演算法的應用提高了位址群集的準確性,為數據分析提供了更精確的工具。 Nansen 則將 AI 用於 NFT 價格預測,通過數據分析和自然語言處理技術,提供有關 NFT 市場趨勢的見解。 另一方面,Trusta Labs 使用了基於資產圖譜挖掘和用戶行為序列分析的機器學習方法,以增強其女巫檢測解決方案的可靠性和穩定性,有助於維護區塊鏈網路生態的安全。 另一方面,Trusta Labs 採用了圖挖掘和用戶行為分析的方法,以增強其女巫檢測解決方案的可靠性和穩定性,有助於維護區塊鏈網路的安全。 Goplus 在其運營中利用傳統人工智慧來提高去中心化應用程式(dApps)的安全性和效率。 他們收集和分析來自 dApp 的安全資訊,提供快速風險警報,説明降低這些平台的風險敞口。 這包括通過評估開源狀態和潛在惡意行為等因素來檢測 dApp 主合同中的風險,以及收集詳細的審計資訊,包括審計公司憑證、審計時間和審計報告連結。 Footprint Analytics 則使用 AI 生成生產結構化數據的代碼,分析 NFT 交易 Wash trading 交易以及機器人賬戶篩選排查。

然而,傳統 AI 擁有的資訊有限,專注於使用預定的演算法和規則執行預設任務,而 LLM 則通過大規模的自然語言數據學習,可以理解和生成自然語言,這使其更適合處理複雜且巨量的文本數據。

最近,隨著 LLM 取得了顯著進展,人們對 AI 與 Web3 數據的結合,也進行了一些新的思考與探索。

3.1.2. LLM 的優勢

LLM 相對於傳統人工智慧具有以下優勢:

● 可擴充性:LLM 支援大規模資料處理

LLM 在可擴充性方面表現出色,能夠高效處理大量數據和用戶互動。 這使其非常適合處理需要大規模資訊處理的任務,如文本分析或者大規模數據清洗。 其高度的數據處理能力為區塊鏈數據行業提供了強大的分析和應用潛力。

● 適應性:LLM 可學習適應多領域需求

LLM 具備卓越的適應性,可以為特定任務進行微調或嵌入行業或私有資料庫,使其能夠迅速學習和適應不同領域的細微差別。 這一特性使 LLM 成為了解決多領域、多用途問題的理想選擇,為區塊鏈應用的多樣性提供了更廣泛的支援。

● 提高效率:LLM 自動化任務提高效率

LLM 的高效率為區塊鏈數據行業帶來了顯著的便利。 它能夠自動化原本需要大量人工時間和資源的任務,從而提高生產力並降低成本。 LLM 可以在幾秒內生成大量文本、分析海量數據集,或執行多種重複性任務,從而減少了等待和處理時間,使區塊鏈數據處理更加高效。

● 任務分解:可以生成某些工作的具體計劃,把大的工作分成小步驟

LLM Agent 具備獨特的能力,即可以生成某些工作的具體計劃,將複雜任務分解為可管理的小步驟。 這一特性對於處理大規模的區塊鏈數據和執行複雜的數據分析任務非常有益。 通過將大型工作分解成小任務,LLM 可以更好地管理數據處理流程,並輸出高品質的分析。

這一能力對於執行複雜任務的 AI 系統至關重要,例如機器人自動化、專案管理和自然語言理解與生成,使其能夠將高級任務目標轉化為詳細的行動路線,提高任務執行的效率和準確性。

● 可訪問性和易用性:LLM 以自然語言提供使用者友好互動

LLM 的可訪問性使更多用戶能夠輕鬆與數據和系統進行互動,讓這些互動更加使用者友好。 通過自然語言,LLM 使數據和系統更容易訪問和交互,無需使用者學習複雜的技術術語或特定命令,例如,SQL,R,Python 等來做數據獲取和分析。 這一特性拓寬了區塊鏈應用的受眾範圍,讓更多的人能夠訪問和使用 Web3 應用和服務,不論他們是否精通技術,從而促進了區塊鏈數據行業的發展和普及。

3.2. LLM 與 Web3 數據的融合

圖 7:區塊鏈數據與 LLM 的融合

大型語言模型的培訓需要依賴大規模數據,通過學習數據中的模式來建立模型。 區塊鏈數據中蘊含的交互和行為模式是 LLM 學習的燃料。 數據量和品質也直接影響 LLM 模型的學習效果。

數據不僅僅是 LLM 的消耗品,LLM 還有助於生產數據,甚至可以提供反饋。 例如,LLM 可以協助數據分析師在數據預處理方面做出貢獻,如數據清洗和標註,或者生成結構化數據,清除數據中的雜訊,凸顯有效資訊。

3.3. 增強 LLM 的常用技術解決方案

ChatGPT 的出現,不僅向我們展示了 LLM 解決複雜問題的通用能力,同時也引發了全球範圍的,對在通用能力上去疊加外部能力的探索。 這裡包括,通用能力的增強(包括上下文長度、複雜推理、數學、代碼、多模態等)以及外部能力的擴充(處理非結構化數據、使用更複雜的工具、與物理世界的交互等)。 如何將 crypto 領域的專有知識以及個人的個人化私有數據嫁接到大模型的通用能力上,是大模型在 crypto 垂直領域商業化落地的核心技術問題。

目前,大多數應用都集中在檢索增強生成(RAG)上,比如提示工程和嵌入技術,已經存在的代理工具也大多都聚焦於提高 RAG 工作的效率和準確性。 市場上主要的基於 LLM 技術的應用棧的參考架構有以下幾種:

● Prompt Engineering

圖 8:Prompt Engineering

當前,大多數從業者在構建應用時採用基礎解決方案,即 Prompt Engineering。 這一方法通過設計特定的 Prompt 來改變模型的輸入,以滿足特定應用的需求,是最方便快捷的做法。 然而,基礎的 Prompt Engineering 存在一些限制,如資料庫更新不及時、內容冗雜、以及對輸入上下文長度(In-Context Length)的支援和多輪問答的限制。

因此,行業內也在研究更先進的改進方案,包括嵌入(Embedding)和微調(Fine-tuning)。

●  嵌入(Embedding)

嵌入(Embedding)是一種廣泛應用於人工智慧領域的數據表示方法,能高效捕獲對象的語義資訊。 通過將對象屬性映射成向量形式,嵌入技術能夠通過分析向量之間的相互關係,快速找到最有可能正確的答案。 嵌入可以在 LLM 的基礎上構建,以利用該模型在廣泛語料上學到的豐富語言知識。 通過嵌入技術將特定任務或領域的資訊引入到預訓練的大模型中,使得模型更專業化,更適應特定任務,同時保留了基礎模型的通用性。

用通俗的話來講,嵌入就類似於你給一個經過綜合訓練的大學生一本工具書,讓他拿著擁有特定任務相關知識的工具書去完成任務,他可以隨時查閱工具書,然後可以解決特定的問題。

● 微調(Fine-tuning)

圖 9:Fine Tuning

微調(Fine-tuning)與嵌入不同,通過更新已經預訓練的語言模型的參數,使其適應特定任務。 這種方法允許模型在特定任務上表現出更好的性能,同時保持通用性。 微調的核心思想是調整模型參數,捕捉與目標任務相關的特定模式和關係。 但微調的模型通用能力上限仍然受限於基座模型本身。

用通俗的話來講,微調就類似於給經過綜合訓練的大學生上專業知識課程,讓他掌握除了綜合能力以外的專業課知識,能自行解決專業板塊的問題。

● 重新訓練 LLM

當前的 LLM 雖然強大,但不一定能夠滿足所有需求。 重新訓練 LLM 是一種高度定製化的解決方案,通過引入新數據集和調整模型權重,使其更適應特定任務、需求或領域。 然而,這種方法需要大量計算資源和數據,並且管理和維護重新訓練后的模型也是挑戰之一。

● Agent 模型

圖 10:Agent 模型

Agent 模型是一種構建智慧代理的方法,它以 LLM 作為核心控制器。 這個系統還包括幾個關鍵組成部分,以提供更全面的智慧。

● Planning,規劃:將大任務分成小任務,這樣更容易完成

● Memory,反思:通過反思過去的行為,改進未來的計劃

● Tools,工具使用:代理可以調用外部工具獲取更多資訊,如調用搜尋引擎、計算機等

人工智慧代理模型具備強大的語言理解和生成能力,能夠解決通用問題,進行任務分解以及自我反思。 這使得它在各種應用中都有廣泛的潛力。 然而,代理模型也存在一些局限性,例如受到上下文長度的限制、長期規劃和任務拆分容易出錯、輸出內容的可靠性不穩定等問題。 這些局限性需要長期不斷的研究和創新,以進一步拓展代理模型在不同領域的應用。

以上的各種技術並不是相互排斥的,它們可以在訓練和增強同一個模型的過程中一起使用。 開發者可以充分發揮現有大語言模型的潛力,嘗試不同的方法,以滿足日益複雜的應用需求。 這種綜合使用不僅有助於提高模型的性能,還有助於推動 Web3 技術的快速創新和進步。

然而,我們認為,雖然現有的 LLM 已經在 Web3 的快速發展中發揮了重要作用,但在充分嘗試這些現有模型(如 OpenAI、Llama 2 以及其他開源 LLM)之前,我們可以從淺入深,從 prompt engineering 和嵌入等 RAG 策略入手,謹慎考慮微調和重新訓練基礎模型。

3.4. LLM 如何加速區塊鏈數據生產的各個流程

3.4.1. 區塊鏈數據的一般處理流程

當今,區塊鏈領域的建設者逐漸認識到數據產品的價值。 這一價值覆蓋了產品運營監控、預測模型、推薦系統以及數據驅動的應用程式等多個領域。 儘管這一認知逐漸增強,但作為數據獲取到數據應用中不可或缺的關鍵步驟,數據處理往往被忽視。

圖 11:區塊鏈數據處理流程

● 將區塊鏈原始非結構化數據,如 events 或 logs 等,轉換為結構化的數據

區塊鏈上的每一筆交易或事件都會生成 events 或 logs,這些數據通常是非結構化的。 這一步驟是獲取數據的第一入口,但數據仍然需要被進一步處理以提取有用資訊,得到結構化的原始數據。 這包括整理數據、處理異常情況和轉化為通用格式。

● 將結構化的原始數據,轉換為具有業務意義的抽象表

在得到結構化原始數據后,需要進一步進行業務抽象,將數據映射到業務實體和指標上,比如交易量、使用者量等業務指標,將原始數據轉化為對業務和決策有意義的數據。

● 從抽象表中,計算提取業務指標

有了抽象的業務數據后,可以在業務抽象的數據上進行進一步計算,就可以得出各種重要的衍生指標。 例如交易總額的月增長率、使用者留存率等核心指標。 這些指標可以藉助 SQL、Python 等工具實現,更加有可能幫助監控業務健康、瞭解使用者行為和趨勢,從而支援決策和戰略規劃。

3.4.2. 區塊鏈數據生成流程加入 LLM 后的優化

LLM 在區塊鏈數據處理中可以解決多個問題,包括但不限於以下內容:

處理非結構化資料:

● 從交易日志和事件中提取結構化資訊: LLM 可以分析區塊鏈的交易日志和事件,提取其中的關鍵資訊,如交易金額、交易方位址、時間戳等,將非結構化數據轉化為的帶有業務意義的數據,使其更易於分析和理解。

● 清洗數據,識別異常數據: LLM 可以自動識別和清洗不一致或異常的數據,幫助確保數據的準確性和一致性,從而提高數據品質。

進行業務抽象:

● 將原始鏈上數據映射到業務實體: LLM 可以將原始區塊鏈數據映射到業務實體,例如將區塊鏈位址映射到實際使用者或資產,從而使業務處理更加直觀和有效。

● 處理非結構化鏈上內容,打標籤: LLM 可以分析非結構化數據,如 Twitter 情感分析結果,將其標記為正面、負面或中性情感,從而幫助使用者更好地理解社交媒體上的情感傾向。

自然語言解讀數據:

● 計算核心指標: 基於業務抽象,LLM 可以計算核心業務指標,如使用者交易量、資產價值、市場份額等,以幫助使用者更好地瞭解其業務的關鍵性能。

● 查詢數據: LLM 可以通過 AIGC,理解使用者意圖,生成 SQL 查詢,使用戶能夠以自然語言提出查詢請求,而不必編寫複雜的 SQL 查詢語句。 這增加了資料庫查詢的可訪問性。

● 指標選擇、排序和相關性分析: LLM 可以幫助用戶選擇、排序和分析不同的多個指標,以更好地理解它們之間的關係和相關性,從而支援更深入的數據分析和決策制定。

● 產生業務抽象的自然語言描述: LLM 可以根據事實數據,生成自然語言摘要或解釋,以幫助使用者更好地理解業務抽象和數據指標,提高可解釋性,並使決策更具合理性。

3.5.  目前用例

根據 LLM 自身的技術以及產品體驗優勢,它可以被應用到不同的鏈上數據場景,技術上從易到難可以將這些場景分成四類:

● 數據轉換:進行數據增強、重構等操作,如文本摘要、分類、資訊抽取。 這類應用開發較快,但更適合通用場景,不太適合大量數據的簡單批量化處理。

● 自然語言介面:將 LLM 連接知識庫或工具,實現問答或基本工具使用的自動化。 這可以用於構建專業聊天機器人,但其實際價值受其所連接的知識庫品質等其他因素影響。

● 工作流自動化:使用 LLM 實現業務流程的標準化和自動化。 這可以應用於較複雜的區塊鏈數據處理流程,如解構智慧合約運行過程、風險識別等。

● 協助機器人與助手輔助系統:輔助系統是在自然語言介面的基礎上,集成更多數據源和功能的增強系統,大幅提高使用者工作效率。

圖 12:LLM 應用場景

3.6. LLM 的局限性

3.6.1. 行業現狀:成熟應用、正在攻克的問題以及尚未解決的挑戰

在 Web3 數據領域,儘管已經取得了一些重要的進展,但仍然面臨一些挑戰。

相對成熟的應用:

● 使用 LLM 進行資訊處理:LLM 等 AI 技術已成功用於生成文本摘要、總結、解釋等工作,幫助使用者從長篇文章、專業報告中提取關鍵資訊,提高了數據的可讀性和可理解性。

● 使用 AI 解決開發問題: LLM 已經應用於解決開發過程中的問題,例如替代 StackOverflow 或搜尋引擎,為開發者提供問題解答和程式設計支援。

有待解決與正在探索的問題:

● 利用 LLM 產生代碼: 行業正在努力將 LLM 技術應用於自然語言到 SQL 查詢語言的轉換,以提高資料庫查詢的自動化和可理解性。 然而,過程中會有很多困難,比如在某些情境下,生成的代碼要求極高的準確性,語法必須百分之百正確,以確保程式能夠無 bug 運行,並獲得正確的結果。 難點還包括確保問題回答的成功率、正確率,以及對業務的深刻理解。

● 數據標註問題: 數據標註對於機器學習和深度學習模型的訓練至關重要,但在 Web3 數據領域,特別是處理匿名的區塊鏈數據時,標註數據的複雜性較高。

● 準確性和幻覺(Hallucination)問題:AI 模型中幻覺的出現可能受多因素影響,包括有偏見或不足的訓練數據、過度擬合、有限的上下文理解、缺乏領域知識、對抗性攻擊和模型架構。 研究人員和開發者需要不斷改進模型的訓練和校準方法,以提高生成文本的可信度和準確性。

● 利用數據進行業務分析和文章輸出: 將數據用於業務分析和生成文章仍然是一個具有挑戰性的問題。 問題的複雜性、需要精心設計的提示(prompt)、以及高質量的數據、數據量、減少幻覺問題的方法都是待解決的問題。

● 根據業務領域自動索引智慧合同數據以進行數據抽象: 自動為不同業務領域的智慧合同數據建立索引以進行數據抽象仍然是一個未解決的問題。 這需要綜合考慮不同業務領域的特點,以及數據的多樣性和複雜性。

● 處理時序數據,表格文檔數據等更複雜的模態:DALL· E 2 等多模態模型非常擅長在文字生成圖像、語音等常見模態。 而在區塊鏈以及金融領域需要特別地對待一些時序數據,而非簡單地把文本向量化就能解決。 聯和時序數據與文本,跨模態聯合訓練等,是實現數據智慧分析以及應用的重要研究方向。

3.6.2. 為何只靠 LLM 不能完美解決區塊鏈數據行業的問題

作為語言模型,LLM 更適用於處理對流暢度要求較高的場景,而在追求準確性方面,可能需要對模型進行更進一步的調整。 在將 LLM 應用於區塊鏈數據行業時,以下框架可提供一些參考。

圖 13:區塊鏈數據行業下 LLM 輸出的流暢性、準確性和用例風險

在評估 LLM 在不同應用中的適用性時,關注流暢度和準確性是至關重要的。 流暢度指的是模型的輸出是否自然、通順,準確性則表示模型的答案是否準確。 這兩個維度在不同應用場景中有不同的要求。

對於流暢度要求較高的任務,如自然語言生成、創意寫作等,LLM 通常能夠勝任,因為其在自然語言處理方面的強大性能使其能夠生成流暢的文本。

區塊鏈數據面臨著數據解析、數據處理、數據應用等多方面的問題。 LLM 擁有卓越的語言理解和推理能力,使其成為與區塊鏈數據互動、整理和概括的理想工具。 然而,LLM 並不能解決所有區塊鏈數據領域的問題。

在數據處理方面,LLM 更適合快速反覆運算和探索性處理鏈上數據,不斷嘗試新的處理方法。 然而,LLM 在生產環境中的詳細核對等任務方面仍存在一些限制。 典型的問題是 token 長度不夠,無法應對長上下文的內容。 耗時的 prompt,回答不穩定影響下游任務進而導致成功率不穩定的問題,以及執行大批量任務的效率不高。

其次,LLM 處理內容的過程中很可能出現幻覺問題。 據估計,ChatGPT 的幻覺概率約為 15% 至 20%,而由於其處理過程的不透明性,很多錯誤難以察覺。 因此,框架的建立和專家知識的結合變得至關重要。 此外,LLM 結合鏈上數據還是有很多挑戰:

● 鏈上數據實體類型多、數量龐大,以何種形式投喂給 LLM,有效地運用在具體的商業化場景,類似其他垂直行業,需要更多研究和探索。

● 鏈上數據包括結構化和非結構化數據,目前行業大多數數據解決方案,都是基於對業務數據的理解。 解析鏈上數據的過程中,用 ETL 去過濾,清洗,補充和復原業務邏輯,進一步把非結構化數據整理為結構化數據,可以為後期多種業務場景提供更高效的分析。 比如,結構化的 DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高品質,高價值,準確和真實等特點,可以給通用 LLM 提供高效的補充。

4. 被誤解的 LLM

4.1. LLM 可以直接處理非結構化數據,因此結構化數據將不再被需要?

LLM 通常基於海量文本數據預訓練而來,天然適合處理各類非結構化的文本數據。 然而,各個行業已經擁有大量結構化數據,尤其 Web3 領域中解析後的數據。 如何有效的利用這些數據,增強 LLM,是一個行業的熱門研究課題。

對於 LLM,結構化數據仍然具有以下的優勢:

● 海量:大量的數據儲存在各種應用背後的資料庫和其他標準格式裡面,特別是私有數據。 每個公司和行業都還有大量 LLM 沒有用於預訓練的牆內數據。

● 已有:這些數據不需要重新生產,投入成本極低,唯一的問題是怎麼用起來。

● 高品質和高價值:領域內長期積累的,蘊含專家的專業知識,通常都沉澱到了結構化數據裡面,用於產學研。 結構化數據的品質是數據可用性的關鍵,其中包括數據的完整性、一致性、準確性、唯一性和事實性。

● 高效率:結構化數據以表格、資料庫或其他規範格式存儲,模式是預先定義的,並且在整個數據集中保持一致。 這意味著數據的格式、類型和關係都是可預測和可控的,使得數據的分析和查詢更加簡單和可靠。 而且,行業已經有成熟的 ETL 及各種數據處理和管理工具,使用起來也更加高效和便捷。 LLM 可以通過 API,把這些數據使用起來。

● 準確性和事實性:LLM 的文本數據,基於 token 概率,目前還不能穩定的輸出確切的答案,產生的幻覺問題一直是 LLM 要解決的核心根本問題。 對於很多行業和場景,會形成安全和可靠性問題,比如,醫療,金融等。 結構化數據,正是可以輔助和矯正 LLM 這些問題的一個方向。

● 體現關係圖譜,和特定業務邏輯:不同類型的結構化數據,可以以特定的組織形式(關係型資料庫,圖資料庫等),輸入到 LLM,解決不同類型的領域問題。 結構化數據使用標準化的查詢語言(如 SQL),使得對數據進行複雜的查詢和分析變得更加高效和準確。 知識圖譜(Knowledge Graph)可以更好地表達實體之間的關係,也更容易進行關聯查詢。

● 使用成本低:不用 LLM 每次重新從底層重新訓練整個底座模型,可以結合 Agents 和 LLM API 等 LLM 賦能方式,更快更低成本的接入 LLM。

目前市場上還有一些腦洞大開的觀點,認為 LLM 在處理文本資訊和非結構化資訊方面的能力極強,只需將原始數據,包括非結構化數據,簡單導入到 LLM,就能達到目的。 這個想法類似於要求通用 LLM 解數學題,在沒有專門構建數學能力模型的情況下,大多數 LLM 可能會在處理簡單的小學加減題時出錯。 反而,建立類似數學能力模型,和圖像生成模型的 Crypto LLM 垂直模型,才是解決 LLM 在 Crypto 領域更落地的實踐。

4.2. LLM 可以從新聞、推特等文字資訊推測內容,人們不再需要鏈上數據分析來得出結論?

LLM 雖然可以從新聞、社交媒體等文本中獲得資訊,但直接從鏈上數據中獲得的洞察仍然是不可或缺的,主要原因有:

● 鏈上數據是原始的第一手資訊,而新聞和社交媒體中的資訊可能存在片面性或誤導性。 直接分析鏈上數據可以減少資訊偏差。 儘管利用 LLM 進行文本分析存在理解偏差的風險,但直接分析鏈上數據可以減少誤讀。

● 鏈上數據包含全面的歷史交互和交易記錄,分析可以發現長期趨勢和模式。 鏈上數據還可以展現整個生態系統的全貌,如資金流向、各方關係等。 這些宏觀的洞察有助於更深入地理解狀況。 而新聞和社交媒體資訊通常更零散且短期。

● 鏈上數據是開放的。 任何人都可以驗證分析結果,避免信息的不對稱。 而新聞和社交媒體未必都如實披露。 文本資訊和鏈上數據可以相互驗證。 綜合兩者可以形成更立體和準確的判斷。

鏈上數據分析仍是不可或缺的。 LLM 從文本中獲取資訊具有輔助作用,但不能取代直接分析鏈上數據。 充分利用兩者優勢才能取得最佳效果。

4.3. 利用 LangChain、LlamaIndex 或其他 AI 工具,在 LLM 的基礎上構建區塊鏈數據解決方案非常容易?

LangChain 和 LlamaIndex 等工具為構建自定義的簡單 LLM 應用提供了便利,使快速搭建成為可能。 然而,將這些工具成功應用於實際生產環境中涉及到更多的挑戰。 構建一個高效運行、保持高品質的 LLM 應用是一項複雜的任務,需要深入理解區塊鏈技術和 AI 工具的工作原理,並有效地將它們整合在一起。 這對於區塊鏈數據行業來說,是一項重要但具有挑戰性的工作。

在這個過程中,必須認識到區塊鏈數據的特性,它要求極高的精準性和可重複校驗性。 一旦數據通過 LLM 進行處理和分析,使用者對其準確性和可信度有很高的期望。 這與 LLM 的模糊容錯性之間存在著潛在的矛盾。 因此,在構建區塊鏈數據解決方案時,必須仔細權衡這兩方面的需求,以滿足使用者的期望。

當前市場上,雖然已經有了一些基礎工具,但這個領域仍在快速演進和不斷反覆運算。 類比於 Web2 世界的發展歷程,從最初的 PHP 程式設計語言到更成熟、可擴展的方案如 Java、Ruby、Python,以及 JavaScript 和 Node.js 等,再到 Go 和 Rust 等新興技術,都經歷了不斷的演變。 AI 工具也在不斷變化,新興的 GPT 框架如 AutoGPT,Microsft AutoGen,及最近 OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未來可能性的一部分。 這表明,區塊鏈數據行業和 AI 技術都還有許多發展空間,需要不斷努力和創新。

當前在應用 LLM 時,有兩個陷阱需要特別注意:

● 期望值過高:很多人認為 LLM 可以解決一切問題,但實際上 LLM 有明顯的局限性。 它需要大量的計算資源,訓練成本高昂,而且訓練過程可能不穩定。 對 LLM 的能力要有現實的期望,明白它在某些場景下表現出色,如自然語言處理和文本生成,但在其他領域可能無法勝任。

● 忽視業務需求:另一個陷阱是強行應用 LLM 技術,而不充分考慮業務需求。 在應用 LLM 之前,務必明確具體的業務需求。 需要評估 LLM 是否是最佳技術選擇,並做好風險評估和控制。 強調 LLM 的有效應用需要根據實際情況慎重考慮,避免誤用。

儘管 LLM 在許多領域都具備巨大潛力,但開發者和研究者在應用 LLM 時需要保持謹慎,採取開放的探索態度,以找到更適合的應用場景並最大程度地發揮其優勢。

本文由 Footprint Analytics、 Future3 Campus、HashKey Capital 聯合發佈。

Footprint Analytics 是一家區塊鏈數據解決方案供應商。 借助尖端的人工智慧技術,我們提供 Crypto 領域首家支援無代碼數據分析平臺以及統一的數據 API,讓使用者可以快速檢索超過 30 條公鏈生態的 NFT,GameFi 以及 錢包地址資金流追蹤數據。

Footprint 官網:https://www.footprint.network

Twitter:https://twitter.com/Footprint_Data

微信公眾號:Footprint 區塊鏈分析

加入社群:加小助手微信拉群 footprint_analytics

Future3 Campus 是由萬向區塊鏈實驗室和 HashKey Capital 共同發起的 Web3.0 創新孵化平臺,重點聚焦 Web3.0 Massive Adoption、DePIN、AI 三大賽道,以上海、粵港澳大灣區、新加坡為主要孵化基地,輻射全球 Web3.0 生態。 同時,Future3 Campus 將推出首期 5000 萬美金的種子基金用於 Web3.0 專案孵化,真正服務於 Web3.0 領域的創新創業。

HashKey Capital 是一家專注於投資區塊鏈技術及數位資產的資產管理機構,目前資產管理規模超 10 億美元。 作為亞洲最具規模及影響力的區塊鏈投資機構之一,同時也是以太坊最早期的機構投資者,HashKey Capital 發揮頭雁效應,連結 Web2 與 Web3,與創業者、投資者、社區和監管機構攜手共建可持續發展的區塊鏈生態體系。 公司位於中國香港、新加坡、日本、美國等地,現已率先佈局橫跨 Layer 1、協定、Crypto Finance、Web3 基礎設施、應用、NFT、Metaverse 等賽道的全球被投企業 500 餘家,代表性被投專案包括 Cosmos, Coinlist, Aztec, Blockdaemon, dYdX, imToken, Animoca Brands, Falcon X, Space and time, Mask Network, Polkadot, Moonbeam and Galxe(原 Project Galaxy)等。

免責聲明:作為區塊鏈資訊平臺,本站所發佈文章僅代表作者及嘉賓個人觀點,與 Web3Caff 立場無關。 文章內的資訊僅供參考,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。