既然各類 Agent 並無區分度,那麼 Agent 框架反而更穩定一些
作者:佐爺歪脖山
封面: Photo by Pawel Czerwinski on Unsplash
AI 是 Crypto 的代理人
一件藝術品永遠不會完成,只會被遺棄。
大家都在說 AI Agent,但大家所說的並不是同一個東西,這導致我們所關心的 AI Agent 和大眾視角下,以及 AI 從業者的視角都有所不同。
在許久之前,我曾寫過 Crypto 是 AI 的幻覺,從那時到現在,Crypto 和 AI 的結合一直是一場單相思,AI 從業者甚少提及 Web3/區塊鏈這些術語,而 Crypto 從業者卻對 AI 的一往情深,而在見識到 AI Agent 框架都能被 Token 化的奇景後,不知道能否真正將 AI 從業者引入我們的世界。
AI 是 Crypto 的代理人,這是從加密視角本位去看待本輪 AI 狂飆的最佳註釋,Crypto 對 AI 的狂熱不同於其他行業。
Agent 進化,科技行銷下的本源
究其根源,AI Agent 至少有三種源流,而 OpenAI 的 AGI(通用人工智慧)將其列為重要一步,讓該詞成為超越技術層面的流行語,但是本質上 Agent 並不是新鮮概念,即使加上 AI 賦能,也很難說是革命性的技術趨勢。
其一便是 OpenAI 眼中的 AI Agent,類似自動駕駛分級中的 L3,AI Agent 可以視為具備一定的高階輔助駕駛能力,但還不能完全取代人。

其二,顧名思義,AI Agent 是 AI 加持下的 Agent,代理機制、模式在電腦領域本不鮮見,而在 OpenAI 的謀劃下,Agent 將成為繼對話形式(ChatGPT)、推理形式(各類 Bot)後的 L3 階段,其特點在於 “自主進行某種行為”,或者用 LangChain 創始人 Harrison Chase 的定義:“ AI Agent 是一個用 LLM 來做程式的控制流程決策的系統。
這就是其玄妙之處,在 LLM 出現之前,Agent 主要是執行人為設定好的自動化過程,僅舉一例,程式設計師在設計爬蟲程式時,會設定 User-Agent(使用者代理程式),用以模仿真實使用者使用的瀏覽器版本、作業系統等細節,當然,如果使用 AI Agent 來更細緻的模仿人類行為,那就會出現 AI Agent 爬蟲框架,這樣操作會讓爬蟲「更像人」。
在這樣的變遷中,AI Agent 的加入必須和現有場景進行結合,完全獨創的領域幾乎不存在,即使是 Curosr、Github copilot 等代碼補全和生成能力,也是在 LSP(語言伺服器協議,Language Server Protocol)等思維下的進一步功能增強,這樣的例子可以舉出許多:
- Apple:AppleScript(腳本編輯器)--Alfred--Siri--快捷指令(Shortcuts)--Apple Intelligence
- 終端機:Terminal(macOS)/Power shell(Windows)--iTerm 2--Warp(AI Native)
- 人機互動:Web 1.0 CLI TCP/IP 網景瀏覽器--Web 2.0 GUI/RestAPI/搜尋引擎/Google/Super App --Web 3.0 AI Agent + dapp ?
稍微解釋一下,在人機互動過程中,Web 1.0 GUI 和瀏覽器的結合真正讓大眾可以無門檻使用電腦,代表是 Windows+IE 的組合,而 API 是網路背後的資料抽象和傳輸標準,Web 2.0 時代的瀏覽器已經是 Chrome 的時代,並且向行動端的轉向改變了人們對網路的使用習慣,微信、Meta 等超級平台的 App 涵蓋了人們生活的方方面面。
其三,Crypto 領域的意圖(Intent)概念是 AI Agent 圈內爆火的先導,不過要注意,這僅在 Crypto 內部有效,從功能殘缺的比特幣腳本到以太坊智能合約,本身就是 Agent 概念的泛用,而後催生的跨鏈橋--鏈抽象、EOA--AA 錢包都是此類思路的自然延伸,所以在 AI Agent “入侵” Crypto 之後,導向 DeFi 場景也就不足為奇。
這就是 AI Agent 概念的混淆之處,在 Crypto 的脈絡下,我們實際上想實現的是「自動理財、自動打新 Meme」的 Agent,但在 OpenAI 的定義下,這麼危險的場景甚至需要 L4 /L5 才能真正實現,然後大眾在把玩的是程式碼自動產生或 AI 一鍵總結、代寫等功能,雙方交流並不在一個維度。
了解我們真正想要的是什麼,接下來重點聊聊 AI Agent 的組織邏輯,技術細節會隱藏其後,畢竟 AI Agent 的代理概念就是將技術從大規模普及的障礙前移除,一如瀏覽器對個人 PC 產業的點石成金,所以我們的重心會在兩點上:從人機交互看 AI Agent ,以及 AI Agent 和 LLM 的區別和聯繫,以此引出第三部分:Crypto 和 AI Agent 的結合最終會留下什麼。
讓 AI_Agent = LLM+API;
在 ChatGPT 這類話聊式人機互動模式之前,人類和電腦的互動主要是 GUI(圖形化介面)和 CLI(命令列介面,Command-Line interface)兩種形式,GUI 思維繼續衍生出瀏覽器、 App 等多種具體形式,CLI 和 Shell 的組合很少變化。

但這只是「前端」表面的人機交互,隨著互聯網的發展,數據量和類型的增多導致數據和數據之間,App 和 App 之間的「後端」交互也在增多,兩者互為依托,即使是簡單的網頁瀏覽行為,實際上也需要二者的協同與配合。
如果說人和瀏覽器、App 的互動說用戶入口,那麼 API 之間的連結和跳轉則撐起了互聯網的實際運行,其實這也是 Agent 的一部分,普通用戶無需了解命令列和 API 等術語,即可實現自己的目的。
LLM 也是如此,現在使用者可以更進一步,連搜尋都不需要,整個過程可以被描述為以下幾個步驟:
- 用戶打開聊天視窗;
- 使用者使用自然語言,即文字或語音描述自己的需求;
- LLM 將其解析為流程化的操作步驟;
- LLM 將其結果傳回給使用者。
可以發現,在這個過程中,受到最大挑戰的是谷歌,因為用戶並不需要打開搜尋引擎,而是各類類 GPT 的對話窗口,流量入口正在悄然變化,也正是如此,才會有人認為本輪 LLM 革的是搜尋引擎的命。
那麼 AI Agent 又在其中起到何種作用呢?
一言以蔽之,AI Agent 是 LLM 的特化。
目前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 組織者,其能力受到較大限制,比如吃多了用戶輸入信息很容易產生幻覺,其中一個重要原因在於訓練機制,比如,如果你反復告訴 GPT 1+1=3,那麼有一定機率在接下來的交互中詢問 1+1+1=?時給出答案為 4 的可能性。
因為此時 GPT 的回饋完全來自於使用者個人,如果該模型不聯網,那麼完全有可能被你的資訊改變運作機制,以後就是一個只知道 1+1=3 的弱智 GPT,但是如果允許模型聯網,那麼 GPT 的回饋機制就更為多種多樣,畢竟在網路上認為 1+1=2 的要佔據絕大多數。
繼續加大難度,如果我們一定要在本地使用 LLM,那麼該如何避免這類問題?
一個簡單粗暴的辦法是同時使用兩個 LLM,同時規定每次回答問題必須讓兩個 LLM 互相驗證,以此降低出錯的機率,再不行還有一些辦法,例如每次讓兩個使用者處理一個進程,一個負責問,一個負責微調問題,盡量讓語言更規範、更理性一些。
當然,有時聯網也並不能完全規避問題發生,例如 LLM 檢索到弱智吧的回答,那可能更糟糕,但是規避這些資料會導致可用數據量降低,那麼完全可以將已有數據拆分和重組,甚至依據舊數據自行生產一些新數據,以讓回答更可靠,其實這就是 RAG(Retrieval-Augmented Generation,檢索增強生成)的自然語言理解。
人和機器需要互相理解,如果我們讓多個 LLM 相互理解和協作,本質上已經是在觸及 AI Agent 的運作模式,即人的代理去調用其他資源,甚至可以包括大模型和其他 Agent。
由此,我們掌握了 LLM 和 AI Agent 的聯繫:LLM 是一系列知識的匯總,人類可以透過對話視窗與之交流,但是在實踐中,我們發現一些特定的任務流可以被歸納為特定的小程序、Bot、指令集合,我們就把這些定義為 Agent。
AI Agent 仍然是 LLM 的一部分,兩者不能等同視之,而 AI Agent 的調用方式在 LLM 的基礎上,特別強調對外部程式、LLM 和其他 Agent 的協同,所以才有 AI Agent = LLM+API 的感慨。
那麼,在 LLM 的工作流程上,可以加入 AI Agent 的說明,我們以呼叫 X 的 API 資料為例:
- 人類用戶打開聊天視窗;
- 使用者使用自然語言,即文字或語音描述自己的需求;
- LLM 將其解析為 API 呼叫類別 AI Agent 任務,並將對話權限轉移給該 Agent;
- AI Agent 詢問用戶 X 帳號和 API 密碼,並根據用戶描述與 X 聯網通訊;
- AI Agent 將最終結果傳回給使用者。
還記得人機互動的進化史嗎,在 Web 1.0 和 Web 2.0 存在的瀏覽器、API 等依然會存在,但是用戶完全可以無視其存在,只需要跟 AI Agent 交互即可,而 API 呼叫等過程都可以用對話方式使用,而這些 API 服務可以是任意類型,包括本地的數據,聯網信息,以及外部 App 的數據,只要對方開放接口,並且用戶具備其使用權限。

一個完整的 AI Agent 使用流程如上圖,LLM 在其中可以視作和 AI Agent 分離的部分,也可以視為一個過程的兩個子環節,但是無論如何劃分,都是在服務使用者的需求。
從人機互動的過程來看,甚至是使用者自己跟自己在對話,你只需盡情表達自己的所思所想,AI/LLM/AI Agent 會一次次的猜測你的需要,反饋機制的加入,以及要求 LLM 對當前情境上下文(Context)的記憶,可以確保 AI Agent 不會突然忘記自己在做什麼。
總之,AI Agent 是更具人格化的產物,這是其和傳統的腳本、自動化工具的本質區別,就像一個私人管家一樣去為用戶考慮真實需求,但是必須指出,這種人格依然是一種概率推測的結果,L3 等級的 AI Agent 沒有人類的理解和表達能力,因此將其和外部 API 的對接充滿危險。
AI 框架貨幣化之後
AI 框架竟然能貨幣化是我對 Crypto 保持興趣的重要原因,在傳統的 AI 技術堆疊中,框架並不十分重要,至少比不上數據和算力,而 AI 產品的變現方式也很難從框架入手,畢竟大部分 AI 演算法和模型架構都是開源產品,真正閉源的是資料等敏感資訊。
本質上而言,AI 框架或模型是一系列演算法的容器與組合,就相當於鐵鍋燉大鵝的鐵鍋,但是大鵝的品種以及火候的掌握才是味道區分的關鍵,賣的產品本應該是大鵝,但現在來了 Web3 的客戶,他們要買櫝還珠,買鍋子棄鵝。
原因並不複雜,Web3 的 AI 產品基本上都是拾人牙慧,都是在已有的 AI 框架、演算法和產品上改進出自己的客製化產品,甚至不同的 Crypto AI 框架背後的技術原理都相差不大,既然技術上無法區分,就需要在名稱、應用場景等方面做文章,於是 AI 框架本身的某些細微調整都成了不同 Token 的支撐,因此造成了 Crypto AI Agent 的框架泡沫。
既然不需要自己投入重金訓練資料和演算法,名稱區別法就格外重要,DeepSeek V3 再便宜,也需要博士頭髮和 GPU 、電力的大量消耗。
其實這也是一種價值錨定思路,既然各類 Agent 並無區分度,那麼 Agent 框架反而更穩定一些,能產生資產發行的價值虹吸效應,這是目前 Crypto 和 AI Agent 結合的 1.0 版本。
而 2.0 版本正在浮現,典型是 DeFi 和 AI Agent 的結合,DeFAI 的概念提出當然是熱度刺激下的市場行為,但是如果我們把以下情況考慮在內就會發現有所不同:
- Morpho 正在挑戰 Aave 等老借貸產品;
- Hyperliquid 正在取代 dYdX 的鏈上衍生品,甚至是挑戰幣安的 CEX 上幣效應;
- 穩定幣正在成為鏈下場景的支付工具。
正是在 DeFi 嬗變的大背景下,AI 正在改進 DeFi 的基本邏輯,如果之前 DeFi 最大的邏輯是驗證智能合約的可行性,那麼 AI Agent 則讓 DeFi 的製造邏輯發生改變,你並不需要理解 DeFi 才能製造 DeFi 產品,這是比鏈抽象更進一步的底層賦能。
人人都是程式設計師的時代即將到來,複雜的計算可以外包給 AI Agent 背後的 LLM 和 API,而個人只需要專注於自己的想法,自然語言可以被高效轉化為程式邏輯。
結語
本文並未提及任何 Crypto AI Agent 代幣和框架,但是在這一段時間的觀察中,市場上依然缺少真正對 Crypto AI Agent 指向究竟是什麼的探討,我們不能總是在討論指針,內存變化才是本質。
免責聲明:作為區塊鏈資訊平台,本站所發布文章僅代表作者及來賓個人觀點,與 Web3Caff 立場無關。文章內的資訊僅供參考,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。