本文將測評 MinMax、QnA3 以及 Web3 Analytics 等 AI 驅動的 Web3 對話機器人,從理解、生成、學習與優化等能力進行多視角對比,綜合評判使用體驗以及智慧程度。
封面:Photo by vackground.com on Unsplash
去年年底 chatGPT 大火之後, Web3 領域的「時尚弄潮兒」紛紛探索起了「AI + Web3」無限可能。 相比於有完整知識體系的傳統行業而言,作為一個尚未形成完整學習機制的新生世界而言, Web3 似乎更需要有像 chatGPT 一樣能夠在關鍵時刻給點靈感、及時答疑的角色。
雖然當前 “ AI + Web3 ” 的熱點話題仍然在 Worldcoin 等身份識別網路, Telegram Bot 敘事的 Unibot 、 Lootbot ,以及 zkML 等未來可能與擴容解決方案有進一步聯動的技術之上,但社區中陸續出現了 MinMax 、 QnA3 以及 Web3 Analytics 等 AI 驅動的對話機器人,也能證明已經有團隊注意到了 Web3 在知識傳達方面的空缺,並想要做 Web3 專業領域的 chatGPT 。 本文將測評上述三種 Web3 對話機器人,從理解、生成、學習與優化等能力進行多視角對比,綜合評判使用體驗以及智慧程度。
測評指標
測評第一步,當然是新建文件夾設計一系列評判指標。 對於一個交互模型而言,用戶體驗分別來自交互過程以及模型的智慧程度。 交互體驗將主要聚焦於 UI 設計,而模型智慧程度的衡量將包含以下幾個方面:
1. 理解 &生成能力:
- 能夠準確理解使用者輸入的問題,聯繫上下文,並生成自然、流暢且有邏輯的回復
- 在回答中能夠做到表達清晰、簡潔明瞭,並對解決問題導向的提問能提供有用的解決方案和建議
- 能夠提供有用的解決方案和建議
2. 學習 &交互優化能力:
- 能夠通過使用者提供的資料與數據源中,總結並給出準確的資訊和答案
- 能夠不斷學習和提升對於特定行業的理解和背景知識
- 能夠從與使用者的互動中進行推理,並能夠通過交互改進回答
- 能夠根據用戶反饋和行為進行優化,提供更好的用戶體驗
3. 多語言處理:
- 能夠理解和回應多種語言的回答,包括自然語言和機器語言
- 能夠提供清晰、準確並符合語言習慣的回答
交互體驗
MinMax
直觀感受,預設黑色背景,綠色文字,合理懷疑 UI 團隊堅信 “ Keep the bar green to keep the code clean ”(又或是單純出於護眼)。 由於人眼對綠色高敏感度, MinMax UI 第一眼看到的是 Popular Queries 和 Popular Questions 模組,直接將搜索量較高的概念與問題直接展示給使用者,算是利用了一把 “從眾心理”,點擊之後一鍵跳轉到相關概念和問題介面中。
美中不足的一點是,這兩個模組詞雲的設計可能是基於搜索量改變字體大小,從而強調搜索次數多的概念與問題,然而可能由於當前使用者較少,或搜索次數過於平均,詞雲中並沒有展現出更直觀的對比。 詞雲的優勢仍然需要後續採用量提高、搜索差異化增強之後才會顯現出來。
畢竟 Minmax 的定位就是搜尋引擎,所以對機器人的強調也僅限於主頁的小白框。
聊天機器人介面,依然是祖傳的黑綠配色,自動生成一條打招呼消息,並依然附帶幾條「熱搜」。。 總之, MinMax 聊天介面相當簡潔,同時因為本身定位是搜尋引擎,所以相當喜歡在聊天過程中搞點資訊聯想。
除此之外, MinMax 可以直接通過郵箱、 Google 、 Twitter 或 Facebook 登陸,甚至不要求使用者擁有錢包,相對更加萌新友好。
Web3 Analytics
與 MinMax 相比, Web3 Analytics 的設計就是一個純粹的聊天機器人,首頁就是聊天介面,黑藍配色夢回經典 Visual Studio ,左側邊欄歷史回話以及右側反饋功能仍待開發。 歷史回話不用說,反饋部分將怎樣呈現還是值得繼續關注的。
W eb 3 Analytics 自動生成的打招呼消息除了熱搜詞條,更多的是強調了 Telegram 、 Discord 等社媒以及專案代幣 W AI 。 對 Telegram 和 Discord 的強調,大概是源於 W eb 3 Analytics 也是 Telegram / Discrod Bot 敘事的參與者。 值得注意的是,團隊引入了「Train AI to Earn」的概念,可以通過向機器人提問獲取專案代幣。 也正因為涉及到代幣,所以要求錢包登入,且如果是在沒登陸的情況下向機器人提問,至多 3 個問題之後,網頁就會持續提示需要登陸並獲取 W AI ,並且完全不能在不登陸的情況下繼續使用。
QnA3
不同於以上兩個機器人濃郁的程序師風格, QnA3 這個粉紫配色直接多巴胺起來了。 首頁展示熱搜問題並推出了「Vote to Earn」功能,因為涉及到積分和日後的代幣兌換, QnA3 因而要求使用者通過錢包登陸。 目前獲取積分共有兩種模式:
- Vote to Earn :成功押准了前三名問題的使用者可以獲得積分。
- Ask to Earn :通過完成每日提問任務,兌換項目積分。
目前 QnA3 部署在 BNB Chain 上,積分領取需要支付 Gas ,後續可用於兌換專案代幣空投。 又是一個要發幣的專案,因此, QnA3 登陸也需要通過錢包位址,方便日後 Tokenomics 變現的後續操作。
此外, QnA3 首頁還有快訊選項,通過「巨鯨在問」拿捏使用者,吸引流量推動其點進跳轉頁面進行持續關注。
不過簡中模式下,「巨鯨在問」連結點進去一會中文一會英語,屬實還值得繼續優化一下。
模型智慧度測評
注:由於 QnA3 在對話過程中會有 Knowledge Graph 和 Web3 News 兩部分回答,前者通過知識圖譜從資料庫中獲取資訊後者則是相關諮詢的集成,所以在模型智慧度測評中, QnA3 會涵蓋兩個機器人的回答內容。
1. 理解 &生成能力
– 關於理解能力:
對萌新來講,接觸 Web3 的第一天可能就會從各種各樣的資料上瞭解共識機制與演算法。 但時間久了,可能腦子裡也就剩下 PoW 和 PoS 了,不如也趁此復健一下。
先看看 chatGPT 老师怎么说:
MinMax
Web3 Analytics
QnA3
关于共识算法的回答,乍一看三个机器人都给出了合理的解释,并且都清晰的分条列举,但仔细瞧瞧,发现 QnA3 Knowledge Graph 在浑水摸鱼,可能是由于知识图谱数据库中索引或遍历时的问题, PoW 和 PoS 的相关内容输出了两遍。
就具体内容而言,三方对常见共识算法的介绍基本都囊括了 PoS 、 PoW 、 D PoS 以及 PBFT(拜占庭容错),但具体解释的内容稍显苍白,比如 MinMax 对 PBFT 的解释是 “ PBFT 是一种拜占庭容错算法,通过达成共识来处理拜占庭故障”,这像不像我问 “番茄炒蛋是什么一道菜”,机器人答 “番茄炒蛋是一道菜,需要使用番茄和鸡蛋来炒” 一样,用户没有获得字面意思以外的信息增量。
准确性在模型训练过程中固然重要,尽可能避免 “答非所问” 也必定是最终目的之一,但 AI 的回答有时过于追求 “准确” 而输出了一堆 “废话”,这也应该算是严重的模型过拟合现象了。因此,这里认为后续算法的进一步优化,可以考虑在准确测度之上,增加一些诉诸个性化与差异化回答的指标。
– 关于联系上下文:
对话到这里还比较正常,直到我追问机器人,让他帮我具体解释上一个问题中提到的第一种共识算法(PoW)。 我设想的回答 from chatGPT:
MinMax
能在这个问题上加分的唯一 AI,回答也相当有逻辑,先后提到了 PoW 的应用、核心思想、共识流程、优缺点以及缺点的改善。
Web3 Analytics
這位給出了和 Web3 毫不相干的回答, 開始懷疑團隊里來自國內外名校的成員是不是也包含羅翔老師......
QnA3
相比較 Web3 Analytics 生成的和 Web3 基本完全無關的內容, QnA3 的兩個模型生成的內容起碼和 Web3 有點關聯,但也並沒有完全理解我問題中的 “第一種” 指的是什麼, Knowledge Graph 甚至語言錯亂,輸出了英文內容。
Web3 News 理解了問題的意圖,但顯然沒理解「第一種」指代的是什麼,同時還出現了「第一種比特幣是指比特幣」之類的廢話文學。
總之,從上下文聯動能力來看,目前三類對話 AI ,能過關的只有 MinMax 。
-關於生成能力
這裡還是考慮文本向的生成能力,先讓 AI 簡要闡述 PoW 與 PoS 的區別,再讓 AI 通過表格形式輸出。
chatGPT
注: chatGPT 這裏也沒有注意到前半句的暗示。
MinMax
表格可以說是比較清晰地從不同角度對兩者的區別分別進行簡要闡述,同時在對話結束之前增加了相關資源連結,可以供用戶進一步瞭解個人更感興趣的部分。
但 MinMax 沒有理解我在前半句的暗示,並沒有提供概括性的解釋。
Web3 Analytics
Web3 Analytics 則是理解了前半句,簡要輸出了 PoW 與 PoS 的區別,並非常嚴謹地標註了資訊來源。
而在表格部分,內容上, Web3 Analytics 好像腦補出了一場商戰大戲, PoS 直接成了按照股份和/或年齡選擇礦工的機制,同時表格本身也實在是有點過於質樸了。
QnA3
QnA3 確實是三者中在理解和表格輸出方面相對最好的。
表格要點完整,也有總結, 從內容角度上來講是四個回答里最完整的,但就是不知道 Knowledge Graph 為什麼總熱衷於在語文試卷上用英語答題。
QnA3 Web3 News 的回答相對來講是幾個機器人中最符合要求的,既做到了先闡述兩者的區別(甚至還通過分點,讓回答看起來更有條理),同時也輸出了一個涉及到不同方面的對照表格。
因此,在功能性生成上,可以優先考慮 QnA3 和 MinMax ,畢竟表格基本是可以截圖就用的。
2. 學習能力
判斷一個 AI 模型的學習能力,首先要先找到一個並不存在於其當前資料庫中的「新知識」。 但通過對反覆對話,我還沒有找到三個 AI 模型同時都無法回答的問題。 因此,對於 MinMax 和 Web3 Analytics ,用於判斷其學習能力的問題是 NFT 綁定帳戶的新標準 ERC -6551,而對於已經瞭解了 ERC -6551 並能輸出一定細節的 QnA3 ,問題則是 MakeDAO 於今天發佈的最新治理提案。
MinMax
在提供了相應的信息之後, MinMax 就可以從中進行資訊整合,輸出的內容也算是觸及到了 ERC -6551 的核心思想,雖然不涉及到太多技術上的創新,但如果對於完全不知道 ERC -6551 是什麼且想要快速瞭解的標準基本內容的小白來講,內容已經足夠了。
順便問了下 MakeDAO 的問題。
總之,雖然不能做到實時數據抓取與保持訓練集實效性,但就單從「學習」角度來講,在提供目標內容之後,MinMax 確實可以將「學習成果」清晰且有邏輯地展示出來。
Web3 Analytics
即便是提供了 ERC -6551 標準的具體內容, Web3 Analytics 也沒能對其進行總結, 而是輸出了一篇擴展文章中 ERC -6551 的簡介部分,查重率高達 80%。
同樣,這裡也貼一下 Web3 Analytics 關於 MakerDAO 最新提案的回答:
可見,對於已經納入數據集的資訊, Web3 Analytics 其實是具有將其分點輸出的能力的。 因此,單就學習能力而言,或許 WA 團隊仍然需要優化一下 AI 針對使用者提供的外部資訊進行總結與輸出的能力。
QnA3
或許是由於一周末的數據集更新, QnA3 Web3 News 已經可以輸出 MakerDAO 上週五發佈的最新提案了,然而 Knowledge Graph 資訊仍然還停留在今年五月。
提供 MakerDAO 最新提案的相關鏈接之後, Knowledge Graph 依然沒有輸出提案中最關鍵的 DSR 調整問題。 因此, Knowledge Graph 的學習能力還是需要進一步優化的。
總之,雖然數據集的更新可能有點更不上 Web3 技術反覆運算的速度,但就模型對外部知識的學習能力而言,可以優先考慮 MinMax 。 Web3 Analytics 和 QnA3 雖然有著相對高效的資訊反覆運算,但整體學習能力還有待提升。
3. 多語言處理能力
– 自然語言
為了滿足當前全球化背景下 Web3 世界對於無障礙跨文化溝通的需求,就要求 AI 具備一定的多語言內容創作與資訊檢索能力。
單就中文和英文來講, MinMax 與 Web3 Analytics 可以無障礙回答問題,其生成的內容也符合語言習慣。 而對於 QnA3 Knowledge Graph 來講,雖然英文內容是三個模型中品質最高的,但用英文回答中文問題也確實不太合適。 同時,即便是有時能用中文回答,內容上還是有點過於直譯,不太符合中文的語言習慣。 因此,對於內容極佳的 QnA3 Knowledge Graph 來講,進一步提高對其他語言的相容性,或許是提高採用率的可行舉措。
– 機器語言
簡要概括 AI 模型在 Web3er 日常工作中的應用:翻譯器 + debugger 。
如果說對自然語言的測試某種情況下測評了一個 AI 模型作為翻譯器的合格程度,那麼這部分就是要看看這三位是不是合格的 debugger 了。 這裡選用一段非常簡單但對 Solidity 初學者來講非常容易出錯的代碼:
簡單解釋一下,代碼中出錯的點在於 pure 關鍵字不能改變鏈上狀態,通俗點來講就是帶有 pure 後綴的函數,可以理解為只能乾瞪眼 “純” 看,並不能對任何變數進行修改,也就是說第五行讓 number + 1 的操作不可能實現。 注:站在 Solidity 初學者的立場,對 debugger 的要求——需要模型指出錯誤所在的地方,給出相應解釋,並修改代碼。
請 GPT 老師打個樣:
MinMax
我:可以幫我 debug 嗎?
MinMax :我可以,我裝的
像極了我一看代碼就宕機的腦袋, MinMax 在 debug 的過程中直接報錯並終止對話。 除此之外, MinMax 顯示出的代碼框明顯也需要修改,終於找到了精通外部學習與自然語言交流的 MinMax 目前唯一的短板。
Web3 Analytics
Web3 Analytics 理解能力再扣一分,痛失主语省略权。
虽然在某些对话中显得不太智能,但 Web3 Analytics 在 debug 方面的能力还是令人满意的。既解释了代码中出现的基础概念,以及错误的来源,给出了修改的代码,同时还在最后简单解释了错误代码在合约部署方面的现实意义。好吧,可以暂且原谅他剥夺了我的主语省略权。
QnA3
从调试的角度来看, QnA3 没有任何问题,指出错误所在并进行相应修改,完全符合本部分开头的要求。美中不足的是,代码块字体颜色和背景过于接近,或许还需要 UI 方向进一步的改进。
PS :不过测评了这么久, QnA3 Web3 News 只会给出部分问题的回答,当事人并没有搞清楚触发 Web3 News 回答的条件;同时对于 Knowledge Graph 提到的第一个问题,印象中合约简单可以不需要强制写 constructor(如有错误还请纠正)
总之,除了 MinMax 这位 debug 靠演的选手, Web3 Analytics 同 QnA3 虽然各自还有一点小缺陷,但大体上也具备成为合格 debug ger 的资格。不过,既然还有小缺点,为什么不直接用 chatGPT 呢?
小结
Web3 对话 AI 模型基本具备一定的理解、生成与学习能力,也能够处理多语言回答,并充当程序员的好伙伴。这些 “基本素养” 对于当前仅仅了解基础概念,想要了解更多相关知识框架的萌新来说, Web3 对话 AI 可以生成可供参考的逻辑框架。
然而对于已经在领域深耕的人来说(或许这部分人也根本想不到要用对话机器人解决问题吧), AI 的职能似乎就仅限于做一些表格生成、概括总结之类的 “碎活”,从内容增量还是个性化观点上都无法提供进一步的参考。总之,个人认为随着人们对 Web3 领域认知逐渐增强,达到一定的临界点后,模型能提供的内容增量将逐渐趋于 0。
值得注意的是,除了本文中測評的 MinMax、 Web3 Analytics 與 QnA3 之外,同類型的 AI 對話模型 SuperSight 目前正在進行內測,越來越多類似工具的湧現,一方面揭示了市場對於 “ AI + Web3 ” 融合趨勢的重視與對使用者需求的思考,另一方面,對於專案方來講,後續做出產品特色避免 “重複造輪子” 現象,也應當放在產品反覆運算計劃之中。 然而對於目前的技術水準和全市場而言, Web3 AI 對話模型的實用性和泛用性仍有待加強,或許大規模應用還要等到人工智慧技術與機器學習演算法進一步增強,以及 Web3 + AI 深度融合的未來才能實現。
免責聲明:作為區塊鏈資訊平臺,本站所發佈文章僅代表作者及嘉賓個人觀點,與 Web3Caff 立場無關。 本文內容僅用於資訊分享,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。