大語言模型(LLM)將如何助力區塊鏈?

作者:Yiping,IOSG Ventures

本文為 IOSG 原創內容,僅做行業學習交流之用,不構成任何投資參考。 如需引用,請註明來源,轉載請聯繫 IOSG 團隊獲取授權及轉載須知。

寫在前面

  • 隨著大語言模型(LLM)日益蓬勃,我們看見不少專案正在將人工智慧(AI)和區塊鏈融合。 LLM 和區塊鏈的結合越來越多,我們也看到人工智慧重新與區塊鏈融合的機會。 其中值得一提的,當屬零知識機器學習(ZKML)。
  • 人工智慧和區塊鏈是兩種具有根本性差異特徵的變革性技術。 人工智慧需要強大的計算能力,通常由中心化的數據中心提供。 而區塊鏈提供了去中心化的計算和隱私保護,在需要進行大規模計算和存儲任務上表現不佳。 我們仍在探索和研究人工智慧和區塊鏈集成的最佳實踐,後續也將向大家介紹目前一些 “AI + 區塊鏈” 結合的專案案例。
圖片
Source: IOSG Ventures

本篇研究報告分為上下兩部發表,本文為上部,我們將重點關注 LLM 在加密領域的應用,並探討應用落地的策略。

LLM 是什麼?

LLM(大語言模型)是一種計算機化語言模型,由一個具有大量參數(通常為數十億)的人工神經網路組成。 這些模型在大量未標記的文本上進行訓練。

2018 年前後,LLM 的誕生徹底改變了自然語言處理的研究。 與以往需要為特定任務訓練特定監督模型的方法不同,LLM 作為一個通用模型,在各種任務上都表現出色。 其能力和應用包括:

  • 理解和總結文本:LLM 可以理解和總結大量的人類語言和文本數據。 它們可以提取關鍵資訊並生成簡潔的摘要。
  • 生成新內:LLM 具有生成基於文本內容的能力。 通過向模型提供 prompt,它可以回答問題、新生成的文本、摘要或情感分析。
  • 翻譯:LLM 可用於在不同語言之間進行翻譯。 它們利用深度學習演算法和神經網路來理解詞彙之間的上下文和關係。
  • 預測和生成文本:LLM 可以基於上下文背景預測並生成文本,與人類生成的內容類似,包括歌曲、詩歌、故事、行銷材料等。
  • 在各個領域的應用:大型語言模型在自然語言處理任務中具有廣泛的適用性。 它們被用於對話式人工智慧、聊天機器人、醫療保健、軟體開發、搜尋引擎、輔導、寫作工具等眾多領域。

LLM 的优势包括其对大量数据的理解能力、执行多种语言相关任务的能力,以及根据用户需求定制化结果的潜力。

常见的大型语言模型应用

由于其出众得自然语言理解能力,LLM 具有相当大的潜力,而开发者主要关注以下两个方面:

  • 基于大量的上下文数据和内容,为用户提供准确的并且最新的答案
  • 通过使用不同的代理和工具完成用户下达的特定任务

正是这两个方面让与 XX 聊天的 LLM 应用如雨后春笋般爆发。例如,与 PDF 聊天、与文档聊天以及与学术论文聊天。

随后,人们尝试将 LLM 与各种数据源融合。开发者已成功将平台,如 Github、Notion 和一些笔记软件与 LLM 整合。

為了克服 LLM 固有的限制,不同的工具被納入了系統中。 第一個這樣的工具是搜尋引擎,為 LLM 提供了訪問最新知識的能力。 進一步的進展將把 WolframAlpha、Google Suites 和 Etherscan 等工具與大型語言模型整合。

LLM Apps 的架構

下圖概述了 LLM 應用在回應使用者查詢時的流程:首先,相關的數據源被轉換為嵌入向量並存儲在向量資料庫中。 LLM 適配器使用用戶查詢和相似性搜索從向量資料庫中找到相關的上下文。 相關的上下文被放入 Prompt 中併發送給 LLM 。 LLM 將執行這些 Prompt,並使用工具生成回答。 有時,LLM 會在特定數據集上進行調優,以提高準確性並降低成本。

LLM 應用的工作流程可以大致分為三個主要階段:

  1. 數據準備和嵌入:該階段涉及將機密資訊(例如項目備忘錄)保留以供將來訪問。 通常,檔會被分割,並通過嵌入模型進行處理,保存在一種特殊類型的資料庫中,稱為向量資料庫。
  2. Prompt 的構建(Formulation)和提取(Extraction):當使用者提交搜索請求(在本例中,搜索專案資訊)時,軟體會創建一系列 Prompt,輸入到語言模型中。 最終的 Prompt 通常包含由軟體開發人員硬編碼的提示範本,作為 few-shot 示例的有效輸出示例,以及從外部 API 獲取的任何所需數以及向量資料庫中提取的相關文件。
  3. Prompt 的執行和推理:完成 Prompt 後,將它們提供給預先存在的語言模型進行推理,這可能包括專有模型 API 、開源或經過個別微調的模型。 在此階段,一些開發人員可能還會將操作系統(如日誌記錄、緩存和驗證)整合到系統中。

將 LLM 引入加密領域

儘管加密領域(Web3)與 Web2 有一些類似的應用,但在加密領域中開發出優秀的 LLM 應用需要尤其謹慎。

加密生態系統獨特,具有其特有的文化、數據和融合性。 在這些加密限定的數據集上微調的 LLM 可以以相對較低的成本提供優越的結果。 雖然數據豐富可得,但在類似 HuggingFace 等平台上明顯缺乏開放數據集的。 目前,只有一個與智慧合約相關的數據集,其中包含 11.3 萬個智慧合約。

開發者還面臨將不同工具整合到 LLM 中的挑戰。 這些工具與 Web2 中使用的工具不同,它們賦予 LLM 訪問與交易相關的數據、與去中心化應用(Dapp)互動以及執行交易的能力。 到目前為止,我們還沒有在 Langchain 中找到任何 Dapp 的集成。

儘管開發高品質的加密 LLM 應用可能需要額外的投入,但 LLM 天然適合加密領域。 這個領域提供了豐富的、乾淨的、結構化的數據。 再加上 Solidity 代碼通常簡潔明瞭,這使得 LLM 更容易生成功能性的代碼。

在《下部》中,我们将讨论 LLM 可以帮助区块链领域的 8 个潜在方向,如:

  • 将内置的人工智能/LLM 功能集成到区块链中
  • 使用 LLM 分析交易记录
  • 使用 LLM 识别潜在的机器人
  • 使用 LLM 编写代码
  • 使用 LLM 阅读代码
  • 使用 LLM 幫助社區
  • 使用 LLM 跟蹤市場
  • 使用 LLM 分析專案

敬請期待!

免責聲明:作為區塊鏈資訊平臺,本站所發佈文章僅代表作者及嘉賓個人觀點,與 Web3Caff 立場無關。 本文內容僅用於資訊分享,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。