AI 技術堆疊是一個由硬體和軟體構成的分層架構,它是當前 AI 革命的支柱。在這裡,我們將深入分析技術堆疊的主要層次,並闡述每個層次對 AI 開發和實施的貢獻。最後,我們將反思掌握這些基礎知識的重要性,特別是在評估加密貨幣與 AI 交叉領域的機會。

作者: IOSG Ventures

原文標題: IOSG Weekly Brief|人工智慧訓練與推理技術堆疊:從矽到智慧 #237

封面: Photo by Katie Rainbow on Unsplash

圖片

本文僅供學習交流使用,不構成任何投資建議。轉載請註明出處,並與 IOSG 團隊聯繫以取得授權及轉載須知。文章中提及的所有項目並非推薦或投資建議。

圖片

人工智慧的快速發展是基於複雜的基礎設施。 AI 技術堆疊是一個由硬體和軟體構成的分層架構,它是當前 AI 革命的支柱。在這裡,我們將深入分析技術堆疊的主要層次,並闡述每個層次對 AI 開發和實施的貢獻。最後,我們將反思掌握這些基礎知識的重要性,特別是在評估加密貨幣與 AI 交叉領域的機會時,例如 DePIN(去中心化實體基礎設施)項目,例如 GPU 網路。 

1.硬體層: 矽基礎 

在最底層是硬件,它為人工智慧提供物理運算能力。

CPU(中央處理器):是運算的基礎處理器。它們擅長處理順序任務,對於通用計算非常重要,包括資料預處理、小規模人工智慧任務以及協調其他元件。

GPU(圖形處理器):最初設計用於圖形渲染,但因其能夠同時執行大量簡單計算而成為人工智慧的重要組成部分。這種平行處理能力使 GPU 非常適合訓練深度學習模型,沒有 GPU 的發展,現代的 GPT 模型就無法實現。

AI 加速器:專為人工智慧工作負載設計的晶片,它們針對常見的人工智慧操作進行了優化,為訓練和推理任務提供了高性能和高能效。

FPGA(可程式陣列邏輯):以其可重編程的特性提供彈性。它們可以針對特定的人工智慧任務進行最佳化,特別是在需要低延遲的推理場景中。

圖片

2. 底層軟體: 中介軟體

AI 技術堆疊中的這一層至關重要,因為它建構了高階 AI 框架與底層硬體之間的橋樑。 CUDA、ROCm、OneAPI 和 SNPE 等技術加強了高階框架與特定硬體架構之間的聯繫,實現了效能的最佳化。

作為 NVIDIA 的專有軟體層,CUDA 是該公司在 AI 硬體市場崛起的基石。 NVIDIA 的領導地位不僅源自於其硬體優勢,更體現了其軟體和生態系統整合的強大網路效應。

CUDA 之所以具有如此大的影響力,是因為它深度融入了 AI 技術棧,並提供了一整套已成為該領域事實上標準的優化庫。這個軟體生態建構了一個強大的網路效應:精通 CUDA 的 AI 研究人員和開發者在訓練過程中將其使用傳播到學術界和產業界。

由此產生的良性循環強化了 NVIDIA 的市場領導地位, 因為基於 CUDA 的工具和庫生態系統對 AI 從業者來說變得越來越不可或缺。

這種軟硬體的共生不僅鞏固了 NVIDIA 在 AI 計算前沿的地位,還賦予了公司顯著的定價能力,這在通常商品化的硬體市場中是罕見的。

CUDA 的主導地位和其競爭對手的相對默默無聞可以歸因於一系列因素, 這些因素創造了顯著的進入障礙。 NVIDIA 在 GPU 加速運算領域的先發優勢使 CUDA 能夠在競爭對手站穩腳跟之前建立起強大的生態系統。儘管 AMD 和 Intel 等競爭對手擁有出色的硬件,但他們的軟體層缺乏必要的庫和工具,並且無法與現有技術堆疊無縫集成,這就是 NVIDIA/CUDA 與其他競爭對手之間存在巨大差距的原因。

3. 編譯器: 翻譯者

TVM(張量虛擬機)、MLIR(多層中間表示) 和 PlaidML 為跨多種硬體架構最佳化 AI 工作負載的挑戰提供了不同的解決方案。

TVM 源自於華盛頓大學的研究,因其能夠為各種設備 (從高性能 GPU 到資源受限的邊緣設備) 優化深度學習模型而迅速獲得關注。其優勢在於端到端的最佳化流程,在推理場景中特別有效。它完全抽象化了底層供應商和硬體的差異,使得推理工作負載能夠在不同硬體上無縫運行,無論是 NVIDIA 設備還是到 AMD、Intel 等。

然而,在推理之外,情況變得更加複雜。 AI 訓練的硬體可替代計算這一終極目標仍未解決。不過, 在這方面有幾個值得一提的倡議。

MLIR,Google 的項目,採用了更基礎的方法。透過為多個抽象層級提供統一的中間表示,它旨在簡化整個編譯器基礎設施,以針對推理和訓練案例。

PlaidML,現在由 Intel 領導,將自己定位為這場競賽中的黑馬。它專注於跨多種硬體架構 (包括傳統 AI 加速器之外的架構) 的可移植性,並展望了 AI 工作負載在各類運算平台上無縫運行的未來。

如果這些編譯器中的任何一個能夠很好地整合到技術堆疊中,不影響模型效能,也不需要開發人員進行任何額外修改,這極可能威脅到 CUDA 的護城河。然而,目前 MLIR 和 PlaidML 還不夠成熟,也沒有很好地整合到人工智慧技術堆疊中,因此它們目前不會對 CUDA 的領導地位有明顯威脅。

圖片

4. 分散式計算: 協調者

Ray 和 Horovod 代表了 AI 領域分散式運算的兩種不同方法,每種方法都解決了大規模 AI 應用中可擴展處理的關鍵需求。

由 UC Berkeley 的 RISELab 開發的 Ray 是一個通用分散式計算框架。它在靈活性方面表現出色,允許分配機器學習之外的各種類型的工作負載。 Ray 中基於 actor 的模型極大簡化了 Python 程式碼的平行化過程,使其特別適用於強化學習和其他其他需要複雜及多樣化工作流程的人工智慧任務。

Horovod,最初由 Uber 設計,專注於深度學習的分散式實作。它為在多個 GPU 和伺服器節點上擴展深度學習訓練過程提供了一種簡潔而高效的解決方案。 Horovod 的亮點在於它的用戶友好性和對神經網路資料並行訓練的優化,這使得它能夠與 TensorFlow、PyTorch 等主流深度學習框架完美融合,讓開發人員能夠輕鬆地擴展他們的現有訓練程式碼,而無需進行大量的程式碼修改。

5. 結束語: 從加密貨幣角度

與現有 AI 堆疊的整合對於旨在建立分散式計算系統的 DePin 專案至關重要。這種整合確保了與當前 AI 工作流程和工具的兼容性,降低了採用的門檻。

在加密貨幣領域,目前的 GPU 網絡,本質上是一個去中心化的 GPU 租賃平台,這標誌著向更複雜的分散式 AI 基礎設施邁出的初步步伐。這些平台更像是 Airbnb 式的市場,而不是作為分散式雲端來運作。儘管它們對某些應用有用,但這些平台還不足以支援真正的分散式訓練,而這正是推動大規模 AI 開發的關鍵需求。

像 Ray 和 Horovod 這樣的當前分散式運算標準,並非為全球分散式網路設計,對於真正工作的去中心化網絡,我們需要在這一層上開發另一個框架。一些懷疑論者甚至認為,由於 Transformer 模型在學習過程中需要密集的通訊和全局函數的最佳化,它們與分散式訓練方法不相容。另一方面,樂觀主義者正在嘗試提出新的分散式運算框架,這些框架可以很好地與全球分佈的硬體配合。 Yotta 就是試圖解決這個問題的新創公司之一。

NeuroMesh 更進一步。它以一種特別創新的方式重新設計了機器學習過程。透過使用預測編碼網路 (PCN) 去尋找局部誤差最小化的收斂,而不是直接去尋找全域損失函數的最優解,NeuroMesh 解決了分散式 AI 訓練的一個根本瓶頸。

這種方法不僅實現了前所未有的平行化,也使在消費級 GPU 硬體 (如 RTX 4090) 上進行模型訓練成為可能,從而使 AI 訓練民主化。具體來說,4090 GPU 的運算能力與 H100 相似,但由於頻寬不足,在模型訓練過程中它們未被充分利用。由於 PCN 降低了頻寬的重要性,使得利用這些低端 GPU 成為可能,這可能會帶來顯著的成本節省和效率提升。

GenSyn,另一家雄心勃勃的加密 AI 新創公司,以建立一套編譯器為目標。 Gensyn 的編譯器允許任何類型的計算硬體無縫用於 AI 工作負載。打個比方,就像 TVM 對推理的作用一樣,GenSyn 正試圖為模型訓練建立類似的工具。

如果成功, 它可以顯著擴展去中心化 AI 計算網絡的能力,通過高效利用各種硬體來處理更複雜和多樣化的 AI 任務。這個雄心勃勃的願景,雖然由於跨多樣化硬體架構優化的複雜性和高技術風險而具有挑戰性,但如果他們能夠執行這一願景,克服諸如保持異構系統性能等障礙,這項技術可能會削弱 CUDA 和 NVIDIA 的護城河。

關於推理:Hyperbolic 的方法,將可驗證推理與異質運算資源的去中心化網路結合,體現了相對務實的策略。透過利用 TVM 等編譯器標準,Hyperbolic 可以利用廣泛的硬體配置,同時保持效能和可靠性。它可以聚合來自多個供應商的晶片 (從 NVIDIA 到 AMD、Intel 等),包括消費級硬體和高效能硬體。

這些在加密 AI 交叉領域的發展預示著一個未來,AI 計算可能變得更加分散、高效和可存取。這些專案的成功不僅取決於它們的技術優勢,還取決於它們與現有 AI 工作流程無縫整合的能力,以及解決 AI 從業者和企業實際關切的能力。

免責聲明:作為區塊鏈資訊平台,本站所發布文章僅代表作者及來賓個人觀點,與 Web3Caff 立場無關。文章內的資訊僅供參考,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。