深入探討 EVM 的基礎知識

作者: Flush@慢霧安全團隊

原用標題:引介|EVM 深入探討-Part 1

導語

在智能合約世界中,“以太坊虛擬機(EVM)” 及其算法和數據結構是首要原則。我們創建的智能合約就是建立在這個基礎之上的。不管是想要成為一名出色的 Solidity 智能合約開發人員還是安全人員都必須對 EVM 有深入的了解。

此系列我們將引介翻譯 noxx 的文章(https://noxx.substack.com/),深入探討 EVM 的基礎知識。

基礎知識:Solidity → 字節碼→ 操作碼

在閱讀本篇文章之前,你需要了解一些智能合約相關基礎知識以及如何將智能合約代碼部署到以太坊鏈上。正如我們所知,智能合約在部署到以太坊網絡之前需要先將 Solidity 代碼編譯成字節碼,EVM 會根據編譯後的字節碼執行相應的操作。本篇重點介紹編譯後的字節碼以及其如何被 EVM 執行的。

智能合約被部署後編譯生成的字節碼代表了整個合約的內容,其中存在多個可調用的函數。那麼 EVM 是如何知道不同函數所對應的字節碼是哪個呢?下面我們將通過一個 Solidity 智能合約及其字節碼和操作碼來向大家演示 EVM 在執行代碼時是如何在字節碼中選擇對應的函數的。

1_Storage.sol Breakdown

我們使用在線 Solidity IDE 工具 Remix 來編譯 Storage 合約。

// SPDX-License-Identifier: GPL-3.0

pragma solidity >=0.7.0 <0.9.0;

/**
 * @title Storage
 * @dev Store & retrieve value in a variable
 */
contract Storage {

    uint256 number;

    /**
     * @dev Store value in variable
     * @param num value to store
     */
    function store(uint256 num) public {
        number = num;
    }

    /**
     * @dev Return value
     * @return value of 'number'
     */
    function retrieve() public view returns (uint256){
        return number;
    }
}

此合約中存在兩個函數 store() 和 retrieve(),在進行函數調用時 EVM 需要判斷我們調用的是哪個函數。我們可以通過 remix 看到整個合約編譯後的字節碼。

圖片

下面這段字節碼是我們需要重點關注的,這段就是 EVM 判斷被調用函數的選擇器。與其對應的是 EVM 操作碼及輸入值。

圖片

我們可以通過 Ethervm.io 來查看 EVM 操作碼列表。一個操作碼長度為 1 個字節(byte),這使得它可以存在 256 種不同的操作碼。但 EVM 僅使用其中的 140 個操作碼。

下面是我們將上述字節碼解析成與其對應的操作碼。這些操作碼會由 EVM 在調用棧上按順序執行。

圖片

智能合約函數調用

在深入研究操作碼之前,我們需要快速了解如何調用合約中的函數。調用智能合約中的函數有以下方式:

  • abi.encode(...) returns (bytes):計算參數的 ABI 編碼。
  • abi.encodePacked(...) returns (bytes):計算參數的緊密打包編碼。
  • abi. encodeWithSelector(bytes4 selector, ...) returns (bytes):計算函數選擇器和參數的 ABI 編碼。
  • abi.encodeWithSignature(string signature, ...) returns (bytes):等價於 abi.encodeWithSelector(bytes4(keccak256(signature), ...)。
  • abi.encodeCall(function functionPointer, (...)) returns (bytes memory):使用 tuple 類型參數 ABI 編碼調用 functionPointer()。執行完整的類型檢查,確保類型匹配函數簽名。結果和 abi.encodeWithSelector(functionPointer.selector, (...)) 一致。

這裡我們以第四種為例,調用 store() 並傳入參數 10:

圖片

下面是通過 abi.encodeWithSignature (" store (uint256)",10) 編碼後的內容:

圖片
圖片

這段數據就是編碼後的函數簽名。

我們可以使用在線工具(“https://emn178.github.io/online-tools/keccak_256.html”)來查看 store(uint256) 和 retrieve() 哈希後的結果。

圖片
圖片

也可以通過以太坊函數簽名數據庫(https://www.4byte.directory/signatures/)進行反查。

圖片
圖片

再回到上面的那組函數簽名數據,其中前 4 個字節對應的是 store(uint256)。而剩餘的 32 個字節則對應的是一個十六進制的值 “a”,也就是我們調用函數時傳入的 uint256 類型的 10。

圖片

這裡我們可以得到一個結論,通過 abi.encodeWithSignature() 編碼後得到的數據,共 36 個字節。這 36 個字節的數據就是函數簽名,其中前 4 個字節為函數選擇器,它將指引 EVM 去選擇我們調用的目標函數,後 32 個字節的數據則是我們調用函數時傳入的參數。

操作碼和調用棧

這里相信大家已經大致了解了智能合約中函數調用的原理了,下面我們將通過解讀每個操作碼的作用及其對棧調用的影響。如果你不熟悉棧數據結構的工作原理,可以觀看此視頻來快速入門:https://www.youtube.com/watch?v=FNZ5o9S9prU

我們將得到的字節碼分解成相對應的操作碼後依次開始分析。

  •  PUSH1 操作,將一個 1 字節的值壓入棧,它會告訴 EVM 將下一個數據字節 0x00(也是十進制的 0)壓入棧中。
圖片
  • 接下來是 CALLDATALOAD,其作用是從消息數據中讀取 32 個字節的值,其中使用 “輸入” 值作為偏移量將 calldata 加載到棧中。棧項大小為 32 字節,但是當前我們的 calldata 有 36 個字節。推送的值是 msg.data[i:i+32] 其中 “i” 就是這個輸入值。此操作確保只有 32 個字節被推送到棧,同時也能保證我們能夠訪問 calldata 中的任何部分。

當前輸入值為 0 也就是沒有偏移量(從棧中彈出的值是前一個 PUSH1 的值 0),因此 calldata 的前 32 個字節會被推送到調用棧。

還記得之前所獲取到的函數簽名嗎?如果要傳入這 36 個字節,這就意味著後面的 4 個字節 “0000000a” 將會丟失。如果想訪問這個 uint256 類型的參數,需要設置 4 的偏移量來省略函數簽名,這樣就可以保證參數的完整性。

圖片
  • 第二次進行 PUSH1 的操作將傳入十六進制的數據 0xe0,也就是十進制的 224。我們上面提到過,函數簽名是 4 個字節也就是 32 位。我們加載的 calldata 是 32 個字節也就是 256 位,而 256 - 32 =224 正好滿足。
圖片
  • SHR,是向右移位指令。它從棧中獲取第一項 224 表示要位移的位數,從棧中獲取第二項(0x6057361d0…00)表示需要移位的內容。在這個操作之後調用棧上有了 4 個字節的函數選擇器。
圖片

如果對於位移的工作原理不熟悉的小伙伴,可以查看這個視頻了解:https://www.youtube.com/watch?v=fDKUq38H2jk&t=176s

  • 接下來的操作碼, DUP1,它用來獲取並複制棧頂部的值。
圖片
  • PUSH4 將 retrieve() (0x2e64cec1) 的 4 個字節函數簽名推入調用棧。

如果你好奇是這個值是如何獲得的,那是因為 solidity 代碼被編譯成字節碼中。編譯器可以從字節碼中獲取所有函數名稱和參數類型的信息。

圖片
  • EQ 用於判斷從棧中彈出的 2 個值,在當前事例中為 0x2e64cec1 和 0x6057361d 並檢查它們是否相等。如果相等,則將 1 推回棧,如果不相等則為 0。
圖片
  • PUSH2 將 2 字節的十六進制數據 0x003b,十進制值為 59,推送到調用棧中。

調用棧中有一個叫做程序計數器的東西,它會指定下一個執行命令在字節碼中的位置。這裡的 59,是通過 retrieve() 字節碼的開始位置所得到的。

圖片
  • JUMPI 代表 “如果條件為真,則跳轉”,它從棧中彈出 2 個值作為輸入,第一個 59 表示的是跳轉位置,第二個 0 是是否應該執行此跳轉條件的布爾值。其中 1 為真,0 為假。

如果條件為真,程序計數器將被更新,執行將跳轉到該位置。但我們的例子中條件為假的,程序計數器沒有改變並且繼續執行。

圖片
  • 再次進行 DUP1。
圖片
  • PUSH4 將 store(uint256) (0x6057361d) 的 4 字節函數簽名推送到調用棧上。
圖片
  • 再次進行 EQ,但這次結果為真,因為函數簽名相同。
圖片
  • PUSH2 推送 2 個字節的十六進制數據 0x0059 也就是十進制的 89, 到 store(uint256) 字節碼的程序計數器位置。
圖片
  • 執行 JUMPI,此次 bool 值為真,執行跳轉。因此會將程序計數器更新為 89,這會將執行移動到字節碼的不同部分。在這個位置,會有一個 JUMPDEST 操作碼,如果沒有這個操作碼在這裡的話,JUMPI 操作就會失敗。
圖片

有了它,在執行此操作碼後,將被帶到 store(uint256) 對應的字節碼的位置,並且函數的執行將繼續。雖然這個合約只有 2 個函數,但基礎原理都是相同的。

通過上面的例子我們知道了 EVM 是如何根據合約函數調用來確定它需要執行的函數字節碼的位置。簡單來說就是由合約中每個函數及其跳轉位置所組成的一組簡單的 “if 語句”。

EVM Playground

這是一個 EVM Playground(https://www.evm.codes/playground)測試平台,在平台上我們可以設置剛剛運行的字節碼。就能夠通過交互方式來查看棧的變化,並且傳入 JUMPDEST(注:可能跳轉的目標元數據),可以看到 JUMPI 之後會發生什麼。

圖片

EVM Playgrpund 還能有助於我們理解程序計數器的運行,每條命令旁都能看到相對應的註釋以及偏移量所代表的程序計數器的位置,同時在左邊框內還能看到 calldata 的輸入。當點擊運行指令,可以通過右上角的箭頭單步調試每個操作碼例如更改為 retrieve() 調用數據 0x2e64cec1 來查看執行的變化。

敬請期待《EVM 深入探討-Part 2》,讓我們共同探索合約內存是什麼以及它在 EVM 下的工作方式。

免責聲明:作為區塊鏈信息平台,本站所發布文章僅代表作者及嘉賓個人觀點,與 Web3Caff 立場無關。本文內容僅用於信息分享,均不構成任何投資建議及要約,並請您遵守所在國家或地區的相關法律法規。