用于套利的 GNN、Transformer 与 RL:当神经网络学会交易

MarketMaker.cc Team
量化研究与策略

MarketMaker.cc Team
量化研究与策略
《期货与现货之间的复杂套利链》系列第 5 部分
想象一位国际象棋大师,他看到的不是棋盘,而是十个交易所和数百个交易对;看到的不是 32 颗棋子,而是每毫秒都在更新的数千个订单。Bellman-Ford 等经典算法诚实地遍历图,但当它们找到获利循环时,机会窗口往往已经关闭。我们需要另一种方法——不仅是算法上的,而且是学习型的。
在本文中,我们将探讨现代机器学习(ML)方法如何将混乱的多交易所市场转化为结构化任务。图神经网络(GNN)、Transformer 和强化学习(RL)智能体正在重新定义套利世界的可能性。
用于套利检测和执行的机器学习方法图景:从图神经网络到进化算法。
多交易所加密市场本质上是一个图。**节点(Nodes)**是资产(BTC、ETH、SOL)或“资产-交易所”对。**边(Edges)**是交易链接,按价差、交易量、手续费和延迟进行加权。
经典算法 Bellman-Ford 以 的复杂度解决任务。图神经网络 (GNN) 则学会识别套利机会之前的模式,类似于出租车司机对哪里会发生交通拥堵的“直觉”。
使用带有自定义边融合(Edge fusion)模块的 GraphSAGE,研究人员实现了:
use burn::prelude::*;
use burn::nn::{Linear, LinearConfig, Relu};
#[derive(Module, Debug)]
pub struct EdgeFusionModule<B: Backend> {
fc1: Linear<B>,
fc2: Linear<B>,
fc_out: Linear<B>,
relu: Relu,
}
如果由于 GNN 处理的是市场结构,那么 Transformer 处理的就是数据流。多头自注意力(Multi-head self-attention)机制可以捕捉资产和交易所之间的依赖关系,而无需明确定义谁影响谁。
注意力机制的权重显示了哪些交易所信息最丰富,以便预测目标交易所的价格。两个交易所之间注意力权重的激增通常是即将出现套利机会的信号。
强化学习 (RL) 自然地拟合了套利问题。状态(State)是订单簿、持仓和余额。行动(Action)是交易什么、在哪里交易以及交易多少。奖励(Reward)是盈利或亏损。
最令人印象深刻的结果是用于 DEX 上竞争性套利的多智能体强化学习(Multi-Agent RL)。通过协调专业智能体(CEX-DEX、跨链和三角套利),研究人员实现了 142% 的年化收益率,而基于规则的机器人仅为 12%。
**贝叶斯在线突变点检测(BOCPD)**实时检测机制变化。当市场“规则”改变时,模型会识别出来,并告诉策略暂停并重新校准。
/// 基于 BOCPD 的机制变化检测器
pub struct BocpdDetector {
lambda: f64, // P(changepoint) = 1/lambda
run_length_probs: Vec<f64>, // 运行长度分布
}
真正的力量来自集成。在 Rust 上的集成流水线如下:
总延迟预算: 通过 Rust 和 ONNX Runtime,可以实现 < 7.5 毫秒 的总流水线延迟。
套利中的机器学习不是万能钥匙,而是一套工具箱。GNN 观察结构,Transformer 合并数据,RL 执行,贝叶斯方法管理不确定性。
在本系列的最后一部分中,我们将研究此类系统的 Rust 实现细节,重点关注纳秒级精度和原子化多步执行。
正在训练你自己的智能体?请在 GitHub 上查看我们的 Rust 机器学习交易框架。