Anoma 基础知识

Slow Games

这篇文章是对《慢速博弈;不确定性下的政策执行》的总结。我们通过回顾概念框架、有损压缩模型、一个示例博弈模型、模拟和未来方向来探讨慢速博弈。

前言

本文基于 D Reusche、Christopher Goes 和 Nicolas Della Penna 撰写的 Anoma 研究主题《慢速博弈:不确定性下的政策执行》进行总结。所有功劳归功于作者。感谢 D 和 Chris 提供的反馈和审阅。任何错误都是我自己的。

介绍

慢速博弈是一种委托-代理问题。委托-代理问题(PAP)是指当一个实体代表另一个实体采取行动时,存在潜在的利益冲突。

慢速博弈中有两个参与者。

操作者 - 服务操作者。这是代理人。

监管者 - 尝试执行操作者提供的服务政策。这是委托人。

监管者行动比操作者慢,在某些情况下也不够复杂。关键在于,监管者衡量操作者行为的时间比操作者慢。这引入了不确定性,取决于两个参与者之间的速度差异。

在 Anoma 中,慢速游戏的例子包括:

  • 求解器选择
  • 控制器选择

慢速游戏报告介绍了一个受有损压缩问题启发的框架来建模这类游戏。报告展示了从最小示例中进行的模拟结果(实证分析)。报告最后探讨了未来的研究方向,包括慢速游戏的组合、慢速游戏中的操作员串通以及 Anoma 的应用建模。

概念框架

至少,一个缓慢游戏的实例包括:

快速代理 f 执行操作。这个代理可能是一个协调的群体,例如解决者网络。快速代理的身份、可执行的操作空间以及执行特定操作的代价/奖励(权衡)是每个缓慢游戏实例特有的。

缓慢代理 s 进行 m 次测量。这个代理可能是一组协调的用户或社区成员。缓慢代理 s 的细节,如他们的身份、进行哪些测量、测量的频率以及成本,是每个缓慢游戏实例特有的。

世界模型 w 决定了第一个智能体的行为如何随时间影响慢速智能体进行的测量。世界模型可能完全未知,也可能部分已知,其性质具体取决于慢速游戏的每个实例。

监管机制 r,允许慢速代理 s 惩罚或奖励快速代理 f。惩罚或奖励取决于随时间进行的测量 m。惩罚和奖励的性质针对慢速游戏的每个实例都是特定的。

目标世界配置 t 由慢代理 s 选择。目标世界配置 t 可能包括快代理 f 采取的行动、慢代理 s 进行的测量 m,或世界状态的可推断变量之间。t 可能随时间变化,因为目标世界配置的类型针对慢游戏的每个实例都是特定的。t 的值随时间输入到系统中。

基于以上内容,慢游戏的特征问题:

1. 能否制定一个策略 p,在激励相容均衡中实现目标世界配置?

2. 什么是策略 p?

3. 在最能最大化快速代理回报的行为中,奖励配置之间的偏差是什么?我们称之为松散,但口语中也可以称为 MEV。

示例:Anoma 中的求解器选择

在讨论中,术语"解决者"通常被理解为为用户提供交易对手发现的市场参与者(Davids 等人,2023 年)。另一个定义可以是,解决者是竞争满足用户订单的代理,这些订单可能包括复杂的用户指定条件(Chitra 等人,2024 年)。

通常,术语"解决者"旨在涵盖执行以下操作的实体:

  • 八卦意图
  • 计算搜索
  • 流动性提供
  • 以及交易提交。

在我们的思考中,这些角色可以解耦。不同的参与者可以承担这些功能中的每一个。

在 Anoma 中,求解者的角色由 Gossiper、Selector、Searcher 和 Picker 组成。在实践中,可能存在一些求解者,其中所有角色都由单个实体执行。

现在我们已经大致定义了"求解器"这个术语,让我们专注于当前这个慢速游戏示例。

请注意,此处我们指的是报告中提到的 MEV(矿工可提取价值)。报告还给出了 Anoma 中控制器选择和委托治理系统的示例。详见 ART 文档了解更多细节。在未来的工作中,我们将正式定义 MEV 这个术语,它最初被称为矿工可提取价值。

  • 快速代理 - 该问题中的求解器(快速代理)选择接受或拒绝特定的意图。利用意图之间的价格差异(MEV)或向用户返回 MEV。
  • 慢速代理 - 用户向求解器提交意图,测量求解器是否在审查意图(随时间推移)以及测量返回给用户的 MEV 量。
  • 世界模型 - 返回给用户的 MEV 和审查行为是随时间概率可测量的。
  • 监管机制 - 用户选择将他们的意图发送到何处。监管者可以通过将他们的意图发送给其他求解器来惩罚求解器,例如,通过将他们未来的奖励降至零。
  • 目标世界配置 - 解决者捕获的 MEV 不超过其运营成本的一个固定边际,并且不审查意图。

确实,我们现在对概念框架有了了解。接下来,我们将简要讨论用于模拟慢速游戏的失真压缩方法。

有损压缩模型

失真压缩是使用不精确的近似和部分数据丢弃来表示内容的数据压缩方法类别。失真压缩方法在数字世界中无处不在。它们用于通信和存储图像、音频和视频(Blau and Michaeli 2019)。这与无损数据压缩形成对比,后者允许从压缩数据中完美地重建原始数据,且不会丢失信息。在这里,我们应用一个失真压缩模型来分析我们所说的慢速游戏。

在模型中,我们假设操作员与监管者之间的速度差异导致监管者只能对操作员的行为进行有损观测。这种差异被称为速度因子。它引起的损失称为 dropout

更直白地说,监管者与操作员以不同的速度运行。操作员的行为速度超过了监管者能够测量的速度。速度差异通过速度因子量化,即监管者速度与操作者速度的比值。由于监管者较慢,他们只能对操作员的行为进行有损观测。通常情况下,监管者测量速度不够快,会错过部分操作员的行为。这种信息损失被称为 dropout。因此,操作员与监管者测量之间的速度差异可以被操作员利用。

例如。假设操作员在给定时间间隔内操作十次,但监管者只能测量两次。在这种情况下,只有 20%的信号被观察到。其余 80%的信号丢失了。速度因子,即监管者的测量值与操作员速度的比值,为 0.2(2 次测量/10 个信号)。

这里使用了有损压缩模型,因为它提供了一种量化信息损失和监管者面临的不确定性的方法。具体而言,该模型告诉我们如何折现慢速游戏中政策执行中的已知测量误差——监管者在不确定性下检测操作员执行非政策行为的可行性。观察中的错误越多,执行政策时就需要越宽容,因为错误可能是由测量引起的,而不是操作员的缺陷。

论文中关于有损压缩模型的其余部分(我们在此不涵盖)继续讨论:

  • 博弈形式化和知识需求
  • 通过遗憾公式构建激励结构
  • 速度博弈
  • 插值与重尾分布

注意:应用此模型假设通过背叛获得的奖励呈次高斯分布,这意味着每一次背叛机会都提供了获得小额收益的可能性。目前,MEV 机会高度集中在单一事件中。如果这些事件之一出现在退出集中,将不会检测到任何异常。根据系统参数,在实践中,次高斯分布可以强制应用于某些用例。

在下一节中,我们将回顾论文中的恒温器示例,该示例使用我们讨论的方法对慢速游戏的极小示例进行了模拟。

示例:双人恒温器博弈游戏

让我们想象一个博弈游戏,这个游戏是在操作员和监管员之间进行的。有一个房间需要保持在特定的温度。房间内有一个恒温器来控制温度。房间的温度与外界温度相关。操作员负责通过操作恒温器使温度保持在范围内。监管员为房间设定温度政策,操作员必须遵守,比如在[18, 25] °C 之间。监管员负责通过奖励或惩罚操作员来执行游戏规则,根据操作员对政策的遵守情况——即房间的温度。

博弈模型

  • 外部环境——每个时间步长从均匀分布𝒰(10, 32)中随机抽取一次
  • 房间 - 需要保持在一个特定的温度范围内,例如 [18, 25] °C
  • 操作员 - 操作恒温器来加热和冷却房间,控制其温度。同时,通过使用随机作弊机制来稍微减少必要的加热或冷却量,以最大化提供这项服务的奖励
  • 调节器 - 设置房间的温度政策。尝试验证操作员是否遵守该政策。根据操作员对调节器政策的遵守程度,给予或惩罚操作员奖励

如果操作员遵守调节器设定的温度政策,他们将获得奖励。在我们的示例中,奖励是通过设置一个加热/冷却预算 Rb 在一个时间段 TS 时间步长内计算的,并将所有未使用的预算作为基础奖励给予操作员。预算是操作员在不受惩罚的情况下可以进行的总加热或冷却量。例如,加热或冷却一度花费一个单位的预算。在每个时间步长结束时,调节器检查操作员使用了多少预算。未使用的预算作为奖励给予操作员,或者在操作员偏离政策的情况下被扣留。

*[图示:操作员(红色)和监管者(黄色)的行动,以不同的频率 fo 和 fr 发生,有 fr < fo 和 fo - 每个时间步发生一次。外部影响可以在连续时间中看到,但比最大操作员测量频率更快的任何变化对我们的模型都不重要]*

图示展示了外部环境、操作员、房间和监管者之间的交互。让我们从上到下分析图中呈现的动作序列。

1. 外部影响 (to) - 外部温度存在并影响房间的温度。这个外部变量不由操作员或监管者控制。

2. 测量温度 (to) - 操作员测量外部温度。

3. 测量温度 (ti) - 操作员测量房间内部的温度。

4. 作弊策略(ti,to) - 操作员根据室内和室外的温度决定作弊策略。作弊策略设定房间的目标温度,这可能与调节器的政策相偏离。请注意,"作弊"一词的使用是因为操作员试图通过略微偏离调节器政策来最大化他们的奖励。

5. 测量温度(ti+tc) - 调节器在操作员调整恒温器后测量室内温度。回想一下,由于操作员和调节器之间的速度差异,调节器的测量可能无法捕捉到操作员的所有操作。

6. 检查与政策的偏离(ti+tc) - 调节器检查室内温度测量值与政策之间的偏离。偏离被记录为变量 d。

7. 奖励或惩罚(d) - 根据观察到的偏离 d,调节器将奖励或惩罚操作员。如果偏离很小(房间保持在政策定义的温度范围内),操作员将获得奖励。如果温度超出政策范围,操作员将受到惩罚。

从外部影响开始,这一系列操作在每个时间步都会发生。操作员根据其作弊策略不断调整恒温器来改变房间温度。调节器在每个时间步测量房间温度,并根据偏差 d 对操作员进行奖励或惩罚。正如我们所讨论的,调节器的关键挑战在于测量操作员的行动,因为操作员和调节器测量之间的速度差异。

实证分析

基于上一节讨论的模型,论文继续进行实证分析。

tl;dr:如果我们观察作弊策略(混淆)与测量误差(纯误差)的相互作用,就能更好地了解操作员偏离政策的情况。实证上,我们可以创建一种奖励和惩罚机制,激励操作员在所有速度范围内都不作弊。

为了理解我们的示例在上述模型和基本激励下的运行情况,我们对实验进行模拟并进行实证分析。我们运行了使用 Dc=B(10,pi),pi∈{0,0.1,0.2,...,0.9,1}、S=10000、Rb=40000 和插值(用可用数据的平均值替换缺失值)的实验。

*[图示:实证分析结果]*

如果我们比较图 1.2 和图 1.3,我们会发现,将作弊策略的混淆与纯误差结合,相比仅考虑纯误差,提供了更紧密的偏差信息。这种效应在高速度差异和高作弊概率的游戏规则下尤为明显。

图 3.2 和图 3.3 显示了奖励的加权表面。这是通过从无先验的纯误差(1.2)和具有作弊策略先验的纯误差(1.3)中减去超额偏差(图 2.1)得出的。图 4.2 和图 4.3 是对应的后悔公式。

在这两种情况下,我们观察到在速度差异低且作弊概率高的规则下存在负奖励支付(即惩罚)。这导致操作者产生更高的后悔。

该策略源自图 1.3 中的混淆(作弊策略之前),在所有速度范围内都足够严格,以激励政策内行为。无论何处,后悔都会随着作弊而可靠地增加。

回顾:该策略编码在奖励权重表面中。假设监管者了解其测量误差以及从良好基线的估计中观察到的超额发散,他们可以读出应应用于基础奖励的奖励权重。

参见论文《Slow Games: Policy Enforcement under Uncertainty》了解更多详情。查看此仓库以运行模拟。

未来方向

从本工作中识别的问题空间探索中,我们对如何将慢速游戏建模为有损压缩模型以及正在进行的子游戏有了更好的理解。由此产生的一些研究方向包括以下内容:

慢速游戏的组成

在 Anoma 网络上,运营商和监管者可能在多种设置中内部协调,这些设置可以被建模为慢速游戏。

监管者的分解

服务用户如何协调,他们只能部分了解该服务产生的结果?

慢速游戏中的运营商勾结

运营商协调以从用户中提取价值,从而破坏监管机制的可能性。

Anoma 的建模应用

控制器选择,求解器选择。

经验流程

一个可以帮助用户在实际中做出决策的经验流程。

转化为无先验机制

该机制不会依赖于任何关于环境或参与者行为的假设先验知识。相反,该机制通过观察进行学习和适应。这对于慢速游戏尤其相关,因为监管者的信息有限是一个挑战。具体来说,Mechanisms for a No-Regret Agent: Beyond the Common Prior (Camara, et al. 2020) 中的定理 3 为其设定给出了委托人后悔的上限。

代理的遗憾取决于效用函数的复杂性。

校长的遗憾包括:

  • 可提取价值 - 运营商可从系统中提取的价值。
  • 预测错误校准 - 在预测系统未来状态或行为时出现的错误。
  • 信息鲁棒性的成本 - 使机制对不同场景具有鲁棒性的成本。
  • 离散化误差 - 源于将连续过程或状态简化为离散过程时所做的简化。

致谢

来自论文:

我们感谢 ICML 2024 年自主市场研讨会(Agentic Markets Workshop)的审稿人对于改进阐述和细化本工作的有益反馈。

感谢业内探索这一话题的团队。