Litepaper

全球深度学习模型的超大规模、成本高效的计算协议。

发表于2022年2月

请注意,此版本的Litepaper已过时。 Gensyn团队对协议设计进行了多项更改,包括但不限于:

  1. 用自定义Ethereum rollup替换Substrate L1链构建(及其相关的canarynet / mainnet功能),这是我们链下基础设施重大进步的结果。注意:我们也不再在栈中使用Rust。
  2. 更强大的审计策略用于检查工作。
  3. 引入加密证明系统来动态监控训练。
  4. 更强的博弈论保证。
  5. 新颖的可用性证明系统用于证明保证。
  6. ML编译器和可重现的ML运行时。

这项研究将单独发布,但请使用此Litepaper作为问题+解决方案向量的介绍。

背景

最先进的人工智能(AI)系统的计算复杂性每3个月翻倍,远远超过计算供应。作为创始团队——无论我们是发布关于深度神经架构演变的研���,还是构建飓风损害预测模型——我们亲身经历了这些限制。

OpenAI在Brown et al. (2020)中提出的最大GPT-3模型GPT-3 175B,使用了1,000个NVIDIA Tesla V100 GPU集群进行训练——大致相当于在单个设备上训练355年。Ramesh et al. (2021)的DALL-E,另一个来自OpenAI的Transformer模型,有120亿参数,并在超过4亿张带字幕的图像上训练。OpenAI承担了训练DALL-E的成本,但有争议地拒绝开源该模型,这意味着或许最重要的最先进的多模态深度学习模型之一仍然无法访问,除了一小部分人。构建这些基础模型的巨大资源要求创造了显著的访问障碍,如果没有一种方法在捕捉价值的同时汇集资源,很可能会导致AI进步的停滞。许多人相信这些泛化模型是解锁人工通用智能(AGI)的关键,这使得当前在孤立的、人工孤岛中训练的方法显得荒谬。

当前提供计算供应访问的解决方案要么是寡头垄断且昂贵,要么简单地不可行,鉴于大规模AI所需的计算复杂性。满足膨胀的需求需要一个系统,它以成本高效的方式利用_所有_可用计算(与当今全球处理器利用率约40%相反)。现在加剧这个问题的是计算供应本身受到渐近微处理器性能进步的限制——以及供应链地缘政治芯片短缺。

我们与超过150位CTO、机器学习(ML)研究人员和ML工程师交谈,他们一致描述了在购买自己的硬件并牺牲可扩展性,或租用可扩展云资源以大幅增加成本之间的痛苦权衡。他们认识到云成本通常被提供商利润率膨胀,并经常想知道为什么他们的ML工作没有按需、无服务器风格的计算。

自愿网格计算服务如SETI@HomeFolding@HomeBOINC证明了无信任、自愿联网的潜在计算可用于解决人类的一些最大问题。然而,它们主要解决尴尬并行问题,如3D渲染,其中计算工作可以轻松分割和验证,由于其状态独立性。ML问题(除了如超参数优化之类的利基任务)本质上依赖于状态,需要新的并行化和验证方法。自愿网络也仅通过将参与者建模为慈善系统中的理性行为者来运作;添加金融交易会戏剧性地改变激励机制并引入剥削的幽灵。

去中心化区块链协议将网格计算的概念扩展到金融激励、无信任的环境。具体来说,Ethereum将空间从Bitcoin的交易用例移到更一般的链上计算工作。这通过纳入图灵完备语言(Solidity)和通过可变气体费用奖励计算提供者来实现。

然而,Ethereum仅通过极其昂贵的链上工作复制来实现无信任共识。这完全不适合深度学习。训练一个小MNIST神经网络(400M处理器操作)在平均笔记本电脑上需要8分钟,但在Ethereum上需要~80天,成本约3200万美元。为了解决这个问题,Truebit展示了可以执行简单的链下计算工作(从而减少开销)并向链证明它被正确执行。他们通过将参与者建模为金融理性行为者并仔细构建激励结构来实现这一点。具体来说,他们通过间歇性地要求工人产生错误工作并如果验证者发现它则奖励他们杰克Pot来解决验证者困境

尽管有这些改进,工作仍必须在链下复制。这不适合具有极端计算费用的活动(例如深度学习),如果深度学习工作要以无信任方式服务,必须存在成本高效的链下计算系统。

问题

一个无信任地连接和验证链下深度学习工作的成本高效协议有五个主要挑战。

工作验证

为了构建一个真正无信任的计算网络,具有参与的经济激励,网络必须有一种方式来验证深度学习计算工作确实如承诺的那样执行。这个问题的核心是深度学习模型的状态依赖性;即,深度学习模型中的每个后续层将前一层的输出作为输入。因此,要验证在特定点的工作已完成,必须执行到该点包括该点的所有工作。我们稍后将更详细地讨论,但这是一个基本问题,直到现在还没有可行的解决方案。

市场

计算市场面临与任何新市场相同的供给和需求问题,还有一些独特的挑战。主要的是冷启动问题,其中供给和需求流动性需要从一开始大致匹配才能成功增长。为了捕捉潜在计算供应,必须有明确的奖励让参与者承诺他们的计算时间。计算工作必须被跟踪,并及时向提供者进行比例支付。对于更传统的市场,这通过处理管理和入职的中介来执行,使用最小支付来减少开销。不幸的是,这种方法在扩展时变得昂贵,并导致阈值均衡,其中只有供给的一小部分可以经济地被捕捉。

事先工作估计

类似于Ethereum,ML计算工作受到停机问题的制约——有时不可能量化定义任务所需的计算工作量,更具体地说,它是否会结束(或停机)。在深度学习背景下,这最近变得更重要,因为模型和框架从静态图构建切换到动态构建和执行。

隐私

随着全球更强的个人隐私法规的增长(例如GDPRCCPALGPD),注重隐私的设计和开发已成为组织的预期实践。虽然大量ML研究可以在开放数据集上进行,但最终模型微调通常使用专有用户数据。更具体地说,在我们与ML工程师和CTO的访谈中,他们表示数据隐私比模型隐私重要几个数量级。

并行化

最先进的深度学习模型通常在大型硬件集群上并行训练,以实现单个设备无法达到的规模。通过最近的研究,实现这种并行化的所需技术已大幅改进,现在的最先进transformer模型如Fedus, Zoph, and Shazeer (2021)提出的Switch Transformers本质上高度并行化。将ML工作的性能要求与计算来源的不信任和不可靠性质相结合,意味着在任何解决方案中高度并行化是必需的。

Gensyn协议

Gensyn协议是一个用于深度学习计算的层1无信任协议,它直接且立即奖励供给方参与者承诺他们的计算时间给网络并执行ML任务。该协议不需要行政监督或法律执行,而是通过智能合约程序化地促进任务分发和支付。如上所述,构建此网络的基本挑战是验证完成的ML工作。这是一个高度复杂的问题,位于复杂性理论、博弈论、密码学和优化的交汇处。

一个简单的解决方案是通过重新做他们的工作来检查工人的诚实。至少,这需要双倍的操作(’单一复制’);然而,即使有复制,除非验证方是工作的实际请求者(在这种情况下,他们不会请求工作,因为他们会自己执行),否则信任问题仍然存在。因此,确保验证方的诚实可以生成无限复制链,其中每个新验证者都需要检查前一个验证者的工作。

我们通过将三个关键概念交织成一个稳健解决方案来解决这个验证问题,它比现有最佳实践复制方法高效>1,350%;这样做,它解决了无限链问题。关键概念是:

概率学习证明

遵循Jia et al. (2021),我们使用基于梯度的优化过程的元数据来构建执行工作的证书,这些证书可以通过某些阶段的复制快速验证。

基于图的精确定位协议

遵循Zheng et al. (2021),我们使用多粒度、基于图的精确定位协议和跨评估器一致执行,以允许重新运行验证工作并比较一致性,并最终由链本身确认。

Truebit风格的激励游戏

遵循Teutsch and Reitwießner (2019),我们使用质押和削减来构建一个激励游戏,确保每个金融理性参与者诚实行事并执行其预定任务。

参与者

这些概念用于构建一个具有四个主要参与者的系统:提交者、求解者、验证者和举报者。

提交者

提交者是系统的最终用户,提供将计算的任务并为完成的单位工作支付费用。

求解者

求解者是系统的主要工人,执行模型训练并生成证明供验证者检查。

验证者

验证者是将非确定性训练过程链接到确定性线性计算的关键,复制求解者证明的部分并将距离与预期阈值比较。

举报者

举报者是最后的防线,检查验证者的工作并挑战以希望获得杰克Pot支付。

使用

典型协议使用将通过八个阶段,以上述角色执行特定任务。

任务提交

任务采取三种具体信息的形式:

  1. 描述任务和超参数的元数据;
  2. 模型二进制文件(或骨架架构);
  3. 公开访问的、预处理的训练数据。

为了提交任务,提交者以机器可读格式指定任务细节,并将它们提交到链上,以及模型二进制文件(或机器可读架构)和预处理训练数据的公开位置。公开数据可以存储在简单的对象存储中,如Amazon’s S3,或在去中心化存储中,如IPFSArweaveSubspace

为了隐私保护,模型可以使用Lan, Liu, and Li (2020)提出的安全映射层(一种函数加密形式)构建,并加密公开训练数据。这样,模型可以以小精度罚款(<0.5%)在密文上训练。

提交任务时,通过构建和展开计算图到所需操作来生成所需工作的估计。这些操作使用类似于Ethereum的Opcode气体值的值加权,以计算要执行的计算工作的粗略总和。由提交者支付的交易费用可以使用此估计,任何多余(例如由于悲观剖析)在计算后返回给提交者。至关重要的是,展开图需要对可能触发停机问题的逻辑设置限制。

任务形成了可以推送到协议的最小ML工作量。使用并行化,更大的计算工作负载可以分割成任务集并异步推送到网络。使用这种方法,可以构建大规模语言模型和其他最先进模型,如Diskin et al. (2021)用志愿计算演示的。

剖析

剖析过程为学习证明验证建立基线距离阈值。验证者将定期获取剖析任务并生成学习证明比较的变异阈值。要生成阈值,验证者将以不同随机种子确定性地运行和重新运行训练的部分,生成并检查自己的证明。这样做,验证者将构建一个聚合预期距离阈值,以后可以用作验证求解者非确定性工作的阈值。

为了确保验证者在生成距离阈值时的诚实,举报者预计将重新运行剖析工作,并在适当情况下挑战验证者,使用下面描述的相同基于图的精确定位挑战和合同仲裁机制。

训练

剖析后,任务进入公共任务池(类似于Ethereum mempool)。选择一个单一求解者执行任务,并从任务池中移除任务。求解者根据提交者提交的元数据执行任务,并使用提供的模型和训练数据。在执行训练任务时,求解者还通过在计划间隔检查点并存储训练过程的元数据(包括参数)来生成学习证明,以便验证者尽可能准确地复制下一个优化步骤。

证明生成

证明生成遵循Jia et al. (2021)中概述的过程,其中求解者定期存储模型权重或更新,以及从训练数据集对应的索引,识别用于生成权重更新的样本。检查点频率可以调整以提供更强的保证或节省存储空间。证明可以“堆叠”,意味着证明可以从用于初始化权重的随机分布开始,或从带有自己证明的预训练权重开始。这允许协议构建一组已经证明的预训练基础模型(即基础模型),可以为更具体的任务微调。

证明验证

任务完成后,求解者向链注册任务完成,并在公开位置呈现他们的学习证明供验证者访问。验证者从公共任务池(再次类似于Ethereum mempool)获取验证任务,并执行计算工作以重新运行证明的部分并执行距离计算。然后,链使用结果距离(以及剖析阶段计算的阈值)来确定验证是否匹配证明。

基于图的精确定位挑战

学习证明验证后,举报者可以复制验证者工作,以检查验证工作本身是否正确执行。如果举报者认为验证执行不正确(恶意或非恶意),他们可以挑战验证者进行合同仲裁以获得奖励。此奖励可以来自求解者和验证者存款(真实阳性情况下)或杰克Pot国库(假阳性情况下)。挑战过程遵循Zheng et al. (2021)中概述的程序,并使用链本身执行仲裁。

遵循Teutsch and Reitwießner (2019),举报者(在他们的案例中是验证者)仅在预期获得适当补偿时才预计验证并随后挑战工作。在实践中,这意味着举报者预计根据其他活跃(即有活存款并挑战)举报者的数量加入和离开网络。因此,任何举报者的预期默认策略是当其他举报者数量低时加入网络,发布存款,随机选择活跃任务,并开始他们的验证过程。第一个任务完成后,他们将获取另一个随机活跃任务并重复,直到举报者数量超过他们确定的支付阈值,此时他们将离开网络(或更可能切换到网络中的另一个角色——验证者或求解者——取决于他们的硬件能力),直到情况逆转。

合同仲裁

当验证者被举报者挑战时,他们与链进入一个过程,以缩小争议操作或输入的位置,最终链执行最终基本操作并确定挑战是否合理。为了维持举报者的诚实并克服验证者困境,协议引入周期性强制错误与杰克Pot支付,如Teutsch and Reitwießner (2019)所提出。

结算

在结算过程中,根据概率和确定性检查的结论向参与者支付。不同的支付在不同的场景中进行,取决于先前验证和挑战的结果。

如果工作被视为正确执行且所有检查通过,则求解者和验证者根据执行的操作均获得奖励。

规模和成本效率

将市场构建为Web3协议消除了扩展的集中开销,并降低了新供给参与者的进入障碍,允许网络潜在地涵盖世界上的每个计算设备。通过单一去中心化网络连接所有设备提供了当前通过任何现有提供商无法实现的规模水平,提供前所未有的按需访问全球计算供应。对于最终用户,这完全拆除了成本与规模的困境,并为潜在无限规模(达到全球物理硬件限制)提供透明、低成本。

创建一个价格由市场动态决定的市场,并向所有参与者开放,允许ML计算的单位成本稳定在其公平均衡。这绕过了大型提供商通常享有的护城河,显著降低价格,并促进资源水平的真正全球竞争。虽然最终用户的当前计算成本包括其寡头供应商的大额利润,但Gensyn协议将确保剩余利润通过公平竞争减少,并比例分配给每个参与者。

随着Ethereum从工作证明转向权益证明在Eth2中,许多拥有强大GPU(例如NVIDIA V100)的矿工将没有收益。这些矿工目前可以预期每小时约0.20至0.35美元的回报,即使现在,减去摊销资本购买和电力成本,也提供紧绌的边际回报。这些具有ML能力硬件的矿工预期的当前收益与主要提供商相同硬件的平均小时成本之间的差额,以及Eth挖掘的可能消失,为Gensyn协议形成了巨大机会;它还允许硬件在有用处理器周期上产生回报——与仅在工作证明系统中计算哈希相反。捕捉这个挖掘供应,以及其他潜在计算的通用来源,导致Gensyn协议上NVIDIA V100等效计算的预计小时成本约为0.40美元,比AWS按需便宜80%。

提供商ML训练工作的近似小时成本(V100等效)可扩展性
Ethereum$15,700
Truebit (+ Ethereum)$12
GCP按需$2.50中等
AWS按需$2中等
Golem Network$1.20
Vast.ai$1.10
AWS spot实例(不可靠)$0.90中等
GCP spot实例(不可靠)$0.75中等
Gensyn(预计)$0.40
数据中心中的单个GPU$0.40
单个个人GPU$0.28

协议评估

我们通过Python模拟评估我们的解决方案,以评估Gensyn协议提供的性能提升幅度。在这种情况下,我们将性能衡量为完成小MNIST图像分类模型上100个epoch训练作业所需的聚合秒时间。我们在6核Intel Core i7处理器上测试这一点。

我们将协议与3种替代方法比较:本地运行模型(与使用任何协议相反)、使用Truebit启发复制运行模型(有7个验证者),以及在Ethereum上运行模型。

尽管代码缺乏生产级优化,结果显示Gensyn协议为模型训练添加了~46%的时���开销,代表比Truebit风格复制性能提升1,350%,比Ethereum提升2,522,477%。

Gensyn与Truebit风格复制的MNIST图像分类模型运行时比较

Gensyn与Ethereum(理论)的MNIST图像分类模型运行时比较

Gensyn Limited是最初开发协议、招聘团队和管理IP(在开源发布之前)的实体。Gensyn Limited是一家完全远程公司,从世界各地招聘人才。在代币生成事件(TGE)之后,Gensyn Limited将处理技术开发,Gensyn基金会将代表协议的利益。

代币将在TGE由Gensyn基金会发行,该基金会将由选举理事会以去中心化方式治理,并基于链上提案和公投做出决定。最初,理事会成员将紧密映射到Gensyn Limited的核心成员和早期社区,以快速开发协议。随着时间的推移,理事会将变得更加去中心化。

Gensyn基金会还将控制一个国库,该国库将由提案指导,通过资助协议本身的持续开发和整体生态系统来进一步实现协议的目标。国库将主要通过从每个任务费用中收取很小的百分比来资助。

未来发展

研究

我们将继续在三个主要领域进行研究以改进协议:使用优化过程元数据的ML训练概率验证、用于链上证明的确定性ML工作的精确定位验证,以及在具有延迟约束的异构硬件上的ML模型并行化。

这项研究将加强工作验证保证,并扩展协议的实用性,以包括更多模型原语和更广泛的模型类型。

开发

Gensyn协议的开发将遵循三个高级阶段:testnet、canarynet、mainnet。

Testnet

初始开发将专注于构建核心技术的testnet实现。testnet使用的代币将是暂时的,testnet用户将是早期采用者和社区核心成员,他们将在TGE获得奖励。

Canarynet

在成功的testnet迭代后,协议将作为Kusama中继链上的canary网络parachain启动。这一阶段将涉及启动具有真实经济价值的canary实用代币。canary网络可以视为协议的beta版本,具有访问最新功能和与其使用相关的一些风险。从长远来看,canary网络通常以略低的价格和访问前沿R&D功能来换取这种轻微风险。

Mainnet

在Kusama中继链上成功启动parachain后,下一个阶段将是启动Polkadot中继链上的最终实时parachain。这一阶段将包括启动mainnet实用代币,这将是协议的主要实用代币。Mainnet将是硬化的、实时的协议,供任何组织或个人完全使用。功能或更改将在mainnet启动前通过testnet和canarynet迭代。

生态系统

Gensyn协议将是ML计算的基础层,类似于Ethereum用于智能合约执行。展望未来,我们预计其他人将在协议之上构建,以提供丰富的用户体验和众多利基中的具体功能。我们预计这个新兴生态系统将从基于专家知识的应用开始,允许非专家使用类似于现有Web2解决方案的抽象来构建和部署ML解决方案,如Amazon’s SageMakerDataRobot

除了模型设计中的人类知识外,还有三个基本问题阻碍了应用ML的进步:

  1. 计算能力的访问;
  2. 数据的访问;
  3. 知识的访问(ground-truth标签)。

Gensyn通过以公平市场价格提供按需访问全球可扩展计算来解决第一个问题。Gensyn基金会将通过研究、资助和其他协议的合作来鼓励第二个和第三个问题的解决方案。

长期愿景

Gensyn协议将使任何人能够使用自组织网络训练任何任务的ML模型,该网络涵盖所有现有计算能力来源。

随着Web3 Dapps在复杂性和基础设施要求方面的增加,它们被迫回落到Web2,其中Web3资源不存在。通过去中心化ML计算,Gensyn协议将关键基础设施组件本地化到Web3——减少对Web2的依赖,并进一步加强和去中心化整个生态系统。

深度学习展示了令人难以置信的泛化能力,似乎将在ML的未来中发挥巨大作用。在Gensyn协议上训练的基础模型将是去中心化和全球拥有的——允许人类从协作ML开发和训练中平等受益。使用微调在这些基础模型上构建将像定义任务并为微调工作支付公平市场价格一样简单——消除目前存在的障碍。

几十年来,ML在学术和工业孤岛中进步。Gensyn协议通过去中心化所有权的共同基础设施连接这些孤岛,允许全人类作为平等先锋快速集体探索人工智能的未来。将此网络与分层训练和集体拥有的基础模型相结合,提供通往真正实现AGI的路径——人类下一步。

参与

您可以在Twitter上关注我们的进展。如果您对贡献计算资源、使用网络进行ML任务或加入我们感兴趣,请给我们发消息。我们很乐意聊天。

更新和最近研究(更新至2025年)

自2022年Litepaper以来,Gensyn发布了多项研究和协议更新。以下是Gensyn.ai网站上的关键文章摘要:

GenRL介绍:RL Swarm的新后端

GenRL是一个从头设计的新框架,用于简化并加速高级RL环境的创建,特别是涉及多个代理的环境。它有助于在去中心化环境中开发高级RL环境。

GPT@home:为什么训练的未来是去中心化的

这份报告审视了大型模型训练的当前状态及其带来的各种成本。它审视了之前的分布式计算努力,并论证了去中心化训练。

机器学习计算协议和我们的未来

文章扩展了机器学习计算协议的愿景,介绍了BlockAssist——一个开源AI助手,通过观察您玩Minecraft来学习,并讨论未来。

NoLoCo:无All-Reduce训练大型模型

这是一篇学术论文,描述了NoLoCo,一种新的分布式训练优化方法,用局部方法替换全局同步步骤,适合去中心化环境。

RL Swarm:合作RL框架

RL Swarm提供了对机器学习未来的洞察,具有同行间合作RL的框架,其中智能利用人群的智能。

SkipPipe:去中心化训练的有效通信方法

一种容错管道并行方法,动态跳过和重新排序阶段以优化去中心化环境中的训练。

此外,Gensyn在2025年3月启动了公共Testnet,为去中心化AI系统提供持久身份并跟踪参与。2025年有Testnet更新,包括具有更难数据集、更大数据模型和新应用的新swarm,如BlockAssist和Judge——Gensyn的可验证AI评估系统。

有关最新信息,请访问gensyn.aidocs.gensyn.ai