1. 原力区首页
  2. 区块链

分布式机器学习——挖掘矿机剩余算力?

Filecoin矿工可以不只靠“存力”获取奖励,还可以利用手中未动用的计算资源获得进一步收益,同时降低设备空置率。

分布式机器学习——挖掘矿机剩余算力?

在过去的十年里,我们对人工智能的需求显著增长,这种增长由机器学习技术的进步以及硬件加速推动。然而,为了提高预测的质量,并使机器学习解决方案适用于更复杂的应用,需要大量的训练数据和计算资源。

由于对训练数据处理的需求已经超过了计算机器计算能力的增长,因此需要将机器学习的工作量分散到多台机器上,将中心化系统转变为分布式系统。而机器学习动辄数TB的训练数据集,必然会为分布式存储市场带来更多的价值数据。同时,模型训练庞大的计算量,能否挖掘出矿机的剩余算力?无论从网络的存储和检索价值,还是矿工收益的角度,都会让去中心化存储市场的整体经济盈余大跨步增加。

本文将从机器学习的角度入手,聊聊分布式存储在分布式机器学习的优势,以及分布式机器学习对分布式存储的价值。

 

什么是分布式机器学习?

随着近年来技术的快速发展,数据量的增长来到了一个空前的高度。机器学习算法已经被越来越多地用于数据分析和决策系统中,然而某个单一算法并不能胜任一些复杂问题。例如自动驾驶、语音识别、量化预测、消费者行为预测等等。

总体来说,机器学习问题可以被分解为训练和预测两个阶段。训练阶段是通过向机器学习模型注入大量训练数据来不断更新优化这个模型。预测阶段是在实际应用中的新数据作为输入,让训练好的模型输出它的预测结果。可以用下图表示:

 

分布式机器学习——挖掘矿机剩余算力?

由于复杂应用的训练集大小很轻松就可以达到TB级别,考虑到模型的训练时间,大家不得不把机器学习转战至分布式系统,好利用它并行处理和I/O带宽总量的优势。有时,数据本身就是分布式的或太大而不能存储在单个设备上时,传统中心化的方案自然就不可行。

为了使这些类型的数据集可以作为机器学习模型的训练数据,我们需要选择能够并行计算或分布式计算、数据分布式存储的算法。谈到用分布式的方案解决机器学习问题,即分布式机器学习,我们可以将其归纳为数据分布式和模型分布式两种方式在多个设备之间将问题分解(当然,这两种方法也可以同时使用)。

分布式机器学习——挖掘矿机剩余算力?

在数据分布式中,系统中有多少节点,数据就被划分多少块,然后所有的节点对不同的数据块使用相同的算法。所有节点都可以使用相同的模型(通过集中或复制分发),这样在聚合后很自然就能产生一个和传统机器学习训练一致的结果。只要数据的分布是独立同分布(i.i.d)的,这种方式可以用于现有任何一种机器学习算法。

在模型分布式中,模型被拆分成不同的组件,每个节点认领其中一个或几个,然后将整个数据集作为输入进行训练。也就是每个节点处理相同的数据,最后将组建聚合形成最终的模型。由于模型参数通常不能分割,因此模型分布式的方法并不适用于所有机器学习算法。

 

小例一观

接下来,我们通过一个具体的例子来探讨机器学习与分布式存储网络的结合点。

我们知道,深度学习依赖于数据表示的学习,而不是特定任务的算法。深度学习中的“深度”一词描述了一个模型的输入和输出之间的层数(虽然我们不能完全解释每一层的具体用意)。这些层将数据转换成各种表示形式,然后给出它的结果。迁移学习(Transfer learning )为深度学习提供了一种新的学习方式。

迁移学习希望可以储存并积累在学习和解决一系列问题过程中获得的知识,并尝试将其应用到另一组类似的问题中。就好像我们学会了骑自行车后会利用之前经验学习骑摩托车,尽管二者不完全相同。对于算法来说,就好比将识别鸟类过程中获得的知识应用于飞机和其他飞行物体的识别。传统的机器学习使用相同领域的数据来学习和预测,与此相比,迁移学习利用在其他领域学习到的知识(如,重用其它模型中预先训练的权重)来完成目标领域的任务。

试想我们可以搭建一个区块链框架:放入一个由一些数据预先训练好的深度学习模型,在上面实现一个智能合约,在满足智能合约的限定条件,如支付通证后,通过网络将它共享给其他用户。这样可以让模型更多地被使用——将一个预先训练的大数据模型用于用户自己的小数据模型。

在这个框架中,区块链不仅提供了一种通信机制,还将作为一个知识产权保护体系。区块链上的智能合约能够确保预训练模型或创建模型的人拥有这部分知识产权(模型、数据和资源),共享数据的个人也会得到报酬,激励这种“机器知识”的传播。

 

分布式机器学习——挖掘矿机剩余算力?

“Po”个观点

一直以来,Filecoin开发团队都在强调关于“价值数据”存储的重要性,从Filecoin网络测试阶段起便开始探索如何让存储“价值数据”的节点获取更高的有效算力。2021年1月Filecoin Plus正式启动Datacap分配流程以来,公证人分配到验证客户端的的Datacap数量非常少,一个原因是公证人进行人工审核的时间周期较长,一个是没有找到大量可信的客户端释放。当Filecoin网络上的矿工存储了机器学习训练集或模型这样有意义的数据,根据目前的规则,理想状况下矿工可获得10倍有效算力,对网络的价值也是大有裨益的。

 

分布式机器学习是将分布式存储和分布式计算结合(即存力+算力)的一块优秀试验田。现在挖矿的计算大多都是没有太多实际生产意义的,消耗的电力和污染也一样。我们可以提供一个模型和数据的供需市场,参与者根据需求还可以共享模型训练的成果。

亦或者,有没有可能用机器学习算法模型的训练过程挖矿,让计算变得有意义?

Filecoin矿工可以不只靠“存力”获取奖励,还可以利用手中未动用的计算资源获得进一步收益(如,社区未决定的15%空白奖励),同时降低设备空置率。如此一来,不仅可以为用户提供多一种在线算力的选择,也许还能够吸引大型传统服务商的加入。

引用:

IPFS – Content Addressed, Versioned, P2P File System.

Diego Peteiro-Barral and Bertha Guijarro-Berdiñas. 2013. A survey of methods for distributed machine learning. Progress in Artiffcial Intelligence 2, 1 (2013), 1–11.

K Canini, T Chandra, E Ie, J McFadden, K Goldman, M Gunter, J Harmsen, K LeFevre, D Lepikhin, TL Llinares, et al. 2012. Sibyl: A system for large scale supervised machine learning. Technical Talk 1 (2012), 113.

Eric P Xing, Qirong Ho, Pengtao Xie, and Dai Wei. 2016. Strategies and principles of distributed machine learning on big data. Engineering 2, 2 (2016), 179–195.

Gihan J. Mendis, Moein Sabounchi, Jin Wei, Rigoberto Roche, ”Blockchain as a Service: An Autonomous, Privacy Preserving, Decentralized Architecture for Deep Learning,” arXiv, 2018.

J. Lu, V. Behbood, P. Hao, ”Transfer Learning using Computational Intelligence: A Survey,” Knowledge-based systems, vol. 80, pp 14-23, May, 2015.

/End.

分布式机器学习——挖掘矿机剩余算力?

声明:本文系IPFS原力区原创稿件,版权属IPFS原力区所有,未经授权不得转载,违者将依法追究责任。

提示:投资有风险,入市须谨慎。本文不作为投资理财的建议。

分布式机器学习——挖掘矿机剩余算力?

原创文章,作者:Mabrary,如若转载,请注明出处:https://ipfser.org/2021/02/26/wajuekuangjisuanli/

提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

发表评论

登录后才能评论

联系我们

在线咨询:点击这里给我发消息

邮件:ipfsforce@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code