想做好区块链数据分析?先来看看如何解决“去匿名化”这个大难题

2019-12-03 11:16 栏目:行业动态 来源:网络整理 查看()

在最近的会议演讲中,我经常被问到:区块链数据分析的最大挑战是什么?我的回答只有一个词:去匿名化。我坚信,识别不同类型的参与者并理解他们的行为是释放区块链分析潜力的核心挑战。我们花了大量时间考虑这个问题,以确定与数字现金运动的道德规范不冲突的正确界限。在这篇文章中,我想进一步探讨这个想法。市场上大多数区块链架构都依赖匿名或伪匿名机制来保护其节点的隐私并实现去集中化。数据混淆机制可以将加密的资产交易数据记录在公共图书上,供每个人访问,但它也使得对这些数据的分析极其困难。如果不能确定参与者的身份,就很难理解区块链数据集和分析有意义的结果,区块链分析只能在初级阶段徘徊。但是,重要的是要理解,区块链数据集的去匿名化不需要知道分类帐中每个地址的真实身份,并且这个方向基本上是不可扩展的。相反,我们可以识别和理解区块链已知参与者的行为,如交易所、场外交易柜台、矿工和区块链生态系统的其他核心成员。地址的数量会在不知不觉中误导你。网络测度是区块链分析中一个无处不在的指标,也是一个能清晰显示去匿名化能力的指标。地址数量是最常见的误导性指标,因为并非所有地址都同等重要。交易为临时转账创建的地址显然无法与另一个长期持有资产的钱包的地址进行比较。同样,像平安这样的交易所的热门钱包肯定不同于我的个人钱包,我的个人钱包是用同样的方法和指标来分析的。平等对待所有地址的匿名性必然会导致有限的解释和经常误导的结论。

想做好区块链数据分析?先来看看如何解决“去匿名化”这个大难题

匿名与可解释匿名或伪匿名身份是可扩展分散体系结构的关键因素之一,但它也使得从区块链数据集获取有价值的信息变得极其困难。理解这一观点的一种方法是将匿名视为区块链分析可解释性的一个反因素。区块链数据集中匿名性和可解释性之间的摩擦相对较小。区块链数据集越匿名,就越难从中获得有意义的信息。参与者的身份为他的行为提供了语境环境,语境环境是可解释性的关键构件。

想做好区块链数据分析?先来看看如何解决“去匿名化”这个大难题

匿名VS .标注“你是谁”远比“你是谁”重要。块链数据集的去匿名化不需要知道每个参与者的真实身份。试图了解每个用户的真实身份不仅是一项重要的任务,而且使分析工作难以突破一定的规模。相反,我们可以尝试理解参与者的关键特征,以便我们的分析能够达到一定程度的可解释性。因此,我们不需要清楚地识别每个地址的真实身份,我们可以标记地址或附加一些描述性元数据来使其行为具有一定的上下文。在大规模数据中,标记通常比个人识别更有效。理解区块链生态系统中特定个体的行为肯定会使分析更加个性化,但理解行为在宏观层面的趋势相对有限。

想做好区块链数据分析?先来看看如何解决“去匿名化”这个大难题

因此,匿名的挑战更多地与地址关键属性的标记有关,而不是与区块链地址的个人真实身份的识别有关。我们如何实现这一点?机器学习将是一个很好的解决方案。对区块链进行标记或去匿名的想法可以使区块链分析更好地理解生态学中已知参与者的行为模式和特征。直觉上,我们可以考虑创建一些规则来分析区块链生态系统的不同成员,例如:

“如果一个地址拥有大量比特币地址,并且一次执行100次交易,那么这就是一个交换地址……”

尽管它很有吸引力,但基于规则的方法很快就会失败,不再提供有用的信息。下面列出了一些原因:预设知识的完整性:基于规则的分类假设我们对如何识别区块链生态中的不同参与者有足够的知识。这显然是一个不正确的假设。持续变化:区块链解决方案的架构一直在演变,这是对任何嵌入式规则的挑战。要素属性的数量:创建一个有两三个参数的规则非常简单,但是尝试创建一个有几十个甚至几百个参数的规则就不那么简单了。识别交易所或场外交易柜台等地址需要大量功能。因此,我们不能使用预设规则。我们需要一种机制,能够从区块链数据集的学习模式中自动推断出有意义的规则,以便我们能够标记相关参与者。从概念上讲,这是一个经典的机器学习问题。从机器学习的角度来看,我们应该从两个主要途径考虑去匿名化的挑战:无监督学习:无监督学习侧重于学习特定数据集中存在的模式和识别相关组。在区块链数据集的背景下,无监督学习模型可用于将基于地址的特征匹配到不同的组中,并标记这些组。监督学习:监督学习方法可以使用现有知识来学习给定数据集的新特征。在区块链的环境中,可以使用监督学习方法来训练基于现有交换地址数据集的模型,以识别新的交换地址。

想做好区块链数据分析?先来看看如何解决“去匿名化”这个大难题

区块链数据集的去匿名化或标记很少只使用监督学习或无监督学习,更经常需要两种方法的结合。机器学习模型可以有效地学习区块链生态系统中特定参与者的特征,并利用这些特征来理解他们的行为。在使用区块链ETL工具将区块链的原始数据加载到数据库或大数据分析平台之后,将注释层引入区块链数据集是对更有价值的区块链数据分析的关键挑战。这些标签提供了更好的上下文环境,并使区块链分析模型更易于解释。然而,尽管我们拥有机器学习这样强大的工具,匿名仍然是分析和理解区块链生态系统的一个不可忽视的重要障碍。(区块链基地)

微信二维码
售前客服二维码

文章均源于网络收集编辑侵删

提示:币友交流QQ/WX群请联系客服加入!

郑重申明:资讯文章为网络收集整理,官方公告以外的资讯内容与本站无关!
虚拟币开发,虚拟币交易平台开发,山寨币交易平台开发 Keywords: 虚拟币开发 虚拟币交易平台开发 山寨币交易平台开发