比如一个班级的身高体重,一家公司的双十一业务情况,又比如一国的 GDP 及其趋势——如果要问大家「数据」是什么?
想必所有人都能快速下出定义,还能随手举出一系列通俗易懂的例子。因此,可以说「数据」离我们很近,近到它本就由我们产生或发送,近到可以依靠它来指导我们的生活。
但它仿佛又离我们极远,由手机、电脑收集正采集着大量有关个体的数据,或被简化成满屏的难以理解的 0 和 1,分散储存在不为人知的服务器里;或被塞入天花乱坠的结构化术语,被制作成五颜六色的图表。
作为生产者的我们,对于数据的理解和掌控好像愈发困难了。
为了让读者更深入地了解这个概念,网易区块链将开启有关于如何把握 Web3.0 时代下「数据」及未来趋势的连载专栏,从多个角度深入挖掘数据逻辑,分析技术变革时期数据重要性提升的缘由,描摹最具价值数据的样态,探寻攫取数据价值的多种场景。
数据是流动的,在不确定中找到确定性,是首期连载的目标所在。首篇论「数据」打开的正确方式,我们将讨论 Web 3.0 时代翩跹而至,它能否带领我们保护、理解甚至于重塑数据价值。
螺旋依旧,数据问题争论不休
数据流转的限度
数据存储与用户信息保护一直是用户难以消解的隐忧。近年来,数据泄漏事件不断消磨着用户对于数据采集、存储的信心。倘若用户将隐私信息上传中心化的存储设施,便意味着丧失了对信息的掌控权。一旦这些隐私信息发生数据丢失、泄露或被盗用,对于个人来说便是一场“社会性死亡”。
自 2013 年以来,Facebook 至少已经发生了 5 起数据泄露事件。2019 年泄漏事件甚至波及了 5.4 亿个账户,Facebook 解释称泄漏的都是「旧数据」,不会就本次事件向用户提出任何建议。
2016 年 12 月 14 日,雅虎宣布该公司有 10 亿多用户账号于 2013 年被黑客窃取。此次被盗的资料中可能包括姓名、联系方式、密码以及安全问答等内容,次年雅虎表示:所有 30 亿雅虎用户的个人信息被泄露,这一数字是 2016 年公布的 3 倍。
自《数据安全法》《个人信息保护法》先后实施,我们对数据安全和个人信息保护提出了更严格的要求。可以说,有关于数据治理,Web2.0 并没有提交一份令人满意的答卷。
数据使用的难度
在大数据与物联网时代,万事万物都可称之为行走的「数据」源,也正因如此,数据存储的增长率也是惊人的:从 2010 年到 2020 年,全球创建、复制和消耗的数据/信息总量为 64.2 ZB,这一数字还正在增长。
根据 Statista 的数据,到 2025 年将超过 180 ZB。基于如此惊人的数据量增长,未来数据清洗和查验的难度可想而知。
这亦是Web2.0 数据孤岛所造成的负面影响之一。每打开一个应用,用户都要不厌其烦地完成一次注册,并可能在不知情的情况下,向应用开放了获许其他信息的权限。各个应用都掌握着自己的用户数据库,彼此独立,互不打通。
重复采集数据不仅会消耗大量的时间、网络带宽和计算资源,碎片化的采集状态,更限制了对数据的全面分析和挖掘,难以发现数据中的潜在价值和洞见。大量数据的唯一性和正确性等待处理,不同的数据源之间进行有效的比较和验证。
数据使用方需要花费大量的时间和资源来完成,加之提供者可能无法或不愿意提供详细的数据采集方法、处理流程或溯源信息,例如传统的无法原路自证的抽奖与摇号机制,这给使用方验证数据的真实性和可靠性增加难度。
显然,数据流通限制下的查验成为使用者无法绕过的难题。
数据价值的匹配
Web2.0 使更多用户能够交互并参与 Web 内容的创建,但并不是所有的用户获得了与之相匹配的权益。用户生成的内容不仅被用于提升用户的粘性,还有可能会被平台所有或被用于商业目的。
不少平台可能会收集和分析用户的数据,从中获取商业价值,例如通过广告定向或销售数据给第三方。
Twitter(现在名为 X) 已经准备将数据 API 作为服务,向用户打包售卖,数以亿计用户的登录信息与应用操作取向(包括屏幕截图、使用音频、广告的敏感度),正在或即将被转卖出去,在这个环节里,用户被当成了“数据劳工”,源源不断地哺育那些随意更改用户协议的平台和企业,此时用户就是产品本身。
我们再提升视野层次,针对数据的价值讨论究其根本是一个复杂而多维的过程,是否具有实用性、稀缺性、正确性、重要性,是否涉及到社会与集体价值,是否还能给数据使用者带来潜在商业机会等等,都可以纳入到影响数据价值分配的因素。
不同行业、组织和个人可能对数据的价值有不同的认知和评估标准,因此即便是用户提供数据后能够获得相对应的价值分配,其价值的评估难度也是极大的。
进一步而言,因为数据在数字环境中可以轻松地复制和传播,其他参与者也可以访问相同的数据,一旦使用者接触了数据的内容,该数据所具有的独特价值将大打折扣。
对于数据提供者来说,他们可能会尝试通过提供附加服务、分析洞察力或与其他数据集的组合来增加数据的价值,此时的数据价值分配就会绕过作为元数据的提供者,导致数据价值的分配变得更加复杂。
不破不立,Web 3.0 重塑数据价值
数据治理:让数据安全可控
Web3.0 项目逐渐发现了将后端和元数据与去中心化存储连接的重要性,Web3.0 链上数据通常分布在多个节点上,而不是存储在单个中心化服务器上。
即使某些节点受到攻击或故障,其他节点仍然可以继续提供数据。特别是涉及用户个人信息、财务数据和敏感业务数据,通过使用去中心化存储,可以避免单点故障和中心化存储的潜在安全风险,避免用户数据的遭到损害。
在数据存储与流通期间出现的安全问题,我们还可以使用新兴的AI 技术进行及时排查。
AI 驱动的入侵检测系统,经过建立行为模型和规则引擎,自动进行漏洞扫描,对线上数据异常行为进行实时监控和预警,例如使用暴力登录尝试和其他恶意活动。并且 AI 通过不断机器学习,提高对网络威胁的防御能力,分析攻击模式、新型威胁和漏洞信息,凭借持续地自我学习并更新防御策略,及时适应变化的威胁环境。
数据应用:让数据可用不可见
在充分保护隐私的基础上深度挖掘数据,是发展数字经济的题中应有之义, 2022 年底发布的《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》,数据「可用不可见」成为法定要求。
运用隐私计算技术破解数据流通中的安全问题成为必要技术与解决思路。
隐私计算技术允许在不暴露原始数据的情况下进行计算和分析,进而保护敏感数据的隐私性。欧盟网络安全局(ENISA) 将“隐私增强技术”定义为旨在支持数据最小化、匿名化和假名化以及其他核心隐私和数据保护原则的技术。
以其中一条技术主线零知识证明(ZKP)为例,证明者可以向验证者展示自己拥有某个信息,而不会泄露该信息的实际内容。在证明过程中根据需要,可以将数据的访问和使用权限进行精确控制,验证者无法从零知识证明中获取任何有关证明者所拥有的实际信息。
因此,数据主体可以通过零知识证明向应用证明其拥有某些特定的属性或资格,而无需泄露个人隐私信息。应用可以验证证明的有效性,而不需要了解具体的数据。
这种性质使得零知识证明成为保护用户隐私和进行身份验证的强大工具,弥合用户和应用之间的数据信任。同时隐私计算技术也为实现安全的数据共享与合作,破除数据流通壁垒创造可能。
通过安全计算协议,不同组织可以在不共享原始数据的情况下进行分布式模型推断或者训练,保护数据提供方的知识产权的情况下,让数据要素在信任基础上充分流通,为跨组织的数据合作和合规性提供了更多机会和灵活性,推动同业和异业公司在符合国家规范的条件下促成数据联盟。
在实际业务场景中落地应用的隐私计算技术,面临着迭代成本和稳定性等等的挑战,但随着技术的不断发展,数据市场的基础设施将逐渐完善与成熟,解决的数据垄断、隐私安全等问题指日可待。
数据价值:让用户共创共享
Web3.0 的核心概念之一是数据的所有权和价值归属的变革。
所有的累积的链上交互行为数据,用户都能够公平地享有在此基础上创造的价值,数据从一种资源,演变为一种确权的、流动的、带来收益的个人资产,这种激励模式旨在实现让所有个体的创造力被激发、被奖励,这在 Web1.0 和Web2.0 阶段是绝对无法想象的。
让数据价值真正得以流动,首先基于每一条链上数据的产权都能够予以确认。区块链上的数据交易和所有权转移完全公开可见,并且可以跨平台流动,原数据生产者的权益能够得到全方位的保护。
正因如此,生产者可以通过智能合约定义数据的使用和共享规则,根据数据的附加价值和使用场景来制定不同的许可协议,以确保对附加服务和数据集组合的使用能够得到合理的收益。
其次,数据资产流转顺畅的前提,是完成数据要素市场的培育。为此,上海数交所在数据要素流通制度和规范率先作出探索,如发布数商体系,全新构建涵盖数据交易主体、数据合规咨询、质量评估、资产评估、交付等多领域的“数商”新业态,解决数据定价难的问题,充分释放数字红利。
包括【网易星球五周年特别限定】数字资产在内的多个数字藏品系列在上海数据交易所完成登记备案,并在“中国数字资产网”进行数字资产相关内容和权益的展现。
今年以来,上海数据交易所数据交易额不断攀升,单月交易额已超1亿元,预计2023年全年交易额突破10亿元;数据产品挂牌数超1600个,涵盖金融、航运交通、国际等板块,日益活跃的市场交易生态正逐步形成。
Web3.0 时代,还针对价值激励部分提出全新的探索路径:无论是生产者还是使用者,均可通过 DAO 参与决策和治理数据的使用和分配。
通过设定激励机制来奖励数据参与者的贡献。例如,通过贡献度算法或其他机制,对数据参与者在数据贡献、数据质量、数据验证等方面的贡献进行评估和奖励。
这样可以激励数据参与者参与数据循环治理,同时确保他们能够获得公平回报。
在逐步解决权益保护、合规性和可持续性的问题,我们期待通过全新的生态架构 DAO,为数据价值分配提供更广泛的参考和共识。
小结
Web 3.0 是一场不同技术路线融合的革命,在人工智能、区块链技术等新兴技术的结合重构的透明安全、价值共创的在线生态系统,在未来将催生令人兴奋的新商业模式和治理场景。
在数据这一底层支柱上,我们期待更多普通用户享受数据不仅作为生产资料,更是作为生产力,给予用户带来的体验质变。
参考资料来源:
[1] 一文读懂Web3数据赛道:市场结构、代表项目及未来趋势;
[2] 深入探讨隐私计算公链的可信化未来;
[3] 隐私计算白皮书(2022年);
[4] 万字长文:Web3 数据市场展望;
[5]基于公平理论的面向联邦学习的公平奖励分配方法;
[6] “揭秘”上海数据交易所:做好数据要素流通“必答题”。