当前位置:网站首页 > 数字货币招商 >

隐私计算词典丨联邦学习为何如此博人眼球?

前言:隐私计算路线作为当前的风口路线,无数企业纷纷涌入,占领着道路。 是专注于区块链隐私计算赛道科普入门的垂直媒体,也是对隐私计算感兴趣的人开放的“纯天然”、低门槛的入口。 我们将隐私计算行业内晦涩难懂的名词汇总分类,制作成《隐私计算词典》板块,帮助大家了解和学习。

本篇介绍隐私计算技术体系结构的第三部分——联邦学习。

近年来,从无人车到阿尔法go打败顶级真人围棋棋手,AI人工智能在科技领域的发展真的吸引了很多人的目光。

但是,发展到现在的AI人工智能仍然面临两大现实问题:

行业数据分散难以收集,数据以孤岛的形式存在; 隐私得不到保障,数据的安全共享成为了障碍。 对此,提出了“联邦学习”这一隐私计算技术。

联邦学习(Federated Learning ),又名联邦机器学习、合作学习。 这是一种AI人工智能分支技术,其目的是保障大数据交换时的信息安全、数据保护,在合法合规的前提下,有效地支持多行业数据的机器学习建模。

隐私计算词典丨联邦学习为何如此博人眼球?

隐私保护是联邦学习最重要的兴趣点,在实际应用中,联邦学习通过将数据的不同特征在加密状态下聚合来提高机器学习模型的能力,通过共享数据模型来避免原始数据共享,确保数据的安全性。

利用联邦学习的特点,无需导出企业数据,就可以为三方或多人建立机器学习模式,在充分保护数据隐私和数据安全的同时,为客户提供了个性化的针对性服务,实现了互利互惠

同时,我们可以利用不同类型的联邦学习技术解决数据异质性问题,突破传统AI技术的局限性。 根据参与建模的数据源分布,联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习三大类。

横向学习假定收集两个数据集,一个是用户特征重复,另一个是用户重复。 将数据集按用户分割,将双方用户特征相同、用户不完全相同的部分数据作为机器训练数据提取的模型称为横向联邦学习。

例如,两个不同行政区的银行来自用户群体各自所在的行政区,重复部分很少。 但是,由于与银行一样业务相似,数据集收集的用户特征大致相同。 因此,横向联邦学习模型收集两个数据集不完全相同的用户部分。

如下图所示。 (虚线框内为横向联邦学习的训练数据) )。

隐私计算词典丨联邦学习为何如此博人眼球?

纵向联邦学习与横向联邦学习相反,在两个数据集的用户重叠多、用户特征重叠少的情况下,纵向联邦学习按照数据的特征维度分割数据集,将双方用户相同、用户特征不完全相同的部分作为机器训练数据取出

例如,同一行政区的银行和商超,收集的数据用户群体大致相似,但银行和商超收集的用户特征基本不同。 因此,纵向联邦学习模型收集了两个数据集不完全相同的用户特征部分。

如下图所示。 (虚线框内为纵向联邦学习的训练数据) )。

隐私计算词典丨联邦学习为何如此博人眼球?

联邦迁移学习在机器学习中使用的数据集样本用户和用户特征重叠较少的情况下,通常不分割数据,而是引入联邦迁移学习,以解决数据不足的问题,提高模型的效果。

具体地说,可以扩展现有的机器学习方法,使之具有横向联邦学习或纵向联邦学习的能力。 例如,收集位于北京的银行和位于上海的商超的数据,由于受地域限制,用户群体交叉小,另外由于银行和商超类型的不同,两者收集的数据特征也基本不一致。

引入联邦迁移学习后,首先让两个数据集训练各自的模型,然后加密模型数据,可以在传输过程中防止隐私泄露。 然后,共同训练这些模型,最终得到最佳模型,然后返回各企业。

如下图所示。

隐私计算词典丨联邦学习为何如此博人眼球?

多类别的联邦学习方式使得机器学习模型更加通用,可以在不同的数据结构、不同的行业之间工作,不受领域和算法的限制,同时可以保护模型的隐私,确保数据的安全性。

隐私计算词典丨联邦学习为何如此博人眼球?

在实际的APP领域,像销售、金融等行业一样,由于知识产权、隐私保护、数据安全等要素的限制,很难打通数据的壁垒。

联邦学习是解决这些问题的关键,在不影响数据隐私和安全性的情况下,通过对来自多人的数据进行统一建模和机器学习模式的训练,可以在这些企业之间更好地进行数据协作。

可以说联邦学习为建立跨行业、跨地区的大数据和人工智能生态圈提供了很好的技术支持。 考虑到在整个训练过程中,更新模型的通信仍然可以显示对第三方或中央服务器敏感的信息,联邦学习技术与安全多计算、TEE或区块链等技术广泛结合应用,以提高联邦学习的隐私性和可靠性

但是,目前现有的方法通常以降低模型性能和系统效率为代价提供隐私,因此从理论上、经验上理解和平衡这些权衡,将成为实现联邦学习技术广泛应用落地的一大课题。

  • 关注微信

猜你喜欢