天翼云诸葛AI查看源代码讨论查看历史

来自搜狐网的图片

天翼云诸葛AI天翼云诸葛AI-联邦学习平台，中国电信股份有限公司云计算分公司（以下简称天翼云）是中国电信旗下直属专业公司，是集市场营销、运营服务、产品研发于一体的云计算^[1]基础服务提供商。

中国电信天翼云在“2+4+31+X+O”资源池战略布局的基础上，发挥5G云网融合的领先优势，努力打造5G+天翼云+AI新动能。中国电信天翼云位列全球运营商云之首，中国电信也是唯一一家进入全球IaaS市场前十的运营商。

中国电信天翼云作为全球领先的云服务商及运营商云的领军者，拥有先进的云网基础设施和定制化解决方案，正在成为中国电信全方位建设能力体系的核心承载，依托自主研发的云平台和5s安全体系，以及运营商央企底蕴与互联网创新机制，为用户提供安全云服务。

案例概述

天翼云诸葛AI-联邦学习平台是安全可信、算力高效的大数据^[2]智能生态平台。面向重点行业，聚焦风控、获客、合规等典型应用场景，使用多方安全计算、数据加密等核心技术，在保障数据安全的基础上，共享数据资产价值。

诸葛AI-联邦学习平台内容包括：①基于加密分布式机器学习系统，保障隐私数据安全。②集约化的存储、计算资源管理，弹性分配和使用资源。③远程服务器组件配置及模型搭建，数据可以不出本地，并远程高效便捷操作。

诸葛AI-联邦学习平台以天翼云物理资源为底座，架构于诸葛AI-大数据平台之上，资源技术具有充足保障。目前已赋能银行、保险、互联网、政府、企业多家用户，平台数据调用次数达到每日1000万次，为数据要素市场快速发展带来新动能。

成果突破性

天翼云诸葛AI-联邦学习平台是基于加密的分布式机器学习技术，为企业提供能保护数据隐私，远程操作、低成本快速迭代的大数据风控联合建模服务。

特点为1）数据样本加密：通过同态加密技术将合作方的数据进行加密，获得加密样本，方便后续进行训练。2）样本对齐：将各方加密后的样本汇总进行样本对齐，使得加密样本数据成为可以进行模型训练的样本。3）加密模型训练：应用样本对齐后的加密样本进行模型训练，通过分发公钥、加密交互中间结果、加密汇总梯度与损失来更新双方模型。4）生成联合模型：根据合作方需求，对训练好的模型进行二次处理，生成针对各方需求的模型，模型仅包含部分参数，保证各方隐私数据安全不可交换，并实现数据价值共享。

技术要点

(一) 技术创新突破

诸葛AI联邦学习平台，在技术上有多项创新突破，最突出部分为多方安全计算和模型共建。对涉及隐私数据的模型训练则启用联邦学习技术达到数据可用不可见。

1）多方安全计算，确保数据传输隐私+正确性

多方安全计算能够同时确保输入的隐私性和计算的正确性，在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露，且同时能够获得准确的运算结果，该计算技术在需要秘密共享和隐私保护的场景中具有重要意义，其主要适用的场景包括联合数据分析、数据安全查询、数据可信交换等，让隐私数据安全、无损的用于数据模型。

2）模型共建，共享加密样本梯度

作为加密的分布式机器学习技术，联邦学习可以让模型不出本地，不将底层数据披露对外。同时在多方合作时，数据均在何方联邦学习平台进行数据加密，输入到模型汇总模型梯度与损失，以此即使数据维度不同，样本不对其也可以将梯度和损失共享，共同提高模型能力。

应用诸葛AI联邦学习平台可以融合电信海量用户数据、互联网公开数据、以及城市大数据，可以为构建以数据为核心的智慧城市体系提供支撑，综合提升大数据平台与技术。

(二) 模式创新，数据交易从“买卖”到“租赁”新模式

在传统数据交易模式上摒弃了直接传输数据交易模式，数据生产者与数据消费者之间不再是“买卖”关系，而是“租赁”关系。数据所有权仍属于数据生产者，生产者有权干涉或禁止租约约定之外的行为。

以应用诸葛AI联邦学习平台底座基础上开发的数据流通中心产品为例。通过联邦学习平台功能的拓展数据流通中心与以往数据交易模型有本质区别，在架构上分为资产层、交易层和服务层。

资产层：以数据治理平台为底座聚焦数据资产管理，主要管理策略包含会员体系、资产发行、资产确权、资产定价以及资产上下架操作等。

交易层：以数据资产开发平台为基础，在基础上根据数据贡献度、隐私计算的数据开发、资产检索等实现数据交割。

服务层：以数据应用市场为背景专注于资产服务、指标服务、通用资产查询等场景化服务。

数据价值是一种高阶的、经过提炼的生产结果。在数据流通中心大数据业务发展中，核心由分享数据内容转换到分享数据价值。

联邦学习平台底座为数据流通中心提供加密传输技术支持，使得数据资产更有价值。

（三）性能、技术指标

1. 安全

安全：自主研发和运营基于安全多方计算的联邦学习能力，为合规的数据共享应用打开新的通道，关注跨机构跨组织的大数据合作场景,通过联邦学习平台让数据合法合规的成为生产要素，释放电信的数据价值。通过联邦学习在各方原始数据不离开本地、不泄露任何个人隐私数据的情况下，完成需要多方共同参与的模型训练，从而有效帮助多个机构在满足隐私数据保护的前提下解决模型训练数据不足的问题。

国密：融合秘密分享、不经意传输、混淆电路等多种安全多方计算方案，具备针对常见数据类型的通用计算能力，并实现国密算法在安全多方计算上的应用和替代。

去第三方：解决现有联邦学习实现中较多学习算法需要引入协调方以解决建模过程中中间参数的聚合计算及条件判断的问题；解决单纯采用安全多方计算技术构建无协调方的通用计算平台，适用于数据量大、计算量高的场景，进行高效的复杂机器学习模型训练。

2. 性能

越强的数据安全要求，越会带来数据处理效率和训练效率的下降，还会限制机器学习算法的选择空间，安全和效率之间需要更优的兼顾与平衡。诸葛AI联邦学习平台树模型算法的训练时长为同为梯度提升树的对标算法XGBoost和LightGBM本地训练时长的60倍左右，在合理的性能倍数范围，具有较好的性能。

3. 建模能力

模型：具备数据处理能力、特征无量纲化及特征分箱等特征工程算法、朴素贝叶斯算法及决策树算法等分类算法、回归算法、降维算法的主成分分析等无监督学习算法的联合建模。

无损：根据多个模型评价指标可以得出诸葛AI联邦学习平台的SecureBoost与对标的Light GBM以及XGBoost在本地Python环境下训练所获得的模型效果保持基本一致，可以达到无损的效果。

4. 区块链及隐私保护

研究隐私计算区块链实现数据共享过程中有效保护信息，并为数据真实性、数据确权等问题提供可行解决方案，实现全流程可记录、可验证、可追溯、可审计的安全、可信数据共享网络，并进一步建设高效、高安全和高流动性的数据要素交易市场。

参考文献

↑ 云计算的普及：让我们了解一下云计算，搜狐，2022-02-17
↑ 什么是大数据？大数据的定义又是什么？，搜狐，2018-08-15

[1] 云计算的普及：让我们了解一下云计算，搜狐，2022-02-17

[2] 什么是大数据？大数据的定义又是什么？，搜狐，2018-08-15

[1]

[2]