天翼雲諸葛AI檢視原始碼討論檢視歷史
天翼雲諸葛AI天翼雲諸葛AI-聯邦學習平台,中國電信股份有限公司雲計算分公司(以下簡稱天翼雲)是中國電信旗下直屬專業公司,是集市場營銷、運營服務、產品研發於一體的雲計算[1]基礎服務提供商。
中國電信天翼雲在「2+4+31+X+O」資源池戰略布局的基礎上,發揮5G雲網融合的領先優勢,努力打造5G+天翼雲+AI新動能。中國電信天翼雲位列全球運營商雲之首,中國電信也是唯一一家進入全球IaaS市場前十的運營商。
中國電信天翼雲作為全球領先的雲服務商及運營商雲的領軍者,擁有先進的雲網基礎設施和定製化解決方案,正在成為中國電信全方位建設能力體系的核心承載,依託自主研發的雲平台和5s安全體系,以及運營商央企底蘊與互聯網創新機制,為用戶提供安全雲服務。
案例概述
天翼雲諸葛AI-聯邦學習平台是安全可信、算力高效的大數據[2]智能生態平台。面向重點行業,聚焦風控、獲客、合規等典型應用場景,使用多方安全計算、數據加密等核心技術,在保障數據安全的基礎上,共享數據資產價值。
諸葛AI-聯邦學習平台內容包括:①基於加密分布式機器學習系統,保障隱私數據安全。②集約化的存儲、計算資源管理,彈性分配和使用資源。③遠程服務器組件配置及模型搭建,數據可以不出本地,並遠程高效便捷操作。
諸葛AI-聯邦學習平台以天翼雲物理資源為底座,架構於諸葛AI-大數據平台之上,資源技術具有充足保障。目前已賦能銀行、保險、互聯網、政府、企業多家用戶,平台數據調用次數達到每日1000萬次,為數據要素市場快速發展帶來新動能。
成果突破性
天翼雲諸葛AI-聯邦學習平台是基於加密的分布式機器學習技術,為企業提供能保護數據隱私,遠程操作、低成本快速迭代的大數據風控聯合建模服務。
特點為1)數據樣本加密:通過同態加密技術將合作方的數據進行加密,獲得加密樣本,方便後續進行訓練。2)樣本對齊:將各方加密後的樣本匯總進行樣本對齊,使得加密樣本數據成為可以進行模型訓練的樣本。3)加密模型訓練:應用樣本對齊後的加密樣本進行模型訓練,通過分發公鑰、加密交互中間結果、加密匯總梯度與損失來更新雙方模型。4)生成聯合模型:根據合作方需求,對訓練好的模型進行二次處理,生成針對各方需求的模型,模型僅包含部分參數,保證各方隱私數據安全不可交換,並實現數據價值共享。
技術要點
(一) 技術創新突破
諸葛AI聯邦學習平台,在技術上有多項創新突破,最突出部分為多方安全計算和模型共建。對涉及隱私數據的模型訓練則啟用聯邦學習技術達到數據可用不可見。
1) 多方安全計算,確保數據傳輸隱私+正確性
多方安全計算能夠同時確保輸入的隱私性和計算的正確性,在無可信第三方的前提下通過數學理論保證參與計算的各方成員輸入信息不暴露,且同時能夠獲得準確的運算結果,該計算技術在需要秘密共享和隱私保護的場景中具有重要意義,其主要適用的場景包括聯合數據分析、數據安全查詢、數據可信交換等,讓隱私數據安全、無損的用於數據模型。
2) 模型共建,共享加密樣本梯度
作為加密的分布式機器學習技術,聯邦學習可以讓模型不出本地,不將底層數據披露對外。同時在多方合作時,數據均在何方聯邦學習平台進行數據加密,輸入到模型匯總模型梯度與損失,以此即使數據維度不同,樣本不對其也可以將梯度和損失共享,共同提高模型能力。
應用諸葛AI聯邦學習平台可以融合電信海量用戶數據、互聯網公開數據、以及城市大數據,可以為構建以數據為核心的智慧城市體系提供支撐,綜合提升大數據平台與技術。
(二) 模式創新,數據交易從「買賣」到「租賃」新模式
在傳統數據交易模式上摒棄了直接傳輸數據交易模式,數據生產者與數據消費者之間不再是「買賣」關係,而是「租賃」關係。數據所有權仍屬於數據生產者,生產者有權干涉或禁止租約約定之外的行為。
以應用諸葛AI聯邦學習平台底座基礎上開發的數據流通中心產品為例。通過聯邦學習平台功能的拓展數據流通中心與以往數據交易模型有本質區別,在架構上分為資產層、交易層和服務層。
資產層:以數據治理平台為底座聚焦數據資產管理,主要管理策略包含會員體系、資產發行、資產確權、資產定價以及資產上下架操作等。
交易層:以數據資產開發平台為基礎,在基礎上根據數據貢獻度、隱私計算的數據開發、資產檢索等實現數據交割。
服務層:以數據應用市場為背景專注於資產服務、指標服務、通用資產查詢等場景化服務。
數據價值是一種高階的、經過提煉的生產結果。在數據流通中心大數據業務發展中,核心由分享數據內容轉換到分享數據價值。
聯邦學習平台底座為數據流通中心提供加密傳輸技術支持,使得數據資產更有價值。
(三)性能、技術指標
1. 安全
安全:自主研發和運營基於安全多方計算的聯邦學習能力,為合規的數據共享應用打開新的通道,關注跨機構跨組織的大數據合作場景,通過聯邦學習平台讓數據合法合規的成為生產要素,釋放電信的數據價值。通過聯邦學習在各方原始數據不離開本地、不泄露任何個人隱私數據的情況下,完成需要多方共同參與的模型訓練,從而有效幫助多個機構在滿足隱私數據保護的前提下解決模型訓練數據不足的問題。
國密:融合秘密分享、不經意傳輸、混淆電路等多種安全多方計算方案,具備針對常見數據類型的通用計算能力,並實現國密算法在安全多方計算上的應用和替代。
去第三方:解決現有聯邦學習實現中較多學習算法需要引入協調方以解決建模過程中中間參數的聚合計算及條件判斷的問題;解決單純採用安全多方計算技術構建無協調方的通用計算平台,適用於數據量大、計算量高的場景,進行高效的複雜機器學習模型訓練。
2. 性能
越強的數據安全要求,越會帶來數據處理效率和訓練效率的下降,還會限制機器學習算法的選擇空間,安全和效率之間需要更優的兼顧與平衡。諸葛AI聯邦學習平台樹模型算法的訓練時長為同為梯度提升樹的對標算法XGBoost和LightGBM本地訓練時長的60倍左右,在合理的性能倍數範圍,具有較好的性能。
3. 建模能力
模型:具備數據處理能力、特徵無量綱化及特徵分箱等特徵工程算法、樸素貝葉斯算法及決策樹算法等分類算法、回歸算法、降維算法的主成分分析等無監督學習算法的聯合建模。
無損:根據多個模型評價指標可以得出諸葛AI聯邦學習平台的SecureBoost與對標的Light GBM以及XGBoost在本地Python環境下訓練所獲得的模型效果保持基本一致,可以達到無損的效果。
4. 區塊鏈及隱私保護
研究隱私計算區塊鏈實現數據共享過程中有效保護信息,並為數據真實性、數據確權等問題提供可行解決方案,實現全流程可記錄、可驗證、可追溯、可審計的安全、可信數據共享網絡,並進一步建設高效、高安全和高流動性的數據要素交易市場。
參考文獻
- ↑ 雲計算的普及:讓我們了解一下雲計算,搜狐,2022-02-17
- ↑ 什麼是大數據?大數據的定義又是什麼?,搜狐,2018-08-15