求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

大数据开发平台项目查看源代码讨论查看历史

跳转至: 导航搜索

来自 搜狐网 的图片

大数据开发平台项目天翼电子商务有限公司(以下简称“翼支付”)是中国电信集团的成员企业,中国电信旗下唯一的互联网[1]金融平台,国内首家电信运营商支付公司,中国人民银行核准的第三方支付机构。

作为进军金融科技从事新业态的央企子公司,是兼具“金融、电信、互联网” 特点的国家高新技术企业。公司关注5G建设、运营过程中的金融服务需求,拓展传统供应链金融、保险等相关金融配套服务。2020年翼支付个账交易达到3943亿元;全年累计交易额达11075亿元;月均活跃用户数5249万户;合作商家超800万户。中国电信集团转型3.0战略,提出建设“五大生态圈”,其中 “互联网金融生态圈”以翼支付为核心构建。

案例概述

该项目以企业的海量数据开发与服务为出发点,深入挖掘用户诉求,整合离线调度、实时计算、数据集成、数据服务、机器学习于一体。支持一站式数据采集、清洗、转换、服务等能力。离线调度模块采用行业先进的Apache Airflow作为调度引擎,可结合业务需求实现各种复杂依赖,实现600+任务并发处理,每日处理2万+离线调度任务,全年服务质量约99.995%(全年累计故障实例数/全年总实例数 ), 按需求保障既定任务完成质量及时效;实时计算模块采用StreamSQL,使用方可以使用SQL语法进行流式任务的开发,底层采用Flink流式处理框架;机器学习模块支AutoML,并支持跟其他离线、实时任务进行依赖调度;数据集成模块解决了夸系统的海量数据传输;数据服务模块解决数据快速应用痛点,通过向导式配置生成服务API。

此外,结合公司内部需求,设计了一种新型的计算资源分配策略,分时段分别采用动态资源分配和静态资源分配策略。利用动态资源分配策略保证了公司核心任务快速计算,利用静态资源分配模式更好地避免工作时间段各租户间的相互影响。

案例突破性

优势及特点

1、 一站式数据开发与服务平台,整合离线调度、实时计算、数据集成、数据发布、机器学习于一体,企业内部常规大数据[2]计算需求都可以在平台上得到解决。

2、 采用spark计算引擎逐步替代hive引擎,离线计算效率提升2倍以上。

3、 分时段资源分配策略,既满足核心任务优先快速计算完成,又满足工作时间各租户间不相互影响。

贡献及影响

平台已成为翼支付公司数据开发的主要平台,作为公司数据治理的主阵地,有效保证数据开发任务的稳定性和时效性。

可推广性阐述

平台能力可以进一步产品化,然后作为翼支付金融科技能力向市场输出。

技术要点

根据2018年12月中国信通院发布的《数据资产管理实践白皮书3.0》:近年来,中国大数据和商业数据分析市场规模增速是世界平均增速的2倍,特别是银行业、离散制造业、流程制造业和政府等行业需求尤其旺盛。数据是数字经济的“血液”, 数字经济的崛起推动了社会发展,越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识。

目前我司积极探索数据的应用场景和商业模式。大数据部ODS汇聚了公司P级别的数据量,各数据中台、数据应用系统与数据的交互越来越频繁,业务对于数据使用的需求也日益增加。集群资源紧张、数据工具匮乏、任务运行时长过长、数据开发工作效率与业务诉求激增之间的矛盾也随之而来。在数据资产日益丰富的同时,我司在处理分析海量数据过程中还存在以下问题:

1. 任务管理缺乏系统化:调度平台以任务维度对任务维度进行运维管理,造成各部门任务管理混乱;

2. 任务处理时效性难以保证:由于调度任务的资源消耗已逐渐达到集群资源的上限,导致部分优先级低的任务难以按时运行完成,无法满足业务分析的时效性要求;

3. 上线任务缺乏充分测试:调度平台只有一套环境进行数据开发,任务修改失败会导致下游依赖任务受到影响,从而造成生产故障;

4. 任务之间的相互影响严重:原有调度配置策略,会导致某些耗用资源过大的任务长期占用集群资源,导致其他任务无法获得资源运行,从而产生较为频繁的任务延时;

5. 数据平台冗余,缺乏数据处理统一管理:公司存在先算平台、数据服务平台、ETL平台,并用于对不同类型的数据进行加工处理,数据平台冗余,且平台之间壁垒难以打通,缺乏统一管理。

为了解决这一系列矛盾,公司从2020年年初开始启动数据开发平台项目建设工作。平台自2020年6月份上线第一个试运行版本,到现在已稳定运行近1年时间。在此期间,不断根据业务需求进行迭代,并参考行业先进解决方案,根据公司内部实际诉求给出符合公司实际的产品设计,并推动研发落地与生产应用。

以下将从产品成果、技术成果两个方面来阐述项目的价值。

参考文献