用于云银行的pb级数据管理

通过Ajay Vij穆罕默德·弗西曼,Jitendra Raisinghani,夏朗巴蒂亚 2019年7月|简短| 21分钟阅读|本文的电子邮件|下载
将银行数据从遗留系统迁移到云上说起来容易做起来难,尤其是在数据量达到pb级的情况下。在银行开始他们的云之旅之前,必须在人员、流程和观念上做出改变。在这个以客户为中心的时代,驾驭这些对银行的转型和生存至关重要。
用于云银行的pb级数据管理

银行谨慎看待云

云计算推动了快速增长和创新数字商业模式的采用。从优步(Uber)到Spotify,从Netflix到Slack,成千上万的数字领导者都在云软件上建立了自己的业务。这是因为它支持灵活的、可扩展的、低成本的和不断升级的功能。但对于银行来说,采用云技术可能是一项真正的挑战——尤其是考虑到大型机的可靠性、几乎坚不可摧的本质和管理大量复杂任务的能力,它们仍然是银行业务的核心。事实上,超过90%的世界顶级银行仍然依赖于大型计算机尽管大型机在本质上是过时的,并带来了许多问题,但这仍然是一个事实。

云银行挑战

1.传统技术

根据Infosys知识研究所调查raybet雷竞app下载,遗留系统目前排名为第三个最常见的数字转型障碍(由42%的受访者命名),但金融服务管理人员预计他们可能成为2019年最严重的障碍。雷竞技足球2

每年都要花费数百万美元来维护这些陈旧的系统,而这些系统往往与现代技术不兼容。这些系统是更好地满足数字客户需求的障碍。对遗留技术的依赖也阻碍了银行利用敏捷和DevOps的工作方式、增加的自动化和分析。据Gartner估计,到2020年,银行需要将其数字业务创新预算增加两倍,才能使传统应用程序现代化。4

专家表示,银行将80%的IT预算用于遗留技术维护,一级银行每年可能会花费高达3亿美元更新现有软件,以满足监管要求。4但云计算可以作为降低成本的一种变通方法。6例如,芝加哥联邦住房贷款银行(Federal Home Loan Bank of Chicago)通过将所有内部生产工作负载转移到云计算,将基础设施成本降低了30%。7

2.数据管理

随着数据以每天2500拍字节的速度增长,8数据管理越来越受到银行的关注,9不仅仅是因为监管和安全要求。监管机构要求银行提供详细的报告、压力测试的额外信息和细节信息。10银行继续以多种形式捕获数据(客户个人信息、交易历史、旅行地图、市场数据),这些庞大的数据现在存储在数据仓库和数据湖中。

银行将数据存储在不同的位置,并且经常由不同的用户访问,从而创建了竖井式的方法和多层的数据重复。11形成了单一的数据仓库和湖泊,引发了进一步的存储问题,满足监管要求,真实性,不兼容的格式和更高的计算时间。这对银行运营成本有间接影响。

银行收集的数据也必须进行分析和部署,以促进更好的决策。12然而,由于遗留技术,银行无法利用这些数据进行分析和分析,并改善客户体验。

3.手工数据迁移

目前,当银行决定将数据转移到一个新的系统——无论是在云中还是在本地——一个新的项目团队就会建立起来并在一个竖井中工作。数据从数据湖迁移到新系统,或者在数据湖和新系统之间建立新的连接。由于银行中的竖井,使用数据的其他团队可能不知道这种迁移或新的连接。

在许多情况下,多个团队希望获得相同的数据,并遵循类似的流程,而无需彼此连接。这将导致数据的重复,在数据湖中创建多个副本,并将其传输到云中或内部的不同系统。

银行采用人工和竖井的方式来吸收和迁移数据非常耗时。这也适得其反,因为在这个数字时代,客户对即时、实时和个性化产品和服务的需求已经成为新常态。13

4.较少的遗留程序员

遗留系统建立在诸如COBOL之类的过时的语言上。例如,美国金融部门有超过2000亿行的COBOL代码,目前有效,COBOL为ATM超过90%的权力。14尽管COBOL广泛使用,但今天的编码人员更喜欢使用与人工智能,机器学习或云计算兼容的新语言。很少有人想学习一种只能谈论遗留技术的语言,熟悉COBOL的编码人员可以很好地进入50年代或60年代,15在维护旧技术方面存在严重的技能短缺挑战。16虽然可用升级,但它们仍然不足以与此数字时代的系统竞争或汇聚。

5.安全问题

任何形式的客户数据对银行来说都是敏感的。主要的云计算供应商,如谷歌和微软,都拥有出色的安全专业知识,并且都通过了符合联邦数据治理标准的认证。然而,多年来,银行一直在拖延并试图避免基础设施现代化的问题。尽管他们同意云基础设施为他们提供了更好地满足数字客户需求的能力,但除非他们确信自己的数据是安全的,否则他们不愿采用云基础设施。他们没有一个清晰的策略来帮助他们快速采用云计算。

6.敏捷和DevOps的工作方式

遗留系统保持昂贵,维护和延迟产品的市场时间。17它们也不太适合敏捷编程方法,而是依赖于瀑布方法,这可能会减慢软件的生产速度,导致特性发布不及时。

转向敏捷和DevOps工作方式的银行也从中受益。2012年,摩根大通遵循一个季度软件发布周期,开发和运营之间的协调很少。这些季度发布增加了风险、繁琐和耗时,并增加了交付成本。这家金融机构决定采纳敏捷和DevOps实践。软件发布周期从2015年每季度发布100个,2016年发布200个,2017年超过400个。18

首都一个人从瀑布到敏捷软件开发的举动有助于减少时间建立新的应用程序基础设施99%。Devops的自动化和新代码的持续集成有助于加快银行的开发周期,并且发布频率增加和更高的可靠性。19

7.文化的变迁

银行需要改变观念。他们必须准备好建立一种成本意识、客户意识和效率意识的文化。20.这说起来容易做起来难,因为许多系统、流程和人员都随银行一起成长。波士顿咨询集团(Boston Consulting Group)的一项评估显示,在经历数字化转型的企业中,专注于文化转变的盈利企业的数量是未进行转型的企业的5倍。雷竞技足球21

银行如何从云计算中获益?

将数据和应用程序转移到云端可以为银行节省资金。一些人说它可以削减多达75%的it成本。22一个大型全球银行,infosys与解决这个问题估计它可以通过采用云来节省50%的成本。银行的一些地区预计将在过渡中节省90%的成本。为实现这一目标,该银行正在使用Infosys来构建一个多云数据管理系统,该系统与Google,Amazon和Microsoft云接口迁移以迁移其数据。23

云是构建未来银行的关键。银行可以从向云的迁移中受益,不仅可以降低成本,还可以利用云的计算能力、扩展IT解决方案的能力和可靠性。事实上,转移到云端会让银行更像金融科技新贵,它们与之竞争日益激烈。成立于2015年的金融科技公司Monzo拥有一个仅由10名基础设施和可靠性团队支持的基础设施,能够为170万客户提供服务。该行在云上拥有400项核心银行微服务,这些服务帮助其以即时余额查询和实时报表等形式为客户提供价值。24

印孚瑟斯银行客户面临的问题

Infosys与构建开源数据管理平台合作的银行启动了许多同行所面临的经典挑战。项目团队在筒仓工作,并使用了各种工具和软件。对于移动数据,使用AB Initio;标记,胶合;并用于调度,控制-M。有近20个活动部件,许可证附加了许可证。

银行每天产生和移动万亿字节的数据。每一个数据输入过程都需要8到12周才能完成,而且繁琐、耗时、适得其反。

引入Infosys开源数据管理平台

为了解决这一问题,印孚瑟斯建立了一个开源的、pb级的多云数据采集和管理平台。它是一个元数据驱动的数据管理生态系统,旨在满足组织当前和未来的数据交付需求。该平台允许银行内部的业务或职能部门以确定的格式、商定的频率将数据从源移动到目标。

该平台的建立是为了解决大量的银行问题,从数据管理开始。它提供了一种集中的方式来监控所有银行数据,并使其能够在云中被摄取,而不会重复。该平台还支持可信源框架的实现,这有助于数据沿袭。这允许用户跟踪数据使用情况,了解谁做了最后的更改,数据是如何被标记的,并更好地管理可用数据的单一视图。

印孚瑟斯开源数据管理平台背后的架构

数据管理平台首先针对的是摄入问题——获取数据并将其转移到云或本地,然后在云系统上摄入数据,如Hadoop、谷歌云平台(GCP)、亚马逊网络服务(AWS)和微软Azure。

其次,着重于数据管理问题。该平台能够实现数据的自动输入,而不是之前银行采用的手动和竖井方式。它还提供了一个平台和接口来集中吸收数据。

该平台可以将数据从本地复制到一个多云环境,同时支持批处理和近实时移动。建立它的目的是保证大规模的数据交付。数据管理平台实现了各种功能,免去了每项功能都需要使用多种类型的软件,节省了许可成本。

平台对数据的获取、摄取和转换分为以下几个阶段:

1.收购

银行事务数据存储在基于遗留大型机技术的多个数据库和交换格式上。结构化和非结构化数据存储在Hadoop平台、Oracle数据库、DB2等大数据中。

该平台与数据库接口以获取存储的数据。

2.摄取

一旦从本地获取了原始数据,就需要以一种持久且易于访问的格式存储数据。该平台的架构在不同阶段接收这些数据:

  • 数据提取
    • 结构化、非结构化或半结构化数据从各种数据库和源系统中提取或复制。数据管理平台易于使用的界面支持与超过25个源系统的交互,包括关系数据库管理系统(如Oracle, Teradata, MS SQL Server, Hadoop, HDFS)和多个云(GCP, Azure, AWS)。数据的提取和复制是使用Kafka处理引擎进行的,而NiFi用于批量处理。
    • 特定的数据集可以通过用户友好的界面提取,使开发人员和业务用户能够创建摄入管道,并实时跟踪他们的移动。
    • 该接口允许数据以pb级的速度从不同的本地系统快速移动到本地Hadoop数据湖或多个云平台(GCP、AWS、Azure)。
    • 与作为单个单元的单片应用程序不同,Infosys平台的微服务驱动架构有助于降低开发时间。它的服务套件,每个服务都独立运行和部署,降低了对技术开发人员提供数据移动的依赖。
  • 数据屏蔽
    • 数据掩码有助于金融机构保护受限和敏感的客户数据 - 包括个人身份信息(PII) - 防止未经授权的数据访问并避免无根据的数据曝光。结果,减少了银行欺诈。
    • 数据在输入到本地位置或云之前会被屏蔽。平台密钥管理服务(KMS)对数据进行实时屏蔽,只有授权用户才能解除屏蔽。
    • 这有助于银行遵守网络安全和监管要求,并帮助它们与用户建立信任,相信数据访问路径是安全的。
  • 数据谱系
    • 数据谱系显示数据的生命周期,即它的起源,它已随时间移动(内部地点或云中),对其及其最终目的地执行了哪些操作。它有助于将数据追溯到其原始源(无论是本地还是云中),对数据进行调整,减少重复并快速返回其源的误差。
    • 另一个重要的方面是“可解释性”。由于对特定数据有多种依赖关系,数据沿袭可以帮助银行解释为什么做出某些决策。它还有助于银行遵守维护和管理客户数据的监管要求,例如,通用数据保护条例(GDPR)。
    • Infosys开源数据管理平台的数据沿袭是使用Java、Python和D3.js库构建的。
  • 作业调度
    • 这有助于自动触发重复的或临时的数据传输——每天、每周、每月或基于任何事件的发生。
    • 银行需要快速处理大量交易,没有任何错误或任何停机时间。作业调度的自动化确保了必要的数据在正确的时间有效地传输到正确的位置。
    • 当服务器故障时,触发容灾过程,并将任务负载切换到容灾服务器上。
    • 平台的作业调度器使用事件驱动的体系结构来调度作业。
  • 数据加密
    • 受限制的和敏感的客户数据(包括PII)在静止和传输时在多个级别上进行加密,以确保不会发生数据泄露。事实上,美国的Gramm-Leach-Bliley Act (GLBA)也要求机构保护客户的非公开个人信息(NPI)。
    • KMS符合所有银行标准。它使用一个4096位RSA密钥库,确保防篡改保护和数据加密。这高于256位加密的行业标准。该平台的KMS有用于数据屏蔽和数据加密的独立模块。
    • 传输到云端的数据采用TLS (Transport Layer Security)加密,使用证书进行身份验证,以确保客户端和服务器之间的通信是可信的。云证书使用双重加密密钥存储。
  • 实时流媒体
    • Infosys的开源数据管理平台建立以便从源到目的地的近实时和近实时移动数据。为了从本地到云加速数据移动,该平台使用Infosys开发的开源组件,Nifi,Kafka和Cloud。
    • 更改通常只表示总数据量的一小部分。数据管理平台使用Infosys开发的开源组件,读取日志,然后复制和镜像更改为云。
    • 云为其处理,存储和分析的旅程提供数据的分期位置。

3.发布,转换和管理

存储的数据被转换为可操作的信息,结果转换为易于汲取洞察的格式。

  • 数据发布
    • 摄取和存储的数据现在被清理并组织在云数据库或数据仓库中。此外,根据提供的元数据信息在目标数据库中创建目标表。云数据管理器使用谷歌BigQuery与存储的大量数据进行交互和分析。
    • 此功能是使用Java,Python,Cloud SDK,Cloud Native Tools和Google BigQuery构建的。
  • 数据屏蔽
    • 数据被输入到本地位置或云后再次被屏蔽。KMS对数据进行实时屏蔽,只有授权用户才能解除屏蔽。
  • 数据概要分析
    • 数据分析有助于评估可用数据的质量和关系。数据分析作业是在平台的调度程序中进行的。
  • 用户管理
    • 用户管理函数基于组织的Active Directory验证和板载用户。它还分配角色或提供对用户被授权工作的平台的各种功能的安全访问。
    • 数据管理平台使用Java Spring Boot、Active Directory、IAM (Cloud Identity & Access management)和KMS来实现该功能。
  • 元数据
    • 该功能存储平台接收、处理和调度的数据的业务和技术元数据。
    • 它帮助跟踪数据沿路、日志和跟踪数据,并提供用于跟踪提要状态的指示板。
    • Infosys的开源数据管理平台使用Postgres或MySQL数据库来存储元数据。
  • 数据谱系
    • 数据被输入到本地地点或云后就会被公开。KMS只允许授权用户公开数据。
    • 这有助于银行符合网络安全和监管要求,并帮助您对数据访问路径安全的用户构建信任。
  • 业务术语表
    • 该平台捕获业务术语表,并将数据移动到本地和云中的目的地。它为所吸收的数据和属性标记业务术语表,对于审计目的也很有帮助。
    • Infosys的开源数据管理平台使用Java和开源业务术语表模型来保存业务术语表。

Infosys开源数据管理平台的好处

  • 通过数据管理平台,大型全球银行将其数据迁移周期减少超过75%,并将其日常流动性报告时间减少近80%。
  • 该平台改善了银行的数据管理,成为数据迁移的一站式商店。这降低了存储和操作成本,改善了数据沿袭。
  • 它还帮助Infosys的客户为Ab Initio软件节省了850万美元的许可证续签成本,该软件解决了实时数据处理和应用集成问题。
  • 凭借其pb级的传输能力,印孚瑟斯的开源数据管理平台为该行带来了显著的好处,并帮助将数百个应用程序和pb级数据转移到云端。

银行与Infosys开源数据管理平台的未来

有了印孚瑟斯的数据管理平台,银行现在可以大规模快速地来回迁移大量数据,并部署人工智能和机器学习来分析数据,提供更好的见解并做出更好的决策。因此,银行可以开始真正成为数字第一的公司,就像它们在市场上日益面临的金融科技竞争对手一样。作为一个开源解决方案,Infosys的数据管理平台将受益于开源社区和其他选择测试和使用它的银行的贡献。我们希望在未来,它将成为一个标准的平台,使传统的大型银行能够以pb级的规模参与云计算。

参考文献
  1. 《双平台IT:为什么大型机在现代企业中仍有一席之地》,《信息时代》,2018年4月12日
  2. “印孚瑟斯数字雷达2019:金融服务业数字化转型的障碍和加速器”,2019年6月雷竞技足球
  3. 《金融新闻》,2017年10月2日报道
  4. “消费者希望遗产银行系统无法提供的经验,”金融品牌,2018年4月2日
  5. “AWS案例研究:芝加哥联邦住房贷款银行”,亚马逊网络服务
  6. “数据的无限可能性:从现在到接下来的导航,”Infosys知识研究所,2018年11月raybet雷竞app下载
  7. PYMNTS.com, 2017年12月5日,“令人眼花缭乱的数据管理法规让银行保持警惕。
  8. 《监管数据管理:亚洲银行的数据质量和完整性问题》,穆迪分析,2019年4月
  9. 《金融服务的数据管理挑战》,《数字主义者》杂志,2019年1月15日
  10. “为什么银行不充分利用数据呢?”, Raconteur, 2019年6月18日
  11. “数字银行转型:重新定义银行核心”,印孚瑟斯知识研究所,2019年4月raybet雷竞app下载
  12. “COBOL蓝调”,路透社
  13. “你知道COBOL吗?如果是这样,你可能会有一份工作。“华尔街日报,2018年9月21日
  14. “遗产系统是银行的痛苦,”Finextra,2018年10月26日
  15. “J.P.摩根资产管理如何从季度到日常发布,”Techbeacon,2018
  16. “AWS上的按需基础设施帮助Capital One的DevOps团队比以往更快地发展”,亚马逊网络服务
  17. “这不是数字化文化的数字雷竞技足球转型,”2018年4月13日,波士顿咨询集团
  18. “Monzo如何在AWS上为50多万客户建立数字银行”,亚马逊网络服务