基于图数据库的元数据血缘关系分析技术研究与实践

1.背景

图数据库,不是存储图片的数据库,而是以图论为基础存储节点与节点间关系的数据库。图数据库是近年来成长最快的数据库分类,从社交网络到金融关系,都会涉及大量的高度关联数据,因此图数据库很早就开始被Twitter,Facebook和Google等公司采用,也成为当今各行各业所推崇的主流技术。

较传统关系型数据库,关系在图数据库中是最重要的元素,应用程序不必使用外键约束实现表间的相互引用。图1分别展示了图数据库和关系型数据库在查找三度人脉关系时的工作原理,可以看出图数据库能够充分发挥其存储关系的优势,利用关系作为连接跳板进行查询,而关系型数据库必须进行表连接的操作,表连接次数随着查询的度数增大而增多,会极大影响查询的响应速度。

图1  图数据库和关系型数据库查找三度人脉关系逻辑示例

图数据库支持非常灵活和细粒度的数据模型,可以用简单直观的方式对数据应用进行建模和管理,利用图的方式来表达现实世界的很多事物将更为直接、易于理解,同时图数据库在查询关系时性能极佳,在深挖关系上极具潜力,具备挖掘数据潜在价值的能力,与关系数据库相比,图数据库可支持更多类型的关系场景,本文将基于图数据库对元数据血缘关系进行研究和实践。

1.1 元数据

大数据时代的到来,意味着数据的海量性和复杂性。随着平台应用不断推广创新,基础数据也会飞速增长,增长的数据就会存在血缘不清、重复存储加工、口径混乱、数据质量参差不齐等一系列问题。元数据是描述数据的数据,对数据及信息资源进行描述,是关于数据的更高层次抽象,通过对元数据的有效管理,能够有效解决上述问题。

根据元数据描述对象的不同,可将其划分为业务元数据、技术元数据和管理元数据。(1)业务元数据主要记录在系统中业务的相关概念信息,包括业务术语、信息分类、指标定义、业务规则等。(2)技术元数据描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。(3)管理元数据定义系统中涉及管理领域的相关概念等信息,如对项目管理、IT运维、IT资源设备等相关信息的描述。

元数据实现了信息的描述和分类的格式化,能够对数据资产进行有效管理,理清数据之间的关系。元数据可以帮助研发人员了解平台的情况,例如平台所包含的数据、数据存储占用的空间、数据存储位置、数据产出信息等,在此基础上可以做一些运维报警工作。此外,它还有助于制定平台数据统计的标准,梳理出统一的数据口径、计算指标、上下游关联关系,为数据质量及维护可视化奠定基础。

1.2 元数据应用

元数据记录了系统包含的数据、数据的表示、数据的来源,以及在系统中的流转关系。元数据的应用广泛,可以使用其构建业务术语、数据标准、数据字典、数据资产目录、数据血缘关系以及数据地图等。下面将主要介绍下文所涉及的数据血缘关系。

数据血缘能够表示数据与数据之间的关系,反映数据在系统中的生产加工流程,主要包括集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系,当溯源数据的上游,即可查询该数据的生成流程,对其来源进行跟踪。当分析下游流向时,便具备影响度分析的功能。

在系统进行升级改造时,通过对依赖数据进行影响性分析,可以快速定位到下游受到影响的范围,从而减少系统升级改造带来的风险,如图2快速定位改造影响系统范围。当同时分析上游和下游流向时,即能获得完整的数据流动链,依据此可以更好地分析依赖关系,辅助后续系统功能的增加。

图2  快速定位改造影响系统范围

2.元数据血缘关系实践

使用图数据库存储查询元数据血缘关系,需要首先梳理出元数据之间的关联关系建立图模型,再以此为基础整理出所需的数据,并将数据加载进图数据库,之后即可设计关系模型进行链路匹配查询。

本文基于农业银行人民银行金融基础数据报送系统,梳理了系统中表、脚本、作业、作业链、应用系统、主机、节点之间的关系,以构建图模型。在数据准备环节,通过SQL脚本获得脚本和表之间的关系以及表和表之间的关系,通过调度监控台中作业链相关信息,建立作业和脚本,作业链和作业,父子作业等关系。随后在图数据库平台上进行操作,创建图模型、建立模型与数据的映射关系,并执行数据加载操作,完成从建模到数据装载的过程。为了实现血缘关系的查询,需要提前设定好图的匹配模式,在此基础上编写相应的图查询语句。结合现有的数据,本文展示了三种关系分析模型。

2.1 图模型定义

在图模型的设计上,本文采用先建立实体,再以实体节点展开建立节点与节点之间的关系的方式。通过农业银行人民银行金融基础数据报送系统进行分析,建立作业链、作业、脚本等7种实体以及表之间的依赖关系、父子作业、作业链与作业的包含关系等10种关系,具体如下:

表1 图模型schema定义

类型

名称

中文名称

 

 

 

实体

ent_table

ent_script

脚本

ent_job

作业

ent_jobchain

作业链

ent_system

应用系统

ent_node

节点

ent_host

主机

 

 

 

 

关系

rel_tab_dep

表与表依赖关系

rel_script_input

表输入脚本关系

rel_script_output

脚本输出表关系

rel_job_excute

作业执行脚本关系

rel_jobchain_contain

作业链包含作业关系

rel_job_place

作业与节点存储关系

rel_job_runat

作业与主机运行关系

rel_job_follow

作业之间父子关系

rel_jobchain_follow

作业链之间父子关系

rel_jobchain_belongto

作业链与系统所属关系

 图3 元数据血缘关系图模型示意图

根据已定义的实体和关系,梳理如下信息:表基础信息、脚本基础信息、作业基础信息、作业链基础信息、应用系统基础信息、节点基础信息、主机基础信息、表与表依赖关系、表输入脚本关系、脚本输出表关系、作业执行脚本关系、作业链包含作业关系、作业与节点存储关系、作业与主机运行关系、作业之间父子关系、作业链之间父子关系以及作业链与系统所属关系。

2.2 血缘关系模型定义

根据想要追溯的数据关系方向,将模型分为三类:向上追溯的依赖关系模型、向下流动的影响度分析模型以及串联整个数据流向的数据加工模型,具体如下:

(1)依赖关系分析模型

对表级、作业级、作业链级依赖关系进行追溯。此三类的关系追溯处理逻辑相似,以表为例,选定一张表后不断寻找该表的依赖表,直到找到源头所在,形成向上的关系溯源。

(2)影响度分析模型

对其进行下游影响度分析时,需要不断的进行查找当前节点被哪些节点依赖,以形成向下的完整关系链。

(3)数据加工模型

该模型能够反映数据的生成加工过程,可查看表、脚本、作业、作业链、系统等不同级别的关联关系,具体模型如图4所示。从一张表出发展开与其相关的表的一度关系,并且关联处理该表的脚本,追溯执行脚本的作业,展开该作业的父作业和子作业、运行节点和主机,查找包含该作业的作业链,并展开该作业链的所属系统,从而呈现完整的数据加工过程。

图4 数据加工模型 

2.3 结果可视化

Cypher是Neo4j图数据库描述性图查询语言,允许不必编写图形结构的遍历代码实现对图形存储有表现力和效率的查询,其语法形象易懂,编写使用难度较低。开发人员只需关注如何找到数据,不必关心查询过程的具体细节。上文提到的各血缘关系以虚拟场景实现具体代码及结果如下:

(1) 依赖关系分析(以查询机构信息表)为例)

MATCHdata=(na:TABLE{TABLE_NAME:’机构信息表_当期表_历史表’})<-[r:DEPENDANCE*]-(nb:TABLE)

RETURNdata

图5  依赖关系分析查询结果图

(2) 影响度分析(以查询客户信息表为例)

MATCH data=(na:TABLE{TABLE_NAME:’客户信息表_备份表_历史表’})-[r:DEPENDANCE*]->(nb:TABLE)

RETURN data

图6 影响度分析查询结果图

(3) 数据加工模型

MATCH
data1=(:TABLE{TABLE_NAME:'机构信息表_当期表_历史表'})<-[:DEPENDANCE*1..2]-(:TABLE),
data2=(:TABLE{TABLE_NAME:'机构信息表_当期表_历史表'})<-[:OUTPUT*]-(:SCRIPT)<-[:EXCUTE*]-(nJ:JOB)<-[:RELATION*]-(:JOB),
data3=(nJ)-[:BELONGTO*]->(:LINK)-[:PERTAINTO*]->(:SYS),
data4=(nJ)-[:RUNINGON|RUNNINGON*]->()
RETURNdata1,data2,data3,data4

图7 数据加工查询结果图

图5-图7展示了上文各模型Cypher语句的查询结果。可以看出利用图数据库平台能够对图查询结果进行直观地展示,并且支持查询图谱嵌入其他可视化系统。其作为辅助工具,能够直观地展示各个实体之间的关联关系及属性,有助于数据分析师、研发人员、业务人员进行分析探查。

以图7为例,从表机构信息表_当期表_历史表出发,它的加工处理依赖于表补录表、地区表、账号表。向左追溯,它是由脚本文件脚本_机构信息表的执行产出,该脚本由作业_机构信息表执行。它的父作业有作业_外部基础信息表、作业_组织信息表、作业_代码表等。该作业在节点_数据节点上,在主机_数据主机上。它包含于作业链_机构信息表作业链,此作业链属于数据系统应用系统。以上就是查询一张表的基本加工处理关系的全部过程。

3.总结与展望

本文基于图数据库对元数据的血缘关系进行研究和分析,通过建立图模型、构建数据映射关系、定义血缘关系模型以及编写Cypher查询语句以实现元数据血缘关系的存储和展示。在进行系统升级、系统改造甚至表结构变更等操作时通过该模型查询结果的辅助,能够快速、有效定位系统中受影响的范围,大大减少了时间成本。目前,我行的数据湖建设正在有序推进,未来数据湖所涉及到大量的实时型、分析型计算,图数据库在关键路径的分析中无疑会起到非常重要的作用。

图数据库在关系存储上具有巨大的优势,使其作为近六年来使用增长最迅速的数据库,得到各行各业的广泛关注。在互联网、5G、人工智能等数字化技术推动下,随着数据技术与金融行业的融合发展,银行金融业当前面临以下两个问题。(1)数据间关联复杂度增加,数据本身的4V特性(Volume大量、Velocity高速、Variety多样、Value价值)使得查询性能成指数级恶化,但数据实时关联已成为不可逆的趋势。(2)金融欺诈风险不断扩大,传统反欺诈技术不断遭受着冲击与挑战。欺诈闭环、反洗钱监测、交易担保识别等越来越多的场景需要多重维度、及时反馈的技术支持。图数据库的发展和兴起正是解决这两个问题的理想工具。积极推进图计算平台的搭建,积极探索图数据库在风控场景、营销场景、智能搜索等场景的应用,可以为进一步挖掘海量数据潜在的商业价值奠定坚实的基础。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/256740.html<

(0)
运维的头像运维
上一篇2025-05-01 10:56
下一篇 2025-05-01 10:57

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注