分布式及高可用元数据采集原理

分布式及高可用元数据采集原理

作者:EAWorld 2019-10-16 10:34:33

数据库

分布式 元数据采集是元数据产品的核心部分,如何提升采集效率是需要仔细斟酌的事情,既要保持稳定性也要保持跟上主流技术的发展趋势。元数据产品从最初集中式WEB应用系统到现在流行的分布式、微服务这种系统架构,原有元数据采集效率已不能满足应用的需求了。

引言:

元数据采集是元数据产品的核心部分,如何提升采集效率是需要仔细斟酌的事情,既要保持稳定性也要保持跟上主流技术的发展趋势。元数据产品从最初集中式WEB应用系统到现在流行的分布式、微服务这种系统架构,原有元数据采集效率已不能满足应用的需求了。

[[279335]]

目录:

1.元数据采集原理

2.分布式采集策略

3.分布式采集策略的应用

1.元数据采集原理

我们要想采集元数据首先得明白,什么是元数据,元数据都存在哪里,为什么采集元数据?

元数据MetaData通俗的解释是用来描述数据的数据,实际来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据库的Schema、Table、Column信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。

以大数据平台为例,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层元数据等。

数据治理关键就是收集信息,很明显,没有数据就无从分析,也就无法有效的对平台的数据链路进行管理和改进。所以元数据管理平台很重要的一个功能就是信息的收集,至于收集哪些信息,取决于业务的需求和我们需要解决的目标问题。

如何采集元数据?

元数据采集是指获取数据生命周期中的元数据,对元数据进行组织,然后将元数据写入数据库中的过程。

不同来源的元数据获取获取方式也不大相同,在采集方式上有使用包括数据库直连、接口、日志文件等技术手段,对结构化数据的数据字典、非结构化数据的元数据信息、业务指标、代码、数据加工过程等元数据信息进行自动化和手动采集,元数据采集完成后,被组织成符合CWM模型的结构,存储在关系型数据库中。

2.分布式采集架构

现在人们对元数据管理工具采集的元数据时效性越来越高,我们元数据管理工具会管理很多来源的元数据,配置很多采集任务定时去采集,如何高效的完成采集任务,影响着元数据管理工具存储的元数据时效性。我们原先采集任务策略是单一采集程序串行执行采集任务,这样的策略采集效率是很低的,为了提高采集效率,我们就采用多个采集程序并发执行采集任务。

常见的元数据管理工具架构是传统的集中式WEB应用架构,所有的功能模块都集中在一个应用程序中。

3.分布式采集架构的应用

我们在某一证券公司做数据治理时,发现该客户的网络架构比较复杂,它的网络架构大概分为三层业务系统层、数据采集层和数据存储层。

业务系统分布业务系统层的不同地域,比如A业务系统在北京,B业务系统在上海,C业务系统在广州等。我们要想访问个各个业务系统的数据库只能通过数据采集层的代理IP去访问,不同地域的业务系统代理的IP地址网段也是不同的,数据采集层各个网段之间不能连通,数据存储层是可以和数据采集层的所有网段直接连通的。

我们现在元数据的架构是分为应用程序和采集服务两部分,应用程序和采集程序是一对一的关系,针对这种网络情况,我们要对元数据产品的架构做调整。

一、将元数据的应用程序与采集服务改为一对多模式,这样我们得需要一个采集服务管理模块,可以对采集服务的信息(IP,端口)进行维护(增删改),采集的目标数据源与采集程序服务进行映射,一个目标数据源可以配置主备采集服务,主采集服务发生故障后,可以通过备采集服务继续采集工作。

采集服务管理模块要考虑易操作性和适用性,如:查看采集服务运行情况、设置默认采集服务等等。

二、元数据采集任务调整为并行执行,现在采集元数据步骤为获取元数据>入临时表>与正式表比对,更新元数据ID,得到元数据的变更信息>将元数据和变更信息入正式表。

采集任务调整为并行执行的主要的难点是如何取消临时表,因为临时表在元数据存储数据库中只有一份,只有等待当前采集任务执行完毕,清空临时表后,才能执行下一次采集任务。

临时表的作用是:

更新元数据ID和找出新增、修改和删除的元数据,采集元数据时,都会给每一个元数据生成随机的UUID当作元数据ID,与正式表作比对时,如果某一元数据之前已经入库,需要将该元数据的临时表里的ID更新成正式表里的ID。

取消临时表的举措:

1、我们选择将元数据编码+元数据类型+元数据父级路径这三项数据进行MD5加密生成的字符串作为元数据的ID,这样元数据的ID也就固定了,不需要和正式表里做比对了。

2、通过元数据ID去正式表里查询就可得出哪些元数据是新增和删除的。

我们将元数据的所有属性值进行MD5加密生成的字符串作为元数据的属性ID,这样通过比对元数据的属性ID就可得知该元数据是否修改了。

这样我们就可以取消临时表,在采集服务程序中就可以将元数据和正式表数据作比对,得到变化的元数据,将元数据记录直接写入到数据库中的正式表,元数据采集任务也就可以并行执行了。

我们在数据采集层各个网段都部署采集服务,这样就实现了高并发元数据采集,这种分布式采集策略优点是:

1、采集元数据效率快

2、可以并行执行采集任务

3、可以适应复杂网络环境的元数据采集。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/283326.html<

(0)
运维的头像运维
上一篇2025-05-13 21:19
下一篇 2025-05-13 21:20

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注