关于数据增量抽取模拟实现原理

通常为了尽可能的减少对业务系统的压力和性能影响,或者因为网络传输异构数据库等原因,一般都是根据特定的增量抽取原则,将数据从业务数据库导出到flat文本文件或者XML文件中,也叫数据缓存区或者数据登台区(这名字起得特别别扭)。本文讨论的是从业务数据库直接抽取到数据仓库。数据仓库是一种体系架构,而不是一种纯粹的技术。实际上,大多数数据库都提供了类似的不同数据库直接连接的接口,例如SQL Server的链接数据库,Oracle的透明网关等等。

关于数据的增量抽取也是一个重要的讨论话题,其原因主要是在超大数据量情况下任何关系数据库都无法满足数据处理的要求。在《数据仓库》(Inmon)一书中,主要描述了以下3种方法:

1.数据增量抽取,主要是基于时间戳的;

2.扫描增量文件,实际上就是关系数据库的归档日志;

3.前后映像对比。

当然每种方法都有其优势和劣势,本文旨在讨论基于时间戳的数据增量抽取的实现,无意探讨和比较这三种方法的优劣。

当然在进行基于时间戳的数据增量处理之前,首先要满足以下假设:

1.假设在业务数据库中存在着一个特定的时间属性,作为增量抽取的唯一标识;

2.假设在这个字段上存在着索引字段。这样我们的数据增量抽取模拟脚本就不会遭遇到性能瓶颈。当然我们还会通过将大事务尽可能变成小事务的原则进行优化;

3.假设业务数据库和数据仓库能够以某种方式直接连接;

4.抽取过程中,尽量避免数据转换、清洗的动作,以减少对业务数据库的性能影响;

在满足了以上条件之后,我们才能进一步考虑数据增量抽取脚本的实现。

 1.建立链接数据库;

2.首先需要定义一张数据字典表,定义需要进行处理的任务,其中主要包括业务数据库和目标数据库的表名、字段列表、以及where条件等;

3.有了这张字典表就可以开始进行工作了,为了方便表达,暂时处理成伪代码形式,同时只以一个表的处理为例。

◆获取数据仓库目标表目前的***时间(读取字典表或者当前表均可)

◆获取业务数据库业务表目前的***时间(需要到业务系统中去读取)

◆如果业务数据库业务表数据为空,退出执行

◆如果数据仓库为空,业务数据库不为空,则再次读取业务数据库最小时时间

◆如果均不为空,则设置开始抽取最小时间和***时间

◆***时间设置为整点

◆根据控制事务处理大小的粒度,进行循环抽取

◆拼写SQL语句,写成类似以下的形式

INSERT INTO TargetTable (TargetFieldList) 
  SELECT SourceFieldList FROM SourceTable 
  WHERE WhereFieldName> BeginDate 
  AND WhereFieldName< BeginDate+粒度

◆处理状态写入该字典表

4.有一点要主要的是,在SQL Server中有两种使用链接数据库的方法:

OPENQUERY ( linked_server , ‘query’ )

linked_server_name.catalog.schema.object_name的四部分名称

这两种方法各有利弊,第二种容易阅读一些;***种方法据说把语句提交到源数据库执行的,效率可能会高些(实际的资料并未找到)。

其次这两种方法在使用起来语法有点差别,***种方法采用的是宿主数据库的语法形式,第二种方法采用的是SQLServer本身的语法形式。因此在写脚本的时候也会有所不同。主要差别是在字段列表和条件处,暂时采用***种方式。

【编辑推荐】

  1. Oracle 11g R1中AWR基线增强
  2. Oracle 11g R1中大小写敏感的密码
  3. 解析Oracle 11g闪回数据归档新功能

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/295516.html<

(0)
运维的头像运维
上一篇2025-05-21 14:12
下一篇 2025-05-21 14:13

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注