MySQL该如何进行大数据量快速插入方法和语句优化?

MySQL大数据量快速插入方法和语句优化是本文我们主要要介绍的内容。

INSERT 语句的速度

插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例:

连接:(3)

发送查询给服务器:(2)

分析查询:(2)

插入记录:(1x 记录大小)

插入索引:(1x 索引)

关闭:(1)

这不考虑打开表的初始开销,每个并发运行的查询打开。

表的大小以 logN (B 树)的速度减慢索引的插入。

加快插入的一些方法

如果同时从同一个客户端插入很多行,使用含多个 VALUE 的 INSERT 语句同时插入几行。这比使用单行 INSERT 语句快(在某些情况下快几倍)。如果你正向一个非空表添加数据,可以调节 bulk_insert_buffer_size 变量,使数据插入更快。

如果你从不同的客户端插入很多行,能通过 INSERT DELAYED 语句加快速度。

用 MyISAM,如果在表中没有删除的行,能在 SELECT 语句正在运行的同时插入行。

当从一个文本文件装载一个表时,使用 LOAD DATA INFILE。这通常比使用很多 INSERT 语句快 20 倍。参见 13.2.5 节,“LOAD DATA INFILE 语法”。

当表有很多索引时,有可能要多做些工作使得 LOAD DATA INFILE 更快些。使用下列过程:

有选择地用 CREATE TABLE 创建表

执行 FLUSH TABLES 语句或命令 mysqladmin flush-tables。使用 myisamchk –keys-used=0 -rq /path/to/db/tbl_name。这将从表中取消所有索引的使用。

用 LOAD DATA INFILE 把数据插入到表中,因为不更新任何索引,因此很快。 如果只想在以后读取表,使用 myisampack 压缩它。参见 15.1.3.3 节,“压缩表特性”。

用 myisamchk -r -q /path/to/db/tbl_name 重新创建索引。这将在写入磁盘前在内存中创建索引树,并且它更快,因为避免了大量磁盘搜索。结果索引树也被***地平衡。 执行 FLUSH TABLES 语句或 mysqladmin flush-tables 命令。

请注意如果插入一个空 MyISAM 表,LOAD DATA INFILE 也可以执行前面的优化;主要不同处是可以让 myisamchk 为创建索引分配更多的临时内存,比执行 LOAD DATA INFILE 语句时为服务器重新创建索引分配得要多。

也可以使用 ALTER TABLE tbl_name DISABLE KEYS 代替 myisamchk –keys-used=0 -rq/path/to/db/tbl_name,使用 ALTER TABLE tbl_name ENABLE KEYS 代替 myisamchk -r -q/path/to/db/tbl_name。使用这种方式,还可以跳过 FLUSH TABLES。

锁定表可以加速用多个语句执行的 INSERT 操作:

  1. LOCK TABLES a WRITE; 
  2. INSERT INTO a VALUES (1,23),(2,34),(4,33); 
  3. INSERT INTO a VALUES (8,26),(6,29); 
  4. UNLOCK TABLES; 

 

这样性能会提高,因为索引缓存区仅在所有 INSERT 语句完成后刷新到磁盘上一次。一般有多少 INSERT 语句即有多少索引缓存区刷新。如果能用一个语句插入所有的行,就不需要锁定。

对于事务表,应使用 BEGIN 和 COMMIT 代替 LOCK TABLES 来加快插入。

锁定也将降低多连接测试的整体时间,尽管因为它们等候锁定***等待时间将上升。例如:

 

  1. Connection 1 does 1000 inserts 
  2. Connections 2, 3, and 4 do 1 insert 
  3. Connection 5 does 1000 inserts 

如果不使用锁定,2、3 和 4 将在 1 和 5 前完成。如果使用锁定,2、3 和 4 将可能不在 1 或 5 前完成,但是整体时间应该快大约 40%。

INSERT、UPDATE 和 DELETE 操作在 MySQL 中是很快的,通过为在一行中多于大约 5 次连续不断地插入或更新的操作加锁,可以获得更好的整体性能。如果在一行中进行多次插入,可以执行 LOCK TABLES,随后立即执行 UNLOCK TABLES(大约每 1000 行) 以允许其它的线程访问表。这也会获得好的性能。

INSERT 装载数据比 LOAD DATA INFILE 要慢得多,即使是使用上述的策略。

为了对 LOAD DATA INFILE 和 INSERT 在 MyISAM 表得到更快的速度,通过增加 key_buffer_size 系统变量来扩大 键高速缓冲区。

INSERT 语法

  1. INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE
  2. [INTO] tbl_name [(col_name,...)] 
  3. VALUES ({expr | DEFAULT},...),(...),... 
  4. ON DUPLICATE KEY UPDATE col_name=expr, ... ] 

 

或:

  1. INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE
  2. [INTO] tbl_name 
  3. SET col_name={expr | DEFAULT}, ... 
  4. ON DUPLICATE KEY UPDATE col_name=expr, ... ] 

 

或:

  1. INSERT [LOW_PRIORITY | HIGH_PRIORITY] [IGNORE
  2. [INTO] tbl_name [(col_name,...)] 
  3. SELECT ... 
  4. ON DUPLICATE KEY UPDATE col_name=expr, ... ] 

一、DELAYED 的使用

使用延迟插入操作 DELAYED 调节符应用于 INSERT 和 REPLACE 语句。当 DELAYED 插入操作到达的时候,服务器把数据行放入一个队列中,并立即给客户端返回一个状态信息,这样客户端就可以在数据表被真正地插入记录之前继续进行操作了。如果读取者从该数据表中读取数据,队列中的数据就会被保持着,直到没有读取者为止。

接着服务器开始插入延迟数据行(delayed-row)队列中的数据行。在插入操作的同时,服务器还要检查是否有新的读取请求到达和等待。如果有,延迟数据行队列就被挂起,允许读取者继续操作。当没有读取者的时候,服务器再次开始插入延迟的数据行。这个过程一直进行,直到队列空了为止。

几点要注意事项

INSERT DELAYED 应该仅用于指定值清单的 INSERT 语句。服务器忽略用于 INSERT DELAYED…SELECT 语句的 DELAYED。服务器忽略用于 INSERT DELAYED…ON DUPLICATE UPDATE 语句的 DELAYED。

因为在行被插入前,语句立刻返回,所以您不能使用 LAST_INSERT_ID() 来获取 AUTO_INCREMENT 值。AUTO_INCREMENT 值可能由语句生成。

对于 SELECT 语句,DELAYED 行不可见,直到这些行确实被插入了为止。

DELAYED 在从属复制服务器中被忽略了,因为 DELAYED 不会在从属服务器中产生与主服务器不一样的数据。注意,目前在队列中的各行只保存在存储器中,直到它们被插入到表中为止。这意味着,如果您强行中止了 mysqld(例如,使用 kill -9) 或者如果 mysqld 意外停止,则所有没有被写入磁盘的行都会丢失。

二、IGNORE 的使用

IGNORE 是 MySQL 相对于标准 SQL 的扩展。如果在新表中有重复关键字,或者当 STRICT 模式启动后出现警告,则使用 IGNORE 控制 ALTER TABLE 的运行。

如果没有指定 IGNORE,当重复关键字错误发生时,复制操作被放弃,返回前一步骤。

如果指定了 IGNORE,则对于有重复关键字的行,只使用***行,其它有冲突的行被删除。并且,对错误值进行修正,使之尽量接近正确值。insert ignore into tb(…) value(…) 这样不用校验是否存在了,有则忽略,无则添加。

三、ON DUPLICATE KEY UPDATE 的使用

如果您指定了 ON DUPLICATE KEY UPDATE,并且插入行后会导致在一个 UNIQUE 索引或 PRIMARY KEY 中出现重复值,则执行旧行 UPDATE。例如,如果列 a 被定义为 UNIQUE,并且包含值 1,则以下两个语句具有相同的效果:

  1. mysql> INSERT INTO table (a,b,c) VALUES (1,2,3) 
  2. -> ON DUPLICATE KEY UPDATE cc=c+1; 
  3. mysql> UPDATE table SET cc=c+1 WHERE a=1; 

如果行作为新记录被插入,则受影响行的值为 1;如果原有的记录被更新,则受影响行的值为 2。

注释:如果列 b 也是唯一列,则 INSERT 与此 UPDATE 语句相当:

  1. mysql> UPDATE table SET cc=c+1 WHERE a=1 OR b=2 LIMIT 1; 

如果 a=1 OR b=2 与多个行向匹配,则只有一个行被更新。通常,您应该尽量避免对带有多个唯一关键字的表使用 ON DUPLICATE KEY 子句。您可以在 UPDATE 子句中使用 VALUES(col_name) 函数从 INSERT…UPDATE 语句的 INSERT 部分引用列值。换句话说,如果没有发生重复关键字冲突,则 UPDATE 子句中的 VALUES(col_name) 可以引用被插入的 col_name 的值。本函数特别适用于多行插入。VALUES() 函数只在 INSERT…UPDATE 语句中有意义,其它时候会返回 NULL。

示例:

  1. mysql> INSERT INTO table (a,b,c) VALUES (1,2,3),(4,5,6) 
  2.  
  3. -> ON DUPLICATE KEY UPDATE c=VALUES(a)+VALUES(b); 

本语句与以下两个语句作用相同:

 

mysql> INSERT INTO table (a,b,c) VALUES (1,2,3)

-> ON DUPLICATE KEY UPDATE c=3;

mysql> INSERT INTO table (a,b,c) VALUES (4,5,6)

-> ON DUPLICATE KEY UPDATE c=9;

 

当您使用 ON DUPLICATE KEY UPDATE 时,DELAYED 选项被忽略。 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/295064.html<

(0)
运维的头像运维
上一篇2025-05-21 09:08
下一篇 2025-05-21 09:09

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注