我们该如何设计数据库(五)

最近真是忙翻天了,该是有三个月没写博客了。

这次的需求是在Mongo的使用中碰到的,但是我觉得把这个需求放进传统的RDBMS中更易于理解。需求是这样的:假设你数据库使用的是Sqlserver,有一张表,500W条数据,你要做一个随机在表中选择一条数据的功能。

假设本文所探讨的数据结构如图(聚集索引在Pk上,UserName上加了非聚集索引):

你的***反应大概是:哎呀妈呀忒巧了,正好主键使用的是Int自增的,我只用生成一个随机数,然后找这个随机数对应的主键就好了

实现的步骤大概是:

①返回数据库中ID的***值IdMax 

②生成1到IdMax中间一个的随机数 int random = new Random().Next(1,IdMax);

③使用UserID = random作为条件查询

④如果没有查询到数据,则重新生成一个随机数,再次查找(因为某个UserID的数据可能被删除了)

这种方法简单,暴力,但是有一个致命的问题:我这里在建表的时候为了说明这种方法,所以主键使用的是Int,但是在大多数我所知道的生产环境中,其实是用Guid的。这个致命的问题会直接导致上面的那个方法不可用。

至于为什么大多数我所知道的生产环境中用Guid而不用Int,我下一篇会做出对比。

既然Int在使用Guid作为主键的时候不能用,那么我们就用Row_Number吧。Sqlserver必然是支持Row_Number的,貌似Oracle和MySql中也有类似概念(不确定,问同事得到了肯定答复,没有深究)。

实现的步骤大概是:

①返回数据库中数据的总条数count

②生成1到count中间一个的随机数 int random = new Random().Next(1,count);

③查找Row_Number = random的那条数据

但是Row_Number有个极其不好的地方,就是查询越后面的数据越慢,越吃资源。但凡是将数据有序储存的数据库基本都有这个问题,比如说下面两条语句:

  1. select * from 
  2. (SELECT  UserID,UserName,Password,Sex,City,ROW_NUMBER()OVER(ORDER BY CURRENT_TIMESTAMPas Number  
  3.   FROM [User_db].[dbo].[Users] ) as query  
  4.   where query.Number = 20  
  5.     
  6.     
  7. select * from 
  8. (SELECT  UserID,UserName,Password,Sex,City,ROW_NUMBER()OVER(ORDER BY CURRENT_TIMESTAMPas Number  
  9.   FROM [User_db].[dbo].[Users] ) as query  
  10.   where query.Number = 5000000 

***条查Row_Number=20的数据,logical reads 5.elapsed time = 58 ms.

第二条查Row_Number=5000000的数据,logical reads 90208.elapsed time = 900 ms.

可以明显的看出,后者的逻辑读次数多了太多,而运行速度也慢了不少。如果这个功能比较频繁使用,比如说这是向用户随机推荐好用的功能,那么这个将会成为一个性能瓶颈

有的网友说使用这句:

  1. SELECT TOP 1 * FROM Users ORDER BY NEWID()  

这个运行出来结果是正确的,但是效率却大打折扣。比如说我查到了第1336793条数据,logical reads 90208,elapsed time = 3026 ms

查看执行计划,发现Sort占用了98%:

有没有比Row_Number更好一点的方法?

答案是在表中再加一列Random列,使得数据结构变更成这样:

在添加数据的时候,就生成一个随机数插入进来。按照本篇的例子来说,一开始可以生成0到一亿之间的随机数插入。注意,要在Random上加索引。

实现的步骤大概是:

①插入数据的时候添加一个随机

②生成一个随机数,查询 select top(1) * from Users where Random > 随机数

③这个查询的结果可能会有多条(但不会很多),再在这个多条数据中随机筛选其一(使用Linq可以很方便的实现,不赘述)

好了,基本说完了,请允许我在结尾卖个萌:聪明的读者,开动脑筋,您还有更好的方法么?如果有,请留言。

原文链接:http://www.cnblogs.com/CrazyJinn/archive/2013/03/19/2968769.html

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/300520.html<

(0)
管理的头像管理
上一篇2025-05-23 22:01
下一篇 2025-05-23 22:02

相关推荐

  • 骨干网络体系结构能干什么?骨干网络体系结构的作用

    骨干网络体系结构是现代信息社会的“超级高速公路网”,它通过分层设计、冗余备份和智能调度,确保海量数据在全球范围内高速、稳定、安全地传输,是支撑云计算、物联网及人工智能应用的底层基石,想象一下,如果你把互联网比作一个巨大的城市交通系统,那么骨干网络就是连接各个城市的主干道和立交桥,没有它,你的每一次微信发送、每一……

    2026-06-18
    0
  • 高io数据库可以干什么用?高io数据库适合什么场景

    高IO数据库的核心价值在于通过极高的读写吞吐量,解决海量数据场景下的性能瓶颈,是支撑高并发交易、实时分析及大规模内容分发的关键基础设施,在数字化转型的深水区,数据不再仅仅是静态的记录,而是流动的资产,传统的机械硬盘或普通SSD早已无法满足现代应用对速度的极致追求,高IO(Input/Output)数据库,就是那……

    2026-06-18
    0
  • 高io服务器性能如何?高io服务器适合什么场景

    高IO服务器并非单纯指代某种硬件,而是指在随机读写、高并发连接及小文件处理场景下,具备极致IOPS(每秒输入输出操作次数)和低延迟特性的计算资源,它是支撑现代高并发应用稳定运行的核心基石,在2026年的数字化浪潮中,业务负载早已从简单的静态页面展示演变为复杂的实时数据处理,许多开发者在排查系统瓶颈时,往往忽略了……

    2026-06-18
    0
  • 隔离网络空间哪里便宜?国内隔离网络空间价格

    隔离网络空间并没有统一的“便宜”标准,其成本高度取决于物理隔离等级、带宽需求及安全合规要求,通常物理网闸方案初期投入较高但长期运维成本低,而逻辑隔离方案虽初期便宜但存在潜在安全风险,建议根据业务敏感度选择混合隔离架构以平衡成本与安全,在数字化时代,企业构建独立网络环境的需求日益增长,但“隔离网络空间哪里便宜”这……

    2026-06-18
    0
  • 骨干网络体系结构设备为何故障?常见原因有哪些

    骨干网络体系结构设备故障的核心原因通常归结为硬件老化、配置错误、物理链路中断及外部攻击四大类,其中电源模块失效与光模块性能衰减是占比最高的隐性故障源,骨干网作为数字经济的“大动脉”,其稳定性直接关乎国计民生,当核心路由器或交换机出现丢包、震荡甚至宕机时,运维人员往往面临巨大的压力,很多人第一反应是检查软件配置……

    2026-06-18
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注