Ubuntu环境使用TPC-DS工具生成测试数据

1、下载工具

两种渠道

 a、官网(建议直接跳过~)

地址:http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp

在信息填写正确的情况下,无法下载。看网友的解答,需要用谷歌浏览器才能下载。尝试未果。

b、github上下载

地址: https://github.com/gregrahn/tpcds-kit.git

ps:官方的包生成sql的时候会报错,上面这个大神已经修复。

2、编译

操作环境:Ubuntu 16.04

进入TPC-DS工具包所在目录,由于下载的是源码,需要编译后才能使用。

a、解压

unzip  tpcds-kit-master.zip

b、编译

编译之前请确认依赖环境ok

ubuntu:

1sudo apt-get installgccmake flex bison byacc git

CentOS/RHEL:

1sudoyuminstallgccmake flex bison byacc git
tpcds-kit-master/tools

make  -f  Makefile.suite

编译过程中报错:

make: yacc: Command not found。报错是因为yacc没有安装 。

安装yacc

sudo apt-get install -y byacc

再次编译

又报错对‘yy_create_buffer’未定义的引用。对C/C++不熟悉,搜索了一下也没有相关的解答。百思不得其解之下,换了个思路。可能是第一次编译报错生成的错误文件对第二次编译产生的影响。

于是删除解压后的目录,重新编译成功。

如果生成dsdgen和dsqgen且无报错,说明编译成功

ll *gen

 3、生成数据

第一次使用这个工具我是一脸懵比的。因为官方的文档特喵的根本看不懂。回想一下,你碰到不熟悉的Linux命令是怎么做的?man或者–help,对吧。这里也可以用–help。

先不着急生成数据,看一下帮助信息先。

./dsdgen  --help
  • DIR:数据存放目录。
  • SCALE:数据量,以GB为单位。
  • TABLE:生成哪张表的数据,一共有24张表哦。
  • PARALLEL:生成的数据一共分为多少份,一般生成TB级数据才会用到。
  •  CHILD:当前数据是第几份,与PARALLEL配对使用。
  • FORCE:强制写入数据。

常用的参数就上面几个。下面我们来生成1G包含所有表的数据。

./dsdgen  -scale 1 -dir ../data/

等待dsdgen程序正常退出后,1G数据需要2~3min左右,进入data目录查看生成的数据。

cd ../data

假如只想生成其中某一张表的数据呢?这就需要用到-table参数了,以web_returns表为例。

./dsdgen  -scale 1 -dir ../data -table web_returns

报错了,信息如下:

web_returns是子表,它是依赖于父表web_sales的。生成父表的时候也会同时生成子表,我们来验证一下。

./dsdgen  -scale 1 -dir ../data -table web_sales

说明一下,最终生成的数据量以少于scale值的。

dsdgen的用法暂时先总结到这里。

 4、生成SQL

查询SQL使用dsqgen生成,主要用于测试数据仓库的性能,一共99个。详细用法可以用–help查看帮助信息。这里不做介绍直接生成。

./dsqgen  -DIRECTORY ../query_templates/ -TEMPLATE "query1.tpl" -DIALECT netezza -FILTER Y > ../sql/query1.sql
  • -DIRECTORY:SQL模板的路径
  • -TEMPLATE:SQL模板的名称
  • -DIALECT:include query dialect defintions found in <s>.tpl
  • -FILTER:重定向到标准输出。

查看生成的SQL:

一共有99,每一个都要这样生成多费劲呀。来写个for循环一把生成所有的SQL。

shell版:

#!/bin/sh
for i in `seq 1 99`
do
./dsqgen  -DIRECTORY ../query_templates/ -TEMPLATE “query${i}.tpl” -DIALECT netezza -FILTER Y > ../sql/query${i}.sql
done

Python3版:

#coding:utf-8
import os
print(“generate query sql”)
for i in range(1,100):
    tpl = “query”+str(i)+”.tpl”
    qsql = “query” +str(i) +”.sql”
    #拼接命令
    cmd = “./dsqgen  -DIRECTORY ../query_templates/ “+”-TEMPLATE “+tpl+” -DIALECT netezza -FILTER Y > “+”../sql/”+qsql
    #print(cmd)
    #执行命令
    os.system(cmd)

去sql目录下查看刚才生成的SQL:

这种情况下还是shell更快一点。

5、总结

  1. 通过TPC-DS,可以生成指定量级的数据。
  2. 碰到报错不要慌,先google或bing,不要用某度,原因你懂的。
  3. TPC-DS基本用法已经总结完了,但是实际操作中还有很多问题,比如:
  • 我想要生成10T数据怎么搞?
  • 怎么判断生成的数据是否正确呢?
  • child和parallel怎么使用?
  • 数据和SQL生成完了怎么测试?
  • 。。。。。。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/222165.html<

(0)
运维的头像运维
上一篇2025-04-15 09:07
下一篇 2025-04-15 09:08

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注