Flink SQL 知其所以然:SQL 数据类型大全!

SQL 数据类型

在介绍完一些基本概念之后,我们来认识一下,Flink SQL 中的数据类型。

Flink SQL 内置了很多常见的数据类型,并且也为用户提供了自定义数据类型的能力。

总共包含 3 部分:

  • 原子数据类型。
  • 复合数据类型。
  • 用户自定义数据类型。

一、原子数据类型

1、字符串类型:

  • CHAR、CHAR(n):定长字符串,就和 Java 中的 Char 一样,n 代表字符的定长,取值范围 [1, 2,147,483,647]。如果不指定 n,则默认为 1。
  • VARCHAR、VARCHAR(n)、STRING:可变长字符串,就和 Java 中的 String 一样,n 代表字符的最大长度,取值范围 [1, 2,147,483,647]。如果不指定 n,则默认为 1。STRING 等同于 VARCHAR(2147483647)。

2、二进制字符串类型:

  • BINARY、BINARY(n):定长二进制字符串,n 代表定长,取值范围 [1, 2,147,483,647]。如果不指定 n,则默认为 1。
  • VARBINARY、VARBINARY(n)、BYTES:可变长二进制字符串,n 代表字符的最大长度,取值范围 [1, 2,147,483,647]。如果不指定 n,则默认为 1。BYTES 等同于 VARBINARY(2147483647)。

3、 精确数值类型:

  • DECIMAL、DECIMAL(p)、DECIMAL(p, s)、DEC、DEC(p)、DEC(p, s)、NUMERIC、NUMERIC(p)、NUMERIC(p, s):固定长度和精度的数值类型,就和 Java 中的 BigDecima一样,p 代表数值位数(长度),取值范围 [1, 38];s 代表小数点后的位数(精度),取值范围 [0, p]。如果不指定,p 默认为 10,s 默认为 0。
  • TINYINT:-128 到 127 的 1 字节大小的有符号整数,就和 Java 中的 byte 一样。
  • SMALLINT:-32,768 to 32,767 的 2 字节大小的有符号整数,就和 Java 中的 short 一样。
  • INT、INTEGER:-2,147,483,648 to 2,147,483,647 的 4 字节大小的有符号整数,就和 Java 中的 int 一样。
  • BIGINT:-9,223,372,036,854,775,808 to 9,223,372,036,854,775,807 的 8 字节大小的有符号整数,就和 Java 中的 long 一样。

4、有损精度数值类型:

  • FLOAT:4 字节大小的单精度浮点数值,就和 Java 中的 float 一样。
  • DOUBLE、DOUBLE PRECISION:8 字节大小的双精度浮点数值,就和 Java 中的 double 一样。
  • 关于 FLOAT 和 DOUBLE 的区别可见 https://www.runoob.com/w3cnote/float-and-double-different.html。

5、布尔类型:BOOLEAN。

6、NULL 类型:NULL。

7、Raw 类型:RAW(‘class’, ‘snapshot’) 。只会在数据发生网络传输时进行序列化,反序列化操作,可以保留其原始数据。以 Java 举例,class 参数代表具体对应的 Java 类型,snapshot 代表类型在发生网络传输时的序列化器。

8、日期、时间类型:

  • DATE:由 年-月-日 组成的 不带时区含义 的日期类型,取值范围 [0000-01-01, 9999-12-31]
  • TIME、TIME(p):由 小时:分钟:秒[.小数秒] 组成的 不带时区含义 的的时间的数据类型,精度高达纳秒,取值范围 [00:00:00.000000000到23:59:59.9999999]。其中 p 代表小数秒的位数,取值范围 [0, 9],如果不指定 p,默认为 0。
  • TIMESTAMP、TIMESTAMP(p)、TIMESTAMP WITHOUT TIME ZONE、TIMESTAMP(p) WITHOUT TIME ZONE:由 年-月-日 小时:分钟:秒[.小数秒] 组成的 不带时区含义 的时间类型,取值范围 [0000-01-01 00:00:00.000000000, 9999-12-31 23:59:59.999999999]。其中 p 代表小数秒的位数,取值范围 [0, 9],如果不指定 p,默认为 6。
  • TIMESTAMP WITH TIME ZONE、TIMESTAMP(p) WITH TIME ZONE:由 年-月-日 小时:分钟:秒[.小数秒] 时区 组成的 带时区含义 的时间类型,取值范围 [0000-01-01 00:00:00.000000000 +14:59, 9999-12-31 23:59:59.999999999 -14:59]。其中 p 代表小数秒的位数,取值范围 [0, 9],如果不指定 p,默认为 6。
  • TIMESTAMP_LTZ、TIMESTAMP_LTZ(p):由 年-月-日 小时:分钟:秒[.小数秒] 时区 组成的 带时区含义 的时间类型,取值范围 [0000-01-01 00:00:00.000000000 +14:59, 9999-12-31 23:59:59.999999999 -14:59]。其中 p 代表小数秒的位数,取值范围 [0, 9],如果不指定 p,默认为 6。
  • TIMESTAMP_LTZ 与 TIMESTAMP WITH TIME ZONE 的区别在于:TIMESTAMP WITH TIME ZONE 的时区信息是携带在数据中的,举例:其输入数据应该是 2022-01-01 00:00:00.000000000 +08:00;TIMESTAMP_LTZ 的时区信息不是携带在数据中的,而是由 Flink SQL 任务的全局配置决定的,我们可以由 table.local-time-zone 参数来设置时区。
  • INTERVAL YEAR TO MONTH、 INTERVAL DAY TO SECOND:interval 的涉及到的种类比较多。INTERVAL 主要是用于给 TIMESTAMP、TIMESTAMP_LTZ 添加偏移量的。举例,比如给 TIMESTAMP 加、减几天、几个月、几年。INTERVAL 子句总共涉及到的语法种类如下 Flink SQL 案例所示。
CREATETABLEsink_table (
result_interval_yearTIMESTAMP(3),
result_interval_year_pTIMESTAMP(3),
result_interval_year_p_to_monthTIMESTAMP(3),
result_interval_monthTIMESTAMP(3),
result_interval_dayTIMESTAMP(3),
result_interval_day_p1TIMESTAMP(3),
result_interval_day_p1_to_hourTIMESTAMP(3),
result_interval_day_p1_to_minuteTIMESTAMP(3),
result_interval_day_p1_to_second_p2TIMESTAMP(3),
result_interval_hourTIMESTAMP(3),
result_interval_hour_to_minuteTIMESTAMP(3),
result_interval_hour_to_secondTIMESTAMP(3),
result_interval_minuteTIMESTAMP(3),
result_interval_minute_to_second_p2TIMESTAMP(3),
result_interval_secondTIMESTAMP(3),
result_interval_second_p2TIMESTAMP(3)
) WITH (
'connector' = 'print'
);
INSERTINTOsink_table
SELECT
--FlinkSQL 支持的所有 INTERVAL 子句如下,总体可以分为 `年-月`、`日-小时-秒` 两种

--1. 年-月。取值范围为 [-9999-11, +9999-11],其中 p 是指有效位数,取值范围 [1, 4],默认值为 2。比如如果值为 1000,但是 p = 2,则会直接报错。
--INTERVALYEAR
f1 + INTERVAL'10'YEARasresult_interval_year
--INTERVALYEAR(p)
, f1 + INTERVAL'100'YEAR(3) asresult_interval_year_p
--INTERVALYEAR(p) TOMONTH
, f1 + INTERVAL'10-03'YEAR(3) TOMONTHasresult_interval_year_p_to_month
--INTERVALMONTH
, f1 + INTERVAL'13'MONTHasresult_interval_month

--2. 日-小时-秒。取值范围为 [-99999923:59:59.999999999, +99999923:59:59.999999999],其中 p1\p2 都是有效位数,p1 取值范围 [1, 6],默认值为 2p2 取值范围 [0, 9],默认值为 6
--INTERVALDAY
, f1 + INTERVAL'10'DAYasresult_interval_day
--INTERVALDAY(p1)
, f1 + INTERVAL'100'DAY(3) asresult_interval_day_p1
--INTERVALDAY(p1) TOHOUR
, f1 + INTERVAL'10 03'DAY(3) TOHOURasresult_interval_day_p1_to_hour
--INTERVALDAY(p1) TOMINUTE
, f1 + INTERVAL'10 03:12'DAY(3) TOMINUTEasresult_interval_day_p1_to_minute
--INTERVALDAY(p1) TOSECOND(p2)
, f1 + INTERVAL'10 00:00:00.004'DAYTOSECOND(3) asresult_interval_day_p1_to_second_p2
--INTERVALHOUR
, f1 + INTERVAL'10'HOURasresult_interval_hour
--INTERVALHOURTOMINUTE
, f1 + INTERVAL'10:03'HOURTOMINUTEasresult_interval_hour_to_minute
--INTERVALHOURTOSECOND(p2)
, f1 + INTERVAL'00:00:00.004'HOURTOSECOND(3) asresult_interval_hour_to_second
--INTERVALMINUTE
, f1 + INTERVAL'10'MINUTEasresult_interval_minute
--INTERVALMINUTETOSECOND(p2)
, f1 + INTERVAL'05:05.006'MINUTETOSECOND(3) asresult_interval_minute_to_second_p2
--INTERVALSECOND
, f1 + INTERVAL'3'SECONDasresult_interval_second
--INTERVALSECOND(p2)
, f1 + INTERVAL'300'SECOND(3) asresult_interval_second_p2
FROM (SELECTTO_TIMESTAMP_LTZ(1640966476500, 3) asf1)

二、复合数据类型

  1. 数组类型:ARRAY、t ARRAY。数组最大长度为 2,147,483,647。t 代表数组内的数据类型。举例 ARRAY、ARRAY,其等同于 INT ARRAY、STRING ARRAY。
  2. Map 类型:MAP。Map 类型就和 Java 中的 Map 类型一样,key 是没有重复的。举例 Map、Map。
  3. 集合类型:MULTISET、t MULTISET。就和 Java 中的 List 类型,一样,运行重复的数据。举例 MULTISET,其等同于 INT MULTISET。
  4. 对象类型:ROW、ROW、ROW(n0 t0, n1 t1, …>、ROW(n0 t0 ‘d0’, n1 t1 ‘d1’, …)。就和 Java 中的自定义对象一样。举例:ROW(myField INT, myOtherField BOOLEAN),其等同于 ROW。

三、用户自定义数据类型

用户自定义类型就是运行用户使用 Java 等语言自定义一个数据类型出来。但是目前数据类型不支持使用 CREATE TABLE 的 DDL 进行定义,只支持作为函数的输入输出参数。如下案例:

第一步,自定义数据类型

publicclassUser {
// 1. 基础类型,Flink 可以通过反射类型信息自动把数据类型获取到
// 关于 SQL 类型和 Java 类型之间的映射见:https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/dev/table/types/#data-type-extraction
publicintage;
publicStringname;
// 2. 复杂类型,用户可以通过 @DataTypeHint("DECIMAL(10, 2)") 注解标注此字段的数据类型
public@DataTypeHint("DECIMAL(10, 2)") BigDecimaltotalBalance;
}

第二步,在 UDF 中使用此数据类型

publicclassUserScalarFunctionextendsScalarFunction {
// 1. 自定义数据类型作为输出参数
publicUsereval(longi) {
if (i > 0 && i <= 5) {
Useru = newUser();
u.age = (int) i;
u.name = "name1";
u.totalBalance = newBigDecimal(1.1d);
returnu;
} else {
Useru = newUser();
u.age = (int) i;
u.name = "name2";
u.totalBalance = newBigDecimal(2.2d);
returnu;
}
}
// 2. 自定义数据类型作为输入参数
publicStringeval(Useri) {
if (i.age > 0 && i.age <= 5) {
Useru = newUser();
u.age = 1;
u.name = "name1";
u.totalBalance = newBigDecimal(1.1d);
returnu.name;
} else {
Useru = newUser();
u.age = 2;
u.name = "name2";
u.totalBalance = newBigDecimal(2.2d);
returnu.name;
}
}
}

第三步,在 Flink SQL 中使用

--1. 创建 UDF
CREATEFUNCTIONuser_scalar_funcAS'flink.examples.sql._12_data_type._02_user_defined.UserScalarFunction';
--2. 创建数据源表
CREATETABLEsource_table (
user_idBIGINTNOTNULLCOMMENT'用户 id'
) WITH (
'connector' = 'datagen',
'rows-per-second' = '1',
'fields.user_id.min' = '1',
'fields.user_id.max' = '10'
);

--3. 创建数据汇表
CREATETABLEsink_table (
result_row_1ROW<ageINT, nameSTRING, totalBalanceDECIMAL(10, 2)>,
result_row_2STRING
) WITH (
'connector' = 'print'
);
--4.SQL 查询语句
INSERTINTOsink_table
select
--4.a. 用户自定义类型作为输出
user_scalar_func(user_id) asresult_row_1,
--4.b. 用户自定义类型作为输出及输入
user_scalar_func(user_scalar_func(user_id)) asresult_row_2
fromsource_table;
--5. 查询结果
+I[+I[9, name2, 2.20], name2]
+I[+I[1, name1, 1.10], name1]
+I[+I[5, name1, 1.10], name1]

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/290797.html<

(0)
运维的头像运维
上一篇2025-05-19 09:34
下一篇 2025-05-19 09:35

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注