8. 使用函数处理数据「SQL必知必会 第5版」
前言
本系列是个人看 《SQL必知必会(第5版)》 的记录,需要的数据可以通过 建表 和 导入数据 下载导入.
正文
本节介绍什么是函数,DBMS
支持何种函数,以及如何使用这些函数; 还将讲解为什么 SQL
函数的使用可能会带来问题。
函数
与大多数其他计算机语言一样,SQL
也可以用函数来处理数据。函数一般是在数据上执行的,为数据的转换和处理提供了方便。
上节中用来去掉字符串尾的空格的 RTRIM()
就是一个函数。
函数带来的问题
在学习并进行实践之前,你应该了解使用 SQL
函数所存在的问题。
与几乎所有 DBMS
都等同地支持 SQL
语句(如 SELECT
)不同,每一个DBMS
都有特定的函数。事实上,只有少数几个函数被所有主要的 DBMS
等同地支持。虽然所有类型的函数一般都可以在每个 DBMS
中使用,但
各个函数的名称和语法可能极其不同。为了说明可能存在的问题。列出了 3 个常用的函数及其在各个 DBMS
中的语法:
函数 | 语法 |
---|---|
提取字符串的组成部分 | DB2 、Oracle 、PostgreSQL 和 SQLite 使用 SUBSTR() ;MariaDB 、 MySQL 和 SQL Server 使用 SUBSTRING() ; |
数据类型转换 | Oracle 使用多个函数,每种类型的转换有一个函数;DB2 和 PostgreSQL 使用 CAST() ;MariaDB 、MySQL 和 SQL Server 使用 CONVERT() ; |
取当前日期 | DB2 和 PostgreSQL 使用 CURRENT_DATE ;MariaDB 和 MySQL 使用 CURDATE() ;Oracle 使用 SYSDATE ;SQL Server 使用 GETDATE() ;SQLite 使用 DATE() ; |
可以看到,与 SQL
语句不一样,SQL
函数不是可移植的。这意味着为特定 SQL
实现编写的代码在其他实现中可能不能用。
可移植(portable)
所编写的代码可以在多个系统上运行。
为了代码的可移植,许多 SQL
程序员不赞成使用特定于实现的功能。虽然这样做很有好处,但有的时候并不利于应用程序的性能。如果不使用这些函数,编写某些应用程序代码会很艰难。必须利用其他方法来实现DBMS
可以非常有效完成的工作。
提示:是否应该使用函数? 现在,你面临是否应该使用函数的选择。决定权在你,使用或是不使用也没有对错之分。如果你决定使用函数,应该保证做好代码注释,以便以后你自己(或其他人)能确切地知道这些
SQL
代码的含义。
使用函数
大多数 SQL
实现支持以下类型的函数。
- 用于处理文本字符串(如删除或填充值,转换值为大写或小写)的文本函数。
- 用于在数值数据上进行算术操作(如返回绝对值,进行代数运算)的数值函数。
- 用于处理日期和时间值并从这些值中提取特定成分(如返回两个日期之差,检查日期有效性)的日期和时间函数。
- 用于生成美观好懂的输出内容的格式化函数(如用语言形式表达出日期,用货币符号和千分位表示金额)。
- 返回 DBMS 正使用的特殊信息(如返回用户登录信息)的系统函数。
我们在上一课看到函数用于 SELECT
后面的列名,但函数的作用不仅于此。它还可以作为 SELECT
语句的其他成分,如在 WHERE
子句中使用,在其他 SQL
语句中使用等,后面会做更多的介绍。
文本处理函数
上节我们已经看过一个文本处理函数的例子,其中使用 RTRIM()
函数来去除列值右边的空格。下面是另一个例子,这次使用的是 UPPER()
函数:
输入👇🏻
SELECT vend_name, UPPER(vend_name) AS vend_name_upcase
FROM Vendors
ORDER BY vend_name;
输出👇🏻
vend_name vend_name_upcase
--------------------------- ----------------------------
Bear Emporium BEAR EMPORIUM
Bears R Us BEARS R US
Doll House Inc. DOLL HOUSE INC.
Fun and Games FUN AND GAMES
Furball Inc. FURBALL INC.
Jouets et ours JOUETS ET OURS
可以看到,UPPER()
将文本转换为大写,因此本例子中每个供应商都列出两次,第一次为 Vendors
表中存储的值,第二次作为列 vend_name_upcase
转换为大写。
提示:大写,小写,大小写混合
此时你应该已经知道SQL
函数不区分大小写,因此upper()
,UPPER()
,Upper()
都可以,substr()
,SUBSTR()
,SubStr()
也都行。随你的喜好,不过注意保持风格一致,不要变来变去,否则你写的程序代码就不好读了。
函数 | 说明 |
---|---|
LEFT()(或使用子字符串函数) | 返回字符串左边的字符 |
LENGTH()(也使用DATALENGTH()或LEN()) | 返回字符串的长度 |
LOWER() | 将字符串转换为小写 |
LTRIM() | 去掉字符串左边的空格 |
RIGHT()(或使用子字符串函数) | 返回字符串右边的字符 |
RTRIM() | 去掉字符串右边的空格 |
SUBSTR()或SUBSTRING() | 提取字符串的组成部分(见上表) |
SOUNDEX() | 返回字符串的SOUNDEX 值 |
UPPER() | 将字符串转换为大写 |
表中的 SOUNDEX
需要做进一步的解释。SOUNDEX
是一个将任何文本串转换为描述其语音表示的字母数字模式的算法。SOUNDEX
考虑了类似的发音字符和音节,使得能对字符串进行发音比较而不是字母比较。虽然 SOUNDEX
不是 SQL
概念,但多数 DBMS
都提供对 SOUNDEX
的支持。
说明:SOUNDEX支持
PostgreSQL
不支持SOUNDEX()
,因此以下的例子不适用于这个DBMS
。另外,如果在创建
SQLite
时使用了SQLITE_SOUNDEX
编译时选项,那么SOUNDEX()
在SQLite
中就可用。因为SQLITE_SOUNDEX
不是默认的编译时选项,所以多数SQLite
实现不支持SOUNDEX()
。
下面给出一个使用 SOUNDEX()
函数的例子。Customers
表中有一个顾客 Kids Place
,其联系名为 Michelle Green
。但如果这是错误的输入,此联系名实际上应该是 Michael Green
,该怎么办呢?显然,按正确的联系名搜索不会返回数据,如下所示:
输入👇🏻
SELECT cust_name, cust_contact
FROM Customers
WHERE cust_contact = 'Michael Green';
输出👇🏻
cust_name cust_contact
----------- -------------
现在试一下使用 SOUNDEX()
函数进行搜索,它匹配所有发音类似于 Michael Green
的联系名:
输入👇🏻
SELECT cust_name, cust_contact
FROM Customers
WHERE SOUNDEX(cust_contact) = SOUNDEX('Michael Grenn')
输出👇🏻
cust_name cust_contact
----------- ---------------
Kids Place Michelle Green
分析👇🏻
在这个例子中,WHERE
子句使用 SOUNDEX()
函数把 cust_contact
列值和搜索字符串转换为它们的 SOUNDEX
值。因为 Michael Green
和 Michelle Green
发音相似,所以它们的 SOUNDEX
值匹配,因此 WHERE
子句正确地过滤出了所需的数据。
日期和时间处理函数
日期和时间采用相应的数据类型存储在表中,每种 DBMS
都有自己的特殊形式。日期和时间值以特殊的格式存储,以便能快速和有效地排序或过滤,并且节省物理存储空间。
应用程序一般不使用日期和时间的存储格式,因此日期和时间函数总是用来读取、统计和处理这些值。由于这个原因,日期和时间函数在 SQL
中具有重要的作用。遗憾的是,它们很不一致,可移植性最差。
我们举个简单的例子,来说明日期处理函数的用法。Orders
表中包含的订单都带有订单日期。要检索出某年的所有订单,需要按订单日期去找,但不需要完整日期,只要年份即可。
为在 SQL Server
中检索 2020
年的所有订单,可如下进行:
输入👇🏻
SELECT order_num
FROM Orders
WHERE DATEPART(yy, order_date) = 2020;
输出👇🏻
order_num
-----------
20005
20006
20007
20008
20009
分析👇🏻
这个例子使用了 DATEPART()
函数,顾名思义,此函数返回日期的某一部分。DATEPART()
函数有两个参数,它们分别是返回的成分和从中返回成分的日期。在此例子中,DATEPART()
只从 order_date
列中返回年份。通过与 2020
比较,WHERE
子句只过滤出此年份的订单。
下面是使用名为 DATE_PART()
的类似函数的 PostgreSQL
版本:
输入👇🏻
SELECT order_num
FROM Orders
WHERE DATE_PART('year', order_date) = 2020;
Oracle
没有 DATEPART()
函数,不过有几个可用来完成相同检索的日期处理函数。例如:
输入👇🏻
SELECT order_num
FROM Orders
WHERE EXTRACT(year FROM order_date) = 2020;
分析👇🏻
在这个例子中,EXTRACT()
函数用来提取日期的成分,year
表示提取哪个部分,返回值再与 2020
进行比较。
提示:
PostgreSQL
支持Extract()
除了前面用到的DatePart()
,PostgreSQL
也支持Extract()
函数,因而也能这么用。
完成相同工作的另一方法是使用 BETWEEN
操作符:
输入👇🏻
SELECT order_num
FROM Orders
WHERE order_date BETWEEN to_date('2020-01-01', 'yyyy-mm-dd')
AND to_date('2020-12-31', 'yyyy-mm-dd');
分析👇🏻
在此例子中,Oracle
的 to_date()
函数用来将两个字符串转换为日期。一个包含 2020年1月1日,另一个包含 2020 年 12 月 31 日。BETWEEN
操作符用来找出两个日期之间的所有订单。值得注意的是,相同的代码在 SQL Server
中不起作用,因为它不支持 to_date()
函数。但是,如果用 DATEPART()
替换 to_date()
,当然可以使用这种类型的语句。
DB2
,MySQL
和 MariaDB
具有各种日期处理函数,但没有 DATEPART()
。DB2
,MySQL
和 MariaDB
用户可使用名为 YEAR()
的函数从日期中提取年份:
输入👇🏻
SELECT order_num
FROM Orders
WHERE YEAR(order_date) = 2020;
在 SQLite
中有个小技巧:
输入👇🏻
SELECT order_num
FROM Orders
WHERE strftime('%Y', order_date) = '2020';
这里给出的例子提取和使用日期的成分(年)。按月份过滤,可以进行相同的处理,使用 AND操作符可以进行年份和月份的比较。
DBMS
提供的功能远不止简单的日期成分提取。大多数 DBMS
具有比较日期、执行日期的运算、选择日期格式等的函数。但是,可以看到,不同 DBMS
的日期−时间处理函数可能不同。关于你的 DBMS
具体支持的日期−时间处理函数,请参阅相应的文档。
数值处理函数
数值处理函数仅处理数值数据。这些函数一般主要用于代数、三角或几何运算,因此不像字符串或日期−时间处理函数使用那么频繁。 具有讽刺意味的是,在主要 DBMS 的函数中,数值函数是最一致、最统一的函数。下表列出一些常用的数值处理函数。
函数 | 说明 |
---|---|
ABS() | 返回一个数的绝对值 |
COS() | 返回一个角度的余弦 |
EXP() | 返回一个数的指数值 |
PI() | 返回圆周率 π 的值 |
SIN() | 返回一个角度的正弦 |
SQRT() | 返回一个数的平方根 |
TAN() | 返回一个角度的正切 |
关于具体 DBMS 所支持的算术处理函数,请参阅相应文档。
小结
本节这一课介绍了如何使用 SQL
的数据处理函数。虽然这些函数在格式化、处理和过滤数据中非常有用,但它们在各种 SQL
实现中很不一致。