| ||
|
| Linux首页 | Linux论坛 | 论坛精华 | 开源新闻 | 技术文章 | 专题专栏 | 新手指南 | 迁移方案 | 产品方案 | 开源项目 | 开源图书 | 软件下载 | 人才招聘 | Linux博客 |
| 您的位置:
Linux时代 > 技术文档 > 数据库 >
在SUSE Linux Server上配置DB2
本文首先考察了 DB2 UDB for Linux®、UNIX® 和 Windows® 中的 IBM DB2® Universal Database™ 数据分区功能(Data Partitioning Feature,DPF)在性能和可伸缩性方面的优点。然后,完成在 SUSE Linux Enterprise Server 上安装和配置具有 DPF 功能的 DB2 的步骤。您还将学习到一些重要的概念和设计方面的考虑,这些将帮助您快速掌握 SUSE Linux Enterprise 环境中 DPF 的安装。 当一个数据库由两个或更多数据库分区组成,并且每个数据库分区存储位于其中的每个表的一部分表数据时,就属于数据库分区的情况。不同分区可以在不同计算机上,也可以在相同的计算机上(即逻辑分区)。在这种类型的数据库中,数据被根据存储位置进行散列,以标识哪个数据库分区将存储数据。一个数据库分区由它自己的数据、索引、配置文件和事务逻辑组成。在更旧版本的 DB2 中,数据库分区被称作节点(node)或数据库节点。但是在本文中我们使用术语分区(partition)。逻辑分区共享它们所在的同一台计算机上的资源。 在分区数据库中,一个表可以分布在一个或多个数据库分区中。分区背后的思想就是将一个表的数据分布在多个分区中,将该表中的一部分行存储在一个分区中,而将其他行存储在其他分区中。数据库管理器(DBM)通过自动地将 SQL 请求分解成子请求,来处理数据的检索和更新。然后,这些子请求就在相应的数据库分区中并行地执行。将表划分到多个分区的这种行为对于用户来说是透明的,这意味着虽然数据在物理上是存储在多个数据库分区上的,但是访问起来就像是在一个地方一样。 图 1 展示了运行在一台机器上的单个分区,这类似于没有使用 DPF: 图 1. 单个机器上的单个分区 接下来的两个图展示了 DPF 真正起作用的情况。图 2 说明了 DPF 被用于三台机器上的情况,其中每台机器上有一个分区。 图 2. 每台机器上一个分区,使用高速通信 注意这里使用的高速通信互连,这可以是各机器之间使用的一个 TCPIP 网络。接下来的 图 3 展示了同一台机器上的三个分区。这里,分区间的通信是在内存中实现的,而不是通过一个网络(在所有 Linux 平台上,默认情况下 DB2 _FORCE_FCM_BP 是启用的)。 图 3. 同一台机器上的三个分区,通过内存进行通信 特别要注意,在前面几个图中,对称多处理器(SMP)也可以换成单处理器。但是,在 DPF 环境中 SMP 服务器更为常见。 分区键 由表中的一列或多列组成,用于使用户可以选择如何对他们的数据进行分区。用户可以通过使用数据库分区组和表空间,来确定将表数据分布到哪些数据库分区上。 用户交互通过一个数据库分区,即用于该用户的协调分区(coordinator partition)来进行。协调分区与应用程序运行在同一个数据库分区上,或者,对于远程应用程序,协调分区运行在应用程序所连接的那个数据库分区上。任何数据库分区都可以成为协调分区。 理解 DB2 Data Partitioning Feature (DPF) 要对一个数据库进行分区,需要 DB2 的 Database Partitioning Feature (DPF) 功能。这种可选的 Database Partition Feature 许可只对 DB2 Enterprise Server Edition (ESE) 可用,其费用按照分区数据库中所使用的 CPU 的数量来计算。 具有 DPF 功能的 DB2 UDB ESE 是管理 OLAP、数据仓库和数据挖掘工作负载的理想选择。对于大型 OLTP 工作负载,它也是很好的选择。最常见的分区环境由每个物理系统上的一个数据库分区组成,这些物理系统组成数据库分区集群。每个数据库分区上的数据库管理器使用每个系统上的处理器来管理数据库中属于该分区的那部分数据。 由于数据被划分在多个数据库分区上,因而可以使用多台计算机上的多个处理器的处理能力来满足对信息的请求。数据检索和更新请求被自动分解成一些子请求,然后这些子请求在相应的数据库分区中并行地执行。每多一个服务器,就意味着将有更多的 CPU、内存和更多的磁盘用于分区数据库。 性能的提升源于这样的事实:大量的数据被划分成更小的、更易管理的块,每个分区/系统可以同时运行。如果要处理提取、转换和载入操作(ETL),而批处理窗口又比较小,那么可以考虑使用 DPF。例如,DB2 LOAD 可以在每个分区上同时运行,负载操作可以并行地分摊到多个服务器上。创建索引的性能也将显著提升。而且,通过使用 DPF,可以显著缩短备份和恢复时间,因为每台参与分区的机器需要处理的数据量更小了。 在 SUSE Linux Enterprise Server V9 上安装 DB2 V8.2 下面我们来介绍在 SUSE Server(或多服务器)环境中安装和运行 DB2 DPF 所需的步骤。 DB2 要求在 Linux 系统上安装以下包:
使用 rpm 命令来检验这些包是否已安装:
在安装 Linux 之前,请确认目前所推荐的、适合 DB2 的 Linux 版本。链接 “http://www.ibm.com/software/data/db2/linux/validate/” 显示了受支持的 Linux 发行版。确保安装受推荐、受支持版本的 Linux。 在安装 DB2 时,需要注意一些内核参数:
在 Kernel 2.4.18 及以后版本中,file-max 参数的默认值是 8192,因此可能不需要修改它。可以使用以下命令来检查 file-max 值:
使用 lpcs 命令显示当前的 Linux 内核设置:
从 DB2 UDB Version 8.2 以后,DB2 在启动时将检查 semmni、msgmni 和 shmmax 参数的值,如果当前值不是最佳的,则更新之。DB2 自动将内核参数设置如下:
注意,系统范围内最多信号量个数(semmns)等于: 数组的最多个数 (semmni) * 每个数组的最多信号量个数 (semmsl) 在安装 DB2 后,还可以通过 db2pd 命令检验 semni、msgmni、shmmax 参数:
在性能调优时,可能还需要调整其他内核参数。手册上的规程如下:
文件 /etc/hosts 包含指定给主机名的地址(包括一个 IP 地址、全限定主机名和主机名)。为了得到最佳性能,应确保所有参与的服务器在 /etc/hosts 文件中都有定义。 对于数据分区环境,DB2 需要一个远程 shell 实用程序来在远程分区上执行命令。在 DB2 UDB V8.2.2 之前,rsh 实用程序被默认用作远程 shell 机制,用于分区之间的通信。为了强认证和安全网络通信的需要,DB2 UDB V8.2.2 现在允许在一个名为 DB2RSHCMD 的注册表 profile 变量中指定远程 shell 实用程序的完整路径,从而增加了对备用远程 shell 实用程序的支持。 OpenSSH (Open Source Secure Shell) 用于代替 rsh 实用程序,以便在不安全的通道上提供有安全保障的通信。OpenSSH 支持两种类型的加密,即基于主机的认证和公钥认证。关于在 DB2 中使用 OpenSSH 的详细信息,请参考标题为 “配置 DB2 Universal Database for UNIX 以使用 OpenSSH” 的技术文章,这篇文章解释了如何在 DB2 中启用 OpenSSH。 为支持一个受安全保障的环境,在数据库分区环境中,应该使用 OpenSSH,而不是 rsh。如果选择启用 rsh 服务,那么只需去掉 /etc/inetd.conf 文件中与 in.rshd 服务对应的 "#" 字符。为了重新启动 inetd 服务器,可以输入:
步骤 5. 设置 Network File System (NFS) 对于一个数据分区配置,必须有一个可供所有参与分区数据库系统的机器使用的文件系统。这个文件系统将用于 DB2 实例的 home 目录。容纳 DB2 实例的机器称作 instance-owning 机器。为了共享该文件系统,必须配置 Network File System。对于 Linux,可以通过发出以下命令来检验 NFS 服务器是否正在运行:
该命令显示在一个 NFS 服务器中定义的文件系统的一个列表。如果 NFS 不在运行,那么将收到以下消息:
可以通过选择 Misc 和 Installation Server 来使用 YaST 配置 NFS。注意,应该以 root ID 登录。
在 instance-owning 机器上设置 NFS 服务器 您需要导出 instance-owner 目录,该目录将被其他数据库分区服务器共享。
instance-owner 目录可用之后,便可以将该目录导入其他数据库分区服务器。
检验 NFS 锁监控程序 DB2 需要一个 NFS 锁监控程序来在集群中所有参与机器之间共享 instance-owner 目录。可以通过使用 chkconfig 命令来检验 NFS 锁监控程序是否已启用:
可以通过以下命令启用 NFS 锁监控程序和重新启动 nfslock:
检验 NFS 锁和 NSM (Network Status Monitor) 服务 NSM 服务 rpc.statd 实现了一个重启通知服务,NFS 文件锁服务(rpc.lockd)将用到这个服务。可以使用以下命令检验这些服务的状态:
在数据库分区环境中,需要为 DB2 创建三个组和用户 ID,如下表所示:
在所有参与机器上的 DB2 instance owner ID 和密码应该是一致的,而且,它的 home 目录应该在 NFS 共享目录中。fenced ID 应该配置为与 DB2 instance owner ID 相同。DAS 用户 ID 和密码在所有参与机器上可以各不相同;但是,为了简化配置和维护,可能需要使 DAS 用户 ID 和密码一致。 例如,您可以用以下命令在所有机器上创建 DB2 组,创建 DB2 用户 ID 以及设置初始密码:
步骤 7. 在 instance-owning 机器和所有参与机器上安装 DB2 UDB 可以使用 db2_install 脚本通过 RPM 安装实用程序在 Linux 系统上安装所有的 DB2 ESE 包。您可以使用该脚本首先在 instance-owning 机器上安装 DB2,然后在参与机器上安装 DB2。 由于必须在每个参与机器上安装 DB2,所以最好将安装代码放在一个共享的盘(例如在我们这个例子中是 /db2home)上。也可以将您的设置记录到一个响应文件中,然后使用该文件来配置其他的机器。 首先,为了安装 DB2,必须以 root 用户登录:
这台机器将被视作 instance-owning 机器,因为它存储和共享 instance owner 的 home 目录。sqllib 目录正是位于这个目录中,此外在此目录中的还有 Database Manager Configuration 文件 (DBM CFG)、Instance Profile Registry、Node 目录和 System Database 目录。由于这些文件是共享的,所以对任何一个文件的更新在所有参与机器上都可以看到。为了配置 instance-owning 机器,需要执行以下步骤:
为了配置参与机器,需要执行以下步骤:
完成所有更新后,可能需要重新启动服务器,并在所有参与服务器上执行命令 下面是关于具有 DPF 功能的 DB2 的一些重要的概念,您应该清楚这些概念。 DB2 编目是由数据库管理器维护的一组表和视图。这些表和视图包含元数据,也就是关于数据库和它的对象的信息,例如对表、视图和索引的描述和关于用户在这些对象上所拥有的权限的安全信息。 编目分区是存放数据库编目表的数据库分区。在分区数据库环境中,每个数据库可以在一个不同的数据库分区服务器上有它的编目分区。数据库的编目分区是在运行 用户与分区数据库的交互是通过一个数据库分区,即用于那个用户的协调分区创建的。协调分区与应用程序运行在同一个数据库分区上,或者,对于远程应用程序,协调分区运行在应用程序所连接的那个数据库分区上。任何数据库分区都可以用作协调节点,或者被变成协调节点。 协调分区之所以被这样称呼,是因为运行在它上面的、与应用程序通信的协调代理。您可以控制将哪个分区用作协调分区。例如,为了连接到分区 3,可以发出:
数据库分区组是由一个或多个数据库分区组成的一个组。在为数据库创建表之前,首先创建用于存储表空间的数据库分区组,然后创建用于存储表的表空间。 可以在一个数据库中定义包含一个或多个数据库分区的有名称的子集。每个子集称作一个数据库分区组。每个包含不止一个数据库分区的子集称作多分区数据库分区组。多分区数据库分区组只能用属于相同实例的数据库分区来定义。一个数据库分区可以属于不止一个分区组。 例如,图 5 展示了一个由 5 个分区组成的数据库分区组: 在这种情况下,Database Partition Group 1 横跨除一个数据库分区外的所有数据库分区。它还包含一个名为 'Database Partition Group 2' 的单分区数据库分区组。另外,'Database Partition Group 3' 也与 Database Partition Group 1 共享了一个数据库分区。 可以用 数据被划分到一个数据库分区组中的所有分区上,可以为数据库分区组添加一个或多个数据库分区,或者从中去掉数据库分区。属于数据库系统配置一部分的每个数据库分区都必须在一个名为 db2nodes.cfg 的分区配置文件中定义。一个数据库分区组最多可以包含为数据库系统定义的所有数据库分区。 当创建或修改一个数据库分区组时,就会有一个与之关联的分区映射。数据库管理器可以通过将分区映射与分区键和散列算法相结合,来确定数据库分区组中的哪些数据库分区将存储给定的数据行。在一个非分区数据库中,不需要分区键或分区映射。过一会儿我们将详细讨论这些概念。 一个数据库分区是数据库的一部分,其中具有用户数据、索引、配置文件和事务日志。有一些默认的数据库分区组是在数据库创建时被创建的:
用于已声明的临时表的用户临时表空间可以在 IBMDEFAULTGROUP 或任何用户创建的数据库分区组中创建,但不能在 IBMTEMPGROUP 中创建。 为了创建一个新的由 db2nodes.cfg 中所有分区组成的分区组,可以发出以下命令:
如果您想创建一个新的分区组,且这个分区组只包含分区 1 和 2,可以发出如下命令:
可对分区键的对应列的基本数据类型进行比较,并可将它们声明为是分区兼容的(partition compatible)。分区兼容的数据类型具有如下属性:具有相同值但有不同类型的两个变量会按相同的分区算法映射至同一个分区号。 分区兼容性具有下列特征:
并置(collocation)是安置同一个数据库分区中包含相关数据的不同表中的行。并置的表使 DB2 可以更有效地使用连接策略。 您可能会发现,作为对特定查询的响应,两个或多个表频繁地提供数据。在此情况下,您会希望这样的表中的相关数据的位置尽可能地靠近。在数据库被物理地划分为两个或多个数据库分区的环境中,必须有一种方法可将划分的表的相关碎片尽可能地靠近。完成此过程的功能称为表并置。 当存取用于连接或子查询的多个表时,DB2(R) 通用数据库(DB2 UDB)能够识别要连接的数据是否位于相同数据库分区上。于是 DB2 就可以在存储数据的数据库分区上执行连接或子查询,而不必在数据库分区之间移动数据。这种局部地执行连接或子查询的能力具有显著的性能优点。 要发生并置,表必须:
如果一个表在一个单分区数据库分区组中,且该分区组是在另一个表所在的同一个分区上定义的,那么也可以发生并置。 缓冲池是处理期间用于存放数据页和从中读取、修改数据页的一个内存区域。默认情况下,当创建一个缓冲池时,在每个分区上都会创建这样的缓冲池。为了容易管理,通常最好的做法是使每个分区上的缓冲池大小一致。但是,也可以改变特定分区上的缓冲池大小。例如,若要将分区 4 的 'BUF8K' 缓冲池改为 400MB,可以发出命令:
还可以通过指定一个数据库分区组来选择在哪几个分区上创建缓冲池,在此情况下,只有在数据库分区组中的那些分区上才会创建缓冲池。 表空间是存储数据库对象的容器集合的抽象。表空间在数据库与存储在数据库中的表之间提供了一个间接层。对于每个表空间,在存储设备上都有一个空间与之对应。一个表中的数据、索引、long 字段和 LOB 部分可以存储在相同的表空间中,也可以分别放到不同的表空间中,以提高性能。 当定义一个横跨同一台机器上多个逻辑数据库分区的表空间的容器时,为了避免一个以上的逻辑分区具有相同的路径/设备名称,通常使用数据库分区表达式(Database Partition Expression)。通过使用数据库分区号作为容器名称的一部分,可以确保容器名称在各分区当中是惟一的。这可以作为手动地为每个分区指定位置的替代方法。 可以使用参数 " $N" ([blank]$N) 来表示一个数据库分区表达式,它可以用在容器名称的任何地方,而且可以指定多个数据库分区表达式。数据库分区表达式以一个空格字符结束;数据库分区表达式计算完毕后,空格后的内容附在容器名称的后面。 如果容器名称中在数据库分区表达式后面没有空格字符,则认为剩下的字符串是表达式的一部分。 参数的使用只能以如下一种格式出现(在这个例子中,假设分区号是 5):
如果使用类似于上面的字符串,并且分区号仍然是 5,那么将看到:
如果在一个由两个分区组成的数据库上发出以下语句:
那么将看到下列容器被创建:
分区键是用于确定特定一行数据存储在哪个分区的一个列(或一组列)。 分区键是在一个表上用 在选择分区键时,应该注意以下几点:
如果不需要特别考虑并置,那么能使数据均匀地散布在数据库分区组中所有数据库分区上的分区键就是好的分区键。在与一个数据库分区组相关联的表空间中,每个表的分区键可以确定表是否是并置的。 不恰当的分区键可能导致数据分布不均匀。具有分布不均匀的数据的列和具有少量 distinct 值的列都不应该被选作分区键。distinct 值的数量必须多到足以确保数据行均匀地分布在数据库分区组中的所有数据库分区上。应用分区散列算法的代价与分区键的规模成比例。分区键不能多于 16 个列,列数越少导致的性能就越好。分区键中不应该包括不必要的列。 在定义分区键时,应考虑以下几点:
散列分区是用于确定每一行在分区表中的位置的方法。该方法工作原理如下:
在分区数据库环境中,数据库管理器必须有方法知道表的哪些行存储在哪个数据库分区上,以便发现它需要的数据。数据库管理器使用一个称作分区映射的映射来发现数据。 分区映射是内部生成的数组,对于多分区的数据库分区组,这个数组包含 4,096 个条目,对于单分区的数据库分区组,这个数组只包含一个条目。 对于单分区的数据库分区组,分区映射只有一个条目,其中包含数据库表中所有的行所在的数据库分区的分区号。对于多分区数据库分区组,数据库分区组中的分区号是以循环的方式指定的。就像城市地图按网格分成一些区一样,数据库管理器使用分区键来确定数据所存储在的位置(数据库分区)。 例如,假设您在 5 个数据库分区(分区号为 0-4)上有一个数据库。那么,这个数据库的 IBMDEFAULTGROUP 数据库分区组的分区映射为:
如果在使用数据库分区 1 和 2 的数据库中创建了一个数据库分区组,那么这个数据库分区组的分区映射为:
如果数据库中所装载的表的分区键是 1 到 500,000 之间的整数,则分区键被散列到 0 到 4 095 之间的一个分区号。这个号码将用于作为分区映射的一个索引,以选择那一行所在的数据库分区。 分区映射是在分区数据库中控制数据存储位置的一种灵活的方式。另外还有一种再分配(redistribution)实用程序,通过它可以改变数据在数据库中的数据库分区上的分布(使之平衡或偏斜),不过这超出了本文的范围。 DB2NODE 环境变量用于指定想要连接到的目标逻辑分区。如果没有设置该变量,那么它将默认地等于用机器上的端口 0 定义的那个分区(在 db2nodes.cfg 文件中)。 如果要连接到逻辑分区 2,那么可以输入以下命令:
为了确保更改生效,必须用 为了识别当前活动逻辑节点,可以发出以下命令:
这两个工具使跨所有机器或所有分区执行命令变得容易。两个工具使用相同的一组有用的选项,这些选项可以在 DB2 Command Window 中通过 " db2_all db2_all 用于在所有指定的分区上运行命令。
分号用于作为一个前缀,表明该命令将在各分区上并发地运行。 rah rah 用于在组成分区环境的所有机器上运行一个命令。 当执行离线数据库备份时,需要单独备份编目分区。但是,在线备份时就不需要这样,因为日志是包括在备份镜像中的。例如,我们有一个名为 sample 的数据库和一个 /dev/backup 目录,从所有分区那里都可以访问这个目录。 首先需要备份位于分区 0 上的编目分区,这里只需指定 "
接着备份其他分区(除了分区 0),方法是指定 "
注意,前缀 "|" 将导致依次运行 BACKUP 命令。现在,在 /dev/backup 目录中可以找到每个分区的备份镜像。 DBPARTITIONNUM 函数可用于确定一个行所在的分区。例如,如果用在一个 SELECT 子句中,那么该函数将返回表中组成 SELECT 语句结果的每一行的分区号。 该函数的参数必须是一个表中某一列的全限定或非限定列名。结果的数据类型是 INTEGER,并且不会为 null。由于只返回行这一级的信息,所以不管指定表的哪一列,结果总是相同的。如果没有 db2nodes.cfg 文件,则结果为 0。 例如:
节点(node)目录包含在建立从客户机工作站到所有合适的数据库服务器的通信时所需的信息。 数据库(database)目录包含客户机所连接到的所有数据库的数据库访问信息。 DB2 Design Advisor 是获得有效的分区建议的最直接的工具,可以通过 Control Center GUI 或 db2advis 命令行工具来使用它。通过一个可更新的分区映射,结合一个散列算法,可以指定分区键与数据库分区的映射,这个映射可用于确定每个数据行的位置和检索。 于是,对于大型的表,工作负载可以分布在多个分区上,而更小的表也可以存储在一个或多个数据库分区上。由于每个数据库分区都有它的数据上的本地索引,因此提高了本地数据访问的性能。 DB2 还支持部分分块(de-clustering),在此情况下,表和表空间可以分布在可用分区的一个子集上。取决于数据库分区的数量,您可以有一个或多个单分区的数据库分区组,以及一个或多个多分区的数据库分区组。每个分区必须使用一个惟一的分区号,而同一个数据库分区可以属于一个或多个数据库分区组中。 为了确保包含系统编目表的分区能够快速恢复,应避免将用户表也放在那个数据库分区上。为此,可以将用户表放在不包括 IBMCATGROUP 数据库分区组中的数据库分区的数据库分区组中。 除非想要利用与更大的表的并置,否则应该将小型的表放在单分区的数据库分区组中。应避免使中等规模的表横跨太多的数据库分区。例如,对于一个 100 MB 的表,将它放在包含 16 个分区的数据库分区组上可能比将它放在包含 32 个分区的数据库分区组上得到的性能要好。 您可以使用数据库分区组来将在线事务处理(OLTP)表与决策支持(DSS)表隔离开来,以确保 OLTP 事务的性能不受负面影响。 在多分区数据库分区组中,如果索引是分区键的超集,那么只能创建一个惟一的索引。 在创建数据库时,应确保在用于数据库位置的 "ON" 子句中指定一个本地(非共享)目录。例如,
其中 /db2_db is 是一个预先存在的本地目录。 在默认情况下,数据库管理器配置中的默认数据库路径(DBTDBPATH)参数是 instance owner(被 NFS 共享)的 home 目录的位置。如果在不指定数据库位置的情况下创建数据库,那么将使用 DBTDBPATH 创建数据库,这里 DBTDBPATH 指向共享的 instance-owner 目录。这样将降低性能。 创建数据库之后,应该确保每个数据分区还有它自己的日志本地目录。您可以使用以下命令:
节点号被自动附加在路径的后面。这样做是为了维护多逻辑节点配置中路径的惟一性。 本文讲解了在 DB2 UDB 中使用 Data Partitioning Feature (DPF) 的理论基础,详细解释了 DPF 的安装过程和一些重要概念,并且谈到在 SUSE Linux Enterprise 环境中启用 DPF 时在设计上的一些考虑。更好地理解了 SUSE Linux 环境中的 DB2 DPF 之后,就可以很快地掌握如何在 SUSE Linux 环境中启用 DPF。 原文链接:http://www-128.ibm.com/developerworks/cn/db2/library/techarticles/dm-0601poon/index.html 本文被浏览次
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 关于我们 | 联系方式 | 广告合作 | 诚聘英才 | 网站地图 | 免费注册 |
Copyright © 2001-2006 ChinaUnix.net All Rights Reserved 感谢所有关心和支持过ChinaUnix的朋友们 |