Linux.ChinaUnix.net
ChinaUnix | Linux首页 | 新闻 | 博客 | 文章 | 专栏 | 新手 | 方案 | 图书 | 下载 | 人才 | 手册 | wiki | 搜索     
Linux论坛
  会员: 密码: 免费注册 | 忘记密码 | 会员登录 | 搜索 | 帮助 


[集群] RHCS集群切换问题。求教!!
首页 » CU论坛 » Linux » 汇总贴列表 » 集群和虚拟机 »  
[打印] [订阅] [收藏] [本帖文本页] [推荐此主题给朋友,立即获积分]
yfort
侠客



UID:688647
注册:2008-4-9
最后登录: 2008-09-27
帖子:44
精华:0

可用积分:58 (白手起家)
信誉积分:0
专家积分:0 (本版:0)
空间积分:0
推广积分:0

状态:...离线...

[资料] [站内短信] [Blog]


1楼 发表于 2008-7-1 18:49 
我的两台IBM3850服务器。fence设备用的bmc芯片。即ipmilan模式的。现在配置好后,加载服务能够起来,浮动ip。盘柜都能起来,用命令切换是正常的(5.1的版本图形界面有bug)。但如果进行以下测试就切换不过来。麻烦大家分析一下大概问题在哪?我看了下日志,好像是fence设备有问题。系统检测到cluster有问题。但却fence不了那台服务器。
(1)       正常切换测试:使用集群软件进行集群切换,查看切换后数据库状态

测试切换正常



(2)       灾难切换测试:强制关闭Online状态服务器,查看切换后数据库状态

测试失败:

关闭Oline状态服务器后,集群服务不能够切换到备机,通过集群服务管理软件侦测到的备用服务器的集群状态如下。

[root@hfdb02 init.d]# clustat

Member Status: Quorate



  Member Name                        ID   Status

  ------ ----                        ---- ------

  hfdb01                                1 Offline

  hfdb02                                2 Online, rgmanager



  Service Name         Owner (Last)                   State         

  ------- ----         ----- ------                   -----         

  serviceracled      hfdb01                         started  

集群软件虽然已经侦测到hfdb01已经故障,但是集群服务oracled还是在hfdb01上运行,但此时hfdb01已经被强制关机。



(3)       网卡冗余测试:断开数据库服务器online状态服务器的1个网口

测试失败:

断开Oline状态服务器的网口后,处于Oline状态的服务器已经没有网络和生产网通讯,但是集群软件也不能够切换到网络状态正常的备机。

通过集群服务管理软件侦测到的备用服务器的集群状态如下

[root@hfdb02 init.d]# clustat

Member Status: Quorate



  Member Name                        ID   Status

  ------ ----                        ---- ------

  hfdb01                                1 Offline

  hfdb02                                2 Online, rgmanager



  Service Name         Owner (Last)                   State         

  ------- ----         ----- ------                   -----         

serviceracled      hfdb01                         started



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
jerrywjl   帅哥 (我不是神,我不会猜)
精灵使



UID:264418
注册:2005-5-8
最后登录: 2008-10-07
帖子:3360
精华:4

可用积分:2624 (小富即安)
信誉积分:100
专家积分:368 (本版:37)
空间积分:852
推广积分:0

状态:...在线...

[资料] [站内短信] [Blog]


2楼 发表于 2008-7-1 22:33 
照你这么说,我感觉还真是见了鬼了!哈哈!

不过我还是提醒一下你:
首先你提供的信息不能说明任何问题。因为没有日志,没有配置文件,没有拓扑结构图,没有操作说明。

这种情况下的猜测只是在做无用功,所以我建议你把我说的这些东西都提供一下吧,如果你真想解决问题的话。



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
yfort
侠客



UID:688647
注册:2008-4-9
最后登录: 2008-09-27
帖子:44
精华:0

可用积分:58 (白手起家)
信誉积分:0
专家积分:0 (本版:0)
空间积分:0
推广积分:0

状态:...离线...

[资料] [站内短信] [Blog]


3楼 发表于 2008-7-2 09:07 
回复 #2 jerrywjl 的帖子

配置文件如下:我做了两套cluster。这个配置文件是应用服务器的,不过故障现象一样。
<?xml version="1.0" ?>
<cluster config_version="9" name="hfcard_cluster">
        <fence_daemon post_fail_delay="0" post_join_delay="3"/>
        <clusternodes>
                <clusternode name="hfapp01" nodeid="1" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="fence1"/>
                                </method>
                        </fence>
                </clusternode>
                <clusternode name="hfapp02" nodeid="2" votes="1">
                        <fence>
                                <method name="1">
                                        <device name="fence2"/>
                                </method>
                        </fence>
                </clusternode>
        </clusternodes>
        <cman expected_votes="1" two_node="1"/>
        <fencedevices>
                <fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.0.1.23" login="root" name="fence1" passwd="111111"/>
                <fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.0.1.24" login="root" name="fence2" passwd="111111"/>
        </fencedevices>
        <rm>
                <failoverdomains>
                        <failoverdomain name="hfcard" ordered="0" restricted="1">
                                <failoverdomainnode name="hfapp01" priority="1"/>
                                <failoverdomainnode name="hfapp02" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <resources>
                        <fs device="/dev/emcpowerb1" force_fsck="0" force_unmount="1" fsid="34178" fstype="ext3" mountpoint="/app" name="emcpowerb1" options="" self_fence="1"/>
                        <ip address="10.0.1.15" monitor_link="1"/>
                        <script file="/etc/init.d/hfcardd" name="hfcardd"/>
                </resources>
                <service autostart="1" domain="hfcard" exclusive="1" name="hfcardd">
                        <ip ref="10.0.1.15"/>
                        <fs ref="emcpowerb1"/>
                        <script ref="hfcardd"/>
                </service>
        </rm>
</cluster>

[ 本帖最后由 yfort 于 2008-7-2 09:11 编辑 ]



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
yfort
侠客



UID:688647
注册:2008-4-9
最后登录: 2008-09-27
帖子:44
精华:0

可用积分:58 (白手起家)
信誉积分:0
专家积分:0 (本版:0)
空间积分:0
推广积分:0

状态:...离线...

[资料] [站内短信] [Blog]


4楼 发表于 2008-7-2 09:15 
日志文件大概意思是说,备节点发现主节点失效,但fence主节点的时候失败。用fence_ipmilan命令是可以控制服务器开关机的。当时fence_ipmilan  reboot的时候确是关机。



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
jerrywjl   帅哥 (我不是神,我不会猜)
精灵使



UID:264418
注册:2005-5-8
最后登录: 2008-10-07
帖子:3360
精华:4

可用积分:2624 (小富即安)
信誉积分:100
专家积分:368 (本版:37)
空间积分:852
推广积分:0

状态:...在线...

[资料] [站内短信] [Blog]


5楼 发表于 2008-7-2 09:16 
从配置文件上看,基本上没有问题,不过信息不全,继续等。



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
txl829   帅哥
侠客



UID:241791
注册:2005-3-20
最后登录: 2008-09-04
帖子:32
精华:0

可用积分:38 (白手起家)
信誉积分:100
专家积分:0 (本版:0)
空间积分:0
推广积分:0

状态:...离线...

[资料] [站内短信] [Blog]


6楼 发表于 2008-7-2 09:33 
我感觉楼主的问题应该跟我的那个问题差不多,同样都是ipmi作fence的问题,关键是网线怎么接的问题,我想知道服务与心跳怎么可以都放在eth0上?



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
yfort
侠客



UID:688647
注册:2008-4-9
最后登录: 2008-09-27
帖子:44
精华:0

可用积分:58 (白手起家)
信誉积分:0
专家积分:0 (本版:0)
空间积分:0
推广积分:0

状态:...离线...

[资料] [站内短信] [Blog]


7楼 发表于 2008-7-2 10:03 
两台服务器分别连交换机分配10网段的地址,管理口在bios里设置了地址也是10段的,同时连接交换机。这样可以在服务器上ping通fence设备(即管理口,不过延时比一般网口大)。不过问了800.这种内置的fence是不能做拔电源测试的。详细的日志下午去客户那抓一些回来。



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
jerrywjl   帅哥 (我不是神,我不会猜)
精灵使



UID:264418
注册:2005-5-8
最后登录: 2008-10-07
帖子:3360
精华:4

可用积分:2624 (小富即安)
信誉积分:100
专家积分:368 (本版:37)
空间积分:852
推广积分:0

状态:...在线...

[资料] [站内短信] [Blog]


8楼 发表于 2008-7-2 10:46 


QUOTE:
原帖由 txl829 于 2008-7-2 09:33 发表
我感觉楼主的问题应该跟我的那个问题差不多,同样都是ipmi作fence的问题,关键是网线怎么接的问题,我想知道服务与心跳怎么可以都放在eth0上?

为什么不行?恰恰相反我还是推荐这么做。



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
txl829   帅哥
侠客



UID:241791
注册:2005-3-20
最后登录: 2008-09-04
帖子:32
精华:0

可用积分:38 (白手起家)
信誉积分:100
专家积分:0 (本版:0)
空间积分:0
推广积分:0

状态:...离线...

[资料] [站内短信] [Blog]


9楼 发表于 2008-7-2 16:51 
我的差不多搞定了,不能切换是xen内核的原因;
我发现重启服务所在机器,并不会发生fence的动作;
如果用直连线作心跳,拔掉心跳后,两个节点都会有fence的动作。我这边的fence还是不能成功。
我尝试把心跳和服务都做在eth0上,但是互相都检测不到心跳,这又回到我几天前发贴问的那个问题。另外,我的主机的第三块网卡eth2接到一台备用交换机,主备交换机用直连线相连。我尝试用eth2 做心跳,也还是互相都检测不到心跳。不知道会不会是交换机的问题



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?
jerrywjl   帅哥 (我不是神,我不会猜)
精灵使



UID:264418
注册:2005-5-8
最后登录: 2008-10-07
帖子:3360
精华:4

可用积分:2624 (小富即安)
信誉积分:100
专家积分:368 (本版:37)
空间积分:852
推广积分:0

状态:...在线...

[资料] [站内短信] [Blog]


10楼 发表于 2008-7-2 18:20 
xen内核在启动的时候改变一些网络参数,包括防火墙的配置;
重启服务所在的机器,只要心跳丢失,肯定产生fence动作。
直连心跳有可能会造成错误fence的问题。如果fence不能成功,需要检查fence的链路和你的fence设备配置。
至于互相检测不到心跳,原因很多:检查硬件、防火墙,以及你使用的kernel等。



您对本贴的看法:鲜花[0] 臭蛋[0]
积分兑换专区 | IT节能和TPC-E活动获奖名单 | 致电800-858-2903,了解DELL如何为你量身订制笔记本 | 送2G U盘 | 站长如何获得资金?

首页 » CU论坛 » Linux » 汇总贴列表 » 集群和虚拟机 »

 


Copyright © 2001-2008 ChinaUnix.net All Rights Reserved     联系我们:

感谢所有关心和支持过ChinaUnix的朋友们    转载本站内容请注明原作者名及出处

京ICP证041476号


清除 Cookies - Linux时代 - Archiver - WAP - TOP

Processed in 0.044067 second(s), 5 queries , Gzip enabled