由于有1个unit在故障节点上,该节点无法踢出集群,也无法启动、无法加入新节点!最后是重建集群迁移租户数据解决!(此文档来自于24年6月份整理的,对应目前OB版本稍旧)
故障过程如下:
zone3没有活跃节点,导致加入新节点失败!OBD加入也是
发现有业务租户还在占用zone3的资源池,即使分裂出来后,也删不掉。实际上租户显示已经是2个副本的,zone1和zone2
这是后续重新验证时,恢复节点流程:
1-1-1模式,必须先加入新节点,加入节点之后变成1-1-2模式,然后把故障节点上面的unit迁移到新加入的节点!再把故障节点删除!
2-2-2模式,如果其中1个节点磁盘故障或无法恢复,
先把故障节点的unit,迁移到同zone的其它节点,然后再把故障节点删除!
删除故障节点后,拓扑图不存在:
新加节点:
通过OCP平台来添加节点!官方提供的手动添加节点比较麻烦,目录路径无法跟obd对应。
官方提供手动添加方法:https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000818744
所以采用OCP添加方法:
先上传ocp指定版本的rpm软件包,上传到ocp的软件中心!
然后在故障节点的zone里,点击添加observer
加入集群之后,默认是没有做限制的,需要自行优化参数。此问题24年6月份反馈了官方社区,目前的OCP已经修复,新加的节点自动设置参数