MongoDB一次节点宕机引发的思考

发布时间：2019-11-05 07:23:48 所属栏目：MySql教程来源：java架构coid

导读：简介最近一个 MongoDB 集群环境中的某节点异常下电了，导致业务出现了中断，随即又恢复了正常。通过ELK 告警也监测到了业务报错日志。运维部对于节点下电的原因进行了排查，发现仅仅是资源分配上的一个失误导致。在解决了问题之后，大家也对这次中断的

因此，在一个三节点的副本集中，其中两个备节点挂掉后，主节点会自动降备。这样的设计主要是为了避免产生意外的数据不一致情况产生。

图- 主自动降备

第二个是_cancelAndRescheduleElectionTimeout_inlock函数，这里则是实现自动Failover的关键了，

它的逻辑中包含了一个选举定时器，代码如下：

void ReplicationCoordinatorImpl::_cancelAndRescheduleElectionTimeout_inlock() { 
 //如果上一个定时器已经启用了，则直接取消 
 if (_handleElectionTimeoutCbh.isValid()) { 
 LOG(4) << "Canceling election timeout callback at " << _handleElectionTimeoutWhen; 
 _replExecutor.cancel(_handleElectionTimeoutCbh); 
 _handleElectionTimeoutCbh = CallbackHandle(); 
 _handleElectionTimeoutWhen = Date_t(); 
 } 
 //仅支持3.2后的V1版本 
 if (!isV1ElectionProtocol()) { 
 return; 
 } 
 //仅备节点可执行 
 if (!_memberState.secondary()) { 
 return; 
 } 
 ... 
 //是否可以选举 
 if (!_rsConfig.getMemberAt(_selfIndex).isElectable()) { 
 return; 
 } 
 //检测周期，由 electionTimeout + randomOffset 
 //randomOffset是随机偏移量，默认为 0~0.15*ElectionTimeoutPeriod = 0~1.5s 
 Milliseconds randomOffset = _getRandomizedElectionOffset(); 
 auto now = _replExecutor.now(); 
 auto when = now + _rsConfig.getElectionTimeoutPeriod() + randomOffset; 
  
 LOG(4) << "Scheduling election timeout callback at " << when; 
 _handleElectionTimeoutWhen = when; 
 //触发调度，时间为 now + ElectionTimeoutPeriod + randomOffset 
 _handleElectionTimeoutCbh = 
 _scheduleWorkAt(when, 
 stdx::bind(&ReplicationCoordinatorImpl::_startElectSelfIfEligibleV1, 
 this, 
 StartElectionV1Reason::kElectionTimeout)); 
}