MongoDB 支持在多个机器中通过异步复制达到故障转移和实现冗余。多机器中同一时刻只
有一台是用于写操作。正是由于这个情况,为 MongoDB 提供了数据一致性的保障。担当
Primary 角色的机器能把读操作分发给 slave。
MongoDB 高可用可用分两种:
1、Master-Slave 主从复制:
只需要在某一个服务启动时加上–master 参数,而另一个服务加上–slave 与–source 参数,
即可实现同步。MongoDB 的最新版本已不再推荐此方案。
2、Replica Sets 复制集:
MongoDB 在 1.6 版本对开发了新功能 replica set,这比之前的 replication 功能要强大一
些,增加了故障自动切换和自动修复成员节点,各个 DB 之间数据完全一致,大大降低了维
护成功。建议使用 replica set,replica set故障切换完全自动。
Replica Sets 的结构非常类似一个集群。是的,你完全可以把它当成集群,因为它确实跟集群实现的作用是一样的,其中一个节点如果出现故障,其它节点马上会将业务接过来而无须停机操作。
一、部署 Replica Sets
1、 创建数据文件存储路径
root@Jane:/home/jane# mkdir -p /data/data/r0
root@Jane:/home/jane# mkdir -p /data/data/r1
root@Jane:/home/jane# mkdir -p /data/data/r2
2、 创建日志文件路径
root@Jane:/home/jane# mkdir -p /data/log
3、创建主从 key 文件,用于标识集群的私钥的完整路径,如果各个实例的 key file 内容不一
致,程序将不能正常用。
root@Jane:/# mkdir -p /data/key
root@Jane:/# echo 'this is rs1 super secret key' > /data/key/r0
root@Jane:/# echo 'this is rs1 super secret key' > /data/key/r1
root@Jane:/# echo 'this is rs1 super secret key' > /data/key/r2
root@Jane:/data/key# chmod 600 r*
4、启动 3 个实例
root@Jane:/# mongod --replSet rs1 --keyFile /data/key/r0 --port 28010 --dbpath /data/data/r0 --logpath /data/log/r0.log --logappend --fork
root@Jane:/# mongod --replSet rs1 --keyFile /data/key/r1 --port 28011 --dbpath /data/data/r1 --logpath /data/log/r1.log --logappend --fork
root@Jane:/# mongod --replSet rs1 --keyFile /data/key/r2 --port 28012 --dbpath /data/data/r2 --logpath /data/log/r2.log --logappend --fork
5、配置及初始化 Replica Sets
其中的{_id:0,host:'127.0.0.1:28010',priority:1}说明一下:
--成员 IP 及端口,priority=1 指 PRIMARY
6、初始化配置
> rs.initiate(config_rs1);
{
"info" : "Config now saved locally. Should come online in about a minute.",
"ok" : 1
}
7、查看复制集状态
rs.status()
{
"set" : "rs1",
"date" : ISODate("2013-11-21T08:30:06Z"),
"myState" : 1,
"members" : [
{
"_id" : 0,
"name" : "127.0.0.1:28010",
"health" : 1,#--1 表明正常; 0 表明异常
"state" : 1,#-1 表明是 Primary; 2 表明是 Secondary;
"stateStr" : "PRIMARY",#--表明此机器是主库
"uptime" : 9315,
"optime" : Timestamp(1385013939, 1),
"optimeDate" : ISODate("2013-11-21T06:05:39Z"),
"self" : true
},
{
"_id" : 1,
"name" : "127.0.0.1:28011",
"health" : 1,
"state" : 2,
"stateStr" : "SECONDARY",
"uptime" : 8662,
"optime" : Timestamp(1385013939, 1),
"optimeDate" : ISODate("2013-11-21T06:05:39Z"),
"lastHeartbeat" : ISODate("2013-11-21T08:30:04Z"),
"lastHeartbeatRecv" : ISODate("2013-11-21T08:30:04Z"),
"pingMs" : 0,
"syncingTo" : "127.0.0.1:28010"
},
{
"_id" : 2,
"name" : "127.0.0.1:28012",
"health" : 1,
"state" : 2,
"stateStr" : "SECONDARY",
"uptime" : 8660,
"optime" : Timestamp(1385013939, 1),
"optimeDate" : ISODate("2013-11-21T06:05:39Z"),
"lastHeartbeat" : ISODate("2013-11-21T08:30:04Z"),
"lastHeartbeatRecv" : ISODate("2013-11-21T08:30:05Z"),
"pingMs" : 0,
"syncingTo" : "127.0.0.1:28010"
}
],
"ok" : 1
}
还可以用 isMaster 查看 Replica Sets 状态。
rs1:PRIMARY> rs.isMaster()
{
"setName" : "rs1",
"ismaster" : true,
"secondary" : false,
"hosts" : [
"127.0.0.1:28010",
"127.0.0.1:28012",
"127.0.0.1:28011"
],
"primary" : "127.0.0.1:28010",
"me" : "127.0.0.1:28010",
"maxBsonObjectSize" : 16777216,
"maxMessageSizeBytes" : 48000000,
"localTime" : ISODate("2013-11-21T08:39:09.364Z"),
"ok" : 1
}
二、主从操作日志 oplog
MongoDB 的 Replica Set 架构是通过一个日志来存储写操作的,这个日志就叫做”oplog”。
oplog.rs 是一个固定长度的 capped collection,它存在于”local”数据库中,用于记录 Replica
Sets 操作日志。在默认情况下,对于 64 位的 MongoDB,oplog 是比较大的,可以达到 5%的磁
盘空间。oplog 的大小是可以通过 mongod 的参数”—oplogSize”来改变 oplog 的日志大小。
具体看一下例子吧:
字段说明:
ts: 某个操作的时间戳
op: 操作类型,如下:
i: insert
d: delete
u: update
ns: 命名空间,也就是操作的 collection name
o: document 的内容
查看 master 的 oplog 元数据信息:
rs1:PRIMARY> db.printReplicationInfo()
configured oplog size: 3694.1673828125004MB
log length start to end: 10772secs (2.99hrs)
oplog first event time: Thu Nov 21 2013 14:05:39 GMT+0800 (CST)
oplog last event time: Thu Nov 21 2013 17:05:11 GMT+0800 (CST)
now: Thu Nov 21 2013 17:16:37 GMT+0800 (CST)
rs1:PRIMARY>
字段说明:
configured oplog size:配置的 oplog 文件大小
log length start to end:oplog日志的启用时间段
oplog first event time:第一个事务日志的产生时间
oplog last event time:最后一个事务日志的产生时间
now:现在的时间
查看 slave 的同步状态:
rs1:PRIMARY> db.printSlaveReplicationInfo()
source: 127.0.0.1:28011
syncedTo: Thu Nov 21 2013 17:05:11 GMT+0800 (CST)
= 1644 secs ago (0.46hrs)
source: 127.0.0.1:28012
syncedTo: Thu Nov 21 2013 17:05:11 GMT+0800 (CST)
= 1644 secs ago (0.46hrs)
rs1:PRIMARY>
字段说明:
source:从库的 IP 及端口
syncedTo:目前的同步情况,延迟了多久等信息
三、主从配置信息
在 local 库中不仅有主从日志 oplog 集合 ,还有一个集合用于记录主从配置信息 –
system.replset
从这个集合中可以看出,Replica Sets 的配置信息,也可以在任何一个成员实例上执行 rs.conf()
来查看配置信息。