文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

优化 Golang 分布式行情推送的性能瓶颈

2024-12-03 02:53

关注

本文转载自微信公众号「码农桃花源」,作者峰云就她了 。转载本文请联系码农桃花源公众号。

最近一直在优化行情推送系统,有不少优化心得跟大家分享下。性能方面提升最明显的是时延,在单节点8万客户端时,时延从1500ms优化到40ms,这里是内网mock客户端的得到的压测数据。

对于订阅客户端数没有太执着量级的测试,弱网络下单机8w客户端是没问题的。当前采用的是kubenetes部署方案,可灵活地扩展扩容。

架构图

push-gateway是推送的网关,有这么几个功能:第一点是为了做鉴权;第二点是为了做接入多协议,我们这里实现了websocket, grpc, grpc-web,sse的支持;第三点是为了实现策略调度及亲和绑定等。

push-server 是推送服务,这里维护了订阅关系及监听mq的新消息,继而推送到网关。

问题一:并发操作map带来的锁竞争及时延

推送的服务需要维护订阅关系,一般是用嵌套的map结构来表示,这样造成map并发竞争下带来的锁竞争和时延高的问题。

  1. // xiaorui.cc  
  2. {"topic1": {"uuid1": client1, "uuid2": client2}, "topic2": {"uuid3": client3,  "uuid4": client4}   ... }  

已经根据业务拆分了4个map,但是该订阅关系是嵌套的,直接上锁会让其他协程都阻塞,阻塞就会造成时延高。

加锁操作map本应该很快,为什么会阻塞?上面我们有说过该map是用来存topic和客户端列表的订阅关系,当我进行推送时,必然是需要拿到该topic的所有客户端,然后进行一个个的send通知。(这里的send不是io.send,而是chan send,每个客户端都绑定了缓冲的chan)

解决方法:在每个业务里划分256个map和读写锁,这样锁的粒度降低到1/256。除了该方法,开始有尝试过把客户端列表放到一个新的slice里返回,但造成了 GC 的压力,经过测试不可取。

  1. // xiaorui.cc 
  2.  
  3. sync.RWMutex 
  4. map[string]map[string]client 
  5.  
  6. 改成这样 
  7.  
  8. m *shardMap.shardMap 

分段map的库已经推到github[1]了,有兴趣的可以看看。

问题二:串行消息通知改成并发模式

简单说,我们在推送服务维护了某个topic和1w个客户端chan的映射,当从mq收到该topic消息后,再通知给这1w个客户端chan。

客户端的chan本身是有大buffer,另外发送的函数也使用 select default 来避免阻塞。但事实上这样串行发送chan耗时不小。对于channel底层来说,需要goready等待channel的goroutine,推送到runq里。

下面是我写的benchmark[2],可以对比串行和并发的耗时对比。在mac下效果不是太明显,因为mac cpu频率较高,在服务器里效果明显。

串行通知,拿到所有客户端的chan,然后进行send发送。

  1. for _, notifier := range notifiers { 
  2.     s.directSendMesg(notifier, mesg) 

并发send,这里使用协程池来规避morestack的消耗,另外使用sync.waitgroup里实现异步下的等待。

  1. // xiaorui.cc 
  2.  
  3. notifiers := []*mapping.StreamNotifier{} 
  4. // conv slice 
  5. for _, notifier := range notifierMap { 
  6.     notifiers = append(notifiers, notifier) 
  7.  
  8.  
  9. // optimize: direct map struct 
  10. taskChunks := b.splitChunks(notifiers, batchChunkSize) 
  11.  
  12.  
  13. // concurrent send chan 
  14. wg := sync.WaitGroup{} 
  15. for _, chunk := range taskChunks { 
  16.     chunkCopy := chunk // slice replica 
  17.     wg.Add(1) 
  18.     b.SubmitBlock( 
  19.         func() { 
  20.             for _, notifier := range chunkCopy { 
  21.                 b.directSendMesg(notifier, mesg) 
  22.             } 
  23.             wg.Done() 
  24.         }, 
  25.     ) 
  26. wg.Wait() 

按线上的监控表现来看,时延从200ms降到30ms。这里可以做一个更深入的优化,对于少于5000的客户端,可直接串行调用,反之可并发调用。

问题三:过多的定时器造成cpu开销加大

行情推送里有大量的心跳检测,及任务时间控速,这些都依赖于定时器。go在1.9之后把单个timerproc改成多个timerproc,减少了锁竞争,但四叉堆数据结构的时间复杂度依旧复杂,高精度引起的树和锁的操作也依然频繁。

所以,这里改用时间轮解决上述的问题。数据结构改用简单的循环数组和map,时间的精度弱化到秒的级别,业务上对于时间差是可以接受的。

Golang时间轮的代码已经推到github[3]了,时间轮很多方法都兼容了golang time原生库。有兴趣的可以看下。

问题四:多协程读写chan会出现send closed panic的问题

解决的方法很简单,就是不要直接使用channel,而是封装一个触发器,当客户端关闭时,不主动去close chan,而是关闭触发器里的ctx,然后直接删除topic跟触发器的映射。

  1. // xiaorui.cc 
  2.  
  3. // 触发器的结构 
  4. type StreamNotifier struct { 
  5.     Guid  string 
  6.     Queue chan interface{} 
  7.  
  8.  
  9.     closed int32 
  10.     ctx    context.Context 
  11.     cancel context.CancelFunc 
  12.  
  13.  
  14. func (sc *StreamNotifier) IsClosed() bool { 
  15.     if sc.ctx.Err() == nil { 
  16.         return false 
  17.     } 
  18.     return true 
  19.  
  20. ... 

问题五:提高grpc的吞吐性能

grpc是基于http2协议来实现的,http2本身实现流的多路复用。通常来说,内网的两个节点使用单连接就可以跑满网络带宽,无性能问题。但在golang里实现的grpc会有各种锁竞争的问题。

如何优化?多开grpc客户端,规避锁竞争的冲突概率。测试下来qps提升很明显,从8w可以提到20w左右。

可参考以前写过的grpc性能测试[4]。

问题六:减少协程数量

有朋友认为等待事件的协程多了无所谓,只是占内存,协程拿不到调度,不会对runtime性能产生消耗。这个说法是错误的。虽然拿不到调度,看起来只是占内存,但是会对 GC 有很大的开销。所以,不要开太多的空闲的协程,比如协程池开的很大。

在推送的架构里,push-gateway到push-server不仅几个连接就可以,且几十个stream就可以。我们自己实现大量消息在十几个stream里跑,然后调度通知。在golang grpc streaming的实现里,每个streaming请求都需要一个协程去等待事件。所以,共享stream通道也能减少协程的数量。

问题七:GC 问题

对于频繁创建的结构体采用sync.Pool进行缓存。有些业务的缓存先前使用list链表来存储,在不断更新新数据时,会不断的创建新对象,对 GC 造成影响,所以改用可复用的循环数组来实现热缓存。

后记

有坑不怕,填上就可以了。

参考资料

[1]github: https://github.com/rfyiamcool/ccmap/blob/master/syncmap.go

[2]benchmark: https://github.com/rfyiamcool/go-benchmark/tree/master/batch_notify_channel

[3]github: https://github.com/rfyiamcool/go-timewheel

[4]测试: https://github.com/rfyiamcool/grpc_batch_test

 

来源:码农桃花源内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯