我们的程序的响应时间是10us(从收到行情到发出报单的响应时间),但是ping期货公司的交易前置机需要大约30us【这个数值会变化,见注释4】,所以网络延时占据了大量时间。
我所有的性能测试都是在一台DELL r630机器上运行的,这台机器有2个NUMA结点,CPU型号是E5 2643 v4(3.4GHz 6核)。所有的测试都是用rdtsc指令来测量时间,Intel官网上有一篇pdf文档[Gabriele Paoloni, 2010],讲述了如何精准地测量时间(要用cpuid来同步)。我自己做的性能测试的结果会写成“100(sd20)ns”的形式,代表平均值是100ns,标准差是20ns。我在算均值和标准差的时候会去掉最大的0.1%的数据再算,因为那些数据似乎并不是程序延时,而是cpu被调度执行别的任务了【原因见注释3】。有些性能测试在网上有现成的测试结果,我就没自己测,直接拿来用了,但是以后我会重新在我的机器上测一遍。
一些我们比较注意的点:
1.限制动态分配内存
相关的知识背景:glibc默认的malloc背后有复杂的算法,当堆空间不足时会调用sbrk(),当分配内存很大时会调用mmap(),这些都是系统调用,似乎会比较慢,而且新分配的内存被first touch时也要过很久才能准备好。
可取的做法:尽量使用vector或者array(初始化时分配足够的空间,之后每次使用都从里面取出来用)。尽量使用内存池。如果需要二叉树或者哈希表,尽量使用侵入式容器(boost::intrusive)。
性能测试:我测试的分配尺寸有64和8128两种。首先,我测试了glibc malloc的性能,分配64字节耗时98(sd247)ns,分配8128字节需要耗时1485(sd471)ns。其次,我写了一个多进程安全的内存池,分配64字节需要29(sd15)ns,分配8128字节需要22(sd12)ns。【内存池的细节见注释6】。最后,我单独测试了sbrk()和first touch的性能,但是数据不记得了。
2.使用轮询,尽量避免阻塞
相关的知识背景:上下文切换是非常耗时的,其中固定的消耗包括(cpu流水线被冲掉、各种寄存器需要被保存和恢复、内核中的调度算法要被执行),此外,缓存很有可能出现大量miss,这属于不固定的时间消耗。
可取的做法:使用带有内核bypass功能的网卡。每个进程或者线程都独占一个cpu核【isolcpus和irqbalance的细节见注释3】,并且不停地轮询,用以保证快速响应。尽量避免任何可能导致阻塞的事件(如mutex),某些注定很慢的活动(比如把log写到磁盘上)应该被独立出来放到别的cpu上,不能影响主线程。
性能测试:网上有一篇博客[tsunanet, 2010]测试了mode switch、thread switch、process switch的耗时,但是这篇文章太早了,以后我要用我的新cpu重新测一下。这篇博客里面,系统调用只需要<100ns,线程/进程切换需要>1us(不包括缓存miss的时间)。
3.使用共享内存作为唯一的IPC机制
相关的知识背景:共享内存只有在初始化的时候有一些系统调用,之后就可以像访问正常内存一样使用了。其他IPC机制(管道、消息队列、套接字)则是每次传输数据时都有系统调用,并且每次传输的数据都经历多次拷贝。因此共享内存是最快的IPC机制。
可取的做法:使用共享内存作为唯一的IPC机制。当然,可能需要手动实现一些东西来保证共享的数据在多进程下是安全,我们是自己实现了无锁内存池、无锁队列和顺序锁【关于seqlock的疑点见注释1】。
性能测试:我使用了boost中的Interprocess库和Lockfree库,在共享内存上建立了一个spsc队列,然后用这个队列来传送数据,代码参考了stackoverflow上的一个答案[sehe, 2014]。我传送的数据是一个8字节整数,延时是153(sd61)ns。至于其他IPC机制,我在[cambridge, 2016]看到了一些性能测试结果,通常是要几微秒到几十微秒不等。
4.传递消息时使用无锁队列
相关的知识背景:我只关注基于数组的无锁队列,其中:spsc队列是wait-free的,不论是入队出队都可以在确定的步数之内完成,而且实现时只需要基本的原子操作【为什么这很重要见注释7】;mpmc队列的实现方式则多种多样,但都会稍微慢一点,因为它们需要用一些比较重的原子操作(CAS或者FAA),而且有时它们需要等待一段不确定的时间直到另一个线程完成相应操作;另外,还有一种multi-observer的『广播队列』,多个读者可以收到同一条消息广播,这种队列也有sp和mp类型的,可以检查或者不检查overwrite;最后,还有一种队列允许存储不定长的消息。
可取的做法:总的来说,应该避免使用mp类型的队列,举例:如果要用mpsc队列,可以使用多个spsc来达成目的,并不需要mp队列;同理,如果是消息广播,也可以使用多个sp队列来取代一个mp队列;如果广播时observer只想订阅一部分消息,那么可以用多个spsc+有计数功能的内存池【具体做法见注释2】;如果要求多个观察者看到多个生产者的消息,并且顺序一致,那只能用mp队列了。总结一下,mp类型的队列应该尽量避免,因为当多个生产者同时抢占队列的时候,延时会线性增长。
性能测试:我写了一个mp类型的广播队列,传输的数据是8字节int,当只有一个生产者时,传输的延时是105(sd26)ns。增加观察者会使延时略微变大,增加生产者会使延时急剧变大(我用rdtsc指令控制不同生产者同时发送消息)。对于这个队列来说,它的延时只略高于跨核可视延时【测试结果见注释8】,所以应该算是不错了。
5.考虑缓存对速度的影响
相关的背景知识:现在的机器内存是十分充足的,但是缓存还是很小,因此所有节省内存的技巧都还有用武之地。
可取的做法:尽量让可能被同时使用的数据挨在一起;减少指针链接(比如用array取代vector,因为链接指向的地方可能不在缓存里);尽量节省内存(比如用unique_ptr<Data[]>取代vector<Data>,比如成员变量按照从大到小排序,比如能用int8的地方就不用int16);指定cpu affinity时考虑LLC缓存(同核的两个超线程是共享L1,同cpu的两个核是共享L3,不同NUMA核是通过QPI总线);会被多个核同时读写的数据按照缓存行对齐(避免false sharing)。
【注释1】:有一篇惠普的论文[Hans-J.Boehm, 2012]大致叙述了顺序锁的实现方法,但是那里面有两点让我感到困惑。一是需要用到thread_fence,这在某些cpu上可能会影响性能(x86似乎没影响);二是被保护的内容也必须是原子变量(可以是多个原子变量,所以被保护的内容可以很长)。但这是我见过的唯一一个符合C++标准的SeqLock的实现。
【注释2】:如果有M个生产者要发消息给N个观察者,可以建M*N个spsc队列和M个内存池,观察者只能读内存池里的数据,只有对应的那一个生产者可以修改内存池。我感觉这样应该会更快,但我没测过。
【注释3】:isolcpus可以隔离出一些cpu,避免其他线程被调度到这些cpu上执行。此外,设置irq affinity可以让一些cpu尽量避免响应中断,但在/proc/interrupts里面仍然有一些项目是避免不了的,而cpu处理中断时,用户程序会有一段时间(有时高达几十微秒)无法响应,我们没法解决这个问题。
【注释4】:在不同的时间点,ping的结果会有很大差异。交易时间段内ping出来的结果是30us,其它时间段ping出来的结果可能是几百微秒。我不知道这是什么原因,可能是期货公司为了省电关掉了某些东西?
【注释6】:我们要在共享内存上使用内存池,所以不得不自己写一个。我写的内存池只能分配固定尺寸的内存块,但是用户可以建立好几个内存池,用来分配不同的尺寸。实现的过程中有两个要点。一是用无锁链表来保存空闲的内存块;二是每个线程内部有一个缓冲区,所以真正取内存块的时候是没有CAS操作的。
【注释7】:在Intel x86的cpu上,如果C++中的内存顺序只用了acquire和release,那么编译出来的汇编代码里面不会有任何内存栅栏指令;如果同时也没有RMW(读-改-写)指令的话,无锁的代码编译出来就会像是普通的代码一样了。事实上,spsc队列的延时几乎等于跨核可视延时。
【注释8】:跨核可视延时:对于一个共享变量来说,如果有一个核上面的进程或者线程修改了这个变量,另一个核需要过一段时间才能看到这个修改,这段时间被称作跨核可视延时。我不确定在这段时间内,第二个核是会看到旧的数据还是这条指令会执行很久。在我的机器上,对于同一个cpu上的不同核心,这个值是96(sd14)ns。另外,对于同一个核心上的不同超线程,这个值应该会更小;对于同一台机器上的不同cpu,这个值应该会更大。
[cambridge, 2016]:Computer Laboratory
[Gabriele Paoloni, 2010]:Code Execution Times: IA-32/IA-64 Instruction Set Architecture
[Hans-J.Boehm, 2012]:http://www.hpl.hp.com/techreports/2012/HPL-2012-68.pdf
[sehe, 2014]:Shared-memory IPC synchronization (lock-free)
[tsunanet, 2010]:http://blog.tsunanet.net/2010/11/how-long-does-it-take-to-make-context.html |