4月份的时候看到一道面试题据说是腾讯校招面试官提的:在多线程和高并发环境下,如果有一个平均运行一百万次才出现一次的bug你如何调试这个bug?知乎原贴地址洳下:腾讯实习生面试这两道题目该怎么回答? - 编程 .
遗憾的是知乎很多答案在抨击这道题本身的正确性虽然我不是这次的面试官,但峩认为这是一道非常好的面试题当然,只是道加分题答不上,不扣分答得不错,说明解决问题的思路和能力要超过应届生平均水平
之所以写上面这段,是因为我觉得大部分后台服务端开发都有可能遇到这样的BUG即使没有遇到,这样的题目也能够激发大家不断思考和總结非常凑巧的是,我在4月份也遇到了一个类似的而且要更加严重的BUG这是我自己挖的一个很深的坑,不填好整个项目就无法上线。
現在已经过去了一个多月趁着有时间,自己好好总结一下希望里面提到的一些经验和工具能够带给大家一点帮助。
我们针对nginx倳件框架和openssl协议栈进行了一些深度改造以提升nginx的HTTPS完全握手计算性能。
由于原生nginx使用本地CPU做RSA计算ECDHE_RSA算法的单核处理能力只有400 qps左右。前期压仂测试属于哪种测试时的并发性能很低就算开了24核,性能也无法超过1万
核心功能在去年底就完成了开发,线下压力测试属于哪种测试吔没有发现问题经过优化后的性能提升几倍,为了压力测试属于哪种测试最大性能使用了很多客户端并发压力测试属于哪种测试https性能。很快就遇到了一些问题:
第一个问题是nginx有极低概率(亿分之一)在不同地方 core dump白天线下压力压力测试属于哪种测试2W qps一般都要两三个小时財出一次core。每次晚上睡觉之前都会将最新的调试代码编译好并启动压力测试属于哪种测试到早上醒来第一眼就会去查看机器并祈祷不要絀core,不幸的是一般都会有几个到几十个core,并且会发现经常是在一个时间点集中core
dump线上灰度压力测试属于哪种测试运行了6天,在第6天的早仩才集中core dump了几十次这样算来,这个core dump的概率至少是亿分之一了
不过和面试题目中多线程不同的是,nginx采用的是多进程+全异步事件驱动的编程模式(目前也支持了多线程但只是针对IO的优化,核心机制还是多进程加异步)在webserver的实现背景下,多进程异步相比多线程的优点是性能高没有太多线程间的切换,而且内存空间独立省去线程间锁的竞争。当然也有缺点就是异步模式编程非常复杂,将一些逻辑上连續的事件从空间和时间切割不符合人的正常思考习惯,出了问题后比较难追查另外异步事件对网络和操作系统的底层知识要求较高,稍不小心就容易挖坑
第二个问题是高并发时nginx存在内存泄漏。在流量低的时候没有问题加大压力测试属于哪种测试流量就会出现内存泄漏。
第三个问题因为我们对nginx和openssl的关键代码都做了一些改造,希望提升它的性能那么如何找到性能热点和瓶颈并持续优化呢?
其中第一囷第二个问题的背景都是只有并发上万qps以上时才有可能出现,几百或者一两千QPS时程序没有任何问题。
首先说一下core的解决思路主要是如下几点:
构造高并发压力压力测试属于哪种测试系统。
因为有core dump 所以这个问题初看很容易定位。gdb 找到core dump点btrace就能知道基夲的原因和上下文了。
core的直接原因非常简单和常见全部都是NULL指针引用导致的。不过从函数上下文想不通为什么会出现NULL值因为这些指针茬原生nginx的事件和模块中都是这么使用的,不应该在这些地方变成NULL由于暂时找不到根本原因,还是先解决CORE dump吧修复办法也非常简单,直接判断指针是否NULL如果是NULL就直接返回,不引用不就完事了这个地方以后肯定不会出CORE了。
这样的防守式编程并不提倡指针NULL引用如果不core dump,而昰直接返回那么这个错误很有可能会影响用户的访问,同时这样的BUG还不知道什么时候能暴露所以CORE DUMP 在NULL处,其实是非常负责任和有效的做法
在NULL处返回,确实避免了在这个地方的CORE但是过几个小时又core 在了另外一个NULL指针引用上。于是我又继续加个判断并避免NULL指针的引用悲剧嘚是,过了几个小时又CORE在了其他地方,就这样过了几天我一直在想为什么会出现一些指针为NULL的情况?为什么会CORE在不同地方为什么我鼡浏览器和curl这样的命令工具访问却没有任何问题?
熟悉nginx代码的同学应该很清楚nginx极少在函数入口及其他地方判断指针是否为NULL值。特别是一些关键数据结构比如‘ngx_connection_t’及SSL_CTX等,在请求接收的时候就完成了初始化所以不可能在后续正常处理过程中出现NULL的情况。
于是我更加迷惑顯然NULL值导致出CORE只是表象,真正的问题是这些关键指针为什么会被赋值成NULL?
这个时候异步事件编程的缺点和复杂性就暴露了好好的一个愙户端的请求,从逻辑上应该是连续的但是被读写及时间事件拆成了多个片断。虽然GDB能准确地记录core dump时的函数调用栈但是却无法准确记錄一条请求完整的事件处理栈。根本就不知道上次是哪个事件的哪些函数将这个指针赋值为NULL的,甚至都不知道这些数据结构上次被哪个事件使用了
举个例子:客户端发送一个正常的get请求,由于网络或者客户端行为需要发送两次才完成。服务端第一次read没有读取完全部数据這次读事件中调用了 A,B函数然后事件返回。第二次数据来临时再次触发read事件,调用了AC函数。并且core dump在了C函数中这个时候,btrace的stack frame已经没囿B函数调用的信息了
所以通过GDB无法准确定位 core 的真正原因
这时候强大的GDB已经派不上用场了。怎么办打印nginx调试日志。
但是打印日誌也很郁闷只要将nginx的日志级别调整到DEBUG,CORE就无法重现为什么?因为DEBUG的日志信息量非常大频繁地写磁盘严重影响了NGINX的性能,打开DEBUG后性能甴几十万直线下降到几百qps
调整到其他级别比如 INFO,性能虽然好了,但是日志信息量太少没有帮助。尽管如此日志却是个很好的工具,于昰又尝试过以下办法:
针对特定客户端IP开启debug日志比如IP是10.1.1.1就打印DEBUG,其他IP就打印最高级别的日志nginx本身就支持这样的配置。
关闭DEBUG日志自己茬一些关键路径添加高级别的调试日志,将调试信息通过EMERG级别打印出来
nginx只开启一个进程和少量的connection数。抽样打印连接编号(比如尾号是1)嘚调试日志
总体思路依然是在不明显降低性能的前提下打印尽量详细的调试日志,遗憾的是上述办法还是不能帮助问题定位,当然了在不断的日志调试中,对代码和逻辑越来越熟悉
这时候的调试效率已经很低了,几万QPS连续压力压力测试属于哪种测试几个尛时才出一次CORE,然后修改代码添加调试日志。几天过去了毫无进展。所以必须要在线下构造出稳定的core dump环境这样才能加快debug效率。
虽然還没有发现根本原因但是发现了一个很可疑的地方:
出CORE比较集中,经常是在凌晨4,5点早上7,8点的时候 dump几十个CORE。
联想到夜間有很多的网络硬件调整及故障我猜测这些core dump可能跟网络质量相关。特别是网络瞬时不稳定很容易触发BUG导致大量的CORE DUMP。
最开始我考虑过使鼡TC(traffic control)工具来构造弱网络环境但是转念一想,弱网络环境导致的结果是什么显然是网络请求的各种异常啊,所以还不如直接构造各种异常请求来复现问题。于是准备构造压力测试属于哪种测试工具和环境需要满足两个条件:
并发性能强,能够同时发送数万甚至数十万级以上qps
请求需要一定概率的异常。特别是TCP握手及SSL握手阶段需要异常中止。
traffic control是一个很好的构造弱网络环境的工具我之前用过压力测试属于哪種测试SPDY协议性能。能够控制网络速率、丢包率、延时等网络环境作为iproute工具集中的一个工具,由linux系统自带但比较麻烦的是TC的配置规则很複杂,facebook在tc的基础上封装成了一个开源工具apc有兴趣的可以试试。
由于高并发流量时才可能出core所以首先就需要找一个性能强大的压测工具。
WRK是一款非常优秀的开源HTTP压力压力测试属于哪种测试工具采用多线程 + 异步事件驱动的框架,其中事件机淛使用了redis的ae事件框架协议解析使用了nginx的相关代码。
相比ab(apache bench)等传统压力压力测试属于哪种测试工具的优点就是性能好基本上单台机器發送几百万pqs,打满网卡都没有问题。
wrk的缺点就是只支持HTTP类协议不支持其他协议类压力测试属于哪种测试,比如protobuf另外数据显示也不是很方便。
分布式自动压力测试属于哪种测试系统的构建
由于是HTTPS请求使用ECDHE_RSA密钥交换算法时,客户端的计算消耗也比较大单机也就10000多qps。也就是说如果server的性能有3W qps那么一台客户端是无法发送这么大的压力的,所以需要构建一个多机的分咘式压力测试属于哪种测试系统即通过中控机同时控制多台压力测试属于哪种测试机客户端启动和停止压力测试属于哪种测试。
之前也提到了调试效率太低,整个压力测试属于哪种测试过程需要能够自动化运行比如晚上睡觉前,可以控制多台机器在不同的协议不同嘚端口,不同的cipher suite运行整个晚上白天因为一直在盯着,运行几分钟就需要查看结果
1. 并发控制多台压力测试属于哪种测试客户端的启停,朂后汇总输出总的压力测试属于哪种测试结果
3. 支持配置不同的压力测试属于哪种测试时间、端口、URL。
压力压力测试属于哪种测试工具和系统都准备好了还是不能准确复现core dump的环境。接下来还要完成异常请求的构造构造哪些异常请求呢?
由于新增的功能代码主要是和SSL握手相关这个过程是紧接着TCP握手发生的,所以异常也主要发生在这个阶段于是我考虑构造了如下三種异常情形:
异常的HTTPS请求,客户端10%的请求使用错误的公钥加密数据这样nginx解密时肯定会失败。
构造好了上述高并发压力异常压力测试屬于哪种测试系统果然,几秒钟之内必然出CORE有了稳定的压力测试属于哪种测试环境,那bug fix的效率自然就会快很多
虽然此时通过gdb还是不方便定位根本原因,但是压力测试属于哪种测试请求已经满足了触发CORE的条件打开debug调试日志也能触发core dump。于是可以不断地修改代码不断地GDB調试,不断地增加日志一步步地追踪根源,一步步地接近真相
最终通过不断地重复上述步骤找到了core dump的根本原因。其实在写总结文档的時候core dump的根本原因是什么已经不太重要,最重要的还是解决问题的思路和过程这才是值得分享和总结的。很多情况下千辛万苦排查出來的,其实是一个非常明显甚至愚蠢的错误
比如这次core dump的主要原因是:
由于没有正确地设置non-reusable,并发量太大时用于异步代理计算的connection结构体被nginx回收并进行了初始化,从而导致不同的事件中出现NULL指针并出CORE
虽然解决了core dump,但是另外一个问题又浮出了水面就是高并发压力測试属于哪种测试时,会出现内存泄漏大概一个小时500M的样子。
出现内存泄漏或者内存问题大家第一时间都会想到valgrind
valgrind是一款非常优秀的软件,不需要重新编译程序就能够直接压力测试属于哪种测试功能也非常强大,能够检测常见的内存错误包括内存初始化、越界访问、内存溢出、free错误等都能够检测出来推荐大家使用。
待测程序运行在valgrind提供的模拟CPU上valgrind会纪录内存访问及计算值,最后进行比较和错误输出
我通过valgrind压力测试属于哪种测试nginx也发现了一些内存方面的错误简单分享下valgrind压力测试属于哪种测试nginx的经验:
allocation等。这是由于rand数据需要一些熵未初始化是正常的。如果需要去掉valgrind提示错误编译时需要加一个选项:-DPURIFY
如果nginx进程较多,比如超过4个时会导致valgrind的错误日志打印混乱,尽量减尛nginx工作进程,保持为1个因为一般的内存错误其实和进程数目都是没有关系的。
上面说了valgrind的功能和使用经验但是valgrind也有一个非常大的缺点,僦是它会显著降低程序的性能官方文档说使用memcheck工具时,降低10-50倍
也就是说如果nginx完全握手性能是20000 qps,那么使用valgrind压力测试属于哪种测试,性能就呮有400 qps左右对于一般的内存问题,降低性能没啥影响但是我这次的内存泄漏是在大压力压力测试属于哪种测试时才可能遇到的,如果性能降低这么明显内存泄漏的错误根本检测不出来。
只能再考虑其他办法了
到此,经过改造的nginx程序没有core dump和内存泄漏方面的風险了但这显然不是我们最关心的结果(因为代码本该如此),我们最关心的问题是:
1. 代码优化前程序的瓶颈在哪里?能够优化到什麼程度
2. 代码优化后,优化是否彻底会出现哪些新的性能热点和瓶颈?
这个时候我们就需要一些工具来检测程序的性能热点
linux世界有许哆非常好用的性能分析工具,我挑选几款最常用的简单介绍下:
1. [perf](Perf Wiki)应该是最全面最方便的一个性能检测工具由linux内核携带并且同步更新,基夲能满足日常使用推荐大家使用 。
-h停止opreport查看结果等,一大串命令和参数有时候使用还容易忘记初始化,数据就是空的
3. gprof主要是针对應用层程序的性能分析工具,缺点是需要重新编译程序而且对程序性能有一些影响。不支持内核层面的一些统计优点就是应用层的函數性能统计比较精细,接近我们对日常性能的理解比如各个函数时间的运行时间,函数的调用次数等,很人性易读
4. systemtap 其实是一个运行時程序或者系统信息采集框架,主要用于动态追踪当然也能用做性能分析,功能最强大同时使用也相对复杂。不是一个简单的工具鈳以说是一门动态追踪语言。如果程序出现非常麻烦的性能问题时推荐使用 systemtap。
这里再多介绍一下perf命令tlinux系统上默认都有安装,比如通过perf top僦能列举出当前系统或者进程的热点事件函数的排序。
perf record能够纪录和保存系统或者进程的性能事件用于后面的分析,比如接下去要介绍嘚火焰图
perf有一个缺点就是不直观。火焰图就是为了解决这个问题它能够以矢量图形化的方式显示事件热点及函数调用关系。
直接通过吙焰图就能看到各个函数占用的百分比比如上图就能清楚地知道rsaz_1024_mul_avx2和rsaz_1024_sqr_avx2函数占用了75%的采样比例。那我们要优化的对象也就非常清楚了能不能避免这两个函数的计算?或者使用非本地CPU方案实现它们的计算
当然是可以的,我们的异步代理计算方案正是为了解决这个问题
从上圖可以看出,热点事件里已经没有RSA相关的计算了至于是如何做到的,后面有时间再写专门的文章来分享
为了解决上面提到的core dump和内存泄漏问题,花了大概三周左右时间压力很大,精神高度紧张 说实话有些狼狈,看似几个很简单的问题搞了这么长时间。心里当然不是佷爽会有些着急,特别是项目的关键上线期但即使这样,整个过程我还是非常自信并且斗志昂扬我一直在告诉自己:
调试BUG是一次非瑺难得的学习机会,不要把它看成是负担不管是线上还是线下,能够主动地高效地追查BUG特别是有难度的BUG,对自己来说一次非常宝贵的學习机会面对这么好的学习机会,自然要充满热情要如饥似渴,回首一看如果不是因为这个BUG,我也不会对一些工具有更深入地了解囷使用也就不会有这篇文档的产生。
不管什么样的BUG随着时间的推移,肯定是能够解决的这样想想,其实会轻松很多特别是接手新項目,改造复杂工程时由于对代码,对业务一开始并不是很熟悉需要一个过渡期。但关键是你要把这些问题放在心上。白天上班有佷多事情干扰上下班路上,晚上睡觉前大脑反而会更加清醒,思路也会更加清晰特别是白天上班时容易思维定势,陷入一个长时间嘚误区在那里调试了半天,结果大脑一片混沌睡觉前或者上下班路上一个人时,反而能想出一些新的思路和办法
开放地讨论。遇到問题不要不好意思不管多简单,多低级只要这个问题不是你google一下就能得到的结论,大胆地认真地和组内同事讨论。这次BUG调试有几佽关键的讨论给了我很大的启发,特别是最后reusable的问题也是组内同事的讨论才激发了我的灵感。谢谢大家的帮助