性能优化,我们应该知道的更多一点

当我们谈到性能优化,更多的同学可能想到的是系统层面的性能优化。比如在一个Web服务程序中,通过Redis或者其它缓存来提升网站访问的速度等。对于程序代码本身的优化却比较少。这一方面是编译器为我们做了很多优化工作,另外一方面是觉得系统层面的优化效果更明显,也更高大上。实际上,除了系统层面的性能优化外,在程序代码层面的性能优化效果也是非常好的

废话不多说,我们以事实说话。大家看一下下面两段程序,两段程序的作用完全相同,就是将一个二维数组中的每一个元素做加1操作。大家看一下,觉得这两段的程序是否会有性能差异?实际测试结果是两者有近4倍的性能差异

性能差异的原因分析

大家考虑一下,为什么有如此之大的性能差异?结合代码,我们看到两段代码的差异在于对数组元素的访问顺序,前者是逐列访问,而后者是逐行访问。结合图1可能会理解的更加清楚一些。然后,我们在结合C语言中二维数据数据在内存中的排布规则(可以在上述代码中通过打印地址的方式验证一下),可以知道前者是访问连续的地址空间,而后者访问的是跳跃的地址空间。

图1 两种访问形式

以整形数组为例,也就是说,前者访问的地址依次为X,X+4,X+8等等。而后者访问的地址则依次为X,X+4096,X+8192。后者每次跳跃4KB的地址空间。

了解了上述差异后,大家有没有想到性能差异的原因?我们知道CPU为了提升访问内存的性能,在其和内存之间增加了缓存,现代CPU缓存通常为3级缓存,分别是L1、L2和L3,其中L1和L2是CPU核独有的,而L3是同一颗CPU的多核共享的。其基本的架构如图2所示。

图2 CPU缓存架构

由于缓存分布式的特点,在多个CPU之间需要保证其一致性。扯远了,总之缓存需要切割为比较小的粒度进行管理,这个小粒度的管理单元称为缓存行(可以类比页缓存中的缓存页)。由于缓存的容量远远小于内存的容量,因此缓存无法把内存中的内容都加载其中。缓存能够其作用的最主要的原因是利用的常规业务访问数据的两个特性,也就是空间局部性和时间局部性。

空间局部性:对于刚被访问的数据,其相邻的数据在将来被访问的概率高。

时间局部性:对于刚被访问的数据,其本身在将来被访问的概率高。

了解了上述原理,我们就知道,对于上面程序程序代码,由于第二段程序依次跳跃的太远,也就是不满足空间局部性,从而导致缓存命中失败。也就是说第二段程序其实无法访问缓存中的数据,而是直接访问的内存。而内存的访问性能要远远低于缓存的访问性能,因此就出现了文章一开始的近4倍的性能差异。

关于程序性能的其它考虑

我们程序的很微小的改动就有可能对性能产生非常大的影响。因此,我们在日常开发中应该处处注意代码中是否有不恰当的代码导致性能问题。下面我们在列举一个关于性能相关的程序实例,以便大家在以后的开发中参考。

程序结构

不合理的程序结构对性能的影响有的时候是灾难性的。下面两个函数的性能差异在字符串很长的情况下将非常巨大。函数lower1在每次循环中都计算一下字符串的长度,而这种计算并不是必要的。函数lower2则是在循环开始之前计算字符串长度,而后通过一个恒定的变量来进行条件判断。问题的根源在于strlen函数,这个函数通过循环计算字符串的长度,如果字符串比较长,那这个函数将相当耗时。

过程(函数)调用

我们知道在过程调用的时候会存在压栈和出栈等操作,这些操作通常都是对内存的操作,且过程比较复杂。也就是说,函数的调用过程是比较耗时的操作,尽量减少函数调用。

值得庆幸的是现代的编译器可以对函数调用做很多优化工作,简单的函数调用通常可以被编译器优化调。所谓优化调是只在机器语言(汇编语言)层面已经没有高级语言的函数调用了。

我们通过一个具体的例子看一下,通过C语言实现一个简单的函数调用,其中函数fun_1调用函数fun_2,而函数fun_2又调用了printf。这里fun_2并没有做什么太多的工作,只是将两个参数相加后传给printf。

图3 函数调用优化

如图所示,在gcc不做任何优化的情况下,反汇编的代码(图3左下角)可以看出,整个逻辑非常清晰,只是按部就班的调用函数。但是,通过-O2优化后,汇编代码变得非常简洁了(图3右下角),通过fun_1的汇编代码可以看出它根本没有调用fun_2,而是直接调用的printf函数。因此,在不影响其功能的情况下,编译器是可以优化调函数调用的。但这不是绝对的,稍微复杂的函数调用编译器可能就无能为力了,而此时就可能导致性能损耗。

运算符差异

不同的运算的耗时差异也是非常巨大的,比如乘法的耗时是加法的两三倍,而除法的耗时是加法的十倍以上。因此在访问频度比较高的逻辑中减少除法的使用将会明显的提升。

在Java的HashMap实现中,通过位运算来计算哈希的Key,而不是通过模运算。因为模运算本身是除法运算,性能要比位运算差十倍以上。

static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);}

更详细的处理逻辑请参考JDK的源代码,本文仅仅是抛个砖 。

引用与拷贝

支持类的高级语言在传递对象参数的时候涉及拷贝的过程,对象的拷贝也是比较消耗性能的操作。当然,高级语言通过一种成为引用的机制实现了对象地址的传递,这样就避免了拷贝的过程(这就是传值与传址的差异)。

在程序开发过程中关于性能的问题还很多,本文无法一一列举出来。但,关键的问题是掌握技术的底层实现原理,任何其它高层的内容都可以通过底层原理解释的,正所谓万变不离其宗。

(0)

相关推荐

  • 为什么编译器不能将foreach自动转换为for

    哲人告诉我们:勿过早优化 在编写C#代码的时候,开发者会发现:使用C#的foreach循环的性能会比对应的for循环要稍微慢一些. foreach循环结构 for循环结构 我想说的第一件事是:这个性能 ...

  • 充分榨干 CPU 的每一个 TICK:软件性能优化方法知多少

    前言 https://m.toutiao.com/is/eeTUXJo/ 伴随着互联网的快速发展,数据的规模及软件的复杂程度呈指数级增长,带来的硬件资源开销.能源消耗也越来越大.为了控制硬件成本,也为 ...

  • 干货:C 的性能优化

    前言 性能优化不管是从方法论还是从实践上都有很多东西,从 C++ 语言本身入手,介绍一些性能优化的方法,希望能做到简洁实用. 实例1 在开始本文的内容之前,让我们看段小程序: // 获取一个整数对应1 ...

  • Android 性能优化必知必会 · Android Performance

    做了这么久性能相关的工作,也接触了不少模块,说实话要做好性能这一块,真心不容易.为什么这么说? 是因为需要接触的知识实在是太多了, Android 是一个整体,牵一发而动全身,不是说只懂一个模块就可以 ...

  • 浅谈面向客户端的性能优化

    有朋友通过<智能音箱场景下的性能优化>一文找到了我,既然智能音箱的性能优化相当于一个超集,那么对其的一个子集--客户端系统如何进行性能优化呢? 反正隔离在家,不妨对客户端的性能优化梳理一下 ...

  • 智能音箱场景下的性能优化

    QCon是由InfoQ主办的综合性技术盛会,今年是Qcon举办的第10个年头,半吊子全栈工匠有幸作为演讲嘉宾分享一个近两年来的实践经验--智能音箱场景下的性能优化,隶属于曾波老师出品的"场景 ...

  • 如何配置Nginx压缩实现性能优化?怎么学Linux系统

    如何配置Nginx gzip压缩实现性能优化?是每个Linux运维管理人员都需要掌握的技能.互联网时代发展迅速,Linux运维技术的需求更多推进不少.市场对于Linux运维人才的需求也在逐渐加大.Li ...

  • Flutter 2.2发布:针对各平台的性能优化、完善生态支持

    局长 OSC开源社区 昨天 文 | 局长 出品 | OSC开源社区(ID:oschina2013) 谷歌在昨日举办的 Google I/O 2021 大会上宣布了 Flutter 2.2,其开发团队称 ...

  • Web性能优化之图片延迟加载

    来源:微信公众号CodeL 对于一些图片多,页面长的网页来说,如果每次打开页面加载全部的网页内容,页面加载速度势必会受到影响,如果每次打开网页只将网页可视区域的内容加载给用户 ,将大大提高网页浏览速度 ...

  • ASP.Net服务性能优化原则

    dotNET跨平台 今天 以下文章来源于老王Plus ,作者老王Plus的老王理理Asp.net性能相关的问题及注意事项. 以下这些内容,全部是经验之谈.如果你有别的建议,也可以从后台发给我. 服务器 ...

  • 大厂面试中出现概率极高的Linux性能优化题

    linux服务器开发相关视频解析: tcp专题训练营之深度解析tcp/ip协议栈 手撕线程池,200行代码搞定 1. 为什么面试官喜欢考察性能优化问题? 面试官考察性能优化问题的目的可能并不是要你设计 ...