14.14 加速程序运行

问题

你的程序运行太慢，你想在不使用复杂技术比如 C 扩展或 JIT 编译器的情况下加快程序运行速度。

解决方案

关于程序优化的第一个准则是“不要优化”，第二个准则是“不要优化那些无关紧要的部分”。如果你的程序运行缓慢，首先你得使用 14.13 小节的技术先对它进行性能测试找到问题所在。

通常来讲你会发现你的程序在少数几个热点地方花费了大量时间，比如内存的数据处理循环。一旦你定位到这些点，你就可以使用下面这些实用技术来加速程序运行。

使用函数

很少有人知道，定义在全局范围的代码运行起来要比定义在函数中运行慢的多。这种速度差异是由于局部变量和全局变量的实现方式（使用局部变量要更快些）。因此，如果你想让程序运行更快些，只需要将脚本语句放入函数中即可：

# somescript.py
import sys
import csv

def main(filename):
    with open(filename) as f:
         for row in csv.reader(f):
             # Some kind of processing
             pass

main(sys.argv[1])

速度的差异取决于实际运行的程序，不过根据经验，使用函数带来 15-30% 的性能提升是很常见的。

尽可能去掉属性访问

每一次使用点 (.) 操作符来访问属性的时候会带来额外的开销。它会触发特定的方法，比如 __getattribute__() 和 __getattr__() ，这些方法会进行字典操作操作。

通常你可以使用 from module import name 这样的导入形式，以及使用绑定的方法。

假设你有如下的代码片段：

import math

def compute_roots(nums):
    result = []
    for n in nums:
        result.append(math.sqrt(n))
    return result

# Test
nums = range(1000000)
for n in range(100):
    r = compute_roots(nums)

现在我们修改 compute_roots() 函数如下，这个版本快一些：

from math import sqrt

def compute_roots(nums):

    result = []
    result_append = result.append
    for n in nums:
        result_append(sqrt(n))
    return result

唯一不同之处就是消除了属性访问。用 sqrt() 代替了 math.sqrt() 。 The result.append() 方法被赋给一个局部变量 result_append ，然后在内部循环中使用它。

不过，这些改变只有在大量重复代码中才有意义，比如循环。因此，这些优化也只是在某些特定地方才应该被使用。

理解局部变量

局部变量会比全局变量运行速度快。对于频繁访问的名称，通过将这些名称变成局部变量可以加速程序运行。

例如，看下之前对于 compute_roots() 函数进行修改后的版本：

import math

def compute_roots(nums):
    sqrt = math.sqrt
    result = []
    result_append = result.append
    for n in nums:
        result_append(sqrt(n))
    return result

在这个版本中，sqrt 从 match 模块被拿出并放入了一个局部变量中。如果你运行这个代码，大概花费25秒（对于之前29秒又是一个改进）。这个额外的加速原因是因为对于局部变量 sqrt 的查找要快于全局变量 sqrt。

对于类中的属性访问也同样适用于这个原理。通常来讲，查找某个值比如 self.name 会比访问一个局部变量要慢一些。在内部循环中，可以将某个需要频繁访问的属性放入到一个局部变量中。例如：

# Slower
class SomeClass:
    # ...
    def method(self):
         for x in s:
             op(self.value)

# Faster
class SomeClass:
    # ...
    def method(self):
         value = self.value
         for x in s:
             op(value)

避免不必要的抽象

任何时候当你使用额外的处理层（比如装饰器、属性访问、描述器）去包装你的代码时，都会让程序运行变慢。

比如看下如下的这个类：

class A:
    def __init__(self, x, y):
        self.x = x
        self.y = y
    @property
    def y(self):
        return self._y
    @y.setter
    def y(self, value):
        self._y = value

现在进行一个简单测试：

>>> from timeit import timeit
>>> a = A(1,2)
>>> timeit('a.x', 'from __main__ import a')
0.07817923510447145
>>> timeit('a.y', 'from __main__ import a')
0.35766440676525235

可以看到，访问属性 y 相比属性 x 而言慢的不止一点点，大概慢了 4.5 倍。如果你在意性能的话，那么就需要重新审视下对于 y 的属性访问器的定义是否真的有必要了。如果没有必要，就使用简单属性吧。如果仅仅是因为其他编程语言需要使用 getter/setter 函数就去修改代码风格，这个真的没有必要。

使用内置的容器

内置的数据类型比如字符串、元组、列表、集合和字典都是使用 C 来实现的，运行起来非常快。如果你想自己实现新的数据结构（比如链接列表、平衡树等），那么要想在性能上达到内置的速度几乎不可能，因此，还是乖乖的使用内置的吧。

避免创建不必要的数据结构或复制

有时候程序员想显摆下，构造一些并没有必要的数据结构。例如，有人可能会像下面这样写：

values = [x for x in sequence]
squares = [x*x for x in values]

也许这里的想法是首先将一些值收集到一个列表中，然后使用列表推导来执行操作。不过，第一个列表完全没有必要。

与此相关，还要注意下那些对 Python 的共享数据机制过于偏执的程序所写的代码。有些人并没有很好的理解或信任 Python 的内存模型，滥用 copy.deepcopy() 之类的函数。通常在这些代码中是可以去掉复制操作的。

讨论

在优化之前，有必要先研究下使用的算法。选择一个复杂度为 O(n log n) 的算法要比你去调整一个复杂度为 O(n**2) 的算法所带来的性能提升要大得多。

如果你觉得你还是得进行优化，那么请从整体考虑。作为一般准则，不要对程序的每一个部分都去优化,因为这些修改会导致代码难以阅读和理解。你应该专注于优化产生性能瓶颈的地方，比如内部循环。

你还要注意微小优化的结果。例如考虑下面创建一个字典的两种方式：

a = {
    'name' : 'AAPL',
    'shares' : 100,
    'price' : 534.22
}

b = dict(name='AAPL', shares=100, price=534.22)

后面一种写法更简洁一些（你不需要在关键字上输入引号）。不过，如果你将这两个代码片段进行性能测试对比时，会发现使用 dict() 的方式会慢了 3 倍。看到这个，你是不是有冲动把所有使用 dict() 的代码都替换成第一种。不过，聪明的程序员只会关注他应该关注的地方，比如内部循环。在其他地方，这点性能损失没有什么影响。

如果你的优化要求比较高，本节的这些简单技术满足不了，那么你可以研究下基于即时编译（JIT）技术的一些工具。例如，PyPy 工程是 Python 解释器的另外一种实现，它会分析你的程序运行并对那些频繁执行的部分生成本机机器码。它有时候能极大的提升性能，通常可以接近 C 代码的速度。

你还可以考虑下 Numba 工程， Numba 是一个在你使用装饰器来选择 Python 函数进行优化时的动态编译器。这些函数会使用 LLVM 被编译成本地机器码。它同样可以极大的提升性能。但是，跟 PyPy 一样，它对于 Python 3 的支持现在还停留在实验阶段。【这是 2015 年的情况】

引用 John Ousterhout 说过的话作为结尾：“最好的性能优化是从不工作到工作状态的迁移”。直到你真的需要优化的时候再去考虑它。确保你程序正确的运行通常比让它运行更快要更重要一些（至少开始是这样的）。

Previous14.13 给你的程序做性能测试 Next第 15 章 C 语言扩展

Last updated 6 years ago

hashtag问题

hashtag解决方案

hashtag使用函数

hashtag尽可能去掉属性访问

hashtag理解局部变量

hashtag避免不必要的抽象

hashtag使用内置的容器

hashtag避免创建不必要的数据结构或复制

hashtag讨论

问题