GIL in Python ·

Python下多线程是鸡肋，推荐使用多进程！

？？？

进程(Process)与线程(Thread)

简单来说，一个任务就是一个进程，比如打开一个记事本就是启动一个记事本进程，打开一个浏览器就是启动了一个浏览器进程，打开一个Word就启动了一个Word进程。

有些进程不止同时干一件事，比如Word，它可以同时进行打字、拼写检查、打印等事情。在一个进程内部，要同时干很多件事，就需要同时运行多个“子任务”，我们把进程内的这些“子任务”称为线程（Thread）。

由于每个进程至少干一件事，所以一个进程至少有一个线程。多线程的执行方式和多进程是一样的，也是由操作系统在多个线程之间来回快速切换，让每个线程都短暂地交替运行，看起来就像是同时执行一样。（当然，真正地同时执行多线程需要多核CPU才可能实现。）

一般的Python程序，都是执行单任务的进程，也就是只有一个线程。

“同时”¹执行多个任务有两种解决办法：

一种是启动多个进程，每个进程虽然只有一个线程，但多个线程可以一块执行多个任务。
另一种是启动一个进程，在一个进程内部启动多个线程，这样，多个线程也可以一块执行多个任务。

另外，线程是最小的执行单元，进程由至少一个线程组成。

GIL

GIL(Global Interpreter Lock)，全局解释器锁，其源于Python设计之初为了数据安全（解决多线程之间数据完整性和状态同步的最简单的办法就是加锁）而做的决定。

在Python多线程下，每个线程的执行方式：

获取GIL；
执行代码直到sleep或者Python虚拟机将其挂起；
释放GIL。

所以，某线程想要执行，必须先拿到GIL，类比于通行证。

在一个Python进程中，只有一个GIL。这就意味着，即便一个进程有多个线程，拿不到GIL的线程，就不会被CPU执行。

效率

在Python2.x中，GIL的释放逻辑是：当前线程遇到IO操作，或者ticks计数达到100 进行释放。(ticks可以看作是Python自身的一个计数器，专门用于GIL，每次释放后归0，这个技术可以通过sys.setcheckinterval()来调整。）

而每次释放GIL，线程进行锁竞争、切换线程，会消耗资源。

GIL的存在，使得在多核CPU上，Python的多线程效率低下。

但是，应对不同的情况，多线程也不一定是完全无用的。

(1) CPU密集型代码（各种循环处理、计数等，也可以叫计算密集型代码）中，由于计算工作多，ticks技术很快会达到阈值，然后触发GIL的释放与再竞争（竞争、来回切换线程消耗资源），所以Python的多线程对CPU密集型代码并不友好。
(2) IO密集型代码（文件处理、网络爬虫等），多线程能够有效提升效率（单线程下有IO操作，释放了GIL也没有其他其他线程竞争，结果进行IO等待，造成不必要的时间浪费，而开启多线程后，A线程等待时，自动切换到B线程，可以不浪费CPU资源，从而提升执行效率）。所以Python多线程对IO密集型代码比较友好。

在Python3.x中，GIL不再使用ticks计数，改为使用计时器（即，执行时间达到阈值后，当前线程释放GIL），这样对CPU密集型程序更加友好，但依然没有解决GIL导致的同一时间只能执行一个线程的问题，所以效率依然低下。

多核多线程比单核多线程更差？没错，单核多线程，每次释放GIL，唤醒的线程都能获取到GIL，所以切换效率很高。多核时，CPU0释放GIL后，其他CPU上的线程都会进行竞争，但GIL可能马上又被CPU0拿到，导致其他几个CPU上被唤醒的进程会醒着等待到切换时间后又进入待调度状态，这样会造成线程颠簸（thrashing），导致效率更低。

回到开头，“Python下想要充分利用CPU，就用多进程”。多进程，每个进程有各自独立的GIL，互不干扰，这样就可以真正意义上的并行执行，所以在Python中，多进程的执行效率优于多线程（仅仅针对多核CPU而言）。

而Python社区也在非常努力的不断改进GIL，甚至尝试去除GIL。总之，GIL的存在有其合理性，也有较难改变的客观因素。
如果对并行计算性能要求较高的程序，可以考虑把核心部分改成C模块，或者索性用其他语言实现。

Python下多线程是鸡肋，推荐使用多进程！

区分并发与并行～