Python下多线程是鸡肋,推荐使用多进程!
???
???
进程(Process)与线程(Thread)
简单来说,一个任务就是一个进程,比如打开一个记事本就是启动一个记事本进程,打开一个浏览器就是启动了一个浏览器进程,打开一个Word就启动了一个Word进程。
有些进程不止同时干一件事,比如Word,它可以同时进行打字、拼写检查、打印等事情。在一个进程内部,要同时干很多件事,就需要同时运行多个“子任务”,我们把进程内的这些“子任务”称为线程(Thread)。
由于每个进程至少干一件事,所以一个进程至少有一个线程。多线程的执行方式和多进程是一样的,也是由操作系统在多个线程之间来回快速切换,让每个线程都短暂地交替运行,看起来就像是同时执行一样。(当然,真正地同时执行多线程需要多核CPU才可能实现。)
一般的Python程序,都是执行单任务的进程,也就是只有一个线程。
“同时”1 执行多个任务有两种解决办法:
- 一种是启动多个进程,每个进程虽然只有一个线程,但多个线程可以一块执行多个任务。
- 另一种是启动一个进程,在一个进程内部启动多个线程,这样,多个线程也可以一块执行多个任务。
另外,线程是最小的执行单元,进程由至少一个线程组成。
GIL
GIL(Global Interpreter Lock),全局解释器锁,其源于Python设计之初为了数据安全(解决多线程之间数据完整性和状态同步的最简单的办法就是加锁)而做的决定。
在Python多线程下,每个线程的执行方式:
- 获取GIL;
- 执行代码直到sleep或者Python虚拟机将其挂起;
- 释放GIL。
所以,某线程想要执行,必须先拿到GIL,类比于通行证。
在一个Python进程中,只有一个GIL。这就意味着,即便一个进程有多个线程,拿不到GIL的线程,就不会被CPU执行。
效率
在Python2.x中,GIL的释放逻辑是:当前线程遇到IO操作,或者ticks计数达到100 进行释放 。(ticks可以看作是Python自身的一个计数器,专门用于GIL,每次释放后归0,这个技术可以通过sys.setcheckinterval()
来调整。)
而每次释放GIL,线程进行锁竞争、切换线程,会消耗资源。
GIL的存在,使得在多核CPU上,Python的多线程效率低下。
但是,应对不同的情况,多线程也不一定是完全无用的。
(1) CPU密集型代码(各种循环处理、计数等,也可以叫计算密集型代码)中,由于计算工作多,ticks技术很快会达到阈值,然后触发GIL的释放与再竞争(竞争、来回切换线程消耗资源),所以Python的多线程对CPU密集型代码并不友好。
(2) IO密集型代码(文件处理、网络爬虫等),多线程能够有效提升效率(单线程下有IO操作,释放了GIL也没有其他其他线程竞争,结果进行IO等待,造成不必要的时间浪费,而开启多线程后,A线程等待时,自动切换到B线程,可以不浪费CPU资源,从而提升执行效率)。所以Python多线程对IO密集型代码比较友好。
在Python3.x中,GIL不再使用ticks计数,改为使用计时器(即,执行时间达到阈值后,当前线程释放GIL),这样对CPU密集型程序更加友好,但依然没有解决GIL导致的同一时间只能执行一个线程的问题,所以效率依然低下。
多核多线程比单核多线程更差?没错,单核多线程,每次释放GIL,唤醒的线程都能获取到GIL,所以切换效率很高。多核时,CPU0释放GIL后,其他CPU上的线程都会进行竞争,但GIL可能马上又被CPU0拿到,导致其他几个CPU上被唤醒的进程会醒着等待到切换时间后又进入待调度状态,这样会造成线程颠簸(thrashing),导致效率更低。
回到开头,“Python下想要充分利用CPU,就用多进程”。多进程,每个进程有各自独立的GIL,互不干扰,这样就可以真正意义上的并行执行,所以在Python中,多进程的执行效率优于多线程(仅仅针对多核CPU而言)。
而Python社区也在非常努力的不断改进GIL,甚至尝试去除GIL。总之,GIL的存在有其合理性,也有较难改变的客观因素。
如果对并行计算性能要求较高的程序,可以考虑把核心部分改成C模块,或者索性用其他语言实现。
Python下多线程是鸡肋,推荐使用多进程!