本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
一、Python的多线程爬虫介绍:
1、Python的多线程并不如java的多线程,其差异在于当python解释器开始执行任务时,受制于GIL(全局解释所),Python 的线程被限制到同一时刻只允许一个程执行这样一个执行模型。
GIL介绍:
Python代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。
GIL功能:
为了线程间数据的一致性和状态同步的完整性。
例如:线程2需要线程1执行完成的结果,然而线程2又比线程1执行时间短,线程2执行完成,线程1仍然还在执行,这就是数据的同步性。
2、Python 的线程更适用于处理 I/O 和其他需要并发行的阻塞操作(比如等待 I/O、等待从数据库获取数据等等),而不是需要多处理器行的计算密集型任务。幸运的是,爬虫大部分时间在网络交互上,所以可以使用多线程来编写爬虫。
二、多线程适用场景
在一个程序进程中,有些操作是比较耗时或者需要等待的。比如:等待数据库的查询结果的返回等待网页结果的响应。
使用单线程:
处理器必须要等到这些操作完成之后才能继续往下执行其他操作,而这个线程在等待的过程中,处理器明显是可以来执行其他操作的。
使用多线程:
处理器就可以在某个线程等待时,去执行其他的线程,从而从整体上提高执行效率。
三、多线程爬虫使用方法
t1 = threading.Thread(targe=func,args=(,)) t1.setDaemon(True) t1.start() #此时线程才会启动
threading模块是python中专门提供用来做多线程编程的模块。threading模块中最常用的类是Thread。
import threading import time def coding(): for x in range(3): print('%s正在写代码' % x) time.sleep(1) def drawing(): for x in range(3): print('%s正在画图' % x) time.sleep(1) def single_thread(): coding() drawing() def multi_thread(): t1 = threading.Thread(target=coding) t2 = threading.Thread(target=drawing) t1.start() t2.start() if __name__ == '__main__': multi_thread()
四、设置爬虫代理IP
在做爬虫的过程中,如果你爬取的频率过快,不符合人的操作模式。有些网站的反爬虫机制通过监测到你的IP异常,访问频率过高。就会对你进行封IP处理。目前已有比较多的第三方平台专门进行代理IP的服务。
以上就是python爬虫中多线程的具体介绍,希望能帮助你使用哦~
本文链接:http://so.lmcjl.com/news/9517/