python多线程多队列(BeautifulSoup网络爬虫)
发布时间:2020-05-25 00:52:58 所属栏目:Python 来源:互联网
导读:python多线程多队列(BeautifulSoup网络爬虫)
|
下面是脚本之家 jb51.cc 通过网络收集整理的代码片段。 脚本之家小编现在分享给大家,也给大家做个参考。 import Queue
import threading
import urllib2
import time
from BeautifulSoup import BeautifulSoup
hosts = ["http://yahoo.com","http://taobao.com","http://apple.com","http://ibm.com","http://www.amazon.cn"]
queue = Queue.Queue()#存放网址的队列
out_queue = Queue.Queue()#存放网址页面的队列
class ThreadUrl(threading.Thread):
def __init__(self,queue,out_queue):
threading.Thread.__init__(self)
self.queue = queue
self.out_queue = out_queue
def run(self):
while True:
host = self.queue.get()
url = urllib2.urlopen(host)
chunk = url.read()
self.out_queue.put(chunk)#将hosts中的页面传给out_queue
self.queue.task_done()#传入一个相当于完成一个任务
class DatamineThread(threading.Thread):
def __init__(self,out_queue):
threading.Thread.__init__(self)
self.out_queue = out_queue
def run(self):
while True:
chunk = self.out_queue.get()
soup = BeautifulSoup(chunk)#从源代码中搜索title标签的内容
print soup.findAll(['title'])
self.out_queue.task_done()
start = time.time()
def main():
for i in range(5):
t = ThreadUrl(queue,out_queue)#线程任务就是将网址的源代码存放到out_queue队列中
t.setDaemon(True)#设置为守护线程
t.start()
#将网址都存放到queue队列中
for host in hosts:
queue.put(host)
for i in range(5):
dt = DatamineThread(out_queue)#线程任务就是从源代码中解析出<title>标签内的内容
dt.setDaemon(True)
dt.start()
queue.join()#线程依次执行,主线程最后执行
out_queue.join()
main()
print "Total time :%s"%(time.time()-start)
以上是脚本之家(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。 如果觉得脚本之家网站内容还不错,欢迎将脚本之家网站推荐给程序员好友。 (编辑:安卓应用网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
