python爬虫scrapy(一)

发布时间：2020-05-23 00:09:40 所属栏目：Python 来源：互联网

导读：今天我来教大家用scrapy写python爬虫，安装指南可以参考这里，我们来开始今天的内容。1创建项目在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:scrapystartp

今天我来教大家用scrapy写python爬虫，安装指南可以参考这里，我们来开始今天的内容。

1 创建项目

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

scrapy startproject demo

该命令将会创建包含下列内容的 demo 目录:

demo/
    scrapy.cfg
    demo/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

大家看到这些可能比较懵，下面来解释一下：

scrapy.cfg: 项目的配置文件
demo/: 该项目的python模块。之后您将在此加入代码。
demo/items.py: 项目中的item文件.
demo/pipelines.py: 项目中的pipelines文件.
demo/settings.py: 项目的设置文件.
demo/spiders/: 放置spider代码的目录.

看到这里依然很费解是不是，这时候我们就需要生动形象的代码了
以下为我们的第一个Spider代码，保存在demo/spiders 目录下的 dmoz_spider.py 文件中:

import scrapyclass DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]    def parse(self, response):
        filename = response.url.split("/")[-2] + '.html'
        with open(filename, 'wb') as f:
            f.write(response.body)

来简单解释一下这段代码的意思：

name = "dmoz" 运行该爬虫的命令是 scrapy crawl dmoz
allowed_domains = ["dmoz.org"] 允许发送请求的域名，其他无效。
start_urls 爬去网页内容的url，是一个数组。
parse 把抓取的网页内容解析，response.url是访问的地址，这段代码里面会新建2个html文件，并把爬去到的内容保存进去。

进入项目的根目录，执行下列命令启动spider:

scrapy crawl dmoz

该命令启动了我们刚刚添加的 dmoz spider, 向 dmoz.org 发送一些请求。您将会得到类似的输出:

2014-01-23 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)2014-01-23 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2014-01-23 18:13:07-0400 [scrapy] INFO: Overridden settings: {}2014-01-23 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...2014-01-23 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...2014-01-23 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...2014-01-23 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...2014-01-23 18:13:07-0400 [scrapy] INFO: Spider opened2014-01-23 18:13:08-0400 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)2014-01-23 18:13:09-0400 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)2014-01-23 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

我们爬取到内容后需要将其保存，这时候就需要通过demo目录下的item.py了，如果有django经验的人会比较熟悉这部分。

2 定义Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似。类似在ORM中做的一样，您可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item。

首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字，url，以及网站的描述。对此，在item中定义相应的字段。编辑 demo 目录中的 items.py 文件:

import scrapyclass DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

写好了item之后，为了将爬取的数据返回，我们最终的代码将是:

import scrapyfrom tutorial.items import DmozItemclass DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            item = DmozItem()
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').extract()            yield item

大家应该也看出来了，item实际是充当了model的作用，保存数据。可能比较奇怪的是xpath是什么。。。

3 提取数据

比如我们想获得刚刚爬取网页内容ul下面所有的li.

response.xpath('//ul/li')

获取li所有的内容，它是每个li内容组成的数组。

response.xpath('//ul/li/text()').extract()

注意不要忘了用extract，如果不用extract我们来看下获得是啥。

In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath='//title/text()' data=u'Open Directory - Computers: Programming:Languages: Python: Books'>]

In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'Open Directory - Computers: Programming: Languages: Python: Books']

这下知道为什么需要用extract提取了吧，不用的话得到的只是一个selector。

以及网站的链接(获得li下面a标签所有的href):

response.xpath('//ul/li/a/@href').extract()

现在对dmoz.org进行爬取将会产生 DmozItem 对象:

scrapy] DEBUG: Scraped from <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
     {'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text, ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.n],
      'link': [u'http://gnosis.cx/TPiP/'],
      'title': [u'Text Processing in Python']}
[scrapy] DEBUG: Scraped from <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
     {'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192, has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]n'],
      'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'],
      'title': [u'XML Processing with Python']}

4 追踪链接

（编辑：安卓应用网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!