Scrapy 介绍与使用

Scrapy

在终端或命令提示符中,导航到你希望创建项目的目录,然后运行以下命令来创建一个新的 Scrapy 项目:

scrapy startproject myproject

这将创建一个名为 myproject 的 Scrapy 项目。

创建爬虫

在项目目录下,使用以下命令创建一个新的爬虫:

cd myproject
scrapy genspider myspider example.com

这将创建一个名为 myspider 的爬虫,它将从 example.com 抓取数据。

编写爬虫代码

在 myproject/spiders/myspider.py 文件中,添加以下代码:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 提取数据
        title = response.css('h1::text').get()
        yield {
            'title': title
        }

这个爬虫会从 example.com 抓取数据,并提取页面上的标题。

运行爬虫

在终端或命令提示符中,导航到项目目录,然后运行以下命令来运行爬虫:

scrapy crawl myspider

这将启动爬虫并抓取数据。

注意事项

  • 安装 Scrapy:确保你已经安装了 Scrapy。如果没有安装,可以使用 pip install scrapy 命令进行安装。
  • 遵守规则:在抓取数据时,请确保遵守目标网站的爬虫规则。
  • 错误处理:在实际应用中,应该添加适当的错误处理逻辑来处理可能发生的各种问题。
  • 文档:由于 Scrapy 是一个不断发展的框架,请务必查阅最新的官方文档以获取最准确的信息和示例代码。
Publish on 2025-01-02,Update on 2025-02-10