Scrapy 介绍与使用

在终端或命令提示符中,导航到你希望创建项目的目录,然后运行以下命令来创建一个新的 Scrapy 项目:
scrapy startproject myproject
这将创建一个名为 myproject 的 Scrapy 项目。
创建爬虫
在项目目录下,使用以下命令创建一个新的爬虫:
cd myproject
scrapy genspider myspider example.com
这将创建一个名为 myspider 的爬虫,它将从 example.com 抓取数据。
编写爬虫代码
在 myproject/spiders/myspider.py 文件中,添加以下代码:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://example.com']
def parse(self, response):
# 提取数据
title = response.css('h1::text').get()
yield {
'title': title
}
这个爬虫会从 example.com 抓取数据,并提取页面上的标题。
运行爬虫
在终端或命令提示符中,导航到项目目录,然后运行以下命令来运行爬虫:
scrapy crawl myspider
这将启动爬虫并抓取数据。
注意事项
- 安装 Scrapy:确保你已经安装了 Scrapy。如果没有安装,可以使用 pip install scrapy 命令进行安装。
- 遵守规则:在抓取数据时,请确保遵守目标网站的爬虫规则。
- 错误处理:在实际应用中,应该添加适当的错误处理逻辑来处理可能发生的各种问题。
- 文档:由于 Scrapy 是一个不断发展的框架,请务必查阅最新的官方文档以获取最准确的信息和示例代码。
Publish on 2025-01-02,Update on 2025-02-10