Scrapy 文档

本文档包含你需要知道的关于Scrapy的一切。

获取帮助

有麻烦吗? 我们来帮您!

第一步

初窥Scrapy
了解Scrapy是什么以及它可以如何帮助你。
安装指南
让Scrapy安装在你的计算机上。
Scrapy教程
编写你的第一个Scrapy项目。
例子
通过把玩一个预制的Scrapy项目来学习更多内容。

基本概念

命令行工具
学习用于管理Scrapy项目的命令行工具。
Spiders
编写爬取网站的规则。
Selectors
使用XPath提取网页的数据。
Scrapy shell
在交互环境中测试提取数据的代码。
Items
定义你想要爬取的数据 。
Item Loaders
使用爬取到的数据填充item。
Item Pipeline
后期处理和存储爬取的数据。
Feed exports
使用不同格式和存储输出爬取的数据。
Requests and Responses
了解用于代表HTTP请求和响应的类。
Link Extractors
提取链接来跟踪页面的方便的类。
Settings
了解如何配置Scrapy以及所有可用的设置
Exceptions
查看可用的所有异常和它们的含义。

内置的服务

Logging
了解在Scrapy上如何使用Python内置的logging。
统计数据收集
收集有关你的爬虫的统计信息。
发送电子邮件
当特定事件发生时发送邮件通知。
Telnet终端
使用内置的Python终端检查运行中的爬虫。
Web Service
使用web service监控和管理爬虫。

解决具体问题

常见问题
获取最常问的问题的解答。
调试Spiders
学习如何调试scrapy爬虫的常见问题。
Spiders Contracts
学习如何使用contract来测试您的spider。
Common Practices
熟悉Scrapy的一些惯例做法。
Broad Crawls
调整Scrapy来并发爬取多个域名。
Using Firefox for scraping
了解如何使用Firefox及其他有用的插件来爬取数据。
使用Firebug进行爬取
了解如何使用Firebug来爬取数据。
调试内存溢出
了解如何查找并让您的爬虫避免内存泄露。
Downloading and processing files and images
下载与你的爬取的项目相关的文件和/或图像。
Ubuntu 软件包
在Ubuntu下下载最新的Scrapy。
Deploying Spiders
在生产环境中部署您的Scrapy项目。
自动限速(AutoThrottle)扩展
根据负载(load)动态调节爬取速度。
Benchmarking
在您的硬件平台上测试Scrapy的性能。
Jobs: 暂停,恢复爬虫
学习如何停止和恢复爬虫

扩展Scrapy

架构概览
了解Scrapy架构。
下载器中间件(Downloader Middleware)
自定义页面被请求及下载操作。
Spider中间件(Middleware)
自定义spider的输入与输出。
扩展(Extensions)
提供您自定义的功能来扩展Scrapy
核心API
在extension(扩展)和middleware(中间件)使用api来扩展Scrapy的功能
信号(Signals)
了解Scrapy如何命名版本以及API的稳定性。
Item Exporters
快速将您爬取到的item导出到文件中(XML, CSV等格式)

剩下的所有内容

发行说明
查看最近的Scrapy版本中有什么变化。
给Scrapy做贡献
了解如何为Scrapy项目做出贡献。
版本管理和API稳定性
了解Scrapy的版本管理和API的稳定性。