Scrapy 文档¶
本文档包含你需要知道的关于Scrapy的一切。
获取帮助¶
有麻烦吗? 我们来帮您!
- 试试FAQ —— 它有一些常见问题的答案。
- 寻找具体的信息吗?试试Index或模块Index。
- 在StackOverflow中使用scrapy标签提出或搜索问题,
- 在scrapy-users的邮件列表归档中搜索信息,或者提出一个问题。
- 在#scrapy IRC channel中提问,
- 在issue tracker中提交Scrapy的bug。
第一步¶
基本概念¶
- 命令行工具
- 学习用于管理Scrapy项目的命令行工具。
- Spiders
- 编写爬取网站的规则。
- Selectors
- 使用XPath提取网页的数据。
- Scrapy shell
- 在交互环境中测试提取数据的代码。
- Items
- 定义你想要爬取的数据 。
- Item Loaders
- 使用爬取到的数据填充item。
- Item Pipeline
- 后期处理和存储爬取的数据。
- Feed exports
- 使用不同格式和存储输出爬取的数据。
- Requests and Responses
- 了解用于代表HTTP请求和响应的类。
- Link Extractors
- 提取链接来跟踪页面的方便的类。
- Settings
- 了解如何配置Scrapy以及所有可用的设置。
- Exceptions
- 查看可用的所有异常和它们的含义。
内置的服务¶
- Logging
- 了解在Scrapy上如何使用Python内置的logging。
- 统计数据收集
- 收集有关你的爬虫的统计信息。
- 发送电子邮件
- 当特定事件发生时发送邮件通知。
- Telnet终端
- 使用内置的Python终端检查运行中的爬虫。
- Web Service
- 使用web service监控和管理爬虫。
解决具体问题¶
- 常见问题
- 获取最常问的问题的解答。
- 调试Spiders
- 学习如何调试scrapy爬虫的常见问题。
- Spiders Contracts
- 学习如何使用contract来测试您的spider。
- Common Practices
- 熟悉Scrapy的一些惯例做法。
- Broad Crawls
- 调整Scrapy来并发爬取多个域名。
- Using Firefox for scraping
- 了解如何使用Firefox及其他有用的插件来爬取数据。
- 使用Firebug进行爬取
- 了解如何使用Firebug来爬取数据。
- 调试内存溢出
- 了解如何查找并让您的爬虫避免内存泄露。
- Downloading and processing files and images
- 下载与你的爬取的项目相关的文件和/或图像。
- Ubuntu 软件包
- 在Ubuntu下下载最新的Scrapy。
- Deploying Spiders
- 在生产环境中部署您的Scrapy项目。
- 自动限速(AutoThrottle)扩展
- 根据负载(load)动态调节爬取速度。
- Benchmarking
- 在您的硬件平台上测试Scrapy的性能。
- Jobs: 暂停,恢复爬虫
- 学习如何停止和恢复爬虫
扩展Scrapy¶
- 架构概览
- 了解Scrapy架构。
- 下载器中间件(Downloader Middleware)
- 自定义页面被请求及下载操作。
- Spider中间件(Middleware)
- 自定义spider的输入与输出。
- 扩展(Extensions)
- 提供您自定义的功能来扩展Scrapy
- 核心API
- 在extension(扩展)和middleware(中间件)使用api来扩展Scrapy的功能
- 信号(Signals)
- 了解Scrapy如何命名版本以及API的稳定性。
- Item Exporters
- 快速将您爬取到的item导出到文件中(XML, CSV等格式)
剩下的所有内容¶
- 发行说明
- 查看最近的Scrapy版本中有什么变化。
- 给Scrapy做贡献
- 了解如何为Scrapy项目做出贡献。
- 版本管理和API稳定性
- 了解Scrapy的版本管理和API的稳定性。