Telnet控制台¶
Scrapy提供了内置的telnet控制台,以供检查,控制Scrapy运行的进程。Telnet 控制台仅仅是一个运行在Scrapy进程中的普通python shell,因此您可以在其中做任何事。
Telnet控制台是一个 自带的Scrapy扩展, 该扩展默认为启用,不过您也可以关闭。 关于扩展的更多内容请参考 Telnet console 扩展 。
如何访问telnet控制台¶
Telnet控制台监听设置中定义的 TELNETCONSOLE_PORT
,默认为 6023
。 访问telnet请输入:
telnet localhost 6023
>>>
Windows及大多数Linux发行版都自带了所需的telnet程序。
telnet控制台中可用的变量¶
Telnet控制台仅仅是一个运行在Scrapy进程中的普通python shell,因此您可以做任何事情,甚至是导入新模块。
telnet为了方便提供了一些默认定义的变量:
快捷名称 | 描述 |
---|---|
crawler | Scrapy Crawler (scrapy.crawler.Crawler 对象) |
engine | Crawler.engine属性 |
spider | 活着的Spider |
slot | the engine slot |
extensions | 扩展管理器(manager) (Crawler.extensions属性) |
stats | 状态收集器 (Crawler.stats属性) |
settings | Scrapy设置(setting)对象 (Crawler.settings属性) |
est | 打印引擎状态的报告 |
prefs | 针对内存调试 (参考 调试内存溢出) |
p | pprint.pprint函数的快捷方式 |
hpy | 针对内存调试 (参考 调试内存溢出) |
Telnet控制台使用示例 ¶
下面是使用telnet 控制台的一些例子:
查看引擎状态¶
在终端中您可以使用Scrapy引擎的 est()
方法来快速查看状态:
telnet localhost 6023
>>> est()
Execution engine status
time()-engine.start_time : 8.62972998619
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : followall
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 92
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
暂停、恢复和停止Scrapy引擎¶
暂停:
telnet localhost 6023
>>> engine.pause()
>>>
恢复:
telnet localhost 6023
>>> engine.unpause()
>>>
停止:
telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.