您的足迹:首页 > 语言程序 >scrapy 爬网站 显示 Filtered offsite request to 错误

scrapy 爬网站 显示 Filtered offsite request to 错误

爬取百度网站文章的时候,无法抓取.


在 setting.py 文件中 设置 日志 记录等级 


LOG_LEVEL= 'DEBUG'


LOG_FILE ='log.txt'


查看日志 发现报


2015-11-07 14:43:43+0800 [meizitu] DEBUG: Filtered offsite request to 'xxx.com': <GET https://www.baidu.com/s?wd=%E5%8C%85%E5%AD%90%E6%9C%BA%20site%3Abaijiahao.baidu.com&pn=10&oq=%E5%8C%85%E5%AD%90%E6%9C%BA%20site%3Abaijiahao.baidu.com&tn=baiduhome_pg&ie=utf-8&rsv_idx=2&rsv_pq=9b378c500002058a&rsv_t=013dYbEqyS6Pldu7FHyznYflYa%2Fm6fxFoBIqMoXwT8SZl%2Bmw7styolIEyTWWAuoEs0sy>


这条日志记录有点奇怪 果断上网百度 ,找到答案 




官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。


yield Request(url, callback=self.parse_item, dont_filter=True)


本博客所有文章如无特别注明均为原创。作者:nevergreen复制或转载请以超链接形式注明转自
原文地址《scrapy 爬网站 显示 Filtered offsite request to 错误

相关推荐

发表评论

路人甲 表情
Ctrl+Enter快速提交

网友评论(0)