(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)

转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html

 

在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能在经过数据筛选,然后异步的使用文件下载类来达到目的,Scrapy框架中本身已经实现了文件及图片下载的文件,相当的方便,只要几行代码,就可以轻松的搞定下载。下面我将演示如何使用scrapy下载豆瓣的相册首页内容。

优点介绍

  • 自动去重
  • 异步操作,不会阻塞
  • 可以生成指定尺寸的缩略图
  • 计算过期时间
  • 格式转化

 

 

编码过程

定义Item

 

 

定义spider

 

定义piepline

 

 

定义setting.py,启用item处理器

 

运行效果

《(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)》

《(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)》

 

github地址:https://github.com/BruceDone/scrapy_demo

 

点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据