基于scrapy可见可得的爬虫工具arachnado

效果预览和项目所在

先上Git地址:https://github.com/TeamHG-Memex/arachnado

这个库在去年8月就已经上线了,作者写的东西和整体的UI界面满不错的,

这是从youtube下载下来后上传到youku的演示效果

 

整体的效果确实真的很不错,基于tornado 高效,封装了一些scrapyd webservice 的api,数据都是保存在mongo之中的,可以自己自由定制,不过可惜的是,目前只能通过修改spider里面的代码来个性爬虫的整体逻辑,不过代码逻辑不复杂,可以学习自己封装一些api .

关于定制spider ,是否任何网站都可以爬取

https://github.com/TeamHG-Memex/arachnado/blob/master/arachnado/spider.py

其实是将数据一些常见的链接抓出来了,并没有对特定的数据进行处理

数据如何处理

数据都是经过piepline来处理的,可以查看代码
https://github.com/TeamHG-Memex/arachnado/blob/master/arachnado/motor_exporter/pipelines.py

存入到mongodb ,数据拿到后的样子

demo

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注