教程导航
- (1)分布式下的爬虫Scrapy应该如何做-安装
- (2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍
- (3)分布式下的爬虫Scrapy应该如何做-递归爬取方式,数据输出方式以及数据库链接
- (4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参
- (5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想
- (5.1)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置
- (6)分布式下的爬虫Scrapy应该如何做-关于打断点Debug的那些事儿
- (7)分布式下的爬虫Scrapy应该如何做-关于伪装和防Ban的那点事儿
- (8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)
- (9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)
- (10)分布式下的爬虫Scrapy应该如何做-关于动态内容js或者ajax处理(2)
- (11)分布式下的爬虫Scrapy应该如何做-关于js渲染环境splash的一些使用技巧总结
- (12)分布式下的爬虫Scrapy应该如何做-分布式的浅析
- (13)分布式下的爬虫Scrapy应该如何做-另一种分布式架构
- [scrapyd]爬虫应该怎么部署到ubuntu上
- 使用scrapy有用的一些细节点
爬虫周边
- [调度]可视化的调度架构-Dagobah
- 基于scrapy可见可得的爬虫工具arachnado
- [深度学习]Tensorflow破解验证码
- [深度学习] 使用Darknet YOLO 模型破解中文验证码点击识别
- [selenium-grid]多机分布式环境下的selenium集群
- [重大更新]可视化调度器tiktok 问世了
- [渲染利器]Google官方出品的js渲染环境
- 关于爬虫的架构,经验,以及分享
可视化抓取研究
- [可视化抓取]portia2.0尝鲜体验以及自动化畅想[1]
- [可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据输出以及原理分析
- [可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据存储入mongodb
源码分析
- [scrapy]scrapy源码分析–数据是如何处理的
- [scrapy]scrapy源码分析–中间件是如何加载的
- [scrapy]scrapy源码分析–信号事件是如何加载以及自定义信号
- [scrapy] images pipeline分析– 下载图片如何上传到阿里云服务
经验分享
demo源码
错误处理
QQ群交流
- 330672178
感谢,用心又新的教程
感谢支持:0
鱼哥,请问,用redis+requests实现分布式的话.最简单的就是主从?slaver从master直接读取redis里的url就好了么?意思是redis链接的时候直接指定远程redis服务器读数据?这方面不太了解,感觉什么redis锁啊什么啊好玄乎啊,鱼哥知道那些git上redis+requests分布式实现的开源项目么QAQ,打扰你啦,
是这样,我们从逻辑上区别,redis集群,在对外看来也是一台机器。redis 只是一个存队列库的容器,所有机器然后从里面取自己要跑的队列,这个写起来很快呀,非常简单。
恩,谢谢你啦redis自己的集群讲解看上去好高大上的样子,再加上我半吊子的英语能力,所以总觉得玄乎的慌.麻烦你啦
先不要上集群,你先上单实例模式,如果真要集群的时候在考虑集群。
您好,能请教一个问题吗?
请讲
之前的项目是根据用户需求生成要爬取的url,将url push到redis里,然后python项目将redis列队里的url依次爬取.问题就是列队url多的话 爬取时间过长 用户体验不好. 我的想法是生成url后,python那边直接调java接口,得到url直接解析,不用push到redis里去.这种方法可行不?
你这么做是要解决什么问题?
之前的爬虫url都是push到redis里面的,如果缓存的url列队过多的话,解析时间过长,用户的体验受到影响.
之前的项目都是基于服务的形式运行的
缓存和取的速度过慢造成用户体验不好?我想你的耗时最多的应该是直接跑爬虫的时间吧,而且不是这些存和取的过程。
需求那边可能要的就是一个即时爬虫,用户的需求生成url后,后台能够立马解析返回数据...
生成链接后再用多线程去爬,这种方式应该也是可行的,省去了中间的多余的事务.
这种及时性的有弊端,一是登录,二是验证码,三是js渲染,总的来说时时性不算特别的高。
恩恩 项目主要抓取百度等搜索引擎的新闻,不需要登录验证之类的.
如果是简单的一个reqeusts 过去就可以了,然后将内容组装一下就返回给前端,尽量简单化。
这套教程算是完结了吗?
还有很多的内容,你想听哪段?
我想听 scrapy-redis 那段。
我没用过,不过大致思想都是替换队列。
哎,怎么都在问这个啊,我的项目已经实现了,可以去参考。。。https://github.com/ForkEyes/generic
404
[调度]可视化的调度架构-Dagobah
没有呀,http://brucedone.com/archives/865,迁移的时候链接可能变了。动手搜搜找的到。
稍微动手就能解决的问题,把我的想的这么小气何必呢。
scrapy-redis +1 资料基本好少.
我是挑自己感兴趣的玩。
鱼哥上次我提的那个问题解决了没? 我还是不会弄?如果可以我愿意有偿。
暂时还没有进一步的深入
不错,收藏了!
感谢。大鱼~
客气客气
厉害了 学习了