[置顶]scrapy爬虫教程导航

教程导航

爬虫周边

可视化抓取研究

源码分析

经验分享

demo源码

错误处理

QQ群交流

  • 330672178

个人公众号

《[置顶]scrapy爬虫教程导航》

点赞
  1. 竹筠Take说道:

    感谢,用心又新的教程

    1. hi,I'm frank说道:

      感谢支持:0

      1. 竹筠Take说道:

        鱼哥,请问,用redis+requests实现分布式的话.最简单的就是主从?slaver从master直接读取redis里的url就好了么?意思是redis链接的时候直接指定远程redis服务器读数据?这方面不太了解,感觉什么redis锁啊什么啊好玄乎啊,鱼哥知道那些git上redis+requests分布式实现的开源项目么QAQ,打扰你啦,

        1. hi,I'm frank说道:

          是这样,我们从逻辑上区别,redis集群,在对外看来也是一台机器。redis 只是一个存队列库的容器,所有机器然后从里面取自己要跑的队列,这个写起来很快呀,非常简单。

          1. 竹筠Take说道:

            恩,谢谢你啦redis自己的集群讲解看上去好高大上的样子,再加上我半吊子的英语能力,所以总觉得玄乎的慌.麻烦你啦

          2. hi,I'm frank说道:

            先不要上集群,你先上单实例模式,如果真要集群的时候在考虑集群。

  2. 石经纬说道:

    您好,能请教一个问题吗?

    1. hi,I'm frank说道:

      请讲

  3. 石经纬说道:

    之前的项目是根据用户需求生成要爬取的url,将url push到redis里,然后python项目将redis列队里的url依次爬取.问题就是列队url多的话 爬取时间过长 用户体验不好. 我的想法是生成url后,python那边直接调java接口,得到url直接解析,不用push到redis里去.这种方法可行不?

    1. hi,I'm frank说道:

      你这么做是要解决什么问题?

  4. 石经纬说道:

    之前的爬虫url都是push到redis里面的,如果缓存的url列队过多的话,解析时间过长,用户的体验受到影响.

  5. 石经纬说道:

    之前的项目都是基于服务的形式运行的

    1. hi,I'm frank说道:

      缓存和取的速度过慢造成用户体验不好?我想你的耗时最多的应该是直接跑爬虫的时间吧,而且不是这些存和取的过程。

      1. 石经纬说道:

        需求那边可能要的就是一个即时爬虫,用户的需求生成url后,后台能够立马解析返回数据...

  6. 石经纬说道:

    生成链接后再用多线程去爬,这种方式应该也是可行的,省去了中间的多余的事务.

    1. hi,I'm frank说道:

      这种及时性的有弊端,一是登录,二是验证码,三是js渲染,总的来说时时性不算特别的高。

      1. 石经纬说道:

        恩恩 项目主要抓取百度等搜索引擎的新闻,不需要登录验证之类的.

        1. hi,I'm frank说道:

          如果是简单的一个reqeusts 过去就可以了,然后将内容组装一下就返回给前端,尽量简单化。

  7. __i1l__说道:

    这套教程算是完结了吗?

    1. hi,I'm frank说道:

      还有很多的内容,你想听哪段?

      1. __i1l__说道:

        我想听 scrapy-redis 那段。

        1. hi,I'm frank说道:

          我没用过,不过大致思想都是替换队列。

        2. 樊樊樊Kai说道:

          哎,怎么都在问这个啊,我的项目已经实现了,可以去参考。。。https://github.com/ForkEyes/generic

          1. mosson说道:

            404

  8. Class说道:

    [调度]可视化的调度架构-Dagobah

  9. hi,I'm frank说道:

    没有呀,http://brucedone.com/archives/865,迁移的时候链接可能变了。动手搜搜找的到。

  10. hi,I'm frank说道:

    稍微动手就能解决的问题,把我的想的这么小气何必呢。

  11. Class说道:

    scrapy-redis +1 资料基本好少.

    1. hi,I'm frank说道:

      我是挑自己感兴趣的玩。

  12. 樊樊樊Kai说道:

    鱼哥上次我提的那个问题解决了没? 我还是不会弄?如果可以我愿意有偿。

    1. 哈哈说道:

      暂时还没有进一步的深入

  13. 独步剑笑说道:

    不错,收藏了!

  14. Kevin说道:

    感谢。大鱼~

    1. hi,I'm frank说道:

      客气客气

  15. 学习学习说道:

    厉害了 学习了

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据