[置顶]scrapy爬虫教程导航

教程导航

爬虫周边

可视化抓取研究

源码分析

经验分享

demo源码

错误处理

个人公众号

点赞
  • 感谢,用心又新的教程

    • hi,I'm frank

      感谢支持:0

      • 鱼哥,请问,用redis+requests实现分布式的话.最简单的就是主从?slaver从master直接读取redis里的url就好了么?意思是redis链接的时候直接指定远程redis服务器读数据?这方面不太了解,感觉什么redis锁啊什么啊好玄乎啊,鱼哥知道那些git上redis+requests分布式实现的开源项目么QAQ,打扰你啦,

        • hi,I'm frank

          是这样,我们从逻辑上区别,redis集群,在对外看来也是一台机器。redis 只是一个存队列库的容器,所有机器然后从里面取自己要跑的队列,这个写起来很快呀,非常简单。

          • 恩,谢谢你啦redis自己的集群讲解看上去好高大上的样子,再加上我半吊子的英语能力,所以总觉得玄乎的慌.麻烦你啦

          • hi,I'm frank

            先不要上集群,你先上单实例模式,如果真要集群的时候在考虑集群。

  • 您好,能请教一个问题吗?

    • hi,I'm frank

      请讲

  • 之前的项目是根据用户需求生成要爬取的url,将url push到redis里,然后python项目将redis列队里的url依次爬取.问题就是列队url多的话 爬取时间过长 用户体验不好. 我的想法是生成url后,python那边直接调java接口,得到url直接解析,不用push到redis里去.这种方法可行不?

    • hi,I'm frank

      你这么做是要解决什么问题?

  • 之前的爬虫url都是push到redis里面的,如果缓存的url列队过多的话,解析时间过长,用户的体验受到影响.

  • 之前的项目都是基于服务的形式运行的

    • hi,I'm frank

      缓存和取的速度过慢造成用户体验不好?我想你的耗时最多的应该是直接跑爬虫的时间吧,而且不是这些存和取的过程。

      • 需求那边可能要的就是一个即时爬虫,用户的需求生成url后,后台能够立马解析返回数据...

  • 生成链接后再用多线程去爬,这种方式应该也是可行的,省去了中间的多余的事务.

    • hi,I'm frank

      这种及时性的有弊端,一是登录,二是验证码,三是js渲染,总的来说时时性不算特别的高。

      • 恩恩 项目主要抓取百度等搜索引擎的新闻,不需要登录验证之类的.

        • hi,I'm frank

          如果是简单的一个reqeusts 过去就可以了,然后将内容组装一下就返回给前端,尽量简单化。

  • 这套教程算是完结了吗?

    • hi,I'm frank

      还有很多的内容,你想听哪段?

      • 我想听 scrapy-redis 那段。

        • hi,I'm frank

          我没用过,不过大致思想都是替换队列。

        • 哎,怎么都在问这个啊,我的项目已经实现了,可以去参考。。。https://github.com/ForkEyes/generic

          • mosson

            404

  • [调度]可视化的调度架构-Dagobah

  • hi,I'm frank

    没有呀,http://brucedone.com/archives/865,迁移的时候链接可能变了。动手搜搜找的到。

  • hi,I'm frank

    稍微动手就能解决的问题,把我的想的这么小气何必呢。

  • scrapy-redis +1 资料基本好少.

    • hi,I'm frank

      我是挑自己感兴趣的玩。

  • 鱼哥上次我提的那个问题解决了没? 我还是不会弄?如果可以我愿意有偿。

    • 哈哈

      暂时还没有进一步的深入

  • 独步剑笑

    不错,收藏了!

  • Kevin

    感谢。大鱼~

    • hi,I'm frank

      客气客气

  • e

    :razz: :exclaim: