包含标签 分布式 中的文章

[selenium-grid]多机分布式环境下的selenium集群

源起 还是爬虫里面的某个场景需要重度使用selenium场景 ,所以需要起这样一个集群 对比 单机 docker docker-compose 分布式集群 我们在使用selenium 的时候,我们一般就使用以上的环境和模式,单机怎么操作呢,下载相应的webdriver 单机 对于小型的使用环境,比如单线程操作,我们直接下载好相应版本的d……

阅读全文

[可视化抓取]portia2.0尝鲜体验以及自动化畅想[1]

缘起 最近一直在思考如何更改智能化抓取的事情,每当来了一个新的task,都要自己手动分析,手动写xpath ,然后写正则,各种测试,各种部署,其实说来,这些事情的重复度很高,那我们能不能把一些重复性的动作抽象出来,做成一个独立的单元呢?在参考佷多类似的自动化的工具之后,猜想了如下的动……

阅读全文

[搜索引擎searx]10分钟搭建一个好玩的python全文搜索引擎

源起 之前有一个群友在群里问个如何快速搭建一个搜索引擎,在搜索之后我看到了这个 代码所在 Git:https://github.com/asciimoo/searx 官方很贴心,很方便的是已经提供了docker 镜像,基本pull下来就可以很方便的使用了,执行命令 cid=$(sudo docker ps -a | grep searx | awk '{print $1}') echo searx cid is $cid if [ "$cid" != "" ];then sudo docker stop $cid sudo docker rm $cid fi sudo docker run -d --name searx -e IMAGE_PROXY=True -e BASE_URL=http://yourdomain.com -p 7777:8888 wonderfall/searx 然后就可以……

阅读全文

(12)分布式下的爬虫Scrapy应该如何做-浅析分布式

我们先了解一下分布式,以下的内容在很早之前分享在一个爬虫群里面,现在拿出来重新回顾一下。 大家面试或者聊天的时候,装逼都会问,分布式,你会吗?那什么是分布式,为什么要分布式,怎么样实现分布式,我们先从逻辑上思考这三个问题 是什么 为什么 怎么样 啥是分布式 分布式说白了,就是你是一个有钱的地……

阅读全文

最近文章

分类

标签

友情链接

其它