[selenium-grid]多机分布式环境下的selenium集群

2017年6月14日

| linux 所有

源起还是爬虫里面的某个场景需要重度使用selenium场景，所以需要起这样一个集群对比单机 docker docker-compose 分布式集群我们在使用selenium 的时候，我们一般就使用以上的环境和模式,单机怎么操作呢，下载相应的webdriver 单机对于小型的使用环境，比如单线程操作，我们直接下载好相应版本的d……

阅读全文

[nginx]azure上使用docker配置爬虫集群及负载均衡

2017年6月2日

| linux 所有

起因最近阿里的费用消耗过高，所以打算从阿里迁移到有一定的优惠的azure china上，其实我本人是抗拒的一，azure 的生态还不够完善，比如类似阿里的容器系统，一键部署的服务都得自己用k8s，或者swarm进行控制统一部署二，部署时会有和种安全性的配置，还需要去里面自己管理平台进……

阅读全文

如何编写最佳的Dockerfile

2017年5月24日

| linux 所有

译者按: Dockerfile的语法非常简单，然而如何加快镜像构建速度，如何减少Docker镜像的大小却不是那么直观，需要积累实践经验。这篇博客可以帮助你快速掌握编写Dockerfile的技巧。原文: How to write excellent Dockerfiles 译者: Fundebug 为了保证可读性，本文采用意译而非直译。另外，本文版权归原作者所有……

阅读全文

[crontab]linux下简单的调度配置及使用

2017年3月6日

| linux 所有

介绍虽然在几篇博客之前介绍了Dagobah这个调度框架，不过对于一些固定调度，很稳定的那种，可以考虑使用linux内置调度器，crontab ,这是系统内置的，相当稳定，不用人工干预优点可以实现不同的用户调度不同的东西，cron 表达式功能强大，很容易写出符合你需求的周期表达式使用登……

阅读全文

scrapy经验分享-同一项目不同的spider启用不同的配置

2016年12月29日

| linux 所有爬虫

在群里经常被问到如何解决同一个爬虫启用不同的piepline的问题，一般的解决通过参数的不同解决这个 def process_item(self, item, spider): self._client.create_index([('msg_id', pymongo.DESCENDING)], background=True) self._client.update_one(filter={'msg_id': item['msg_id']}, update={'$set': dict(item)}, upsert=True) return item 代码中有两个重要的参数item,还有一个spider ,我们打个断点来看看spider 里面的都有些什么简单点我们可以通过name做逻辑上的判断 if spider.name == 'spider_1': do sth....……

阅读全文

[scrapy]scrapy源码分析–中间件是如何加载的

2016年11月16日

| linux 所有爬虫

中间件是scrapy的核心部分，数据的传递，队列的维护，都是靠中间件，所以了解他的生命周期还是很有必要的 https://github.com/scrapy/scrapy/blob/master/scrapy/core/spidermw.py def _add_middleware(self, mw): super(SpiderMiddlewareManager, self)._add_middleware(mw) if hasattr(mw, 'process_spider_input'): self.methods['process_spider_input'].append(mw.process_spider_input) if hasattr(mw, 'process_spider_output'): self.methods['process_spider_output'].insert(0, mw.process_spider_output) if hasattr(mw, 'process_spider_exception'): self.methods['process_spider_exception'].insert(0, mw.process_spider_exception) if hasattr(mw, 'process_start_requests'): self.methods['process_start_requests'].insert(0, mw.process_start_requests) 将中间件的每内置的方法加入到方法链上，注意，这里的数值越小，处理越靠前，下同 https://github.com/scrapy/scrapy/blob/master/scrapy/core/scraper.py 这里就去处理spiderMiddleWare class Scraper(object):……

阅读全文

[scrapy]scrapy源码分析--数据是如何处理的

2016年11月14日

| linux 爬虫

目录下载中间件(Download MiddleWare)是如何加载的 Spider MiddleWare是如何加载的配置文件是如何起作用的整体的执行流程是怎样的扩展件是如何工作的数据是怎么处理的分析我们正常的思路就是从spider的parse方法来着手，因为我们写的最多的代码就是从这里开始的，这……

阅读全文

[爬虫资源]各大爬虫资源大汇总,做我们自己的awesome系列

2016年10月11日

| linux 所有爬虫

大数据的流行一定程序导致的爬虫的流行，有些企业和公司本身不生产数据，那就只能从网上爬取数据，笔者关注相关的内容有一定的时间，也写过很多关于爬虫的系列，现在收集好的框架希望能为对爬虫有兴趣的人，或者想更进一步的研究的人提供索引，也随时欢迎大家star,fork ,或者提issue，让……

阅读全文

[搜索引擎searx]10分钟搭建一个好玩的python全文搜索引擎

2016年10月4日

| linux 所有爬虫

源起之前有一个群友在群里问个如何快速搭建一个搜索引擎，在搜索之后我看到了这个代码所在 Git:https://github.com/asciimoo/searx 官方很贴心，很方便的是已经提供了docker 镜像，基本pull下来就可以很方便的使用了，执行命令 cid=$(sudo docker ps -a | grep searx | awk '{print $1}') echo searx cid is $cid if [ "$cid" != "" ];then sudo docker stop $cid sudo docker rm $cid fi sudo docker run -d --name searx -e IMAGE_PROXY=True -e BASE_URL=http://yourdomain.com -p 7777:8888 wonderfall/searx 然后就可以……

阅读全文

(12)分布式下的爬虫Scrapy应该如何做-浅析分布式

2016年8月4日

| linux 所有爬虫

我们先了解一下分布式，以下的内容在很早之前分享在一个爬虫群里面，现在拿出来重新回顾一下。大家面试或者聊天的时候，装逼都会问，分布式，你会吗？那什么是分布式，为什么要分布式，怎么样实现分布式，我们先从逻辑上思考这三个问题是什么为什么怎么样啥是分布式分布式说白了，就是你是一个有钱的地……

阅读全文

分类 linux 中的文章

[selenium-grid]多机分布式环境下的selenium集群

[nginx]azure上使用docker配置爬虫集群及负载均衡

如何编写最佳的Dockerfile

[crontab]linux下简单的调度配置及使用

scrapy经验分享-同一项目不同的spider启用不同的配置

[scrapy]scrapy源码分析–中间件是如何加载的

[scrapy]scrapy源码分析--数据是如何处理的

[爬虫资源]各大爬虫资源大汇总,做我们自己的awesome系列

[搜索引擎searx]10分钟搭建一个好玩的python全文搜索引擎

(12)分布式下的爬虫Scrapy应该如何做-浅析分布式

最近文章

分类

标签

友情链接

其它