大鱼的鱼塘

  • 所有
  • 爬虫
  • linux
  • .net
  • 杂记
    • 分享
  • 关于我
linux

[心得]如何学一门编程语言

背景 第一次学语言?怎么入手? 去哪找资源? 要不要买书?还是要不要报培训班? 要不要准备一台高性能的装备? 如果你存在以上的问题话,建议你先沉下心来,把文章看完,然后我会一条一条的分析里面的原因,给出自己的一点见解 入…

8月 1, 2017 2条评论 5,794次阅读 6人点赞 阅读全文
linux

[python]yield使用的最佳实践[2] - 数据管道的处理

回顾 上一篇我们就简单的介绍了yield的两种场景 yield生产数据 (生成器) yield消费数据 (协程) Coroutines,Pipelines 以及Dataflow 数据流处理的pipeline [串行方式]…

7月 16, 2017 0条评论 6,519次阅读 2人点赞 阅读全文
linux

[python]yield使用的最佳实践[1]

http://www.dabeaz.com/coroutines/Coroutines.pdf 准备 python: 2.7.12 os: mac os 结论 [使用场景] 迭代生成数据(生产者) 接收数据(消费者) 中…

7月 16, 2017 0条评论 6,488次阅读 1人点赞 阅读全文
linux

[Docker]ELKS收集容器日志就是这么简单

场景 随着容器的大量使用,现在docker已经在很多生产环境得到实践,不过,容器的日志,状态,确是一个大问题,我们知道,一般可以使用命令docker logs 来查看一个特定的容器,那如果想要收集当前机器所有容器的日志呢…

6月 22, 2017 4条评论 10,052次阅读 4人点赞 阅读全文
linux

[selenium-grid]多机分布式环境下的selenium集群

源起 还是爬虫里面的某个场景需要重度使用selenium场景 ,所以需要起这样一个集群 对比 单机 docker docker-compose 分布式集群 我们在使用selenium 的时候,我们一般就使用以上的环境和模…

6月 14, 2017 6条评论 15,198次阅读 7人点赞 阅读全文
linux

[nginx]azure上使用docker配置爬虫集群及负载均衡

起因 最近阿里的费用消耗过高,所以打算从阿里迁移到有一定的优惠的azure china上,其实我本人是抗拒的 一,azure 的生态还不够完善,比如类似阿里的容器系统,一键部署的服务都得自己用k8s,或者swarm进行控…

6月 2, 2017 0条评论 5,149次阅读 3人点赞 阅读全文
linux

如何编写最佳的Dockerfile

译者按: Dockerfile的语法非常简单,然而如何加快镜像构建速度,如何减少Docker镜像的大小却不是那么直观,需要积累实践经验。这篇博客可以帮助你快速掌握编写Dockerfile的技巧。 原文: How to w…

5月 24, 2017 0条评论 3,382次阅读 0人点赞 阅读全文
linux

[crontab]linux下简单的调度配置及使用

介绍 虽然在几篇博客之前介绍了Dagobah这个调度框架,不过对于一些固定调度,很稳定的那种,可以考虑使用linux内置调度器,crontab ,这是系统内置的,相当稳定 ,不用人工干预 优点 可以实现不同的用户调度不同…

3月 6, 2017 0条评论 4,628次阅读 1人点赞 阅读全文
linux

scrapy经验分享-同一项目不同的spider启用不同的配置

在群里经常被问到如何解决同一个爬虫启用不同的piepline的问题,一般的解决通过参数的不同解决这个 [crayon-6046bd2a86be7961268702/] 代码中有两个重要的参数item,还有一个spider…

12月 29, 2016 0条评论 22,693次阅读 4人点赞 阅读全文
linux

[scrapy]scrapy源码分析–中间件是如何加载的

中间件是scrapy的核心部分,数据的传递,队列的维护,都是靠中间件,所以了解他的生命周期还是很有必要的   https://github.com/scrapy/scrapy/blob/master/scrap…

11月 16, 2016 2条评论 11,302次阅读 1人点赞 阅读全文
  • «
  • <
  • 1
  • 2
  • 3
  • 4
  • 5
  • >
  • »

Talent is enduring patience.

搜索内容

python 爬虫 scrapy 大数据 etl spider ssis docker 建议 调度 基础 python3 bi,微软大数据 docker-compose 分布式 可视化 读书 源码 selenium 工程 优化 yield ubuntu 视觉化爬虫 linux chrome tmux .net Core async 同步 异步 推荐 底层 phantomjs 渲染 经验 协程 验证码 portia error 中间件 分析 定时任务 代码生成器 webapi splash dagobah C# 错误 opencv

近期更新

  • [Clock]没错,让是让你点点点完成可视化的任务调度! 7月 16, 2020
  • [经验]入手golang,对比python聊聊想法 12月 18, 2019
  • [回炉]阻塞与非阻塞,同步与异步 8月 17, 2019
  • [后端] python下的web framework大比拼 7月 18, 2019
  • [读书]代码整洁之道 5月 21, 2019

文章归档

友情链接

  • 崔庆才的博客
  • 灯塔水母
  • 烂笔头
  • 韦世东的技术专栏

好用工具

  • 代理IP

Copyright 2021 大鱼的鱼塘. All Rights Reserved.
Theme Kratos made by Vtrois
粤ICP备15115182号-1