背景 第一次学语言?怎么入手? 去哪找资源? 要不要买书?还是要不要报培训班? 要不要准备一台高性能的装备? 如果你存在以上的问题话,建议你先沉下心来,把文章看完,然后我会一条一条的分析里面的原因,给出自己的一点见解 入…
[python]yield使用的最佳实践[3]
从数据处理到并发编程 协程和生成器的关系 你可以合理的编写一些组件来连接协程和生成器 你可以自己做一个数据流,工作流的方式来处理这种场景下的数据 你可以自己编写一个事件驱动系统 一个常见的主题 将数据交由协程处理 将数据…
[python]yield使用的最佳实践[2] - 数据管道的处理
回顾 上一篇我们就简单的介绍了yield的两种场景 yield生产数据 (生成器) yield消费数据 (协程) Coroutines,Pipelines 以及Dataflow 数据流处理的pipeline [串行方式]…
[python]yield使用的最佳实践[1]
http://www.dabeaz.com/coroutines/Coroutines.pdf 准备 python: 2.7.12 os: mac os 结论 [使用场景] 迭代生成数据(生产者) 接收数据(消费者) 中…
[重大更新]可视化调度器tiktok 问世了
项目 地址 https://github.com/BruceDone/Tiktok 背景 在很早之前,博主有介绍过可视化的调度工具,dagobah,不过,那个时候dagobah相当的不稳定,动不动就会奔溃,页面就直接打不…
[Docker]ELKS收集容器日志就是这么简单
场景 随着容器的大量使用,现在docker已经在很多生产环境得到实践,不过,容器的日志,状态,确是一个大问题,我们知道,一般可以使用命令docker logs 来查看一个特定的容器,那如果想要收集当前机器所有容器的日志呢…
[selenium-grid]多机分布式环境下的selenium集群
源起 还是爬虫里面的某个场景需要重度使用selenium场景 ,所以需要起这样一个集群 对比 单机 docker docker-compose 分布式集群 我们在使用selenium 的时候,我们一般就使用以上的环境和模…
[nginx]azure上使用docker配置爬虫集群及负载均衡
起因 最近阿里的费用消耗过高,所以打算从阿里迁移到有一定的优惠的azure china上,其实我本人是抗拒的 一,azure 的生态还不够完善,比如类似阿里的容器系统,一键部署的服务都得自己用k8s,或者swarm进行控…
如何编写最佳的Dockerfile
译者按: Dockerfile的语法非常简单,然而如何加快镜像构建速度,如何减少Docker镜像的大小却不是那么直观,需要积累实践经验。这篇博客可以帮助你快速掌握编写Dockerfile的技巧。 原文: How to w…
[深度学习]Tensorflow破解验证码
缘起 登录 IP 验证码 在爬虫的世界里面,大家一定会经常遇到以上的这些问题,我们除了甩锅给第三方打码平台,IP提供商,copy cookie这样的方式方案,大家可以自己尝试自己解决,多去思考一些原理,本次就将爬虫中遇到…