[python]yield使用的最佳实践[2] - 数据管道的处理

2017年7月16日

| linux 所有

回顾上一篇我们就简单的介绍了yield的两种场景 yield生产数据 (生成器) yield消费数据 (协程) Coroutines,Pipelines 以及Dataflow 数据流处理的pipeline [串行方式] 我们使用coroutine 可以将数据以pipeline的方式进行处理 send() -> coroutine -> send() -> coroutine -> send() -> coroutine 我们将整个的corouti……

阅读全文

[python]yield使用的最佳实践[1]

2017年7月16日

| linux 所有

http://www.dabeaz.com/coroutines/Coroutines.pdf 准备 python: 2.7.12 os: mac os 结论 [使用场景] 迭代生成数据(生产者) 接收数据(消费者) 中断(协作式的任务) 任何脱离以上三个场景的使用yield，请使用其它方法处理，yield是很好用，但不至于到处都可以使用的地步协程和生成器-Coroutines and Generators 在python2.5 开始，生成器就已经加入一……

阅读全文

[重大更新]可视化调度器tiktok 问世了

2017年7月11日

| 所有爬虫

项目地址 https://github.com/BruceDone/Tiktok 背景在很早之前，博主有介绍过可视化的调度工具，dagobah，不过，那个时候dagobah相当的不稳定，动不动就会奔溃，页面就直接打不开，在尝试过各种进程保护模式，或者docker化之后，都完全无法满足工作里面的需求，后来干脆就直接打算在python2的flask，换成……

阅读全文

[Docker]ELKS收集容器日志就是这么简单

2017年6月22日

| linux 所有

场景随着容器的大量使用，现在docker已经在很多生产环境得到实践，不过，容器的日志，状态，确是一个大问题，我们知道，一般可以使用命令docker logs 来查看一个特定的容器，那如果想要收集当前机器所有容器的日志呢？难不成还要将所有应用都标准化一个日志组件出来，然后将日志挂载到特定目录……

阅读全文

[selenium-grid]多机分布式环境下的selenium集群

2017年6月14日

| linux 所有

源起还是爬虫里面的某个场景需要重度使用selenium场景，所以需要起这样一个集群对比单机 docker docker-compose 分布式集群我们在使用selenium 的时候，我们一般就使用以上的环境和模式,单机怎么操作呢，下载相应的webdriver 单机对于小型的使用环境，比如单线程操作，我们直接下载好相应版本的d……

阅读全文

[nginx]azure上使用docker配置爬虫集群及负载均衡

2017年6月2日

| linux 所有

起因最近阿里的费用消耗过高，所以打算从阿里迁移到有一定的优惠的azure china上，其实我本人是抗拒的一，azure 的生态还不够完善，比如类似阿里的容器系统，一键部署的服务都得自己用k8s，或者swarm进行控制统一部署二，部署时会有和种安全性的配置，还需要去里面自己管理平台进……

阅读全文

如何编写最佳的Dockerfile

2017年5月24日

| linux 所有

译者按: Dockerfile的语法非常简单，然而如何加快镜像构建速度，如何减少Docker镜像的大小却不是那么直观，需要积累实践经验。这篇博客可以帮助你快速掌握编写Dockerfile的技巧。原文: How to write excellent Dockerfiles 译者: Fundebug 为了保证可读性，本文采用意译而非直译。另外，本文版权归原作者所有……

阅读全文

[深度学习]Tensorflow破解验证码

2017年4月18日

| 所有

缘起登录 IP 验证码在爬虫的世界里面，大家一定会经常遇到以上的这些问题，我们除了甩锅给第三方打码平台，IP提供商，copy cookie这样的方式方案，大家可以自己尝试自己解决，多去思考一些原理，本次就将爬虫中遇到的字符型的验证码做一些自己的总结和分析准备 Tensorflow 1.0.1 captcha 0.2.2 思路现在的解决验证码一……

阅读全文

[可视化抓取]portia2.0尝鲜体验以及自动化畅想[1]

2017年3月10日

| 所有爬虫

缘起最近一直在思考如何更改智能化抓取的事情，每当来了一个新的task，都要自己手动分析，手动写xpath ，然后写正则，各种测试，各种部署，其实说来，这些事情的重复度很高，那我们能不能把一些重复性的动作抽象出来，做成一个独立的单元呢？在参考佷多类似的自动化的工具之后，猜想了如下的动……

阅读全文

[crontab]linux下简单的调度配置及使用

2017年3月6日

| linux 所有

介绍虽然在几篇博客之前介绍了Dagobah这个调度框架，不过对于一些固定调度，很稳定的那种，可以考虑使用linux内置调度器，crontab ,这是系统内置的，相当稳定，不用人工干预优点可以实现不同的用户调度不同的东西，cron 表达式功能强大，很容易写出符合你需求的周期表达式使用登……

阅读全文

大鱼的鱼塘

[python]yield使用的最佳实践[2] - 数据管道的处理

[python]yield使用的最佳实践[1]

[重大更新]可视化调度器tiktok 问世了

[Docker]ELKS收集容器日志就是这么简单

[selenium-grid]多机分布式环境下的selenium集群

[nginx]azure上使用docker配置爬虫集群及负载均衡

如何编写最佳的Dockerfile

[深度学习]Tensorflow破解验证码

[可视化抓取]portia2.0尝鲜体验以及自动化畅想[1]

[crontab]linux下简单的调度配置及使用

最近文章

分类

标签

友情链接

其它