[重大更新]可视化调度器tiktok 问世了

项目 地址 https://github.com/BruceDone/Tiktok 背景 在很早之前,博主有介绍过可视化的调度工具,dagobah,不过,那个时候dagobah相当的不稳定,动不动就会奔溃,页面就直接打不开,在尝试过各种进程保护模式,或者docker化之后,都完全无法满足工作里面的需求,后来干脆就直接打算在python2的flask,换成……

阅读全文

[Docker]ELKS收集容器日志就是这么简单

场景 随着容器的大量使用,现在docker已经在很多生产环境得到实践,不过,容器的日志,状态,确是一个大问题,我们知道,一般可以使用命令docker logs 来查看一个特定的容器,那如果想要收集当前机器所有容器的日志呢?难不成还要将所有应用都标准化一个日志组件出来,然后将日志挂载到特定目录……

阅读全文

[selenium-grid]多机分布式环境下的selenium集群

源起 还是爬虫里面的某个场景需要重度使用selenium场景 ,所以需要起这样一个集群 对比 单机 docker docker-compose 分布式集群 我们在使用selenium 的时候,我们一般就使用以上的环境和模式,单机怎么操作呢,下载相应的webdriver 单机 对于小型的使用环境,比如单线程操作,我们直接下载好相应版本的d……

阅读全文

[nginx]azure上使用docker配置爬虫集群及负载均衡

起因 最近阿里的费用消耗过高,所以打算从阿里迁移到有一定的优惠的azure china上,其实我本人是抗拒的 一,azure 的生态还不够完善,比如类似阿里的容器系统,一键部署的服务都得自己用k8s,或者swarm进行控制统一部署 二,部署时会有和种安全性的配置,还需要去里面自己管理平台进……

阅读全文

如何编写最佳的Dockerfile

译者按: Dockerfile的语法非常简单,然而如何加快镜像构建速度,如何减少Docker镜像的大小却不是那么直观,需要积累实践经验。这篇博客可以帮助你快速掌握编写Dockerfile的技巧。 原文: How to write excellent Dockerfiles 译者: Fundebug 为了保证可读性,本文采用意译而非直译。另外,本文版权归原作者所有……

阅读全文

[深度学习]Tensorflow破解验证码

缘起 登录 IP 验证码 在爬虫的世界里面,大家一定会经常遇到以上的这些问题,我们除了甩锅给第三方打码平台,IP提供商,copy cookie这样的方式方案,大家可以自己尝试自己解决,多去思考一些原理,本次就将爬虫中遇到的字符型的验证码做一些自己的总结和分析 准备 Tensorflow 1.0.1 captcha 0.2.2 思路 现在的解决验证码一……

阅读全文

[可视化抓取]portia2.0尝鲜体验以及自动化畅想[1]

缘起 最近一直在思考如何更改智能化抓取的事情,每当来了一个新的task,都要自己手动分析,手动写xpath ,然后写正则,各种测试,各种部署,其实说来,这些事情的重复度很高,那我们能不能把一些重复性的动作抽象出来,做成一个独立的单元呢?在参考佷多类似的自动化的工具之后,猜想了如下的动……

阅读全文

[crontab]linux下简单的调度配置及使用

介绍 虽然在几篇博客之前介绍了Dagobah这个调度框架,不过对于一些固定调度,很稳定的那种,可以考虑使用linux内置调度器,crontab ,这是系统内置的,相当稳定 ,不用人工干预 优点 可以实现不同的用户调度不同的东西,cron 表达式功能强大,很容易写出符合你需求的周期表达式 使用 登……

阅读全文

scrapy下的一些常见错误处理

常见的一些小错误分类处理 内部错误 逻辑错误 其它错误 内部错误 TypeError 表现形式:TypeError: ‘float’ object is not iterable 相关搜索:https://github.com/scrapy/scrapy/issues/2461 解决方法:sudo pip install -U Twisted==16.6.0 ERROR: Unable to read the instance data ,giving up 表现形式: 直接error 报错……

阅读全文

大鱼的鱼塘更新了

过程 hi,各位,大鱼的鱼塘在昨天更新了一个新的主题,在这之前,一直在折腾各种静态博客,一开始想玩玩hexo,然后各种封装在docker下,各种编译,通过编译之后,又要将数据导入到hexo,各种出错,索性就不折腾了。之前的简书主题的又太难看了(我自己深深的觉得),索性干脆换了主题,……

阅读全文

最近文章

分类

标签

.net Core 2.1 2016 2017 2018 30 aliyun api async bi,微软大数据 blocking bug C# celery charles chrome chrome headless clang conda coroutine cron cuda dag dagobah darknet debug docker docker-compose dotnet core echo elk epoll error error_code etl flask GC go golang google gpu gunicorn http javascript linux lxml mac message queue mongodb nginx node non-blocking nvidia nvidia-docker opencv oss phantomjs pipeline portia proxy pycharm pytest python python-rq python2.7 python3 remote debug rq scrapy select selenium selenium-web-driver spider splash ssis sync TDD Template Tensorflow test tmux torch ubuntu venv video vscode web web framework webapi whistle xpath yield yolo yolov3 中间件 事件 人生 代理 代码 代码生成器 代码风格 优化 使用 分布式 分析 协程 卓老板聊科技 原理 可变类型 可视化 同步 垃圾回收 培训 基础 处理 多线程 大数据 学习 定时 定时任务 容器 工具 工程 底层 建议 异步 录制 心得 心得,python,培训班 总结 感悟 成长 打断点 技巧 推荐 插件 搜索引擎 播放 效率 数据 数据库 数据清洗 整洁 无头浏览器 日志 机器学习 架构 死亡 测试 消息队列 深度学习 渲染 源码 源码分析 点击 爬虫 状态码 生活 癌症 监听 破解验证码 线程 经验 网关 自我管理 自由 虚拟环境 视觉化爬虫 视频 设计 读书 调度 调试 负载均衡 远程调试 错误 阻塞 阿里云 隧道 隧道代理 集群 非阻塞 项目管理 验证码

友情链接

其它