分类 所有 中的文章

[工程] tmux的一些操作技巧

tmux简介 tmux是一个优秀的终端复用软件,类似GNU Screen,但来自于OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机;当然其功能远不止于此。 直接使用yu……

阅读全文

[scrapy] images pipeline分析– 下载图片如何上传到阿里云服务

目录 源起 准备 分析 实践 总结 源起 现在网上已经有很多方便的云存储了,比如阿里云的oss,亚马逊的s3 ,Azure 的blob,云的储存对于大数据量的文件或者图片来说,绝对是相当的方便,现在我们就来分析一下,如何使用scrapy的pipeline ,将我们下载图片直接上传到我们的阿里云oss……

阅读全文

[爬虫]python下的xpath清洗数据之html数据清洗

目录 源起 分析 解决 总结 源起 现在我们面对一些爬虫数据,特别是对于web网页的爬取的时候,网页总有一些不规整的数据来导致拿数据的麻烦,比如如下这种 <html> <p>111</p> <p>222</p> <p>333</p> <p>444 <script> eeeeeeeeeeee </script> </p> <p>555 <script> aabbccddd </script> </p> </html> 我只想拿到111,222,333,444,555这些有效的信息,因为有些p标签里面会引入script元素,导致……

阅读全文

[系统] 阻塞非阻塞,同步与异步

目录 前言 示意 分析 总结 前言 我们在写代码的时候,会遇到大量的IO操作,http请求,读写文件,读数据库,对于IO的操作,我们听到了太多的异步,同步,阻塞与非阻塞的操作,可是我们一直没有去深入的理解他的意义到底在哪里,这次我们就具体的分析原理 示意 我们假设有这样一次IO操作,A发出请求,……

阅读全文

[工程] linux操作下的利器-tmux

内容 源起 使用 注意 总结 源起 某天小伙伴看我正在辛勤的打开一个又一个窗口,然后跑一些长时间任务然后又要开另外一个窗口重新ssh到服务器上的繁琐操作,如下图所示 小伙伴顺口来了一句,你为啥不用tmux呢。你这样挂起任务要是你退出机器登录或者不小心点错了那你这个任务不就挂了?还有切换终端se……

阅读全文

[tmux] version 2.1 存在缓存bug

目录 起因 分析 解决 起因 在tmux session 之中 ,尝试修改一个文件内容,发现于tmux 外部 查看该文件内容压根就没有修改到,只能从外部来进行处理 分析 在folder文件夹下有如下两个文件夹 test 以及test_1 ├── test │ └── test.txt └── test_1 └── test.txt 注意,两个文件夹下虽然都有相同的文件test.txt ,不……

阅读全文

[工程] python下的测试利器pytest

目录 引言 准备 项目 总结 引言 我想现在应该很少有公司一直在主推TDD了,因为这无形之中增加了工作量,在追求极致开发的时候,一般都是能先上就先上,把主体的功能不管三七二十一怼出来再说,出了问题就直接改,也不管你的代码和之前兼容不兼容,一个大的工程,测试是绝对少不了的,覆盖率更是必须达到一……

阅读全文

29之前,29之后

引言 大概在3年前,我写过 <26之前,26之后>,从刚参加工作到工作2年之后一些蜕变与感悟,如果将之前的时间比作新手上路,体会到了道路的崎岖与速度的激情,我想这一年的更多的时间就是停车自检,自省身上发生的问题 目录 遇到困难,正面面对 子非鱼,安知鱼之乐 世间之事,无非多花时间……

阅读全文

[可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据存储入mongodb

总览 环境 分析 猜想 实施 总结 环境 mac or ubuntu 16.04 docker 分析 上一章节,==> [可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据输出以及原理分析 <== 我们已经分析了portia 数据 输出的方式,以及从代码的层面来分析它实际的运作原理,群里有小伙伴以及微信私信问我:大鱼,这个怎么和我们的数据……

阅读全文

[经验]如何优雅的在docker下断点调试debug

纲领 前言 使用 过程 配置 总结 前言 随着docker的普及,现在更多的生产线上的程序都是打包成docker 应用,这样方便环境的隔离,也能提高资源的利用率,不过一旦出了问题,怎么debug就成了一个难题,我可暂时没有学会大神们的pdb debug大法,只会用pycharm 打断点调试,那如何处……

阅读全文

最近文章

分类

标签

.net Core 2.1 2016 2017 2018 30 aliyun api async bi,微软大数据 blocking bug C# celery charles chrome chrome headless clang conda coroutine cron cuda dag dagobah darknet debug docker docker-compose dotnet core echo elk epoll error error_code etl flask GC go golang google gpu gunicorn http javascript linux lxml mac message queue mongodb nginx node non-blocking nvidia nvidia-docker opencv oss phantomjs pipeline portia proxy pycharm pytest python python-rq python2.7 python3 remote debug rq scrapy select selenium selenium-web-driver spider splash ssis sync TDD Template Tensorflow test tmux torch ubuntu venv video vscode web web framework webapi whistle xpath yield yolo yolov3 中间件 事件 人生 代理 代码 代码生成器 代码风格 优化 使用 分布式 分析 协程 卓老板聊科技 原理 可变类型 可视化 同步 垃圾回收 培训 基础 处理 多线程 大数据 学习 定时 定时任务 容器 工具 工程 底层 建议 异步 录制 心得 心得,python,培训班 总结 感悟 成长 打断点 技巧 推荐 插件 搜索引擎 播放 效率 数据 数据库 数据清洗 整洁 无头浏览器 日志 机器学习 架构 死亡 测试 消息队列 深度学习 渲染 源码 源码分析 点击 爬虫 状态码 生活 癌症 监听 破解验证码 线程 经验 网关 自我管理 自由 虚拟环境 视觉化爬虫 视频 设计 读书 调度 调试 负载均衡 远程调试 错误 阻塞 阿里云 隧道 隧道代理 集群 非阻塞 项目管理 验证码

友情链接

其它