大鱼的鱼塘

  • 所有
  • 爬虫
  • linux
  • .net
  • 杂记
    • 分享
  • 关于我
所有

[爬虫]python下的xpath清洗数据之html数据清洗

目录 源起 分析 解决 总结 源起 现在我们面对一些爬虫数据,特别是对于web网页的爬取的时候,网页总有一些不规整的数据来导致拿数据的麻烦,比如如下这种 [crayon-63d884ed3bbf1765881810/] …

5月 14, 2018 3条评论 25,914次阅读 9人点赞 阅读全文
linux

[系统] 阻塞非阻塞,同步与异步

目录 前言 示意 分析 总结 前言 我们在写代码的时候,会遇到大量的IO操作,http请求,读写文件,读数据库,对于IO的操作,我们听到了太多的异步,同步,阻塞与非阻塞的操作,可是我们一直没有去深入的理解他的意义到底在哪…

5月 7, 2018 0条评论 8,991次阅读 2人点赞 阅读全文
linux

[工程] linux操作下的利器-tmux

内容 源起 使用 注意 总结 源起 某天小伙伴看我正在辛勤的打开一个又一个窗口,然后跑一些长时间任务然后又要开另外一个窗口重新ssh到服务器上的繁琐操作,如下图所示 小伙伴顺口来了一句,你为啥不用tmux呢。你这样挂起任…

5月 4, 2018 0条评论 8,942次阅读 4人点赞 阅读全文
linux

[tmux] version 2.1 存在缓存bug

目录 起因 分析 解决 起因 在tmux session 之中 ,尝试修改一个文件内容,发现于tmux 外部 查看该文件内容压根就没有修改到,只能从外部来进行处理 分析 在folder文件夹下有如下两个文件夹 test …

3月 20, 2018 1条评论 8,097次阅读 1人点赞 阅读全文
linux

[工程] python下的测试利器pytest

目录 引言 准备 项目 总结 引言 我想现在应该很少有公司一直在主推TDD了,因为这无形之中增加了工作量,在追求极致开发的时候,一般都是能先上就先上,把主体的功能不管三七二十一怼出来再说,出了问题就直接改,也不管你的代码…

3月 3, 2018 0条评论 10,243次阅读 2人点赞 阅读全文
所有

29之前,29之后

引言 大概在3年前,我写过 <26之前,26之后>,从刚参加工作到工作2年之后一些蜕变与感悟,如果将之前的时间比作新手上路,体会到了道路的崎岖与速度的激情,我想这一年的更多的时间就是停车自检,自省身上发生的问题 目…

2月 10, 2018 5条评论 12,454次阅读 10人点赞 阅读全文
所有

[可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据存储入mongodb

总览 环境 分析 猜想 实施 总结 环境 mac or ubuntu 16.04 docker 分析 上一章节,==> [可视化抓取]portia2.0尝鲜体验以及自动化畅想-数据输出以及原理分析 <== 我们已经…

10月 9, 2017 9条评论 26,670次阅读 8人点赞 阅读全文
linux

[经验]如何优雅的在docker下断点调试debug

纲领 前言 使用 过程 配置 总结 前言 随着docker的普及,现在更多的生产线上的程序都是打包成docker 应用,这样方便环境的隔离,也能提高资源的利用率,不过一旦出了问题,怎么debug就成了一个难题,我可暂时没…

9月 28, 2017 2条评论 44,059次阅读 7人点赞 阅读全文
所有

python对象下的可变类型与不可变类型

前言 python对象对于修改这个行为,大家的操作方式都是不一样的。有些对象是可变类型,所以他就可以直接修改。其它的都是不可变类型,那我们要修改他时怎么办呢,这个时候就新生成的一个对象,然后将变量名指向这个新对象,修改动…

9月 13, 2017 0条评论 10,102次阅读 2人点赞 阅读全文
linux

[转载]Python垃圾回收机制

转载自:http://www.jianshu.com/p/1e375fb40506 ,感谢作者 先来个概述,第二部分的画述才是厉害的。 Garbage collection(GC) 现在的高级语言如java,c#等,都采…

9月 5, 2017 1条评论 10,462次阅读 2人点赞 阅读全文
  • «
  • <
  • 1
  • 2
  • 3
  • 4
  • 5
  • >
  • »

Talent is enduring patience.

搜索内容

python 爬虫 scrapy 大数据 etl spider ssis docker 建议 调度 selenium python3 bi,微软大数据 docker-compose 基础 优化 分布式 可视化 读书 源码 工程 linux C# ubuntu 视觉化爬虫 yield tmux golang chrome 同步 异步 推荐 底层 phantomjs 渲染 经验 协程 验证码 portia 错误 中间件 分析 定时任务 代码生成器 webapi splash dagobah .net Core error async

近期更新

  • [c++] vscode c++ clang格式化定义 1月 19, 2022
  • 从0到1设计一套高性能隧道代理系统 10月 12, 2021
  • [python好库推荐] selenium-driver 自动安装 5月 10, 2021
  • [Clock]没错!就是让你点点点完成可视化任务调度! 7月 16, 2020
  • [经验]入手golang,对比python聊聊想法 12月 18, 2019

归档

友情链接

  • 崔庆才的博客
  • 打工细胞
  • 灯塔水母
  • 烂笔头
  • 韦世东的技术专栏

好用工具

  • 代理IP

Copyright 2023 大鱼的鱼塘. All Rights Reserved.
Theme Kratos made by Vtrois
粤ICP备15115182号-1