分类 爬虫 中的文章

一个开发者的独白-linux的转入使用

背景 昨天花了一点的时间安装ubuntu14.04,安装的过程满快的,说实话,ubuntu带给我的不仅仅是惊奇,确实相当的好用。到现在为止,遇到了相当多的坑,我在这里记录一下自己的历程 下载与版本选择 先说说自己的配置,公司发的笔记本,500g硬盘,双核CPU , 2G 内存,相当的一般的配置……

阅读全文

python下的自动化测试--selenium 验证码输入问题

背景 之前一直在研究scrapy下数据抓取,在研究ajax数据抓取时碰巧研究了一下selenium,确实很实用,不过只做scrapy下的数据抓取,不怎么合适 一是性能的损耗,一直需要开一个浏览器 二是对于爬虫来说,分析ajax的请求才是正事 好吧,说远了,今天来扯一下我对于自动化测试一些……

阅读全文

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。 我们选从逻辑上来看,这种爬虫是如何工作的: 我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然……

阅读全文

(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式,数据输出方式以及数据库链接

[2016-11-21更新]关于demo代码,请参考: ===>scrapy_demo<=== 放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题 如何连续爬取 数据输出方式 数据库链接 如何连续爬取 思考:要达到连续爬取,逻辑上无非从以下的方向着手 预加载需要爬取的列表,直接到这个列表都处理完,相应的……

阅读全文

使用scrapy有用的一些细节点

使用心得 extract()方法得到的都是数组,所以如果你要撮出来一个字符串,使用join方法就可以了,记得判断是否为空 settings如果你要自己定义的header,记得禁用cookie_enable ,不然会带上自定义的header 可以使用respose.body_as_unic……

阅读全文

(2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍

本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法: 猜想 我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) 2.解析文档对象(将请求的网页当作是html文档还是字符串) 3.承载所需要的解析对象(标准格……

阅读全文

(1)分布式下的爬虫Scrapy应该如何做-安装

windows 关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下载地址:http://continuum.io/downloads 两个版本,64位……

阅读全文

(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

回顾 上次说到关于已经成功得到数据了。 请看第一期链接:个人使用小爬虫-关于一次被论坛封号而搜索的思考 分析 那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式 [双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]以开始,结束 那简单的正则表达就应该……

阅读全文

(1)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

前段时间上了某论坛的技术讨论区,习惯性的打开搜索看有没有我需要的内容,一登陆账号,发现自己被禁言了,连基本的搜索功能也被限制了。无奈只能手动的一个一个会找帖子。我去,竟然有200多页,每页有40第数据,这样纯手工的方式实在是太蛋疼了。 前段时间自己不是写了一个小爬虫吗?于是我的个人……

阅读全文

最近文章

分类

标签

.net Core 2.1 2016 2017 2018 30 aliyun api async bi,微软大数据 blocking bug C# celery charles chrome chrome headless clang conda coroutine cron cuda dag dagobah darknet debug docker docker-compose dotnet core echo elk epoll error error_code etl flask GC go golang google gpu gunicorn http javascript linux lxml mac message queue mongodb nginx node non-blocking nvidia nvidia-docker opencv oss phantomjs pipeline portia proxy pycharm pytest python python-rq python2.7 python3 remote debug rq scrapy select selenium selenium-web-driver spider splash ssis sync TDD Template Tensorflow test tmux torch ubuntu venv video vscode web web framework webapi whistle xpath yield yolo yolov3 中间件 事件 人生 代理 代码 代码生成器 代码风格 优化 使用 分布式 分析 协程 卓老板聊科技 原理 可变类型 可视化 同步 垃圾回收 培训 基础 处理 多线程 大数据 学习 定时 定时任务 容器 工具 工程 底层 建议 异步 录制 心得 心得,python,培训班 总结 感悟 成长 打断点 技巧 推荐 插件 搜索引擎 播放 效率 数据 数据库 数据清洗 整洁 无头浏览器 日志 机器学习 架构 死亡 测试 消息队列 深度学习 渲染 源码 源码分析 点击 爬虫 状态码 生活 癌症 监听 破解验证码 线程 经验 网关 自我管理 自由 虚拟环境 视觉化爬虫 视频 设计 读书 调度 调试 负载均衡 远程调试 错误 阻塞 阿里云 隧道 隧道代理 集群 非阻塞 项目管理 验证码

友情链接

其它