分类 爬虫 中的文章

一个开发者的独白-linux的转入使用

背景 昨天花了一点的时间安装ubuntu14.04,安装的过程满快的,说实话,ubuntu带给我的不仅仅是惊奇,确实相当的好用。到现在为止,遇到了相当多的坑,我在这里记录一下自己的历程 下载与版本选择 先说说自己的配置,公司发的笔记本,500g硬盘,双核CPU , 2G 内存,相当的一般的配置……

阅读全文

python下的自动化测试--selenium 验证码输入问题

背景 之前一直在研究scrapy下数据抓取,在研究ajax数据抓取时碰巧研究了一下selenium,确实很实用,不过只做scrapy下的数据抓取,不怎么合适 一是性能的损耗,一直需要开一个浏览器 二是对于爬虫来说,分析ajax的请求才是正事 好吧,说远了,今天来扯一下我对于自动化测试一些……

阅读全文

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。 我们选从逻辑上来看,这种爬虫是如何工作的: 我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然……

阅读全文

(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式,数据输出方式以及数据库链接

[2016-11-21更新]关于demo代码,请参考: ===>scrapy_demo<=== 放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题 如何连续爬取 数据输出方式 数据库链接 如何连续爬取 思考:要达到连续爬取,逻辑上无非从以下的方向着手 预加载需要爬取的列表,直接到这个列表都处理完,相应的……

阅读全文

使用scrapy有用的一些细节点

使用心得 extract()方法得到的都是数组,所以如果你要撮出来一个字符串,使用join方法就可以了,记得判断是否为空 settings如果你要自己定义的header,记得禁用cookie_enable ,不然会带上自定义的header 可以使用respose.body_as_unic……

阅读全文

(2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍

本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法: 猜想 我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) 2.解析文档对象(将请求的网页当作是html文档还是字符串) 3.承载所需要的解析对象(标准格……

阅读全文

(1)分布式下的爬虫Scrapy应该如何做-安装

windows 关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下载地址:http://continuum.io/downloads 两个版本,64位……

阅读全文

(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

回顾 上次说到关于已经成功得到数据了。 请看第一期链接:个人使用小爬虫-关于一次被论坛封号而搜索的思考 分析 那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式 [双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]以开始,结束 那简单的正则表达就应该……

阅读全文

(1)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

前段时间上了某论坛的技术讨论区,习惯性的打开搜索看有没有我需要的内容,一登陆账号,发现自己被禁言了,连基本的搜索功能也被限制了。无奈只能手动的一个一个会找帖子。我去,竟然有200多页,每页有40第数据,这样纯手工的方式实在是太蛋疼了。 前段时间自己不是写了一个小爬虫吗?于是我的个人……

阅读全文

最近文章

分类

标签

友情链接

其它