(5.1)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置

2015年11月4日

| 爬虫

软件版本： redis-2.4.6-setup-64-bit.exe — Redis 2.4.6 Windows Setup (64-bit) 系统： win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备，我们知道单机的爬虫始终会有一个性能瓶颈，特别是对于是否爬过的URL来说，存在本地关系型的数据库始终会有一个性能上的考究，这里引入redis，可以很方便的通过集群来解决这个问题，在任何大的问题解决……

阅读全文

django book 阅读笔记

2015年10月19日

| 所有

思考 django是一个十分优秀的python web的框架，那框架的是什么？假设我们不使用框架来进行编写，我们要用如下的代码进行web脚本： #!/usr/bin/env python import MySQLdb print "Content-Type: text/html\n" print "Books" print "" print "``` <h1>Books</h1> " print connection = MySQLdb.connect(user='me', passwd='letmein', db='my_db') cursor = connection.cursor() cursor.execute("SELECT name FROM books ORDER BY pub_date DESC LIMIT 10") for row in cursor.fetchall(): print "<li>%s</li></ul></ul>" % row[0] connection.close() 那我们如果有很多的页面，那针对于各种网页来都要编写不同的……

阅读全文

30分钟快速搭建Web CRUD的管理平台--django神奇魔法

2015年10月18日

| 所有

加上你的准备的时间，估计30分钟完全够用了，因为最近在做爬虫管理平台，想着快速开发，没想到python web平台下有这么非常方便的框架，简洁而优雅。将自己的一些坑总结出来，方便给大家的使用。准备环境：系统：win7 or ubuntu django版本：1.8.5 python版本：2.7.6 数据库……

阅读全文

Python基础学习导引--条件，循环和其它语句(读书笔记)

2015年10月14日

| 所有

一，打印 Print语句可以用来打印由逗号隔开的多个值。如果语句以逗号结尾，后面的语句会在同一行内被继续打印，这一点和VB的语法有点像 name = 'this' name_1 = 'is' name_2 = 2 print name,name_1,'not',name_2 输出： this is not 2 二，导入有些时候，你可以将import ….as….语句进行函数的局部重命名，和.ne……

阅读全文

一个开发者的独白--ubuntu下的常用命令及常用软件及设置

2015年10月12日

| 所有

命令合集 1.最常用的 sudo apt-get install 软件名 2.cd 命令切换目录直接打cd命令，切换到home目录之下打完cd然后按tab ，可以自动完成一些命令，相当的实用 3.mkdir 创建文件夹 4.rm -r 删除文件夹或者文件 5.ls -al 列出全部的文件 6.ls -l 列出权限信息 7.pwd 列出当前的目录 8.sh 脚本名，运行shell 脚本 9.find / -name 要找的文件名 10.chmod 更改文件夹……

阅读全文

一个开发者的独白-linux的转入使用

2015年9月24日

| 所有爬虫

背景昨天花了一点的时间安装ubuntu14.04，安装的过程满快的，说实话，ubuntu带给我的不仅仅是惊奇，确实相当的好用。到现在为止，遇到了相当多的坑，我在这里记录一下自己的历程下载与版本选择先说说自己的配置，公司发的笔记本，500g硬盘，双核CPU , 2G 内存，相当的一般的配置……

阅读全文

python下的自动化测试--selenium 验证码输入问题

2015年9月22日

| 所有爬虫

背景之前一直在研究scrapy下数据抓取，在研究ajax数据抓取时碰巧研究了一下selenium，确实很实用，不过只做scrapy下的数据抓取，不怎么合适一是性能的损耗，一直需要开一个浏览器二是对于爬虫来说，分析ajax的请求才是正事好吧，说远了，今天来扯一下我对于自动化测试一些……

阅读全文

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

2015年9月15日

| 爬虫

本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递，规则下的爬虫在我看来才是真正意义上的爬虫。我们选从逻辑上来看，这种爬虫是如何工作的：我们给定一个起点的url link ，进入页面之后提取所有的ur 链接，我们定义一个规则，根据规则(用正则表达式来限制)来提取我们想要的连接形式，然……

阅读全文

【实用】如何将sublime text 3 打造成实用的python IDE 环境

2015年9月14日

| 所有

前段时间写脚本，一直使用的是pycharm ，无奈机器不配置实在不怎么样，我记得之前用过subline text，这是我用过的最酷炫的文本编辑器，参考了一下网上的文章，自己走了一些弯路，将心得写在这里，方便给需要帮助的人：这是完成配置后的界面：一，下载subline text 3 官网:http……

阅读全文

(5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想

2015年9月10日

| linux 爬虫

调度组件 scrapyd (pip 安装) tiktok (docker安装) - 点击跳转环境:ubuntu14.04 分析我们使用scrapyd作为爬虫的执行者，关于scrapyd部署爬虫，请参考文章爬虫应该怎么部署到ubuntu上，这样在每一台机器都留出了http的api接口，我们只需要使用一个定时任务就可以正常的轮……

阅读全文

大鱼的鱼塘

(5.1)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置

django book 阅读笔记

30分钟快速搭建Web CRUD的管理平台--django神奇魔法

Python基础学习导引--条件，循环和其它语句(读书笔记)

一个开发者的独白--ubuntu下的常用命令及常用软件及设置

一个开发者的独白-linux的转入使用

python下的自动化测试--selenium 验证码输入问题

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

【实用】如何将sublime text 3 打造成实用的python IDE 环境

(5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想

最近文章

分类

标签

友情链接

其它