思考 django是一个十分优秀的python web的框架,那框架的是什么? 假设我们不使用框架来进行编写,我们要用如下的代码进行web脚本: #!/usr/bin/env python import MySQLdb print "Content-Type: text/html\n" print "Books" print "" print "``` <h1>Books</h1> " print connection = MySQLdb.connect(user='me', passwd='letmein', db='my_db') cursor = connection.cursor() cursor.execute("SELECT name FROM books ORDER BY pub_date DESC LIMIT 10") for row in cursor.fetchall(): print "<li>%s</li></ul></ul>" % row[0] connection.close() 那我们如果有很多的页面 ,那针对于各种网页来都要编写不同的……
阅读全文
加上你的准备的时间,估计30分钟完全够用了,因为最近在做爬虫管理平台,想着快速开发,没想到python web平台下有这么非常方便的框架,简洁而优雅。将自己的一些坑总结出来,方便给大家的使用。 准备环境: 系统:win7 or ubuntu django版本:1.8.5 python版本:2.7.6 数据库……
阅读全文
一,打印 Print语句可以用来打印由逗号隔开的多个值。如果语句以逗号结尾,后面的语句会在同一行内被继续打印,这一点和VB的语法有点像 name = 'this' name_1 = 'is' name_2 = 2 print name,name_1,'not',name_2 输出: this is not 2 二,导入 有些时候,你可以将import ….as….语句进行函数的局部重命名,和.ne……
阅读全文
命令合集 1.最常用的 sudo apt-get install 软件名 2.cd 命令 切换目录 直接打cd命令,切换到home目录之下 打完cd然后 按tab ,可以自动完成一些命令,相当的实用 3.mkdir 创建文件夹 4.rm -r 删除文件夹或者文件 5.ls -al 列出全部的文件 6.ls -l 列出权限信息 7.pwd 列出当前的目录 8.sh 脚本名,运行shell 脚本 9.find / -name 要找的文件名 10.chmod 更改文件夹……
阅读全文
背景 昨天花了一点的时间安装ubuntu14.04,安装的过程满快的,说实话,ubuntu带给我的不仅仅是惊奇,确实相当的好用。到现在为止,遇到了相当多的坑,我在这里记录一下自己的历程 下载与版本选择 先说说自己的配置,公司发的笔记本,500g硬盘,双核CPU , 2G 内存,相当的一般的配置……
阅读全文
背景 之前一直在研究scrapy下数据抓取,在研究ajax数据抓取时碰巧研究了一下selenium,确实很实用,不过只做scrapy下的数据抓取,不怎么合适 一是性能的损耗,一直需要开一个浏览器 二是对于爬虫来说,分析ajax的请求才是正事 好吧,说远了,今天来扯一下我对于自动化测试一些……
阅读全文
本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。 我们选从逻辑上来看,这种爬虫是如何工作的: 我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然……
阅读全文
前段时间写脚本,一直使用的是pycharm ,无奈机器不配置实在不怎么样,我记得之前用过subline text,这是我用过的最酷炫的文本编辑器,参考了一下网上的文章,自己走了一些弯路,将心得写在这里,方便给需要帮助的人: 这是完成配置后的界面: 一,下载subline text 3 官网:http……
阅读全文
调度组件 scrapyd (pip 安装) tiktok (docker安装) - 点击跳转 环境:ubuntu14.04 分析 我们使用scrapyd作为爬虫的执行者,关于scrapyd部署爬虫,请参考文章爬虫应该怎么部署到ubuntu上,这样在每一台机器都留出了http的api接口,我们只需要使用一个定时任务就可以正常的轮……
阅读全文
[2016-11-21更新]关于demo代码,请参考: ===>scrapy_demo<=== 放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题 如何连续爬取 数据输出方式 数据库链接 如何连续爬取 思考:要达到连续爬取,逻辑上无非从以下的方向着手 预加载需要爬取的列表,直接到这个列表都处理完,相应的……
阅读全文