数学之美--关于图论引申出来的爬虫构想

转载请注明出处:http://www.cnblogs.com/codefish/p/4971664.html在了解爬虫之前,我一直认为是简单的对单一网站的采集,无非就是对于一个域名内定点的数据抓取而已,2012年买了《数学之美》后,就一直没有正儿八经的看,或者当时看了之后,由于自……

阅读全文

【转】Bloom Filter布隆过滤器的概念和原理

转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的算法,一直在听这个名词,但一直没有正儿八经的去了解,今天看到了一篇关于Bloom Filter……

阅读全文

【转】Python中的GIL、多进程和多线程

<ul> <li> [1. GIL(Global Interpretor Lock,全局解释器锁)](http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html#sec-1) </li> <li> [2. threading](http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html#sec-2) <ul> <li> [2.1. 创建线程](http://lesliezhu.github.……

阅读全文

(7)分布式下的爬虫Scrapy应该如何做-关于伪装和防Ban的那点事儿

背景 写好的爬虫放在网上爬,被ban其实是一件很郁闷的事情,现在各个网站都会有相应的防爬的措施,一般来说模拟请求头一般都够了,不过仅仅是模拟请求头够么,答案当然是否定的,我们至少需要手动的打开一个网站,用fiddler 或者Chrome 的 F12 来具体看看我们一次真实的请求都做了哪些操作。……

阅读全文

python下的orm基本操作(1)--Mysql下的CRUD简单操作(含源码DEMO)

最近逐渐打算将工作的环境转移到ubuntu下,突然发现对于我来说,这ubuntu对于我这种上上网,收收邮件,写写博客,写写程序的时实在是太合适了,除了刚接触的时候会不怎么完全适应命令行及各种权限管理,apt-get命令相当的方便,各种原先在windows下各种奇怪错误在ubunt……

阅读全文

爬虫应该怎么部署到ubuntu上

环境准备 ubuntu服务器 scrapyd scrapyd-client 一个写好的scrapy爬虫文件 开始执行 安装package pip install scrapyd pip install scrapyd-client 开启scrapyd服务器 直接在某个窗口执行命令scrapyd,会得到以下信息 2017-06-23T12:05:35+0800 [-] Loading /Users/brucedone/anaconda/envs/scrapy_project/lib/python2.7/site-packages/scrapyd/txapp.py... 2017-06-23T12:05:36+0800 [-] Scrapyd web console available at http://127.0.0.1:6800/ 2017-06-23T12:05:36+0800 [-] Loaded. 2017-06-23T12:05:36+0800 [twisted.scripts._twistd_unix.UnixAppLogger#info] twistd 16.5.0 (/Users/brucedone/anaconda/envs/scrapy_project/bin/python 2.7.12) starting up. 2017-06-23T12:05:36+0800 [twisted.scripts._twistd_unix.UnixAppLogger#info] reactor class: twisted.internet.selectreactor.SelectReactor. 2017-06-23T12:05:36+0800 [-] Site starting on 6800 2017-06-23T12:05:36+0800 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site instance at 0x106da50e0> 2017-06-23T12:05:36+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner=u'scrapyd.runner' 如上所示……

阅读全文

(5.1)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置

软件版本: redis-2.4.6-setup-64-bit.exe — Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备,我们知道单机的爬虫始终会有一个性能瓶颈,特别是对于是否爬过的URL来说,存在本地关系型的数据库始终会有一个性能上的考究,这里引入redis,可以很方便的通过集群来解决这个问题,在任何大的问题解决……

阅读全文

django book 阅读笔记

思考 django是一个十分优秀的python web的框架,那框架的是什么? 假设我们不使用框架来进行编写,我们要用如下的代码进行web脚本: #!/usr/bin/env python import MySQLdb print "Content-Type: text/html\n" print "Books" print "" print "``` <h1>Books</h1> " print connection = MySQLdb.connect(user='me', passwd='letmein', db='my_db') cursor = connection.cursor() cursor.execute("SELECT name FROM books ORDER BY pub_date DESC LIMIT 10") for row in cursor.fetchall(): print "<li>%s</li></ul></ul>" % row[0] connection.close() 那我们如果有很多的页面 ,那针对于各种网页来都要编写不同的……

阅读全文

最近文章

分类

标签

友情链接

其它