从.net转型，聊聊最近一些面试,薪资和想法

2015年12月1日

| linux 所有

上一个星期，一篇名为《.net估计要写在你手里了》几乎点燃了整个园子，有人群情激愤了，有人点赞的，有人上去打算喷博主个体无完肤的，总之，这篇博客很成功的引起一些.net 从业者的思考，也包括我。写那篇博客的人是一名从业6年的.net coder，之所以定义为coder，我在回顾了博主……

阅读全文

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(1)

2015年11月24日

| linux 所有爬虫

转载请注明出处：http://www.cnblogs.com/codefish/p/4993809.html 最近在群里频繁的被问到ajax和js的处理问题，我们都知道，现在很多的页面都是用动态加载的技术，这一方面带来了良好的页面体验，另一方面，在抓取时或者或少的带来了相当大的麻烦……

阅读全文

数学之美--关于图论引申出来的爬虫构想

2015年11月16日

| linux 所有爬虫

转载请注明出处：http://www.cnblogs.com/codefish/p/4971664.html在了解爬虫之前，我一直认为是简单的对单一网站的采集，无非就是对于一个域名内定点的数据抓取而已，2012年买了《数学之美》后，就一直没有正儿八经的看，或者当时看了之后，由于自……

阅读全文

(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)

2015年11月15日

| linux 所有爬虫

转载主注明出处：http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中，我们遇到比较多需求就是文件下载以及图片下载，在其它的语言或者框架中，我们可能在经过数据筛选，然后异步的使用文件下载类来达到目的，Scrapy框架中本身已经实现了文……

阅读全文

【转】Bloom Filter布隆过滤器的概念和原理

2015年11月13日

| linux 所有

转自：http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽，里面有提到布隆过滤器的过滤垃圾邮件，感觉到何其的牛，竟然有这么高效的算法，一直在听这个名词，但一直没有正儿八经的去了解，今天看到了一篇关于Bloom Filter……

阅读全文

【转】Python中的GIL、多进程和多线程

2015年11月13日

| linux 所有

<ul> <li> [1. GIL(Global Interpretor Lock,全局解释器锁)](http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html#sec-1) </li> <li> [2. threading](http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html#sec-2) <ul> <li> [2.1. 创建线程](http://lesliezhu.github.……

阅读全文

(7)分布式下的爬虫Scrapy应该如何做-关于伪装和防Ban的那点事儿

2015年11月10日

| linux 爬虫

背景写好的爬虫放在网上爬，被ban其实是一件很郁闷的事情，现在各个网站都会有相应的防爬的措施，一般来说模拟请求头一般都够了，不过仅仅是模拟请求头够么，答案当然是否定的，我们至少需要手动的打开一个网站，用fiddler 或者Chrome 的 F12 来具体看看我们一次真实的请求都做了哪些操作。……

阅读全文

python下的orm基本操作(1)--Mysql下的CRUD简单操作(含源码DEMO)

2015年11月8日

| linux

最近逐渐打算将工作的环境转移到ubuntu下，突然发现对于我来说，这ubuntu对于我这种上上网，收收邮件，写写博客，写写程序的时实在是太合适了，除了刚接触的时候会不怎么完全适应命令行及各种权限管理，apt-get命令相当的方便，各种原先在windows下各种奇怪错误在ubunt……

阅读全文

爬虫应该怎么部署到ubuntu上

2015年11月7日

| 所有爬虫

环境准备 ubuntu服务器 scrapyd scrapyd-client 一个写好的scrapy爬虫文件开始执行安装package pip install scrapyd pip install scrapyd-client 开启scrapyd服务器直接在某个窗口执行命令scrapyd,会得到以下信息 2017-06-23T12:05:35+0800 [-] Loading /Users/brucedone/anaconda/envs/scrapy_project/lib/python2.7/site-packages/scrapyd/txapp.py... 2017-06-23T12:05:36+0800 [-] Scrapyd web console available at http://127.0.0.1:6800/ 2017-06-23T12:05:36+0800 [-] Loaded. 2017-06-23T12:05:36+0800 [twisted.scripts._twistd_unix.UnixAppLogger#info] twistd 16.5.0 (/Users/brucedone/anaconda/envs/scrapy_project/bin/python 2.7.12) starting up. 2017-06-23T12:05:36+0800 [twisted.scripts._twistd_unix.UnixAppLogger#info] reactor class: twisted.internet.selectreactor.SelectReactor. 2017-06-23T12:05:36+0800 [-] Site starting on 6800 2017-06-23T12:05:36+0800 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site instance at 0x106da50e0> 2017-06-23T12:05:36+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner=u'scrapyd.runner' 如上所示……

阅读全文

(6)分布式下的爬虫Scrapy应该如何做-关于打断点Debug的那些事儿

2015年11月5日

| 爬虫

写完了一个爬虫，最重要的就是测试，然后各种Debug，下面我用三种方式来介绍我总结出来的Debug，由浅入深的深入里面的细节部分。初级的Debug 一般来说，当选中了一个页面，最重要的逻辑一般都包含在xpath表达式里面，所以，在这里我们可以直接scrapy shell的方式来去验证……

阅读全文

大鱼的鱼塘

从.net转型，聊聊最近一些面试,薪资和想法

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(1)

数学之美--关于图论引申出来的爬虫构想

(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)

【转】Bloom Filter布隆过滤器的概念和原理

【转】Python中的GIL、多进程和多线程

(7)分布式下的爬虫Scrapy应该如何做-关于伪装和防Ban的那点事儿

python下的orm基本操作(1)--Mysql下的CRUD简单操作(含源码DEMO)

爬虫应该怎么部署到ubuntu上

(6)分布式下的爬虫Scrapy应该如何做-关于打断点Debug的那些事儿

最近文章

分类

标签

友情链接

其它