分类 所有 中的文章

数学之美--关于图论引申出来的爬虫构想

转载请注明出处:http://www.cnblogs.com/codefish/p/4971664.html在了解爬虫之前,我一直认为是简单的对单一网站的采集,无非就是对于一个域名内定点的数据抓取而已,2012年买了《数学之美》后,就一直没有正儿八经的看,或者当时看了之后,由于自……

阅读全文

【转】Bloom Filter布隆过滤器的概念和原理

转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的算法,一直在听这个名词,但一直没有正儿八经的去了解,今天看到了一篇关于Bloom Filter……

阅读全文

【转】Python中的GIL、多进程和多线程

<ul> <li> [1. GIL(Global Interpretor Lock,全局解释器锁)](http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html#sec-1) </li> <li> [2. threading](http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html#sec-2) <ul> <li> [2.1. 创建线程](http://lesliezhu.github.……

阅读全文

爬虫应该怎么部署到ubuntu上

环境准备 ubuntu服务器 scrapyd scrapyd-client 一个写好的scrapy爬虫文件 开始执行 安装package pip install scrapyd pip install scrapyd-client 开启scrapyd服务器 直接在某个窗口执行命令scrapyd,会得到以下信息 2017-06-23T12:05:35+0800 [-] Loading /Users/brucedone/anaconda/envs/scrapy_project/lib/python2.7/site-packages/scrapyd/txapp.py... 2017-06-23T12:05:36+0800 [-] Scrapyd web console available at http://127.0.0.1:6800/ 2017-06-23T12:05:36+0800 [-] Loaded. 2017-06-23T12:05:36+0800 [twisted.scripts._twistd_unix.UnixAppLogger#info] twistd 16.5.0 (/Users/brucedone/anaconda/envs/scrapy_project/bin/python 2.7.12) starting up. 2017-06-23T12:05:36+0800 [twisted.scripts._twistd_unix.UnixAppLogger#info] reactor class: twisted.internet.selectreactor.SelectReactor. 2017-06-23T12:05:36+0800 [-] Site starting on 6800 2017-06-23T12:05:36+0800 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site instance at 0x106da50e0> 2017-06-23T12:05:36+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner=u'scrapyd.runner' 如上所示……

阅读全文

django book 阅读笔记

思考 django是一个十分优秀的python web的框架,那框架的是什么? 假设我们不使用框架来进行编写,我们要用如下的代码进行web脚本: #!/usr/bin/env python import MySQLdb print "Content-Type: text/html\n" print "Books" print "" print "``` <h1>Books</h1> " print connection = MySQLdb.connect(user='me', passwd='letmein', db='my_db') cursor = connection.cursor() cursor.execute("SELECT name FROM books ORDER BY pub_date DESC LIMIT 10") for row in cursor.fetchall(): print "<li>%s</li></ul></ul>" % row[0] connection.close() 那我们如果有很多的页面 ,那针对于各种网页来都要编写不同的……

阅读全文

30分钟快速搭建Web CRUD的管理平台--django神奇魔法

加上你的准备的时间,估计30分钟完全够用了,因为最近在做爬虫管理平台,想着快速开发,没想到python web平台下有这么非常方便的框架,简洁而优雅。将自己的一些坑总结出来,方便给大家的使用。 准备环境: 系统:win7 or ubuntu django版本:1.8.5 python版本:2.7.6 数据库……

阅读全文

Python基础学习导引--条件,循环和其它语句(读书笔记)

一,打印 Print语句可以用来打印由逗号隔开的多个值。如果语句以逗号结尾,后面的语句会在同一行内被继续打印,这一点和VB的语法有点像 name = 'this' name_1 = 'is' name_2 = 2 print name,name_1,'not',name_2 输出: this is not 2 二,导入 有些时候,你可以将import ….as….语句进行函数的局部重命名,和.ne……

阅读全文

一个开发者的独白--ubuntu下的常用命令及常用软件及设置

命令合集 1.最常用的 sudo apt-get install 软件名 2.cd 命令 切换目录 直接打cd命令,切换到home目录之下 打完cd然后 按tab ,可以自动完成一些命令,相当的实用 3.mkdir 创建文件夹 4.rm -r 删除文件夹或者文件 5.ls -al 列出全部的文件 6.ls -l 列出权限信息 7.pwd 列出当前的目录 8.sh 脚本名,运行shell 脚本 9.find / -name 要找的文件名 10.chmod 更改文件夹……

阅读全文

一个开发者的独白-linux的转入使用

背景 昨天花了一点的时间安装ubuntu14.04,安装的过程满快的,说实话,ubuntu带给我的不仅仅是惊奇,确实相当的好用。到现在为止,遇到了相当多的坑,我在这里记录一下自己的历程 下载与版本选择 先说说自己的配置,公司发的笔记本,500g硬盘,双核CPU , 2G 内存,相当的一般的配置……

阅读全文

最近文章

分类

标签

.net Core 2.1 2016 2017 2018 30 aliyun api async bi,微软大数据 blocking bug C# celery charles chrome chrome headless clang conda coroutine cron cuda dag dagobah darknet debug docker docker-compose dotnet core echo elk epoll error error_code etl flask GC go golang google gpu gunicorn http javascript linux lxml mac message queue mongodb nginx node non-blocking nvidia nvidia-docker opencv oss phantomjs pipeline portia proxy pycharm pytest python python-rq python2.7 python3 remote debug rq scrapy select selenium selenium-web-driver spider splash ssis sync TDD Template Tensorflow test tmux torch ubuntu venv video vscode web web framework webapi whistle xpath yield yolo yolov3 中间件 事件 人生 代理 代码 代码生成器 代码风格 优化 使用 分布式 分析 协程 卓老板聊科技 原理 可变类型 可视化 同步 垃圾回收 培训 基础 处理 多线程 大数据 学习 定时 定时任务 容器 工具 工程 底层 建议 异步 录制 心得 心得,python,培训班 总结 感悟 成长 打断点 技巧 推荐 插件 搜索引擎 播放 效率 数据 数据库 数据清洗 整洁 无头浏览器 日志 机器学习 架构 死亡 测试 消息队列 深度学习 渲染 源码 源码分析 点击 爬虫 状态码 生活 癌症 监听 破解验证码 线程 经验 网关 自我管理 自由 虚拟环境 视觉化爬虫 视频 设计 读书 调度 调试 负载均衡 远程调试 错误 阻塞 阿里云 隧道 隧道代理 集群 非阻塞 项目管理 验证码

友情链接

其它