包含标签 基础 中的文章

[scrapy] images pipeline分析– 下载图片如何上传到阿里云服务

目录 源起 准备 分析 实践 总结 源起 现在网上已经有很多方便的云存储了,比如阿里云的oss,亚马逊的s3 ,Azure 的blob,云的储存对于大数据量的文件或者图片来说,绝对是相当的方便,现在我们就来分析一下,如何使用scrapy的pipeline ,将我们下载图片直接上传到我们的阿里云oss……

阅读全文

[爬虫]python下的xpath清洗数据之html数据清洗

目录 源起 分析 解决 总结 源起 现在我们面对一些爬虫数据,特别是对于web网页的爬取的时候,网页总有一些不规整的数据来导致拿数据的麻烦,比如如下这种 <html> <p>111</p> <p>222</p> <p>333</p> <p>444 <script> eeeeeeeeeeee </script> </p> <p>555 <script> aabbccddd </script> </p> </html> 我只想拿到111,222,333,444,555这些有效的信息,因为有些p标签里面会引入script元素,导致……

阅读全文

python对象下的可变类型与不可变类型

前言 python对象对于修改这个行为,大家的操作方式都是不一样的。有些对象是可变类型,所以他就可以直接修改。其它的都是不可变类型,那我们要修改他时怎么办呢,这个时候就新生成的一个对象,然后将变量名指向这个新对象,修改动作就完成了。关于可变类型与不可变类型的一个特点,我们可以先看看……

阅读全文

[转载]Python垃圾回收机制

转载自:http://www.jianshu.com/p/1e375fb40506 ,感谢作者 先来个概述,第二部分的画述才是厉害的。 Garbage collection(GC) 现在的高级语言如java,c#等,都采用了垃圾收集机制,而不再是c,c++里用户自己管理维护内存的方式。自己管理内存极其自由,可以任意申请内存,但……

阅读全文

[python]yield使用的最佳实践[1]

http://www.dabeaz.com/coroutines/Coroutines.pdf 准备 python: 2.7.12 os: mac os 结论 [使用场景] 迭代生成数据(生产者) 接收数据(消费者) 中断(协作式的任务) 任何脱离以上三个场景的使用yield,请使用其它方法处理,yield是很好用,但不至于到处都可以使用的地步 协程和生成器-Coroutines and Generators 在python2.5 开始 ,生成器就已经加入一……

阅读全文

最近文章

分类

标签

友情链接

其它