包含标签 建议 中的文章

[scrapy] images pipeline分析– 下载图片如何上传到阿里云服务

目录 源起 准备 分析 实践 总结 源起 现在网上已经有很多方便的云存储了,比如阿里云的oss,亚马逊的s3 ,Azure 的blob,云的储存对于大数据量的文件或者图片来说,绝对是相当的方便,现在我们就来分析一下,如何使用scrapy的pipeline ,将我们下载图片直接上传到我们的阿里云oss……

阅读全文

[爬虫]python下的xpath清洗数据之html数据清洗

目录 源起 分析 解决 总结 源起 现在我们面对一些爬虫数据,特别是对于web网页的爬取的时候,网页总有一些不规整的数据来导致拿数据的麻烦,比如如下这种 <html> <p>111</p> <p>222</p> <p>333</p> <p>444 <script> eeeeeeeeeeee </script> </p> <p>555 <script> aabbccddd </script> </p> </html> 我只想拿到111,222,333,444,555这些有效的信息,因为有些p标签里面会引入script元素,导致……

阅读全文

scrapy经验分享-同一项目不同的spider启用不同的配置

在群里经常被问到如何解决同一个爬虫启用不同的piepline的问题,一般的解决通过参数的不同解决这个 def process_item(self, item, spider): self._client.create_index([('msg_id', pymongo.DESCENDING)], background=True) self._client.update_one(filter={'msg_id': item['msg_id']}, update={'$set': dict(item)}, upsert=True) return item 代码中有两个重要的参数item,还有一个spider ,我们打个断点来看看spider 里面的都有些什么 简单点我们可以通过name做逻辑上的判断 if spider.name == 'spider_1': do sth....……

阅读全文

[读书]编写高质量的python程序的91个建议(3)

声明,这些读书笔记我都是跳跃性的去找对我项目有帮助的,有一些废话我就直接删除了,所以一般不会特定的保留顺序,如果需要参考原版,请参考书中的内容。 9.数据交换值的时候不推荐使用中间变量。 之前大家一般都会使用中间变量来交换值,现在推荐直接交互。比如 x,y = y,x 那我们更深入一点,为什么会快呢……

阅读全文

[读书]编写高质量的python程序的91个建议(2)

4.在代码中添加适当的注释。 5。通过适当加添加空行使代码布局更为优雅,合理。 在一组代码表达完一个完整的思路之后,应该使用空白行进行间隔 尽量保持上下文语义的易理解性 避免过长的代码 不要为了保持水平对齐而使用多余的空格。 6.编写函数的4个原则 原则1 函数设计要尽量短小,嵌套层次不要太深 原……

阅读全文

[读书]编写高质量的python程序的91个建议(1)

1,理解pythonic(python化)的概念 美胜丑,显胜隐,简胜杂,杂胜乱,平胜陡,疏胜密(以最小,最明显的逻辑单元来写方法) 找到简单问题的一个方法,最好是唯一的方法(正确的解决之道) 难以解释的实现,源自不好的主意;如有非常 棒的主意,它的实现肯定易于解释(一个需求过来,先看自……

阅读全文

最近文章

分类

标签

友情链接

其它