(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考

上次说到关于已经成功得到数据了。

请看第一期链接:http://www.cnblogs.com/codefish/archive/2012/11/17/2774911.html

那现在就是如何利用正则表达到获取相应的标签部分了,请看标签的格式

[双十精选11.17] 这是神马电影?你们是不是过分低估了观众的智商啊?[20P]

开始,结束

那简单的正则表达就应该是

href=”htm_data.+>.+

但是显然,这样的会将所有部分都包含进去了,并且这样的使用的是贪婪模式,没有进行特定字符的锁定的。

《(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考》

观察得到,所有的字符都是

(.{1,50})

为什么要这样写:

第一,这样写将特定的部分总结出来,

htm_data/[这里要锁定数字]

id=\”\”>(.{这里要锁定字符部分})

第二,需要根据出现的字符数时时的去改变范围

比如这里的部分

(.{1,50})

因为出现的最大字符数并不确定,而且不能包含到下一个出现的匹配字符,这样不会影响结果。

《(2)个人使用小爬虫---------关于一次被论坛封号而搜索的思考》

OK:数据完整,一个也没有漏掉,这样可以将这些内容写入到数据库,就相当于在本地有了论坛的数据部分。

抱歉,本来说好晚上更新的,没想到和朋友出去吃点饭弄的这么晚

下期更新,如果用本地用户名,密码的方式访问网站。敬请期待。。。

点赞
  1. 陈健说道:

    正则表达式,请问你有什么简单易懂的资料~谢谢

    1. hi,I'm frank说道:

      三十分钟的教程,我是看了第一版之后明白的:
      http://deerchao.net/tutorials/regex/regex.htm

    2. hi,I'm frank说道:

      另外如果是windows,你可以使用regexbuddy这个工具,非常好用。

      1. 陈健说道:

        嗯嗯 谢谢~我要认真看看了~又不会的再打扰你啦~

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据