学习编写网页爬虫

最近这段时间,我对网页爬虫很感兴趣。自学了Python编程的基础知识,然后找了份网页爬虫的教程,一头栽了进去。

通过使用Python自带的urllib标准库,我写了个专门获取股票关注数据的网页爬虫。这个网页爬虫说白了其实就是一个小程序,能自动按照一定规则去下载一些网页链接。通过正则表达式匹配需要获取的内容,最后在把格式化后的内容存入文件中。

这里是这个小爬虫的源代码,比较简单的一个小程序,方便我日常使用。

2014-08-27


上一篇: 翻墙的梯子 下一篇: 在CSDN.NET上新建了个代码库