python爬虫-urllib模块 urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。urllib 支持各种 web 协议,例如:HTTP、FTP、Gopher;同时也支持对本地文件进行访问。但一般而言多用来进行爬虫的编写 ...
分类:
Web程序 时间:
2016-06-12 00:07:46
阅读次数:
296
在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。 ...
分类:
编程语言 时间:
2016-06-11 23:00:03
阅读次数:
573
Beautiful Soup,字面意思是美好的汤,是一个用于解析HTML文件的Python库 windows下载和安装 在Windows下面如何安装Beautiful Soup: 1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载 2.下载完 ...
分类:
编程语言 时间:
2016-06-08 23:01:17
阅读次数:
281
下面的代码可以实现用python读取PDF,包括读取本地和网络上的PDF。 pdfminer下载地址:https://pypi.python.org/packages/source/p/pdfminer/pdfminer-20140328.tar.gz ...
分类:
编程语言 时间:
2016-06-08 12:17:48
阅读次数:
400
参考资料: Python:http://www.runoob.com/python/python-intro.html Python爬虫系列教程:http://www.cnblogs.com/xin-xin/p/4297852.html 正则表达式:http://www.cnblogs.com/de ...
分类:
其他好文 时间:
2016-06-08 10:30:00
阅读次数:
160
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html ...
分类:
数据库 时间:
2016-06-07 13:03:45
阅读次数:
383
本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。 ...
分类:
编程语言 时间:
2016-06-07 12:48:55
阅读次数:
341
本来今天要继续更新 scrapy爬取美女图片 系列文章,可是发现使用免费的代理ip都非常不稳定,有时候连接上,有时候连接不上,所以我想找到稳定的代理ip,下次再更新 scrapy爬取美女图片之应对反爬虫 文章。 好了,废话不多说,咱们进入今天的主题。这一篇文章是关于爬取盗墓笔记,主要技术要点是scr ...
分类:
编程语言 时间:
2016-06-06 18:37:19
阅读次数:
412
静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 ...
分类:
编程语言 时间:
2016-06-06 12:13:40
阅读次数:
246
静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有 ...
分类:
编程语言 时间:
2016-06-04 23:31:41
阅读次数:
345