本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html ...
分类:
数据库 时间:
2016-06-07 13:03:45
阅读次数:
383
本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。 ...
分类:
编程语言 时间:
2016-06-07 12:48:55
阅读次数:
341
本来今天要继续更新 scrapy爬取美女图片 系列文章,可是发现使用免费的代理ip都非常不稳定,有时候连接上,有时候连接不上,所以我想找到稳定的代理ip,下次再更新 scrapy爬取美女图片之应对反爬虫 文章。 好了,废话不多说,咱们进入今天的主题。这一篇文章是关于爬取盗墓笔记,主要技术要点是scr ...
分类:
编程语言 时间:
2016-06-06 18:37:19
阅读次数:
412
静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 ...
分类:
编程语言 时间:
2016-06-06 12:13:40
阅读次数:
246
静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有 ...
分类:
编程语言 时间:
2016-06-04 23:31:41
阅读次数:
345
抓取电影名称以及评分,并排序(代码丑炸) 爬取结果: 输入页数2正在获取第1页...正在获取第2页...9.3 瓦力(台) / 太空奇兵·威E(港)9.2 神隐少女(台) / Spirited Away9.2 优兽大都会(港) / 动物方城市(台)9.0 Tenkû no shiro Rapyuta ...
分类:
编程语言 时间:
2016-06-02 00:27:41
阅读次数:
644
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrom ...
分类:
编程语言 时间:
2016-06-01 15:34:36
阅读次数:
161
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请 ...
分类:
编程语言 时间:
2016-05-31 22:11:50
阅读次数:
137
转自: http://cuiqingcai.com/927.html 静觅 » Python爬虫入门一之综述 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 要学习Python爬虫,我 ...
分类:
编程语言 时间:
2016-05-31 22:09:32
阅读次数:
182
1,为什么需要修改UserAgent在写python网络爬虫程序的时候,经常需要修改UserAgent,有很多原因,罗列几个如下:不同Agent下看到的内容不一样,比如,京东网站上的手机版网页和pc版网页上的商品优惠不一样为避免被屏蔽,爬取不同的网站经常要定义和修改useragent值。......修改..
分类:
编程语言 时间:
2016-05-30 20:06:15
阅读次数:
4356