phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG,对于爬取一些经过js渲染的页面非常有用。但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了,鬼都知道用这个浏览器,都是来爬取网页的,... ...
分类:
Web程序 时间:
2018-01-31 11:20:12
阅读次数:
243
主要是学习re模块的使用,正则表达式的学习...我都看了,就是运用少,所以没记住什么,用到的时候,还得翻我手工记录的正则笔记.....如果是爬取网页,可以用bs4模块,这个更方便,只是正则很强大(~ ̄▽ ̄)~ 看的下面这个文章做得笔记 https://mp.weixin.qq.com/s?__biz ...
分类:
编程语言 时间:
2018-01-18 23:02:30
阅读次数:
215
背景 正则表达式的用处十分广泛:字符串处理、输入验证等,特别是在爬取网页中对网页内容的清洗更需要正则。 正则表达式 基本所有的语言都支持正则表达式,或者内置或者引入。正则的语法很多,但每种语言对正则支持的程度都不同(常用的语法规则基本都支持),这点需要格外注意。 元字符 正则表达式有12个特殊的标点 ...
分类:
其他好文 时间:
2017-12-09 19:39:36
阅读次数:
153
摘自 http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.html 序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往 ...
分类:
编程语言 时间:
2017-12-08 01:23:21
阅读次数:
219
python --requests能爬取网页的信息 Requests库的七个主要方法request(method.url.**kwargs) 构造一个请求,支撑以下各方法的基础方法 get() 获取HTML网页的主要方法,对应于http的get head() 获取HTML网页头信息的方法,网页中的h ...
分类:
其他好文 时间:
2017-12-02 23:25:15
阅读次数:
321
由于能选择一个感兴趣的网站进行数据分析,所以这次选择爬取的网站是新华网,其网址为"http://www.xinhuanet.com/",然后对其进行数据分析并生成词云 运行整个程序相关的代码包 爬取网页信息 存入txt文件中,并进行字词统计 存入数据库 制作词云 最终成果 完整代码 ...
分类:
编程语言 时间:
2017-11-02 13:03:33
阅读次数:
601
1.选一个自己感兴趣的主题。 ‘’数据观”官方网站数据爬取,网页网址为‘http://www.cbdio.com/node_2568.htm’ 2.网络上爬取相关的数据。 3.进行文本分析,生成词云。 4.对文本分析结果解释说明。 通过以上数据显示,该中国大数据官网主要的话题是数据以及交易 和政府、 ...
分类:
Web程序 时间:
2017-10-29 18:35:13
阅读次数:
176
前言 SEO是英文 Search EngineOptimiation的缩写,中文翻译为"搜索引擎优化"简单地说, SEO就是从搜索引擎上获得流量的技术 。 搜索引掌优化的主要工作包括: 通过了解搜索引撃的工作原理、 如何在浩瀚的网页流中爬取网页、 如何进行索引以及如何确定某一关键词排名位置从而对同页 ...
分类:
其他好文 时间:
2017-10-15 21:08:31
阅读次数:
139
Python爬虫可以说是好玩又好用了。现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中。需求有了,剩下的就是实现了。 在开始之前,保证已经安装好了MySQL并需要启动本地MySQL数据库服务。提到安装MySQL数据库,前两天在一台电脑上安装My ...
分类:
数据库 时间:
2017-10-15 11:32:00
阅读次数:
293
import reimport urllib.request# ------ 获取网页源代码的方法 ---def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html# ------ getHt... ...
分类:
Web程序 时间:
2017-09-11 10:08:23
阅读次数:
262