1 #!/usr/bin/env python 2 3 import cStringIO # 4 import formatter # 5 from htmllib import HTMLParser ...
分类:
编程语言 时间:
2014-07-22 22:58:15
阅读次数:
284
Scrapy是一个用python实现都爬虫框架,简单易用,功能强大,只需要在框架的基础上自定义自己的分析规则即可,具体如何新建工程等待都在官方文档上面讲解得非常清楚,官方文档tutorial(http://doc.scrapy.org/en/latest/intro/tutorial.html).....
分类:
编程语言 时间:
2014-07-22 22:50:15
阅读次数:
307
最近看的关于网络爬虫和模拟登陆的资料,发现有这样一个包mechanize ['mek?.na?z]又称为机械化的意思,确实文如其意,确实有自动化的意思。mechanize.Browser and mechanize.UserAgentBase implement the interface of u...
分类:
其他好文 时间:
2014-07-20 10:13:11
阅读次数:
213
爬虫,又称蜘蛛,是从别的网站抓取资源的一种方法,C#.NET使用爬虫的方法如下:protected string GetPageHtml(string url){string pageinfo;try{WebRequest myreq = WebRequest.Create(url);WebResp...
分类:
其他好文 时间:
2014-07-19 18:15:25
阅读次数:
180
使用Scrapy这个python的网络爬虫框架抓取Scrapy中文文档开发第一步:新建项目scrapy startproject myfirst目录结构:myfirst│ scrapy.cfg Scrapy项目配置文件│└─myfirst Scrapy项目代码存放目...
分类:
其他好文 时间:
2014-07-19 16:00:43
阅读次数:
207
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口...
分类:
其他好文 时间:
2014-07-19 15:13:58
阅读次数:
241
官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正...
分类:
编程语言 时间:
2014-07-18 11:35:42
阅读次数:
287
1. 安装ActivePthon 从http://www.activestate.com/activepython里下载Activepthpn,注意下载对应版本的哦,我使用的是ActivePython-2.7.6.9-win64-x64.msi。直接双击并一直下一步安装。2. 安装Selenium....
分类:
编程语言 时间:
2014-07-18 08:19:19
阅读次数:
288
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:
数据库 时间:
2014-07-17 17:14:21
阅读次数:
292
案例一:trackinfo,基础表处理常用的低性能UDF背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据、爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的...
分类:
其他好文 时间:
2014-07-17 13:09:44
阅读次数:
226