Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力...
分类:
编程语言 时间:
2014-08-11 00:34:11
阅读次数:
314
#_*_coding:utf-8-*-import urllib2import tracebackimport codecsfrom BeautifulSoup import BeautifulSoupdef openSoup(url,code): page = urllib2.urlopen...
分类:
其他好文 时间:
2014-08-09 13:19:37
阅读次数:
283
#_*_coding:utf-8-*-import urllib2import tracebackimport codecsfrom BeautifulSoup import BeautifulSoupdef openSoup(url,code): page = urllib2.urlopen...
分类:
Web程序 时间:
2014-08-08 21:14:36
阅读次数:
311
1,采集网页用的curl 系列函数。 可以模拟登陆,模拟ip,抓取网页,通过抓取的网页来提取数据。 2,flock 文件锁。 ( LOCK_SH取得共享锁定(读取的程序)。 LOCK_EX 取得独占锁定(写入的程序。 LOCK_UN 释放锁定(无论共享或独占) ) 用在模拟进程锁方面的。 3,fso...
分类:
其他好文 时间:
2014-08-08 21:00:06
阅读次数:
314
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过...
分类:
其他好文 时间:
2014-08-07 22:47:25
阅读次数:
350
今天很不小心点开百度新闻主页面,以及360新闻主页面,分别有一篇文章,但是针对百度诉360违反Robots协议案。标题分别是《百度诉360违反爬虫协议案宣判:360赔偿70万》 《法院判定360搜索可抓取百度内容》。显然,两者报道的最终法院判决结果截然相反。请看下面截图:
显然,双方都在掩饰自己的过错,宣扬自己的长处。更搞笑的是双方互相挖苦,百度发文《360律师要求百度感谢被...
分类:
其他好文 时间:
2014-08-07 19:11:20
阅读次数:
280
第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。
第二个Spider是抓上海的Top一万家餐厅的Shopid。
本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。
三个Spider的累加效果,就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下,还可以做到只抓取某天的评论,只抓取某人的评论,从抓取的角度看就全...
分类:
Web程序 时间:
2014-08-07 19:01:50
阅读次数:
349
【问题】某人遇到的问题:关于BeautifulSoup抓取表格及SAE数据库导入的问题(跪求大神帮忙)简单说就是:用如下代码:?1234567importre,urllib2fromBeautifulSoupimportBeautifulSoupfromurllibimporturlopendoc=...
分类:
其他好文 时间:
2014-08-06 22:37:32
阅读次数:
375
最近为了抓取淘宝的成交数据,用C#的WebBrowser控件开发了一个简单的程序.发现WebBrowser控件默认使用的版本是IE7的兼容模式.而淘宝的宝贝详细页居然对IE7的支持不是很好.成交记录无法显示,而我本机安装的是IE10,那么有没有办法使我的WebBrowser控件的使用的IE版本高点呢...
分类:
Web程序 时间:
2014-08-06 22:06:42
阅读次数:
214
在大众点评网上,有很多种方式对餐厅进行排序,比如http://www.dianping.com/search/category/1/10/o10,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个http://www.dianping.com/searc...
分类:
Web程序 时间:
2014-08-06 14:53:31
阅读次数:
293