码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
jsoup实现java抓取网页内容。
Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力...
分类:编程语言   时间:2014-08-11 00:34:11    阅读次数:314
天涯抓取
#_*_coding:utf-8-*-import urllib2import tracebackimport codecsfrom BeautifulSoup import BeautifulSoupdef openSoup(url,code): page = urllib2.urlopen...
分类:其他好文   时间:2014-08-09 13:19:37    阅读次数:283
抓取天涯文章的蜘蛛代码,刚经过更新(因为天涯页面HTML代码变化)
#_*_coding:utf-8-*-import urllib2import tracebackimport codecsfrom BeautifulSoup import BeautifulSoupdef openSoup(url,code): page = urllib2.urlopen...
分类:Web程序   时间:2014-08-08 21:14:36    阅读次数:311
一些函数
1,采集网页用的curl 系列函数。 可以模拟登陆,模拟ip,抓取网页,通过抓取的网页来提取数据。 2,flock 文件锁。 ( LOCK_SH取得共享锁定(读取的程序)。 LOCK_EX 取得独占锁定(写入的程序。 LOCK_UN 释放锁定(无论共享或独占) ) 用在模拟进程锁方面的。 3,fso...
分类:其他好文   时间:2014-08-08 21:00:06    阅读次数:314
网络基础知识---Roberts协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过...
分类:其他好文   时间:2014-08-07 22:47:25    阅读次数:350
百度,360 你们到底谁是骗子?
今天很不小心点开百度新闻主页面,以及360新闻主页面,分别有一篇文章,但是针对百度诉360违反Robots协议案。标题分别是《百度诉360违反爬虫协议案宣判:360赔偿70万》 《法院判定360搜索可抓取百度内容》。显然,两者报道的最终法院判决结果截然相反。请看下面截图: 显然,双方都在掩饰自己的过错,宣扬自己的长处。更搞笑的是双方互相挖苦,百度发文《360律师要求百度感谢被...
分类:其他好文   时间:2014-08-07 19:11:20    阅读次数:280
一个网站的诞生04--抓取一个餐厅的某个月的全部评论
第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。 第二个Spider是抓上海的Top一万家餐厅的Shopid。 本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。 三个Spider的累加效果,就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下,还可以做到只抓取某天的评论,只抓取某人的评论,从抓取的角度看就全...
分类:Web程序   时间:2014-08-07 19:01:50    阅读次数:349
【已解决】BeautifulSoup已经获得了Unicode的Soup但是print出来却是乱码
【问题】某人遇到的问题:关于BeautifulSoup抓取表格及SAE数据库导入的问题(跪求大神帮忙)简单说就是:用如下代码:?1234567importre,urllib2fromBeautifulSoupimportBeautifulSoupfromurllibimporturlopendoc=...
分类:其他好文   时间:2014-08-06 22:37:32    阅读次数:375
WebBrowser控件默认使用IE9,IE10的方法
最近为了抓取淘宝的成交数据,用C#的WebBrowser控件开发了一个简单的程序.发现WebBrowser控件默认使用的版本是IE7的兼容模式.而淘宝的宝贝详细页居然对IE7的支持不是很好.成交记录无法显示,而我本机安装的是IE10,那么有没有办法使我的WebBrowser控件的使用的IE版本高点呢...
分类:Web程序   时间:2014-08-06 22:06:42    阅读次数:214
一个网站的诞生03--抓取评论数最多的一万家餐厅
在大众点评网上,有很多种方式对餐厅进行排序,比如http://www.dianping.com/search/category/1/10/o10,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个http://www.dianping.com/searc...
分类:Web程序   时间:2014-08-06 14:53:31    阅读次数:293
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!