正确方法可以用doc.getElementsByAttributeValue(属性名, 属性值),因为class也可以看成特殊的属性,所以可以这样写doc.getElementsByAttributeValue("class" , "填写class对应的值")。[亲测好使]...
分类:
Web程序 时间:
2015-03-07 21:24:30
阅读次数:
225
最近在研究用android和jsoup抓取小说数据,jsoup的使用可以参照http://www.open-open.com/jsoup/;在抓纵横中文网永生这本书的目录内容时碰到了问题, 永生的书简介url?http://book.zongheng.com/book/48552.htm...
分类:
Web程序 时间:
2015-03-07 18:51:18
阅读次数:
145
airbase-ngHostAPdbridgeNATairssl.sh数据全部走本机抓包即可抓取数据DNS可控那么可以做DNS代理之后插入JS来获取密码偷cookie等。
分类:
系统相关 时间:
2015-03-04 06:24:22
阅读次数:
171
转自http://cuiqingcai.com/947.html1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便...
分类:
编程语言 时间:
2015-02-25 01:51:51
阅读次数:
323
http://cuiqingcai.com/1052.html大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大...
分类:
编程语言 时间:
2015-02-23 06:28:08
阅读次数:
224
年前有个坑爹的需求来了,要把某点评网商户数据都给获取下来存储于数据库,好啦其实这个东西是蛮简单的;首先到点评网把城市数据给拷贝下来,当然你也可以写个脚本把数据抓取下来,不够我没这么干;好了下面是用于抓取数据的脚本,下面我分享下给大家:城市列表:alashan|57|阿拉善anshan|58|鞍山an...
分类:
其他好文 时间:
2015-02-16 00:21:42
阅读次数:
880
本次安装使用的系统环境是windows xp。以下给出具体步骤。我想如果照做一定能够成功哦。
1.安装python2.6.这里选择的是python2.6,为什么选择这个版本,
首先,scrapy官网上明确写出:requirements:
Python 2.5, 2.6, 2.7 (3.x is not yet supported), 即目前只支持python2.5,2.6,2...
分类:
编程语言 时间:
2015-02-10 11:20:33
阅读次数:
591
Session级别的以及缓存总是有效的,当应用保持持久化实体、修改持久化实体时,Session并不会吧这种改变flush到数据库,而是缓存在当前Session的一级缓存中,除非程序显示调用session的flush方法,或者查询关闭session时,才会把这先改变一次性的flush到底层数据库,这样可以减少与数据库的交互,从而提高数据库的访问性能。
SessionFactory级别的二级缓存是全局的,应用的所有的Seeion都共享这个二级缓存,当Session需要抓取数据时,Session就会优...
分类:
Web程序 时间:
2015-02-07 21:45:29
阅读次数:
175
摘要 之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url。但是一般使用的时候都是需要自己写具体的url抓取函数的。 python 爬虫 scrapy scrapy提高 最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直...
分类:
编程语言 时间:
2015-02-04 09:16:30
阅读次数:
1361
做图像处理的朋友,都时常需要收集整理大量的图像数据集。做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务。为了用python完成这个任务,需要解决如下两个问题:
1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片。
2. 动态网站的内容往往是通过aj...
分类:
编程语言 时间:
2015-01-31 00:34:34
阅读次数:
860