1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcess...
分类:
编程语言 时间:
2014-07-11 21:41:10
阅读次数:
217
主要参考虫师的文章,但他的文章里面有一些问题说得不是很详细,并且有些我遇到的问题他也没有说明,所以记录一下我遇到的问题。下载python并安装,并配置环境变量。 下载的话,建议大家下载2.7的版本。地址是:https://www.python.org/download/releases/2.7...
分类:
编程语言 时间:
2014-07-11 20:31:01
阅读次数:
267
本文记录下用来爬虫主要使用的两个库。第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib;第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦。requests使用,1直接使用库内提供的get、post等函数,在比简单的情况下使用,2利用session...
分类:
编程语言 时间:
2014-07-11 18:51:34
阅读次数:
250
有的网站防采集,会在页面加上this.window.location.reload()
分类:
Web程序 时间:
2014-07-10 14:34:18
阅读次数:
310
最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码...好吧,满足这个要求的爬虫应该是最基本的爬虫了。当然这也是做复杂的爬虫的基础。使用的是httpclient4的相关API。不要跟我讲网上好多都是httpclient3...
分类:
编程语言 时间:
2014-07-09 20:49:07
阅读次数:
299
在用selenium webdriver 编写web页面的自动化测试代码时,可能需要执行一些javascript代码,selenium本身就支持执行js,我们在代码中import org.openqa.selenium.JavascriptExecutor;就可以使用executeScript、ex...
分类:
编程语言 时间:
2014-07-09 20:20:16
阅读次数:
210
例: 打开百度首页 ,进行截图01packagecom.example.tests;02importjava.io.File;03importorg.apache.commons.io.FileUtils;04importorg.junit.*;05importorg.openqa.selenium...
分类:
Web程序 时间:
2014-07-09 20:11:36
阅读次数:
224
开发环境1. jdk1.72.Eclipse3. selenium(selenium-java-2.42.2.zip)将下载下来的selenium-java-2.42.2.zip 解压, 解压后文件目录:建立Java Project 项目1. 将上面加压出来的文件复制到新建的项目目录下:2.添加bu...
分类:
编程语言 时间:
2014-07-09 20:08:49
阅读次数:
202
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:
其他好文 时间:
2014-07-09 20:04:15
阅读次数:
200
你是否苦恼于网上无法下载的“小说在线阅读”内容?或是某些文章的内容让你很有收藏的冲动,却找不到一个下载的链接?是不是有种自己写个程序把全部搞定的冲动?是不是学了 python,想要找点东西大展拳脚,告诉别人“哥可是很牛逼的!”?那就让我们开始吧! 哈哈
好吧,我就是最近写 Yii 写多了,想找点东西调剂一下.... = =
本项目以研究为目的,所有版权问题我们都是站在作者的一边,以看盗版小说为目的的读者们请自行面壁!
说了这么多,我们要做的就是把小说正文的内容从网页上爬下来,我们的...
分类:
编程语言 时间:
2014-07-08 19:53:59
阅读次数:
311