用Xpath定位元素的方法总是记不住,经常要翻出各种文档链接参考,干脆把需要用到的内容整到这个笔记中方便查找。
分类:
编程语言 时间:
2014-05-09 05:00:54
阅读次数:
436
这几天闲着没事,写了个python爬虫,专把堆糖上的摄影类图片扒下来...
分类:
编程语言 时间:
2014-05-09 01:05:09
阅读次数:
295
最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。了解和使.....
分类:
Web程序 时间:
2014-05-08 22:54:09
阅读次数:
1123
20140507Selenium一般用在web自动化上,为什么Android上也能用呢?如图,手机端和DB联动:手机端的客户端给server发数据流,进行增删改查操作,这种写数据用update更新,更新后计数器+1,表示手机端对server进行了一次访问,有了一笔交易;db(如mysql)会同步到网...
分类:
移动开发 时间:
2014-05-08 06:58:09
阅读次数:
605
按网上教程搭建好环境后,执行下面的代码出现了错误:测试代码如下:from selenium
import
webdriverdriver=webdriver.Firefox()driver.get("http://www.baidu.com")错误信息如下:Traceback
(most recen...
分类:
编程语言 时间:
2014-05-07 21:16:57
阅读次数:
420
小月月是个懒家伙,博客更新好慢...前几天拿到某公司的面试题,要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫,抓取百度新闻搜索结果的前三页标题+url。这可把对python一窍不通的小月月难住了,肿么办呢...哦,最简单有效直接的方法就是网上查...
分类:
编程语言 时间:
2014-05-07 17:11:38
阅读次数:
457
自动化测试学习笔记1——Python +
Selenium自动化测试环境配置(Windows平台)
分类:
编程语言 时间:
2014-05-07 16:51:34
阅读次数:
338
1. 科普
通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:
编程语言 时间:
2014-05-07 02:41:56
阅读次数:
368
t = '''www.jeapedu.com
www.chinagame.me
www.quanzhan.org
'''
print t.splitlines()
Python的split方法函数可以分割字符串成列表,默认是以空格作为分隔符sep来分割字符串。
In [1]: s = "www jeapedu com"
In [2]: p...
分类:
编程语言 时间:
2014-05-07 02:37:08
阅读次数:
478
标题用标题 iamge 中加上 alt=“” 的属性 这样有利用百度的搜索引擎爬虫搜索到
分类:
其他好文 时间:
2014-05-06 13:19:51
阅读次数:
249