使用Jsoup获取网页内容超时设置 最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用。在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容。 原来我最开始使用Jsoup.connect(url).g ...
分类:
Web程序 时间:
2017-06-03 09:59:35
阅读次数:
671
mfc项目的字符集为unicode字符集 乱码前代码: 乱码效果: 解决方法: 效果: ...
分类:
编程语言 时间:
2017-05-25 00:10:28
阅读次数:
650
selenium用法详解 selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。 模拟浏览器进行网页加载,当requests,urllib无法正常获取网页内容的时候 一、声明浏览器对象 注意点一,Python文件名或者包名不要命名为selenium,... ...
分类:
其他好文 时间:
2017-05-24 21:11:10
阅读次数:
299
前面使用HttpWebRequest 对象可以抓取网页中一些资料,不过有些页面可以直接打开,而有些页面必登录之后才能打开,也就是在登录后保存登录信息在Session,这样就可以访问有权限的页面了。下面通过HttpWebRequest获取网页内容并保持session,最主要的就是存储cookie。第二 ...
分类:
Web程序 时间:
2017-05-11 20:25:44
阅读次数:
275
1 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的urllib模块) 2 import urllib.request 3 4 def get_page(url): 5 response = urllib.request.url... ...
分类:
编程语言 时间:
2017-05-02 23:46:33
阅读次数:
376
今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 HttpClient,根据前辈们发的教程自己也简单写了一下,感觉还好。 下面实现的是单个页面的获取: ...
分类:
Web程序 时间:
2017-04-01 00:03:35
阅读次数:
286
可以通过document.compatMode =="CSS1Compat"判断是混杂模式还是标准模式,当等于CSS1Compat的时候, 就是标准模式,而BackCompat则是混杂模式。 注意:如果是在移动端,移动端中是没有IE的,所以可以通过window去取视口大小例如:window.inne ...
分类:
其他好文 时间:
2017-03-22 16:39:42
阅读次数:
183
1.在获取网页内容的时候,可能由于网络不好,获取时间会很长,这时候我们一般会使用新建一个线程去获取,这样在获取网页的这段时间中,主线程就不会阻滞了。 上面的例子解决了主线程可能被阻滞的问题,但是新建的获取网页的线程一直在占用系统的资源,显然是不高效的。接下来,我们考虑用异步模式去实现。 2.异步模式 ...
分类:
编程语言 时间:
2017-02-23 00:21:02
阅读次数:
248
http://www.imooc.com/code/1703 网页尺寸scrollHeight scrollHeight和scrollWidth,获取网页内容高度和宽度。 一、针对IE、Opera: scrollHeight 是网页内容实际高度,可以小于 clientHeight。 二、针对NS、F ...
分类:
Web程序 时间:
2017-02-19 12:59:23
阅读次数:
172
在http协议使用场景上我们最熟悉的可能就是浏览器了,作为本系列第一篇,就讲一个问题 ”浏览器怎么连接上服务器并获取网页内容的“ ; 首先 浏览器怎么连接上服务器的? 如果对OSI七层模型或者TCP/IP四层模型不熟悉可能会对接下来的内容有点懵,不着急,看这里: http://www.cnblogs ...
分类:
Web程序 时间:
2017-01-19 12:26:25
阅读次数:
320