'''一 爬虫网络的尺寸:1 小规模,数据量小,爬取速度不敏感;利用Request库爬取网页和玩转网页2 中规模:数据规模较大,爬取速度敏感;可以利用scrapy库爬取网站或者爬取系列网站3 大规模,搜索引擎爬取速度关键,主要是通过定制开发,而不是某一个库就可以完成的,可以用于爬取全网二 爬虫网络的... ...
分类:
其他好文 时间:
2017-09-09 10:48:48
阅读次数:
121
使用Post方法模拟登陆爬取网页 最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStreamReader; import java.io.OutputSt ...
分类:
Web程序 时间:
2017-09-05 00:23:59
阅读次数:
190
一、伪装浏览器 对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。具体实现:自定义网页请求报头。 二、使用Fiddler查看请求和响应报头 打开工具Fiddler,然后再浏览器访问“https://www.douban.com/” ...
分类:
编程语言 时间:
2017-09-04 13:29:13
阅读次数:
198
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-30 20:38:23 4 # @Author : EnderZhou (zptxwd@gmail.com) 5 # @Link : http://www.cn... ...
分类:
编程语言 时间:
2017-08-30 22:35:59
阅读次数:
373
1 #encoding:UTF-8 2 import urllib 3 import urllib.request 4 import bs4 5 from bs4 import BeautifulSoup as bs 6 def test1(): 7 url = "http://www.stylus... ...
分类:
编程语言 时间:
2017-08-23 13:46:53
阅读次数:
250
requests在爬取网页时候时候中文显示乱码 第一个问题是,为什么会有ISO-8859-1这样的字符集编码? iso-8859是什么? 他又被叫做Latin-1或“西欧语言” . 对于我来说,这属于requests的一个bug,在requests库的github里可以看到不只是中国人提交了这个is ...
分类:
Web程序 时间:
2017-08-19 20:12:59
阅读次数:
179
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍。 一. 安装Phantomjs 下载地址:http://p ...
分类:
编程语言 时间:
2017-08-11 10:52:59
阅读次数:
222
python爬虫在爬取网页内容时,需要将内容连同内容格式一同爬取过来,然后在自己的web页面中显示,自己的web页面为django框架 首先定义一个变量html,变量值为一段HTML代码 >>> print(html) <div id=1> my <br> na ...
分类:
编程语言 时间:
2017-08-06 00:18:33
阅读次数:
316
在Python中使用正则表达式,一个小小的爬虫,抓取百科词条网页的jpg图片。下面就是我的代码,作为参考: 程序运行结果: 然后打开目录文件里生成的filecatalog.txt文件,爬取的内容如下: 目录地址下载的图片: 第一次爬虫,很兴奋,也觉得很神奇:-) ...
分类:
编程语言 时间:
2017-08-02 19:09:14
阅读次数:
201
一、随时随地爬取一个网页下来 怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等。我们之前用的是Python标准基础库Urllib实现的, 现在我们使用Python的Requests HTT ...
分类:
编程语言 时间:
2017-08-01 11:18:54
阅读次数:
224