习题: 1. 定义一个方法get_num(num),num参数是列表类型,判断列表里面的元素为数字类型。其他类型则报错,并且返回一个偶数列表:(注:列表里面的元素为偶数)。 2. 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的 ...
分类:
编程语言 时间:
2018-07-02 14:48:51
阅读次数:
167
自动化测试工具,支持多种浏览器,在爬虫中主要用来解决JavaSript渲染的问题。 (驱动浏览器,发送一些指令,让浏览器完成一些动作) requests urllib这些库无法正常获取网页内容时,这些网页可能是后来javascript渲染过的,用selenium可以完成渲染,获取到网页渲染完后的源代 ...
分类:
其他好文 时间:
2018-06-16 18:41:09
阅读次数:
175
selenium用法详解 selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。 模拟浏览器进行网页加载,当requests,urllib无法正常获取网页内容的时候 一、声明浏览器对象 注意点一,Python文件名或者包名不要命名为selenium, ...
分类:
其他好文 时间:
2018-06-13 18:11:16
阅读次数:
176
1 using System; 2 using System.Collections.Generic; 3 using System.IO; 4 using System.Linq; 5 using System.Net; 6 using System.Text; 7 using System.Th... ...
在使用 scrapy 来爬取网页的时候,我们难免会使用到调试功能,下面介绍两种调试方法: 1.终端使用 exampleurl 为你要爬取网站的 url 。 开启调试界面后终端显示如下(类似 IPython): 接下来就可以在命令行中输入各种方法来获取网页内容查看实时效果了。如通过 response. ...
分类:
其他好文 时间:
2018-05-22 23:56:06
阅读次数:
266
需求 万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以... ...
分类:
其他好文 时间:
2018-05-19 18:34:59
阅读次数:
166
第一节、HttpClient 一、HttpClient 简介 超文本传输协议【The Hyper-Text Transfer Protocol (HTTP)】是当今互联网上使用的最重要(significant)的协议, 越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。 虽然 ...
分类:
编程语言 时间:
2018-04-20 13:23:03
阅读次数:
217
Python3.x:BeautifulSoup()解决中文乱码问题 问题: BeautifulSoup获取网页内容,中文显示乱码; 解决方案: 如果中文页面编码是gb2312,gbk,在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题, 即使分析 ...
分类:
编程语言 时间:
2018-01-20 11:07:49
阅读次数:
303
声明:以下代码,Python版本3.6完美运行 一、思路介绍 不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从而获取图片地址 3. Python测试类下载图片,保存成功则爬虫可以实现 二、豆瓣美女(难度:?) ...
分类:
编程语言 时间:
2018-01-14 11:00:50
阅读次数:
5621
声明:以下代码,Python版本3.6完美运行 一、思路介绍 不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从而获取图片地址 3. Python测试类下载图片,保存成功则爬虫可以实现 二、豆瓣美女(难度:?) ...
分类:
编程语言 时间:
2018-01-13 18:49:44
阅读次数:
193