在学习python后,想做个爬虫,抓取博客园文章。 爬虫思路很简单,模拟浏览器访问网页,得到网页的html代码,再根据页面结构,从html中提取自己需要的内容。 本文代码主要分为3个部分: 1、读取博客园首页文章链接。 https://www.cnblogs.com/是博客园的首页,列出了文章,分析 ...
分类:
数据库 时间:
2018-07-29 22:32:12
阅读次数:
205
一、requests库简介 requests是Python的一个HTTP相关的库 requests安装: 二、GET请求 import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求 url="http ...
分类:
编程语言 时间:
2018-07-18 21:43:03
阅读次数:
175
requests模块 beautifulsoup模块 Request模块 get方法请求 整体演示一下: 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返 ...
分类:
编程语言 时间:
2018-07-14 19:27:38
阅读次数:
271
在开发者界面用可以看到很多ptqrlogin开头的 name 我要做的就是 模拟浏览器的操作,把它转换成我们自己的客户端。所以只要是浏览器里有的我们都要模拟。接下来判断二维码失效,两秒一次吧,弄一个Timer smart 类 #region 第二讲检查二维码状态 private static Sys ...
分类:
其他好文 时间:
2018-07-11 19:43:52
阅读次数:
492
一,爬虫原理: 通过模拟浏览器的行为 自动从网上获得需要的数据 二,爬虫的流程 1,发送request请求给某个URL : 2,获得返回的response 解析 得到需要的数据 再根据自己的需要进行各种处理 三,具体的实现代码 3.1发送request请求分2种:get 和 post ,这里使用的是 ...
分类:
编程语言 时间:
2018-07-06 17:56:12
阅读次数:
216
一、介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium im ...
分类:
其他好文 时间:
2018-07-04 10:39:09
阅读次数:
156
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低。本次以解密参数来完成爬取的过程。 首先打开煎蛋网http://jandan.net/ooxx,查看网页源代码。我们搜索其中一张图片的编号,比如3869006,看下在源代码中是否能找到图片链接 从上面 ...
分类:
编程语言 时间:
2018-06-24 22:26:51
阅读次数:
186
爬虫的核心思想:模拟浏览器正常访问服务器,一般情况只要浏览器能访问的,都可以爬,如果被反爬,则考虑反复测试添加Request Header数据,知道可以爬取为止。 反爬思路目前知道的有:User Agent,Cookie,Referer,访问速度,验证码,用户登录及前端js代码验证等。本例遇到js验 ...
分类:
编程语言 时间:
2018-06-17 19:04:48
阅读次数:
438
selenium用法详解 selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。 模拟浏览器进行网页加载,当requests,urllib无法正常获取网页内容的时候 一、声明浏览器对象 注意点一,Python文件名或者包名不要命名为selenium, ...
分类:
其他好文 时间:
2018-06-13 18:11:16
阅读次数:
176
python3的selenium模块使用,实现模拟登录。pycharm激活和Firefox,chrome驱动安装。
分类:
编程语言 时间:
2018-06-12 23:30:54
阅读次数:
970