昨天刚买的崔大大的《Python3网络爬虫开发实战》,今天就到了,开心的读完了爬虫基础这一章,现记录下自己的浅薄理解,如有见解不到位之处,望指出。 1.HTTP的基本原理 ①我们经常会在浏览器输入www.baidu.com这一网址,这一网址到底是什么呢?其实这就是URL,即(Universal Re ...
分类:
编程语言 时间:
2018-06-14 21:02:53
阅读次数:
164
菜鸟独白用Python来玩转数据分析实在是太爽了,因为有强大的Pandas来处理数据非常方便,我个人对数据分析情有独钟,探索数据的秘密非常好玩!前段时间写过一篇小白学数据分析入门招式,但是进阶的部分上次没有来得及整理,今天分享给大家。我们依然用比较有名的泰坦尼克数据集来做示例,通过对这个数据集的处理,来快速上手数据分析的常见招式和基本手法,让初学者可以快速上手数据分析!要点:数据的字符处理数据的过
分类:
其他好文 时间:
2018-06-12 12:16:42
阅读次数:
214
抓包:charles Fiddler HTTP请求处理,urllib、requests 专门获得网络连接的库 Scrapy框架:(Scrapy,Pyspider) 高定制性高性能(异步网络框架twisted),所以数据下载速度非常快,提供了数据存储、数据下载、提取规则等组件 爬虫使用场景:通用爬虫、 ...
分类:
其他好文 时间:
2018-05-29 01:39:25
阅读次数:
133
beautifulsoup的简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: 安装 解析器 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 ...
分类:
其他好文 时间:
2018-05-28 16:06:44
阅读次数:
152
百度百科上这么介绍爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 在开发爬虫时常用的工具:chrome浏览器,fiddler工具,postman插件。 有关fiddler知识的地址:http:/ ...
分类:
Web程序 时间:
2018-05-27 10:43:50
阅读次数:
214
1 URL含义 URL的格式由三部分组成: ①第一部分是协议(或称为服务方式)。 ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。 ③第三部分是主机资源的具体地址,如目录和文件名等。 2 分析扒网页的方法 首先调用的是urllib2库里面的urlopen方法,传入一个URL,这个网址是百度 ...
分类:
其他好文 时间:
2018-05-26 22:19:50
阅读次数:
148
Posted on 2018-03-29 21:54 170何强 阅读(9) 评论(0) 编辑 收藏 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://new ...
分类:
其他好文 时间:
2018-05-25 13:31:59
阅读次数:
148
关于爬虫也是刚接触,案例是基于python3做的, 依靠selenium的webdriver做的,所以python3必须有selenium这个包, 如果是基于谷歌浏览器的话需要下载谷歌浏览器的驱动,放在python的目录下,在此之前记得把环境变量安装好 直接上代码 ...
分类:
编程语言 时间:
2018-05-22 19:48:42
阅读次数:
172
看这篇文章之前大家可以先看下我的上一篇文章: "cookies详解" 本篇我们就针对上一篇来说一下cookies的基本应用 使用selenium模拟登陆百度 selenium操作很简单,这里不做详解讲解,以后我们开爬虫基础系列文章的时候会讲到。 selenium保存cookies 这里切记,如果我们 ...
分类:
其他好文 时间:
2018-05-20 21:58:46
阅读次数:
395