什么是爬虫?爬虫:就是抓取网页数据的程序。网页的三大特征:1.确定对方位置。 **(URL(统一资源定位符),理解成网页或资源地址。2.协议联系的方式(微信,打电话) **HTTP/HTTPS(超文本传输协议)3.语言的选择 **HTML(超文本标记语言)浏览器用来干嘛的? 解释器(HTML)Pyt ...
分类:
其他好文 时间:
2018-10-16 20:50:06
阅读次数:
168
由于需要在项目中展示数据,查了查资料发现,pyecharts模块在网页数据展示方面有很大优势,所以就学了点pyechas 参考博客:Python:数据可视化pyecharts的使用 - JYRoy - 博客园 http://www.cnblogs.com/jyroy/p/9446486.html p ...
分类:
其他好文 时间:
2018-10-15 23:11:09
阅读次数:
273
2018-10-11:明天科三考试,加油! 使用python selenium的web访问方式; import sys reload(sys) sys.setdefaultencoding('utf8') from selenium import webdriver import time brow ...
分类:
编程语言 时间:
2018-10-12 01:27:31
阅读次数:
356
说明:当客户机通过代理来请求web页面时,指定的代理服务器会先检查自己的缓存,如果缓存中已经有客户机需要访问的页面,则直接将缓存中的页面内容反馈给客户机;如果缓存中没有客户机需要访问的页面,则由代理服务器向Internet发送访问请求,当获得返回的web页面以后,将网页数据保存到缓存中并发送给客户机。使用传统代理的特点在于,客户机的相关程序必须指定代理服务器的地址、端口等基本信息。下面进行传统代理
分类:
其他好文 时间:
2018-10-10 17:18:18
阅读次数:
213
正则表达式是功能比较强大的模块,应用在很多地方,抓网页,数据分析,数据验证等,下面讲述python 导入re模块语法及规则。 1,re模块语法 re.match 从头开始匹配 re.search 匹配包含 一个 re.findall 把所有匹配字符放到列表元素返回 re.split 以匹配的字符当列 ...
分类:
编程语言 时间:
2018-10-08 23:10:05
阅读次数:
300
学CSS 和 JS的路线: 1. 首先,学会怎么找到标签。只有找到标签,才能操作标签——CSS通过选择器去找标签 2. 其次,学会怎么操作标签对象。 CSS概述 CSS是Cascading Style Sheets的简称,中文称为层叠样式表,功能是用来控制网页数据的表现,可以使网页的表现与数据内容分 ...
分类:
Web程序 时间:
2018-09-09 22:03:43
阅读次数:
194
通过这个例子,学习使用chrome的开发者工具定位页面元素的位置,并通过selenium调用浏览器,对网页数据进行抓取。 随意打开一个主播的页面,我们想要抓取的热度信息如下: 34949+7177,热度由两部分相加得到,后一部分貌似是近期的活动加成。 在Chrome中,点击右键选择“检查”,将会打开 ...
分类:
其他好文 时间:
2018-09-07 20:45:17
阅读次数:
632
css概念 CSS是Cascading Style Sheets的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离。 css引入方式 1. 行内式 行内式是在标记的style属性中设定CSS样式。这种方式没有体现出CSS的优势,不推荐使用。 2.嵌入式 嵌入式是将CS ...
分类:
Web程序 时间:
2018-09-04 11:40:52
阅读次数:
175
概述: 大家在工作中用jQuery的时候一定会在使用之前这样: 1 2 3 4 5 6 7 8 //document ready $(document).ready(function(){ ...code... }) //document ready 简写 $(function(){ ...code ...
分类:
Web程序 时间:
2018-09-01 16:26:49
阅读次数:
166
CSS概述 css是Cascading Style Sheets 的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使用网页的表现与数据内容分离。 一, css的四种引入方式 1.行内式 行内式是在标记的style属性中设定的CSS样式。这种方式没有体现出CSS的优势,不推荐使用 1 <p s ...
分类:
Web程序 时间:
2018-08-31 19:25:38
阅读次数:
195