(1)运行后报错:“TypeError: cannot use a string pattern on a bytes-like” 原因:content用decode(‘utf-8’)进行解码,由bytes变成string。py3的urlopen返回的不是string是bytes。 解决方案:把’c ...
分类:
编程语言 时间:
2019-12-22 20:06:47
阅读次数:
135
python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中;再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接 ...
分类:
编程语言 时间:
2019-12-22 10:45:51
阅读次数:
132
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 《Python爬虫之国家统计局相关数据的爬取及分析》 2.主题式网络爬虫爬取的内容与数据特征分析 本次爬取内容为:国家统计局(http://www.stats.gov.cn/)中,改革开放以来GDP增长率、三大产业对GDP的贡献率以及三大 ...
分类:
编程语言 时间:
2019-12-21 15:36:11
阅读次数:
77
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容: (注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 《Python爬虫之国家统计局相关数据的爬取及分析》 2.主题式 ...
分类:
编程语言 时间:
2019-12-21 15:34:46
阅读次数:
97
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂; XPath:语法简单,可以满足绝大部分的需求; 所以,如果你可以根据自己的需要进行选择。 一、首先,我们需要为Google浏览器配置XPath插件: 请自行学习,效果如下: 二、XPath的语法: 注意: XP ...
分类:
编程语言 时间:
2019-12-20 11:45:42
阅读次数:
81
re是Python的一个第三方库。 为了能更直观的看出re的效果,我们先新建一个HTML网页文件(可直接复制): index.html OK,然后我们进入主题。 re主要有三个功能:提取、匹配、替换。 1、提取findall: 注意:返回的类型是列表 我们应如何取出上文index.html中的Ema ...
分类:
编程语言 时间:
2019-12-20 01:04:29
阅读次数:
248
一、什么是cookie? cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。 二、什么是session? 本来的含义是指有始有终的一些列动作,而在web中,session对象用来在服务器存储特定用户会话所需要的属性及信息。 三、cookie和session产生的原因: co ...
分类:
编程语言 时间:
2019-12-19 23:30:53
阅读次数:
107
一、HTML HTML是Hyper Text Markup Language(超文本标记语言)的缩写。 HTML不是一种编程语言,而是标记语言。 HTML的语法 双标签: 单标签: HTML的元素和属性 元素 HTML的结构 ``————文件为html文件 ``————语言类型:英语 ``————头 ...
分类:
编程语言 时间:
2019-12-19 21:07:00
阅读次数:
93
爬虫简介: 网络爬虫是按照一定的规则,自动的抓取万维网信息的程序或者脚本。 各编程语言编写爬虫程序: 1,PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能力弱。爬虫是工具性程序,对速度和效率要求比较高。 2,Java:生态圈很完善,是Python爬虫 ...
分类:
其他好文 时间:
2019-12-19 19:08:31
阅读次数:
94
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4 ...
分类:
编程语言 时间:
2019-12-19 14:41:02
阅读次数:
102