上次分享了es6开发环境的搭建,本次接着分享es6常用的特性。 1.变量声明let和const 我们都是知道在ES6以前,var关键字声明变量。无论声明在何处,都会被视为声明在函数的最顶部(不在函数内即在全局作用域的最顶部)。这就是函数变量提升例如: 以上的代码实际上是: 所以不用关心bool是否为 ...
分类:
其他好文 时间:
2017-07-23 19:46:39
阅读次数:
183
1.信息的三种类型。’ 1.1 XML 2.JSON 3.YAML 三种信息的比较: 2.信息的提取 string others ...
分类:
其他好文 时间:
2017-07-23 13:35:40
阅读次数:
163
逻辑思路是什么? 1. 获取页面 2. 处理页面,提取信息 3. 格式输出 先走面向过程编程: 1. 要定义3个函数,对应以上三个过程 2. 在__main__函数中传入参数,并执行以上三个过程 如何走向面向对象? 1. 输入: url 获得多少条信息 2. 输出: 格式化信息 3. 对于获取页面和 ...
分类:
其他好文 时间:
2017-07-16 11:19:44
阅读次数:
209
一、前言 1.1正则表达式简述 正则表达式是一种查找以及字符串替换操作。正则表达式在文本编辑器中广泛使用,比如正则表达式被用于: 1.检查文本中是否含有指定的特征词 2.找出文中匹配特征词的位置 3.从文本中提取信息,比如:字符串的子串 4.修改文本 与文本编辑器相似,几乎所有的高级编程语言都支持正 ...
分类:
编程语言 时间:
2017-07-07 11:43:02
阅读次数:
217
一:XPath介绍 XPath全称XML路径语言,用于确定XML文档中某部分位置。XPath基于XML树状结构,在树中寻找结点。 现在,一般使用XPath在XML中查找、提取信息,同时,它也支持HTML。所以,我们可以用XPath取代正则表达式来提取信息。 XPath通过元素以及属性进行导航。 二: ...
分类:
编程语言 时间:
2017-06-16 11:23:26
阅读次数:
134
一:requests模块介绍 requests是第三方http库,可以十分方便地实现python的网络连接,完美替代了urllib2模块。 二:实战 使用requests实现定向爬虫需要两步:首先使用requests获取目标网页的源代码;然后使用requests与正则表达式从中提取信息。 1: ...
分类:
编程语言 时间:
2017-06-15 21:54:52
阅读次数:
198
#!python
#coding:utf-8
#python实现百度搜索关键字,并依次用浏览器打开前五个搜索结果
##
##BeautifulSoup是一个模块,用于从HTML页面中提取信息(用于这个目的时,它比正则表达式好很多)。BeautifulSoup模块的名称是bs4(表示BeautifulSoup,第4版)。要安装它,需要在命令..
分类:
编程语言 时间:
2017-06-09 09:53:06
阅读次数:
181
一直想把自己这段时间做的东西整理下,确迟迟没有动手,现在信息抽取工作已经做的差不多,把自己感觉很好用的两个工具介绍给大家吧! Firefox真是一个好东西,它许多插件。本人是很讨厌插件的,每次电脑里都会安装一大堆无用的插件,看着心里不爽。由于项目需要,要看网页的代码,并 且找到有用信息,如果下载一个 ...
分类:
其他好文 时间:
2017-06-02 14:51:04
阅读次数:
151
引言 从网页中提取信息的需求日益剧增,其重要性也越来越明显。每隔几周,我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标。这是一个问题或产品,其功效更多地取决于网页 ...
分类:
编程语言 时间:
2017-05-14 23:35:53
阅读次数:
432
python中的切片操作功能十分强大,通常我们利用切片来进行提取信息,进行相关的操作,下面就是一些切片的列子。 列如我们从range函数1-100中取7的倍数,函数及结果如下所示: 取一个list或tuple的部分元素是非常常见的操作。比如,一个list如下: 取前3个元素,应该怎么做? 笨办法: ...
分类:
编程语言 时间:
2017-05-14 21:48:26
阅读次数:
301