目标 建立一个 lesson3 项目,在其中编写代码。 当在浏览器中访问 http://localhost:3000/ 时,输出 CNode(https://cnodejs.org/ ) 社区首页的所有帖子标题和链接,以 json 的形式 知识点: 库介绍: superagent(http://vi ...
分类:
Web程序 时间:
2017-04-22 19:45:16
阅读次数:
272
系统环境:centos 下午使用npm安装“cheerio”,想搞爬虫玩玩。 npm安装有两种模式: 本地 # npm install cheerio 全局 # npm install cheerio -g 如果想要全局安装,你首先要先设置个全局路径 我在"node的安装位置/lib/node_mo ...
分类:
其他好文 时间:
2017-03-24 00:03:43
阅读次数:
14357
###cheerio 为服务器特别定制的,快速、灵活、实施的jQuery核心实现. ###Introduction 将HTML告诉你的服务器 ###Installation npm install cheerio ###Features **? 相似的语法:**Cheerio 包括了 jQuery ...
爬虫的终极形态:nightmare nightmare 是一个基于 electron 的自动化库(意思是说它自带浏览器),用于实现爬虫或自动化测试。相较于传统的爬虫框架(scrapy/pyspider),或者dom操作库(cheerio/jsdom),或者基于浏览器的自动化框架(selenium/p ...
分类:
Web程序 时间:
2017-02-21 00:41:24
阅读次数:
247
上一篇博客讲解了使用nodejs爬取博客园的博文,这次带给大家的是下载网络上的图片。 需要用到的第三方模块有: superagent superagent-charset (手动改指定编码,解决GBK中文乱码) cheerio express async (并发控制) 完整的代码,可以在我的gith ...
分类:
Web程序 时间:
2017-02-05 15:06:28
阅读次数:
215
其实写这篇文章,我是很忐忑的,因为爬取的内容就是博客园的,万一哪个顽皮的小伙伴拿去干坏事,我岂不成共犯了? 好了,进入主题。 首先,爬虫需要用到的模块有: express ejs superagent (nodejs里一个非常方便的客户端请求代理模块) cheerio (nodejs版的jQuery ...
分类:
Web程序 时间:
2017-01-19 12:21:54
阅读次数:
339
本文给出使用一个用cheerio模块提取html文件中指定内容的例子,并说明具体步骤、涉及到的API、以及其它模块。 cheerio模块是一个类似jquery的模块,具有相似的API、功能,能够将一个网页解析为DOM,以及通过selector选择元素,设置、获取元素属性。 ...
分类:
Web程序 时间:
2016-12-18 18:33:54
阅读次数:
477
nodejs是js语言,实现一个爬出非常的方便。 步骤 1. 使用nodejs的request模块,获取目标页面的html代码;https://github.com/request/request 2. 使用cheerio模块对html代码做处理(cheerio类似jQuery的语法,所以好用又方便 ...
分类:
Web程序 时间:
2016-12-09 07:49:43
阅读次数:
141
需要安装nodejs和cheerio模块 实现了自定义用户,自定义页数,抓取完毕自动停止无重复 可以按需修改文章类和评论的类名 用法: 首先 npm install cheerio 执行 node cnblog [username] 文件结果保存在res/cnblog.txt ...
分类:
Web程序 时间:
2016-11-30 22:07:47
阅读次数:
154
还是参考了这篇文章: http://cnodejs.org/topic/54bdaac4514ea9146862abee 另外有上面文章 nodejs抓取网易公开课的一些经验。 代码如下,注意其中用到了 http获取网页结果,request进行http请求,cheerio进行解析,mkdirp创建目 ...
分类:
Web程序 时间:
2016-10-18 02:00:10
阅读次数:
210