记得先装载http这个模块 打开cmd :npm install http -g cmd:node一下,出来网页源码 然后npm install cheerio -g 用慕课网做测试哈哈哈 ,这里要说明一点:代码和课程中是不一样的,因为网站改动了源代码,class之类的名字换掉了,所以之前的爬虫爬不 ...
分类:
Web程序 时间:
2017-07-14 00:44:12
阅读次数:
216
nodejs是服务器端的语言,所以可以像python一样对网站进行爬取。 准备 思路 爬虫分两种情况,第一种是用cheerio模块,获取到html的节点,从节点中拿到数据,比较适合直接用后端语言来渲染的页面。第二种是通过调用爬取网站的接口请求数据。 首先我们需要在XHR中找到获取关注列表的API。我 ...
分类:
Web程序 时间:
2017-07-08 21:07:50
阅读次数:
273
运行结果 二、获取页面的课程列表 安装cheerio cmd 执行命令 npm install cheerio 然后就可以require cheerio 运行结果 ...
分类:
Web程序 时间:
2017-07-07 17:27:52
阅读次数:
148
最近在做一个书城项目,数据用爬虫爬取,百度了一下找到这个网站,以择天记这本小说为例。 爬虫用到了几个模块,cheerio,superagent,async。 superagent是一个http请求模块,详情可参考链接。 cheerio是一个有着jQuery类似语法的文档解析模块,你可以简单理解为no ...
分类:
Web程序 时间:
2017-07-06 01:03:54
阅读次数:
636
//http小爬虫 var http=require('http') var cheerio=require('cheerio') var url='http://www.imooc.com/learn/348' function filter(html){ var $=cheerio.load(h... ...
分类:
Web程序 时间:
2017-07-03 16:27:51
阅读次数:
228
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: ...
分类:
Web程序 时间:
2017-07-01 17:18:53
阅读次数:
250
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样 开始前,记得 为了能够并发的进行爬取,用到了Promise ...
分类:
Web程序 时间:
2017-06-08 00:12:01
阅读次数:
257
nodejs 爬虫原理,先用request请求页面内容,把内容获取到并iconv-lite设置编码格式,再用cheerio进行类似dom操作合并内容,转换写入文件中 ...
分类:
Web程序 时间:
2017-06-03 09:58:26
阅读次数:
149
前言 前端时间再回顾了一下node.js,于是顺势做了一个爬虫来加深自己对node的理解。 主要用的到是request,cheerio,async三个模块 request 用于请求地址和快速下载图片流。 https://github.com/request/request cheerio 为服务器特 ...
分类:
Web程序 时间:
2017-05-29 18:17:23
阅读次数:
223
superagent和request结果转换区别 使用superagent和request抓取页面内容时,两个抓取内容都可以被cheerio进行处理。但处理时有个细微差别。 1. 使用superagent request(url, function(err, response, html){ if(... ...
分类:
其他好文 时间:
2017-04-28 16:10:42
阅读次数:
175