前段时间,在学 node 的过程中突然想到,我可以用 node 去爬小说。 说来就来。 1、首先,要有一个能够免费看小说的网站,找到小说的列表页,分析其中每个章节的标签,找到其中的规则,这样可以在代码中把重复的去掉。 2、通过 node 中的 http 模块加载这个列表页面,采用 cheerio 模 ...
分类:
其他好文 时间:
2018-01-19 19:50:31
阅读次数:
234
const http = require('http'); const fs = require('fs'); const cheerio = require('cheerio'); const urlArr = []; const imgArr = []; for(var i=1 ; i<=33 ... ...
分类:
其他好文 时间:
2017-12-13 23:19:39
阅读次数:
179
eventproxy 利用事件机制解耦复杂业务逻辑,移除被广为诟病的深度callback嵌套问题 json-stringify 效果类似于JSON.stringify superagent 轻量级客户端请求库 cheerio 类似于jquery dom mysql mysql驱动器 ...
分类:
Web程序 时间:
2017-12-13 14:32:16
阅读次数:
184
const request=require('request'); const cheerio=require('cheerio'); (function () { //页面信息==》简介相关 var getInfo=function (i) { var url='http://www.cnblog ...
分类:
其他好文 时间:
2017-12-10 14:37:49
阅读次数:
190
一时兴起,想做个爬虫,经过各种深思熟虑,最后选择了某乎,毕竟现在某乎的数据质量还是挺高的。说干就干 打开某乎首页,随便搜索了一串关键字,相关的问题和答案就展现在眼前,我就思考怎么把这些搜索结果全部通过爬虫爬下来,方便收集(我也不知道收集来干嘛嘻嘻)。 发现搜索结果每页只会显示10条数据,某乎用的是点 ...
分类:
其他好文 时间:
2017-12-02 11:23:52
阅读次数:
215
var http=require('http') var url='要抓取的url地址'; var cheerio=require('cheerio'); http.get(url,function(res){ var html='' ; res.on('data',function(data){ ...
分类:
Web程序 时间:
2017-10-13 17:12:24
阅读次数:
151
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取博客所有的文章标题,超链接,文章摘要,发布时间 需要用到的库: node.js自带的http库 第三方库:cheerio,这个库就是用来处理dom节点的,他的用法几乎跟jquery用法一 ...
分类:
Web程序 时间:
2017-09-15 19:02:00
阅读次数:
292
代码: 运行: 参考链接: http小爬虫 Node.js的学习--使用cheerio抓取网页数据 ...
分类:
Web程序 时间:
2017-08-03 20:18:10
阅读次数:
290
//引入模块 const http = require('http') const fs = require('fs') const cheerio = require('cheerio') const iconv = require('iconv-lite') const request = re... ...
分类:
其他好文 时间:
2017-08-01 12:47:43
阅读次数:
155
这篇文章 主要学习这两个模块的使用: request-promise-native : https://github.com/request/request-promise-native cheerio :https://github.com/cheeriojs/cheerio request-pr ...
分类:
Web程序 时间:
2017-07-16 10:08:55
阅读次数:
159