用node.js做一个爬虫var express = require('express');var superagent = require('superagent');var cheerio = require('cheerio');// 调用 express 实例,它是一个函数,不带参数调用时,...
分类:
Web程序 时间:
2015-09-22 16:17:58
阅读次数:
163
在node.js中,有了cheerio模块、request模块,抓取特定URL页面的数据已经非常方便。 一个简单的就如下var request = require('request');var cheerio = require('cheerio');request(url,function(...
分类:
Web程序 时间:
2015-09-16 15:38:03
阅读次数:
264
https://github.com/cheeriojs/cheerio可以简单粗暴的理解为服务器端 jQuery 选择器,有了它,比正则解析html字符串要更加便捷直观
分类:
Web程序 时间:
2015-08-21 01:38:04
阅读次数:
162
这里做得比较暴力,没有分页取出数据解析,O(∩_∩)O哈哈~,居然没有被挂机.不过解析的坑特别多...不过大部分我想要的数据都拿到了.//解析列表数据var http = require("http"), cheerio = require("cheerio"), mongoose = ...
分类:
Web程序 时间:
2015-08-16 18:13:33
阅读次数:
138
通读cheerio API{ options: { decodeEntities: false, withDomLvl1: true, normalizeWhitespace: false, xmlMode: false }, ...
分类:
其他好文 时间:
2015-08-08 18:14:57
阅读次数:
170
前后端分离喊了不少时间了,大家的理解和实践也是五花八门,
Nodejs作为后端语言,直接进行DOM操作是违背分离原则的。
但如果是个人的小网站,稍微灵活一点也没有坏处不是。
这里介绍的是cheerio这个插件,是基于jquery实现并稍有精简,目的是为nodejs提供像jquery一样的dom操作
ps:本来jsdom也是一种选择,但可惜最新版本的jsdom不再支持nodejs下面看一个例子...
分类:
Web程序 时间:
2015-07-28 18:35:58
阅读次数:
152
1 var cheerio = require("cheerio"); 2 var request = require('request'); 3 var iconv = require('iconv-lite'); 4 5 request.get({url:'http://mil.n...
分类:
Web程序 时间:
2015-07-21 16:59:08
阅读次数:
1723
其中express是服务端框架request相当于前端的ajax请求cheerio相当于jq开始首先我们先新建一个 crawler目录执行npm install express -g命令 和 npm install express-generator -g命令接着cd crawler进入crawle...
分类:
Web程序 时间:
2015-07-06 15:33:47
阅读次数:
191
cheerio DOM化并解析的时候1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现2.如果使用了 .html()方法,则很多情况下都会出现,这时,可能就需要转义一番了类似这些 因为需要作数据存储,所有需要转换Халк &#x...
分类:
Web程序 时间:
2015-07-01 20:36:14
阅读次数:
161