使用cheerio爬数据的时候,有的页面不是使用utf8编码,而node只能识别utf8的编码,因此,不得不将gbk数据转为uft8。var http = require('http');var iconv = require('iconv-lite');var cheerio = requir.....
分类:
其他好文 时间:
2015-06-09 19:28:34
阅读次数:
210
http://www.75team.com/archives/543
发表于 2013 年 10 月 9 日 by bower
想要自动从网页抓一些数据或者想把一坨从什么博客上拉来的数据转成一种有结构的数据?
居然没有现成的API可以取数据?!!! !@#$@#$…
没关系 网页抓取可以解决。
什么是网页抓取? 你可能会问。。。
网页抓取是以编程的方式(通常不用浏览...
分类:
Web程序 时间:
2015-02-07 09:08:42
阅读次数:
217
var http = require("http");var cheerio = require("cheerio");var url = "http://nba.sports.163.com/2014/team/structure/17.html"; download(url, function(...
分类:
Web程序 时间:
2015-01-19 18:45:48
阅读次数:
138
看了几天的nodejs,的确是好用,全当是练手了,就写了一个爬虫工具。爬虫思路都是一致的,先抓取页面数据,然后分析页面,获取到所需要的数据,最后获得这些数据,是写入到硬盘,还是显示到网页,自己看着办。其中最难的是分析页面,如果不用其他工具,那就只能用正则表达式来分析了。这里采用cheerio这个模块...
分类:
Web程序 时间:
2015-01-14 14:04:45
阅读次数:
136
用到三个依赖包:express,superagent,cheerio superagent(http://visionmedia.github.io/superagent/?) 是个 http 方面的库,可以发起 get 或 post 请求。 cheerio(https://github.com/cheeriojs/cheerio?) 大家...
分类:
其他好文 时间:
2014-12-17 14:48:57
阅读次数:
185
不会的东西,再简单都是难;会的东西,再难都是简单。给自己写的,写的通俗易懂。cheerio:在node服务端,解析网页,是jquery的核心,去除了DOM中不一致的地方。先获得网页的源码,再通过cheerio解析,可以迅速提出想要的字段。获得源码有点麻烦。Load://使用的html字段 App.....
分类:
其他好文 时间:
2014-11-14 19:21:45
阅读次数:
122
注意事项:1、request模块的中文编码缺陷:使用requset去获取中文html的时候,要把encoding设置为null,然后使用iconv或者iconv-lite转码,否则会出现乱码request({
url:feed,
timeout:100000,
poll:false,
encoding:null
},
function(err,res,body){
if(!err&&res.sta..
分类:
Web程序 时间:
2014-10-23 21:05:57
阅读次数:
353
参考了各位大大的,然后自己写了个爬虫用到的modules:utils.js --- momentmodule_url.js var http = require("http"); //获得页面数据 var cheerio = require("cheerio")...
分类:
Web程序 时间:
2014-06-27 19:58:25
阅读次数:
278
很多语言都能写个爬虫抓取数据,js自然也可以,使用cheerio可以支持css检索,较快捷的获取需要的数据。首先,先把node.js给安装了。可到官网下载。安装好node.js后,使用npm安装cheerio。
我这里使用的是win7,可以在 node.js command prompt 里输入1....
分类:
其他好文 时间:
2014-06-05 19:16:34
阅读次数:
245