之前都是PHP(phpQuery)抓取,但jQuery更强大, 于是用nodejs。 只是node-jquery的依赖太多,只好用cheerio 下面是一个抓取脚本: var http = require('http'); var fs = require('fs'); var cheerio =
分类:
Web程序 时间:
2016-02-15 21:09:49
阅读次数:
291
var http = require('http'); var cheerio = require('cheerio'); var url = 'http://www.imooc.com/learn/348'; // 过滤章节信息 function filterChapters(html) { va
分类:
其他好文 时间:
2016-01-29 19:52:26
阅读次数:
186
所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各位不吝告诉我,然后一起把这个翻译完成。###cheerio 为服务器特别定制的,快速、灵活、实施的jQuery核心实现. ###Introduction 将HTM...
分类:
其他好文 时间:
2016-01-12 06:34:03
阅读次数:
278
var http=require('http');var cheerio=require('cheerio');//页面获取到的数据模块var url='http://www.jcpeixun.com/lesson/1512/';function filterData(html){ /*所要获...
分类:
Web程序 时间:
2015-12-16 15:15:41
阅读次数:
223
项目管理:npm,grunt, bower, yeomanWeb开发:express,ejs,hexo, socket.io, restify, cleaver, stylus, browserify,cheerio 工具包:underscore,moment,connet,later,log4js...
分类:
Web程序 时间:
2015-11-25 11:30:59
阅读次数:
186
通读cheerio API ——NodeJs中的jquery所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各位不吝告诉我,然后一起把这个翻译完成。###cheerio 为服务器特别定制的,快速、灵活、实施的jQ...
使用nodejs抓取网页数据,这里用到cheerio,解析html十分好用,和jquery用法完全一致。首先安装cheerio,在命令行中输入 npm install cheerio;(在nodejs根目录下输入该命令)安装完成以后,我们来解析慕课网上http://www.imooc.com/lea...
分类:
Web程序 时间:
2015-10-18 15:16:46
阅读次数:
162
一般爬虫要考虑的问题 之前尝试了request和cheerio实现的简单抓取数据用例,真的很初级,真正的爬虫且不说Google、百度等商用爬虫,即便是一个开源爬虫也要考虑很多东西,比如nodejs的开源爬虫neocrawler: 抓取网页并进行结构化解析,提取关键字后索引入库,防止网页重复抓取; 抓...
分类:
其他好文 时间:
2015-10-12 20:41:22
阅读次数:
213
var express = require('express');var superagent = require('superagent');var cheerio = require('cheerio');var app = express();app.get('/', function(req...
分类:
其他好文 时间:
2015-10-07 18:44:30
阅读次数:
129
想要自动从网页抓一些数据或者想把一坨从什么博客上拉来的数据转成一种有结构的数据?居然没有现成的API可以取数据?!!!!@#$@#$…没关系 网页抓取可以解决。什么是网页抓取? 你可能会问。。。网页抓取是以编程的方式(通常不用浏览器参与)检索网页的内容并从中提取数据的过程。本文,小编会给大家展示一套...
分类:
Web程序 时间:
2015-09-30 00:58:57
阅读次数:
266