第一个nodejs爬虫：爬取豆瓣电影图片

时间：2017-07-01 17:18:53 阅读：250 评论：0 收藏：0 [点我收藏+]

第一个nodejs爬虫：爬取豆瓣电影图片存入本地：

技术分享

首先在命令行下 npm install request cheerio express -save;

代码：

var http = require(‘https‘); //使用https模块
var fs = require(‘fs‘);//文件读写
var cheerio = require(‘cheerio‘);//jquery写法获取所得页面dom元素
var request = require(‘request‘);//发送request请求
var i = 0;
var url = "https://movie.douban.com/subject/1889243/?from=subject-page";
//初始url 
function fetchPage(x) { //封装一层函数,方便递归调用
    startRequest(x);
}

function startRequest(x) {
    //采用http模块向服务器发起一次get请求      
    http.get(x, function(res) { //get到x网址，成功执行回调函数
        var html = ‘‘; //用来存储请求网页的整个html内容
        res.setEncoding(‘utf-8‘); //防止中文乱码
        //监听data事件，每次取一块数据
        res.on(‘data‘, function(chunk) {
            html += chunk;
        });
        //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
        res.on(‘end‘, function() {
            var $ = cheerio.load(html); //采用cheerio模块解析html
            var news_item = {
                //获取电影的标题
                title: $(‘.related-info h2 i‘).text().trim(),
                //i是用来判断获取页数
                i: i = i + 1,

            };

            console.log(news_item); //打印新闻信息
            var news_title = $(‘.related-info h2 i‘).text().trim();

            savedContent($, news_title); //存储每篇文章的内容及文章标题

            savedImg($, news_title); //存储每篇文章的图片及图片标题

            //下一篇电影的url
            nextLink = $(".recommendations-bd dl:last-child dd a").attr(‘href‘);
            if(i <= 10) { //爬取10页
                fetchPage(nextLink);
            }
        });

    }).on(‘error‘, function(err) { //http模块的on data,on end ,on error事件
        console.log(err);
    });

}
//存储标题函数
function savedContent($, news_title) {
    $(‘#link-report span‘).each(function(index, item) {
        var x = $(this).text();
        x = x + ‘\n‘;
        //将新闻文本内容一段一段添加到/data文件夹下，并用新闻的标题来命名文件
        fs.appendFile(‘./data/‘ + news_title + ‘.txt‘, x, ‘utf-8‘, function(err) {
            if(err) {
                console.log(err);
            }
        });
    })
}
//该函数的作用：在本地存储所爬取到的图片资源
function savedImg($, news_title) {
    $(‘#mainpic img‘).each(function(index, item) {
        var img_title = $(‘#content h1 span‘).text().trim(); //获取图片的标题
        if(img_title.length > 35 || img_title == "") { //图片标题太长
            img_title = "Null";
        }
        var img_filename = img_title + ‘.jpg‘;
        var img_src = $(this).attr(‘src‘); //获取图片的url

        //采用request模块，向服务器发起一次请求，获取图片资源
        request.head(img_src, function(err, res, body) {
            if(err) {
                console.log(err);
            }
        });
        request(img_src).pipe(fs.createWriteStream(‘./image/‘ + news_title + ‘---‘ + img_filename));
        //通过流的方式，把图片写到本地/image目录下，并用标题和图片的标题作为图片的名称。
    })
}
fetchPage(url); //主程序开始运行

第一个nodejs爬虫：爬取豆瓣电影图片

标签：回调函数 ref from 技术分享打印爬取事件 ext img

原文地址：http://www.cnblogs.com/rlann/p/7102587.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行