豌豆荚游戏排行榜爬虫源码

时间：2016-05-16 17:12:26 阅读：157 评论：0 收藏：0 [点我收藏+]

标签：

var configs = {  
    domains: ["apps.wandoujia.com"],  
    scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"],  
    contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"],  
    helperUrlRegexes: ["http://apps\\.wandoujia\\.com/api/v1/apps\\?type=weeklytopgame&max=12&start=\\d+"],//可留空  
    fields: [  
        {  
            // 第一个抽取项  
            name: "title",  
            selector: "//span[contains(@class,‘title‘)]",  
            required: true //是否不能为空  
        },  
        {  
            // 第二个抽取项  
            name: "download",  
            selector: "//i[@itemprop=‘interactionCount‘]",  
            required: false //是否不能为空  
        },  
        {  
            //第三个抽取项  
            name:"thumb",  
            selector:"//div[contains(@class,‘app-icon‘)]/img[@itemprop=‘image‘]/@src",  
        }  
          
    ]  
};  
configs.onProcessHelperUrl = function(url, content, site) {  
    var jarr = JSON.parse(content);  
    //发现内容页  
    for (var i = 0, n = jarr.length; i < n; i++) {  
        var new_url = "http://www.wandoujia.com/apps/"+jarr[i].packageName;  
        site.addUrl(new_url);  
    }  
    var currentStart = parseInt(url.substring(url.indexOf("&start=") + 7));  
    var start = currentStart+12;  
    if(start < 100){  
        site.addUrl("http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start="+start);  
    }  
    return true;  
}  
var crawler = new Crawler(configs);  
crawler.start();

看到有人问豌豆荚游戏榜单的爬虫如何写，这里特别贴一下完整的代码。

这里只爬了豌豆荚应用的名称，下载量和图标地址，有其他需求的朋友可以自己写xpath进行提取。

运行方法：复制代码到神箭手云爬虫平台上运行即可。

豌豆荚游戏排行榜爬虫源码

标签：

原文地址：http://www.cnblogs.com/datafactory/p/5498310.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行