当前位置:  开发笔记 > 编程语言 > 正文

使用nodejs实现一个简单的网页爬虫功能(附代码)

本篇文章通过实例给大家介绍一下nodejs实现简单网页爬虫功能的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。
本篇文章通过实例给大家介绍一下nodejs实现简单网页爬虫功能的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。

var http = require('http');
http.get('http://tuijian.hao123.com/hotrank',function(res){    var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        console.log(data);
    })
});

获得的结果如下所示:















热点排行榜-头条新闻-hao123新闻导航_hao123上网导航














电视剧

排名关键词搜索指数

综艺

排名关键词搜索指数

筛选数据

  以网页中的综艺热点部分

【使用】

  它的使用方法和jQuery相当类似,上手非常容易。以获取综艺热度前10名的节目名称为例

var http = require('http');
var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){
    var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        filter(data);
    })
});
function filter(data){
    //保存搜索量前10的综艺节目标题
    var result = [];
    //将页面源代码转换为$对象
    var $ = cheerio.load(data);
    //查找每个综艺节目标题的外层div
    var temp_arr = $('[monkey = "zy"]').find('.point-bd').find('.point-title');
    //将综艺节目标题依次保存到结果数组中
    temp_arr.each(function(index,item){
        result.push($(item).text());
    })
    //[ '变形计','来吧冠军','拜托了冰箱','昆仑决','天生是优我','姐姐好饿','脑力男人时代','奔跑吧兄弟','我想和你唱','玫瑰之旅' ]
    console.log(result);
}

爬虫代码

  下面将hao123网页中的'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6部分的排名爬下来,分别到对象名为'result'中的数组中,分别命令为'ss'、'jr'、'ms'、'dy'、'dsj'、'zy'

【代码如下】

var http = require('http');
var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){
    var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        filter(data);
    })
});
function filter(data){
    //保存各部分搜索量前10的名称
    //对象名为榜单名,如'实时热点'
    //对象内容为10个标题名称组成的数组
    var result = {};
    //将页面源代码转换为$对象
    var $ = cheerio.load(data);
    //查找'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6个榜单所在的div
    var temp_div = $('.top-wrap');

    //保存榜单名称
    var temp_title = [];

    temp_div.each(function(index,item){
        //查找榜单名,并保存到temp_title文件夹中
        temp_title.push($(item).find('h2').text());

        //查找每类下每个标题的外层div
        var temp_arr = $(item).find('.point-bd').find('.point-title');

        //将result下的每个榜单初始化为一个数组
        var innerResult = result[temp_title[index]] = [];

        //将节目标题依次保存到相应榜单的数组中
        temp_arr.each(function(_index,_item){
            innerResult.push($(_item).text())
        })
    })
    console.log(result);
}

【结果如下】

{ '实时热点': 
   [ '美国逮捕女斯诺登',
     '成都隐秘母乳买卖',
     '曝周杰伦青涩旧照',
     '老头公交强吻女孩',
     '王传君恋情曝光',
     '杭州现奇葩窗口',
     '忘带全班准考证',
     '未成年持械拍网红',
     '9秒揍儿子8拳',
     '戴耳机穿轨道被撞' ],
  '今日热点': 
   [ '北京回龙观大火',
     '选美冠军车祸身亡',
     '2017高考',
     '成都老火锅店被查',
     '陈浩民娇妻秀身材',
     '海边直播发现浮尸',
     '曝印小天遭妻骗婚',
     '苹果开发者大会',
     '6万斤鱼缺氧死亡',
     '安以轩夏威夷大婚' ],
  '民生热点': 
   [ '北京回龙观大火',
     '2017高考',
     '成都老火锅店被查',
     '海边直播发现浮尸',
     '苹果开发者大会',
     '6万斤鱼缺氧死亡',
     '北控外援训练猝死',
     '武汉男子裸体捅人',
     '多国与卡塔尔断交',
     '美驻华外交官辞职' ],
  '电影': 
   [ '神奇女侠',
     '异星觉醒',
     '新木乃伊',
     '中国推销员',
     '荡寇风云',
     '异兽来袭',
     '李雷和韩梅梅',
     '北极星',
     '美好的意外',
     '夏天19岁的肖像' ],
  '电视剧': 
   [ '龙珠传奇',
     '楚乔传',
     '欢乐颂2',
     '欢乐颂',
     '职场是个技术活',
     '择天记',
     '美食大冒险',
     '废柴兄弟',
     '人民的名义',
     '三生三世十里桃花' ],
  '综艺': 
   [ '变形计',
     '来吧冠军',
     '拜托了冰箱',
     '昆仑决',
     '天生是优我',
     '姐姐好饿',
     '脑力男人时代',
     '奔跑吧兄弟',
     '我想和你唱',
     '玫瑰之旅' ] }
[Finished in 0.7s]

更多编程相关知识,请访问:编程入门!!

以上就是使用nodejs实现一个简单的网页爬虫功能(附代码)的详细内容,更多请关注其它相关文章!

推荐阅读
跟我搞对象吧
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有