12赞

使用nodejs实现一个简单的网页爬虫功能（附代码）

作者：跟我搞对象吧 | 2021-10-27 07:49

本篇文章通过实例给大家介绍一下nodejs实现简单网页爬虫功能的方法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。

var http = require('http');
http.get('http://tuijian.hao123.com/hotrank',function(res){    var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        console.log(data);
    })
});

获得的结果如下所示：















热点排行榜-头条新闻-hao123新闻导航_hao123上网导航











hao123
导航休闲娱乐
电影动漫综艺搞笑直播视频页游明星交友体育足球NBA星座电视剧小游戏
生活服务
团购银行军事房产股票基金天气菜谱汽车地图招聘儿童母婴健康大学手机
其他类别
软件邮箱微博公益宠物杀毒设计电脑桌面行业摄影英语考试学习小清新
一键登录VIP俱乐部退出
头条
娱乐
体育
财经
军事
国内
国际
历史
科技
汽车
教育
游戏
房产
时尚
热点排行




送考车要讲究 毛坦厂中学送考规模庞大
江苏"拇指西瓜"上市 可连皮食用
非洲女子嫁中国郎 2年后成广场舞明星
广州一考生去错考场 交警蜀黍紧急送考
福建小伙南非建安保公司 持AK47与劫匪激战
老师拔河搞怪表情走红 拔河如戏全靠演技
八卦热点
更多八卦>>
男子上山寻宝 挖出这物吓坏了!
千年巨蛇镇守古墓竟借尸还魂
地球是个监狱人类只是试验品！
DNA检测是叔叔的可爸爸是独子
出差两月打开电饭锅后惊呆了
女孩中大奖4年后怒告彩票公司
印度神牛竟拉出300多颗钻石！
21岁男孩吞云吐雾成烟雾之神！
继母让3孩子喝农药，继女死亡
惊呆！实拍假鸡蛋制作的全过程
实时热点
排名关键词搜索指数
1美国逮捕女斯诺登35388
2成都隐秘母乳买卖34497
3曝周杰伦青涩旧照1457
4老头公交强吻女孩103307
5王传君恋情曝光26616
6杭州现奇葩窗口26837
7忘带全班准考证125127
8未成年持械拍网红1672
99秒揍儿子8拳93193
10戴耳机穿轨道被撞195745
今日热点
排名关键词搜索指数
1北京回龙观大火174225
2选美冠军车祸身亡172447
32017高考136806
4成都老火锅店被查121729
5陈浩民娇妻秀身材115877
6海边直播发现浮尸86157
7曝印小天遭妻骗婚83749
8苹果开发者大会78140
96万斤鱼缺氧死亡68984
10安以轩夏威夷大婚56675
民生热点
排名关键词搜索指数
1北京回龙观大火174225
22017高考136806
3成都老火锅店被查121729
4海边直播发现浮尸86157
5苹果开发者大会78140
66万斤鱼缺氧死亡68984
7北控外援训练猝死50687
8武汉男子裸体捅人45810
9多国与卡塔尔断交44475
10美驻华外交官辞职44394
电影
排名关键词搜索指数
1神奇女侠40981
2异星觉醒15245
3新木乃伊7183
4中国推销员5890
5荡寇风云3006
6异兽来袭2566
7李雷和韩梅梅1636
8北极星1139
9美好的意外971
10夏天19岁的肖像783
电视剧
排名关键词搜索指数
1龙珠传奇999788
2楚乔传538848
3欢乐颂2257015
4欢乐颂176799
5职场是个技术活73102
6择天记67290
7美食大冒险61792
8废柴兄弟50419
9人民的名义46353
10三生三世十里桃花24386
综艺
排名关键词搜索指数
1变形计223319
2来吧冠军151641
3拜托了冰箱149596
4昆仑决139633
5天生是优我124472
6姐姐好饿99619
7脑力男人时代68735
8奔跑吧兄弟61903
9我想和你唱59249
10玫瑰之旅50425



意见反馈
返回顶部

hao123 上网导航第一品牌关于我们常见问题反馈意见全站地图京ICP证030173号
下载
手机端收藏
本站

筛选数据

　　以网页中的综艺热点部分

【使用】

　　它的使用方法和jQuery相当类似，上手非常容易。以获取综艺热度前10名的节目名称为例

var http = require('http');
var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){
    var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        filter(data);
    })
});
function filter(data){
    //保存搜索量前10的综艺节目标题
    var result = [];
    //将页面源代码转换为$对象
    var $ = cheerio.load(data);
    //查找每个综艺节目标题的外层div
    var temp_arr = $('[monkey = "zy"]').find('.point-bd').find('.point-title');
    //将综艺节目标题依次保存到结果数组中
    temp_arr.each(function(index,item){
        result.push($(item).text());
    })
    //[ '变形计','来吧冠军','拜托了冰箱','昆仑决','天生是优我','姐姐好饿','脑力男人时代','奔跑吧兄弟','我想和你唱','玫瑰之旅' ]
    console.log(result);
}

爬虫代码

　　下面将hao123网页中的'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6部分的排名爬下来，分别到对象名为'result'中的数组中，分别命令为'ss'、'jr'、'ms'、'dy'、'dsj'、'zy'

【代码如下】

var http = require('http');
var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){
    var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        filter(data);
    })
});
function filter(data){
    //保存各部分搜索量前10的名称
    //对象名为榜单名，如'实时热点'
    //对象内容为10个标题名称组成的数组
    var result = {};
    //将页面源代码转换为$对象
    var $ = cheerio.load(data);
    //查找'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6个榜单所在的div
    var temp_div = $('.top-wrap');

    //保存榜单名称
    var temp_title = [];

    temp_div.each(function(index,item){
        //查找榜单名，并保存到temp_title文件夹中
        temp_title.push($(item).find('h2').text());

        //查找每类下每个标题的外层div
        var temp_arr = $(item).find('.point-bd').find('.point-title');

        //将result下的每个榜单初始化为一个数组
        var innerResult = result[temp_title[index]] = [];

        //将节目标题依次保存到相应榜单的数组中
        temp_arr.each(function(_index,_item){
            innerResult.push($(_item).text())
        })
    })
    console.log(result);
}

【结果如下】

{ '实时热点': 
   [ '美国逮捕女斯诺登',
     '成都隐秘母乳买卖',
     '曝周杰伦青涩旧照',
     '老头公交强吻女孩',
     '王传君恋情曝光',
     '杭州现奇葩窗口',
     '忘带全班准考证',
     '未成年持械拍网红',
     '9秒揍儿子8拳',
     '戴耳机穿轨道被撞' ],
  '今日热点': 
   [ '北京回龙观大火',
     '选美冠军车祸身亡',
     '2017高考',
     '成都老火锅店被查',
     '陈浩民娇妻秀身材',
     '海边直播发现浮尸',
     '曝印小天遭妻骗婚',
     '苹果开发者大会',
     '6万斤鱼缺氧死亡',
     '安以轩夏威夷大婚' ],
  '民生热点': 
   [ '北京回龙观大火',
     '2017高考',
     '成都老火锅店被查',
     '海边直播发现浮尸',
     '苹果开发者大会',
     '6万斤鱼缺氧死亡',
     '北控外援训练猝死',
     '武汉男子裸体捅人',
     '多国与卡塔尔断交',
     '美驻华外交官辞职' ],
  '电影': 
   [ '神奇女侠',
     '异星觉醒',
     '新木乃伊',
     '中国推销员',
     '荡寇风云',
     '异兽来袭',
     '李雷和韩梅梅',
     '北极星',
     '美好的意外',
     '夏天19岁的肖像' ],
  '电视剧': 
   [ '龙珠传奇',
     '楚乔传',
     '欢乐颂2',
     '欢乐颂',
     '职场是个技术活',
     '择天记',
     '美食大冒险',
     '废柴兄弟',
     '人民的名义',
     '三生三世十里桃花' ],
  '综艺': 
   [ '变形计',
     '来吧冠军',
     '拜托了冰箱',
     '昆仑决',
     '天生是优我',
     '姐姐好饿',
     '脑力男人时代',
     '奔跑吧兄弟',
     '我想和你唱',
     '玫瑰之旅' ] }
[Finished in 0.7s]

更多编程相关知识，请访问：编程入门！！

以上就是使用nodejs实现一个简单的网页爬虫功能（附代码）的详细内容，更多请关注其它相关文章！

推荐阅读

程序员
将R自动安装SystemRequirements:对于尚未拥有该程序的用户

如何解决《将R自动安装SystemRequirements:对于尚未拥有该程序的用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
indexOf在javascript中的混乱

如何解决《indexOf在javascript中的混乱》经验，为你挑选了1个好方法。 ... [详细]
程序员
包含libxml2和LLVM模块映射

如何解决《包含libxml2和LLVM模块映射》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果"14"LEQ"7"()失败

如何解决《如果"14"LEQ"7"()失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python namedtuple的可变默认参数

如何解决《Pythonnamedtuple的可变默认参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
自定义Firefox Developer开发工具颜色主题

如何解决《自定义FirefoxDeveloper开发工具颜色主题》经验，为你挑选了0个好方法。 ... [详细]
程序员
无论密钥如何,Spark总结值

如何解决《无论密钥如何,Spark总结值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Numpy vectorize错误地将输出转换为整数

如何解决《Numpyvectorize错误地将输出转换为整数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何解决这种复发T(n)= T(n-1)+ lg(1 + 1/n),T(1)= 1？

如何解决《如何解决这种复发T(n)=T(n-1)+lg(1+1/n),T(1)=1？》经验，为你挑选了1个好方法。 ... [详细]
程序员
全面列表中的两个for循环

如何解决《全面列表中的两个for循环》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么这个C#函数表现得像我在使用指针？

如何解决《为什么这个C#函数表现得像我在使用指针？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在Android中解析方法getContext()

如何解决《无法在Android中解析方法getContext()》经验，为你挑选了1个好方法。 ... [详细]
程序员
不能将脚本名称识别为cmdlet,函数等; 也不能在简单的脚本上找到位置参数

如何解决《不能将脚本名称识别为cmdlet,函数等;也不能在简单的脚本上找到位置参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
显示绝对值angularjs

如何解决《显示绝对值angularjs》经验，为你挑选了2个好方法。 ... [详细]
程序员
仅在函数或构造函数实现中允许参数初始化

如何解决《仅在函数或构造函数实现中允许参数初始化》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果python中的语句没有打印

如何解决《如果python中的语句没有打印》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用原型[javascript]的未定义结果

如何解决《使用原型[javascript]的未定义结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
当我在rubymine中为我的项目添加ruby SDK时出错

如何解决《当我在rubymine中为我的项目添加rubySDK时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
python 2.7：函数中的'newline'

如何解决《python2.7：函数中的'newline'》经验，为你挑选了1个好方法。 ... [详细]
程序员
在使用gradle编译android库时如何禁止警告？

如何解决《在使用gradle编译android库时如何禁止警告？》经验，为你挑选了1个好方法。 ... [详细]

跟我搞对象吧

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章