当前位置:  开发笔记 > 编程语言 > 正文

使用Java的web索引器

如何解决《使用Java的web索引器》经验,为你挑选了1个好方法。

在Java中开发时,并行系统或分布式系统是否更适合网站爬虫和Web索引器?有哪些框架?



1> Nikolaos..:

你会发现Java最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的.

特征:

    并行获取,解析和索引以及/或分发

    插件:纯文本,HTML,XML,ZIP,OpenDocument(OpenOffice.org),Microsoft Office(Word,Excel,Powerpoint),PDF,JavaScript,RSS,RTF,MP3(ID3标签)

    本体论

    聚类

    MapReduce的

    分布式文件系统(通过Hadoop)

    链接图数据库

    NTLM身份验证(Windows/Exchange/etc)

推荐阅读
跟我搞对象吧
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有