在Java中开发时,并行系统或分布式系统是否更适合网站爬虫和Web索引器?有哪些框架?
你会发现Java最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的.
特征:
并行获取,解析和索引以及/或分发
插件:纯文本,HTML,XML,ZIP,OpenDocument(OpenOffice.org),Microsoft Office(Word,Excel,Powerpoint),PDF,JavaScript,RSS,RTF,MP3(ID3标签)
本体论
聚类
MapReduce的
分布式文件系统(通过Hadoop)
链接图数据库
NTLM身份验证(Windows/Exchange/etc)