当前位置:  开发笔记 > 编程语言 > 正文

剽窃分析器(与Web内容相比)

如何解决《剽窃分析器(与Web内容相比)》经验,为你挑选了0个好方法。

大家好,全世界都是,

背景

我是计算机科学的最后一年学生.我提出了我的最终双模块项目,它是一个使用Java和MySQL的抄袭分析器.

抄袭分析器将:

    扫描上传文档的所有段落.分析从哪个网站复制的每个段落的百分比.

    仅突出显示从每个段落中的哪个网站准确复制的单词.

我的主要目标是开发像Turnitin这样的东西,尽可能改进.

我有不到6个月的时间来开发该计划.我有以下几点:

    Web爬虫实现.可能会使用Lucene API或开发我自己的Crawler(哪一个在时间开发和可用性方面更好?).

    哈希和索引.改进搜索和分析.

问题

这是我的问题:

    MySQL可以存储那么多信息吗?

    我错过了任何重要的主题吗?

    您对此项目有何看法?

    任何进行相似性分析的建议或技巧?

    一个段落可以被散列,还有文字?

在此先感谢您的任何帮助和建议.^^

推荐阅读
帆侮听我悄悄说星星
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有