大家好,全世界都是,
背景
我是计算机科学的最后一年学生.我提出了我的最终双模块项目,它是一个使用Java和MySQL的抄袭分析器.
抄袭分析器将:
扫描上传文档的所有段落.分析从哪个网站复制的每个段落的百分比.
仅突出显示从每个段落中的哪个网站准确复制的单词.
我的主要目标是开发像Turnitin这样的东西,尽可能改进.
我有不到6个月的时间来开发该计划.我有以下几点:
Web爬虫实现.可能会使用Lucene API或开发我自己的Crawler(哪一个在时间开发和可用性方面更好?).
哈希和索引.改进搜索和分析.
问题
这是我的问题:
MySQL可以存储那么多信息吗?
我错过了任何重要的主题吗?
您对此项目有何看法?
任何进行相似性分析的建议或技巧?
一个段落可以被散列,还有文字?
在此先感谢您的任何帮助和建议.^^