我需要一些建议.我在数据挖掘领域开始了一个新的初创公司.这基本上是研究项目的分拆.
无论我们有多大的非结构化数据,我们都会对这些数据进行各种NLP,分类和聚类分析.
我们有数以百万计的消息,包括推特消息,博客文章,论坛帖子,新论文,报告等等......所有文字.我们所有人都需要大约300GB +的文本数据并且每天都在增长(每天大约10GB增长)!
因此,我们需要某个地方以一种我们可以实际处理和查询并获得相对实时结果的格式存储所有这些信息.
我们需要在某处存储这些数据...
由于这是一个新的初创公司,我们真的不能/不想为许可产品付费,例如VoltDB,Oracle等企业版是遥不可及的.
我认为这可能是非关系"NoSQL"数据库的完美应用程序,例如Apache Cassandra或Hadoop/HBase(列族),MongoDB(文档),VoltDB(社区edn)或MySQL.
目前,所有数据都在tsv文本文件中,并作为其写入文件进行处理.不用说它很痛苦,这意味着整个事情都停留在一个过程中,我们无法查询它.它可以工作,但它限制了我们可以用这个数据集做的丰富性.
无论如何,我希望有人可以使用上述任何工具或任何针对此用例的建议(大型文本数据非结构化)来分享他们的经验,用于自然语言处理,分类,聚类,频率收集,实时分析等. ?
我最大的担心是MySQL无法处理未来的大量数据.今年年底,这件事将处于TB级,所以我们通过实施可扩展的解决方案,让我们轻松查询数据,试图获得曲线和增长的一部分......
我认为像HBase这样的非rel/NoSQL列族数据库是最好的,对于我们一直添加新的数据源(爬虫,流API等),如果我们有一个非结构化的模型,它会容易得多.
任何帮助将不胜感激!地狱甚至可能有一份工作:)
干杯!