大数据集 - NoSQL,NewSQL,SQL ..？大脑炒

作者：雯颜哥_135 | 2023-06-22 15:45

如何解决《大数据集-NoSQL,NewSQL,SQL..？大脑炒》经验，为你挑选了0个好方法。

我需要一些建议.我在数据挖掘领域开始了一个新的初创公司.这基本上是研究项目的分拆.

无论我们有多大的非结构化数据,我们都会对这些数据进行各种NLP,分类和聚类分析.

我们有数以百万计的消息,包括推特消息,博客文章,论坛帖子,新论文,报告等等......所有文字.我们所有人都需要大约300GB +的文本数据并且每天都在增长(每天大约10GB增长)!

因此,我们需要某个地方以一种我们可以实际处理和查询并获得相对实时结果的格式存储所有这些信息.

我们需要在某处存储这些数据...

由于这是一个新的初创公司,我们真的不能/不想为许可产品付费,例如VoltDB,Oracle等企业版是遥不可及的.

我认为这可能是非关系"NoSQL"数据库的完美应用程序,例如Apache Cassandra或Hadoop/HBase(列族),MongoDB(文档),VoltDB(社区edn)或MySQL.

目前,所有数据都在tsv文本文件中,并作为其写入文件进行处理.不用说它很痛苦,这意味着整个事情都停留在一个过程中,我们无法查询它.它可以工作,但它限制了我们可以用这个数据集做的丰富性.

无论如何,我希望有人可以使用上述任何工具或任何针对此用例的建议(大型文本数据非结构化)来分享他们的经验,用于自然语言处理,分类,聚类,频率收集,实时分析等. ？

我最大的担心是MySQL无法处理未来的大量数据.今年年底,这件事将处于TB级,所以我们通过实施可扩展的解决方案,让我们轻松查询数据,试图获得曲线和增长的一部分......

我认为像HBase这样的非rel/NoSQL列族数据库是最好的,对于我们一直添加新的数据源(爬虫,流API等),如果我们有一个非结构化的模型,它会容易得多.

任何帮助将不胜感激!地狱甚至可能有一份工作:)

干杯!

推荐阅读

程序员
Docker容器中的Java进程不会在main()的末尾退出

如何解决《Docker容器中的Java进程不会在main()的末尾退出》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么可以在Go中的多个return语句中重新定义err

如何解决《为什么可以在Go中的多个return语句中重新定义err》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Wifi将Lua脚本上传到NodeMCU

如何解决《使用Wifi将Lua脚本上传到NodeMCU》经验，为你挑选了1个好方法。 ... [详细]
程序员
是没有价值的选择选项,有效吗？

如何解决《是没有价值的选择选项,有效吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Dynamics Ax中获取文件名

如何解决《在DynamicsAx中获取文件名》经验，为你挑选了1个好方法。 ... [详细]
程序员
在iTunesConnect中禁用了创建新版本

如何解决《在iTunesConnect中禁用了创建新版本》经验，为你挑选了1个好方法。 ... [详细]
程序员
命名空间的多个别名？

如何解决《命名空间的多个别名？》经验，为你挑选了2个好方法。 ... [详细]
程序员
一次安装多个NuGet包

如何解决《一次安装多个NuGet包》经验，为你挑选了1个好方法。 ... [详细]
程序员
wp_title过滤器对<title>标记没有任何影响

如何解决《wp_title过滤器对<title>标记没有任何影响》经验，为你挑选了1个好方法。 ... [详细]
程序员
绘制一些不等式作为平面

如何解决《绘制一些不等式作为平面》经验，为你挑选了0个好方法。 ... [详细]
程序员
SVG中的厚Bezier曲线没有伪影

如何解决《SVG中的厚Bezier曲线没有伪影》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取连接失败:php_network_getaddresses:getaddrinfo failed:名称或服务未知

如何解决《获取连接失败:php_network_getaddresses:getaddrinfofailed:名称或服务未知》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Python中使用.NET dll

如何解决《在Python中使用.NETdll》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android中阿拉伯文字的阿拉伯数字

如何解决《Android中阿拉伯文字的阿拉伯数字》经验，为你挑选了2个好方法。 ... [详细]
程序员
泛洪的最合适的HTTP状态代码是什么？

如何解决《泛洪的最合适的HTTP状态代码是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用数组计算每个数字的出现次数

如何解决《使用数组计算每个数字的出现次数》经验，为你挑选了0个好方法。 ... [详细]
程序员
选择一个RadioButton值并向后滚动以删除RecyclerView中的选定值

如何解决《选择一个RadioButton值并向后滚动以删除RecyclerView中的选定值》经验，为你挑选了0个好方法。 ... [详细]
程序员
从包的__init__.py中屏蔽python子模块

如何解决《从包的__init__.py中屏蔽python子模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用反射填充自定义类属性

如何解决《使用反射填充自定义类属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找列表中邻居的最有效方法

如何解决《查找列表中邻居的最有效方法》经验，为你挑选了0个好方法。 ... [详细]

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章