您将如何处理此数据处理任务？

作者：云聪京初瑞子_617 | 2023-09-03 19:04

如何解决《您将如何处理此数据处理任务？》经验，为你挑选了1个好方法。

我有一个包含2.5亿个网站URL的文件,每个URL都有IP地址,页面标题,国家名称,服务器横幅(例如"Apache"),响应时间(以毫秒为单位),图像数量等等.目前,这些记录是25GB的平面文件.

我有兴趣从这个文件生成各种统计数据,例如:

每个国家/地区代表的IP地址数

每个国家的平均响应时间

图像数量v响应时间

等等

我的问题是,你将如何实现这种类型和规模的处理,以及你使用的平台和工具(在合理的时间内)？

我对所有建议都持开放态度,从Windows上的MS SQL到Solaris上的Ruby,所有建议:-) DRY的奖励积分(不要重复自己),我不希望每次不同的切割时都不写新程序需要.

任何关于什么有效以及应该避免什么的评论都将非常感激.

1> Jonathan Lef..：

步骤1:将数据导入可处理数据量的DBMS.指数恰当.

第2步:使用SQL查询来确定感兴趣的值.

您仍然需要为要回答的每个单独问题编写新查询.但是,我认为这是不可避免的.它可以节省你复制其余的工作.

编辑:

请注意,虽然您可以简单地上传到单个表中,但如果在将数据加载到单个表后对数据进行规范化,则可能会从查询中获得更好的性能.这不是完全无关紧要的,但可能会减少数据量.确保您有一个良好的过程(可能不是存储过程)来规范化数据将有所帮助.

推荐阅读

程序员
为什么VS code中的问题匹配器不起作用？

如何解决《为什么VScode中的问题匹配器不起作用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python版本与json.dumps冲突

如何解决《python版本与json.dumps冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
递归放置的组件不显示

如何解决《递归放置的组件不显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Web组件中扩展元素时,"is"语法有什么意义？

如何解决《在Web组件中扩展元素时,"is"语法有什么意义？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows 10下访问2016年相当大的窗体边界太窄

如何解决《在Windows10下访问2016年相当大的窗体边界太窄》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python Pandas:String包含但不包含

如何解决《PythonPandas:String包含但不包含》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么PHP允许在一种情况下将文字传递给pass-by-reference参数而不允许其他情况？

如何解决《为什么PHP允许在一种情况下将文字传递给pass-by-reference参数而不允许其他情况？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在我调用delete,c ++之后仍然可以访问值

如何解决《在我调用delete,c++之后仍然可以访问值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使AutoMoqCustomization使用Strict MockBehavior？

如何解决《如何使AutoMoqCustomization使用StrictMockBehavior？》经验，为你挑选了0个好方法。 ... [详细]
程序员
与dplyr和所有的奇怪

如何解决《与dplyr和所有的奇怪》经验，为你挑选了1个好方法。 ... [详细]
程序员
处理回归(机器学习)中的未分配(null)特征值？

如何解决《处理回归(机器学习)中的未分配(null)特征值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C中的char数组中添加char/int？

如何解决《如何在C中的char数组中添加char/int？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从VSTS版本管理部署WebSite构建到Azure

如何解决《从VSTS版本管理部署WebSite构建到Azure》经验，为你挑选了2个好方法。 ... [详细]
程序员
iOS9"游戏中心无法识别此游戏."

如何解决《iOS9"游戏中心无法识别此游戏."》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将我的远程git存储库还原为某个提交？

如何解决《如何将我的远程git存储库还原为某个提交？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将\ in(是集合的成员)表示法添加到qplot中

$将\ in(是集合的成员)表示法添加到qplot中$

如何解决《将\in(是集合的成员)表示法添加到qplot中》经验，为你挑选了1个好方法。 ... [详细]
程序员
null和undefined不一致的比较

如何解决《null和undefined不一致的比较》经验，为你挑选了1个好方法。 ... [详细]
程序员
deleteRowsAtIndexPaths:滑动删除行永远不会释放单元格？

如何解决《deleteRowsAtIndexPaths:滑动删除行永远不会释放单元格？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Java加载纸莎草uml模型？

如何解决《如何使用Java加载纸莎草uml模型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何搜索有人用git更改的字符串？

如何解决《如何搜索有人用git更改的字符串？》经验，为你挑选了0个好方法。 ... [详细]

云聪京初瑞子_617

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章