获取使用可视化/分析大型数据集的基本技能

作者：手机用户2402852387 | 2023-06-23 04:02

如何解决《获取使用可视化/分析大型数据集的基本技能》经验，为你挑选了1个好方法。

我正在寻找一种学习如何适应大型数据集的方法.我是一名大学生,所以我所做的一切都是"漂亮"的大小和复杂性.本学期与教授一起研究项目,我不得不想象一个有点大(根据我的经验)数据集之间的关系.这是一个15 MB的CSV文件.

我在Python中编写了大部分数据争论,使用GNUPlot可视化.

那里有关于这个主题的可访问的书籍或网站吗？使用Python的奖励积分,更多"基本"可视化系统的奖励积分,而不是依赖于gnuplot.我想是开罗什么的.

寻找能够从数据挖掘,处理到可视化的东西.

编辑:我更需要一些可以教我"重要思想"的东西.我可以自己编写代码,但是寻找人们用来处理大型数据集的技术.我的意思是,我的15 MB足够小,我可以将我需要的所有内容放入内存中,然后开始运算.人们如何看待5 GB数据集？

1> samplebias..：

我会说最基本的技能是数学和统计学的良好基础.这可以帮助您评估和选择各种过滤数据的技术,并在保持其完整性的同时减少其数量和维度.你要做的最后一件事就是制作漂亮的东西,这些东西显示的模式或关系并不存在.

专业数学

要解决某些类型的问题,您需要学习一些数学知识,以了解特定算法的工作原理以及它们对数据的影响.有各种算法可用于聚类数据,降维,自然语言处理等.根据您希望分析的数据类型,您可能永远不会使用其中的许多算法,但Internet上有丰富的资源(和Stack Exchange站点)如果你需要帮助

有关数据挖掘技术的介绍性概述,Witten的数据挖掘很好.我有第一版,它用简单的语言解释概念,并加入了一些数学.我推荐它,因为它提供了一个很好的概述并且它不是太昂贵 - 当你在字段中阅读更多时,你会注意到很多书很贵.唯一的缺点是许多专门使用WEKA的页面,这是一个Java数据挖掘包,当你使用Python时它可能不太有用(但它是开源的,所以你可以从源代码中收集一些想法)我还发现了机器学习简介,提供了一个很好的概述,价格合理,还有更多的数学.

工具

为了在一台机器上创建您自己的发明的可视化,我认为基础知识应该让您入门:Python,Numpy,Scipy,Matplotlib,以及您经验丰富的图形库,如PIL或 Pycairo.有了这些,您可以通过自定义绘图程序来处理数字,在图表上绘制图表以及完成任务.

当您想要创建移动的交互式可视化时,像基于Java的Processing库这样的工具可以轻松实现.如果您不想编写Java,甚至可以通过Jython 在Python中编写Processing草图.

如果你需要它们,还有更多的工具,比如OpenCV(计算机视觉,机器学习),Orange(数据挖掘,分析,viz)和NLTK(自然语言,文本分析).

介绍原则和技巧

像Edward Tufte这样的领域的人们以及信息图形等参考书籍可以帮助您更好地概述创建可视化的方法并有效地展示它们.

查找Viz示例的资源

像Flowing Data,Infosthetics,Visual Complexity和Information is Beautiful这样的网站展示了来自网络的最新,有趣的可视化.您还可以通过许多编纂名录中的可视化网站在那里在互联网上.从这些作为种子开始并开始导航,我相信你会找到很多有用的网站和鼓舞人心的例子.

(这最初是一个评论,但增长太长)

推荐阅读

程序员
项目级c ++异常处理策略

如何解决《项目级c++异常处理策略》经验，为你挑选了1个好方法。 ... [详细]
程序员
缺少makecert.exe

如何解决《缺少makecert.exe》经验，为你挑选了3个好方法。 ... [详细]
程序员
将通用List <string>绑定到ComboBox

如何解决《将通用List<string>绑定到ComboBox》经验，为你挑选了1个好方法。 ... [详细]
程序员
需要CSS侧边栏高度以扩展内容

如何解决《需要CSS侧边栏高度以扩展内容》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何从列表中选择随机名称并将其存储在变量中？

如何解决《如何从列表中选择随机名称并将其存储在变量中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是.NET开发人员？

如何解决《什么是.NET开发人员？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用SVN hotcopy恢复存储库？

如何解决《如何使用SVNhotcopy恢复存储库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将数组传递给方法Java

如何解决《将数组传递给方法Java》经验，为你挑选了3个好方法。 ... [详细]
程序员
ListBox上的WPF动画

如何解决《ListBox上的WPF动画》经验，为你挑选了1个好方法。 ... [详细]
程序员
何时使用替代Python发行版？

如何解决《何时使用替代Python发行版？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在python中格式化变量吗？

如何解决《我可以在python中格式化变量吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
xsl遍历字母表列表

如何解决《xsl遍历字母表列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
还有另一个MVVM问题......我的理解是否正确？

如何解决《还有另一个MVVM问题我的理解是否正确？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Church Retreat在线注册/付款

如何解决《ChurchRetreat在线注册/付款》经验，为你挑选了1个好方法。 ... [详细]
程序员
用于查找冗余索引的T-SQL

如何解决《用于查找冗余索引的T-SQL》经验，为你挑选了1个好方法。 ... [详细]
程序员
让git rerere自动将文件标记为已解决？

如何解决《让gitrerere自动将文件标记为已解决？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Berkeley DB Java版 - 调整大量数据

如何解决《BerkeleyDBJava版-调整大量数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
没有服务器的浏览器到浏览器通信？

如何解决《没有服务器的浏览器到浏览器通信？》经验，为你挑选了1个好方法。 ... [详细]
程序员
github没有与名称相关的地址

如何解决《github没有与名称相关的地址》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将Spring Roo和GWT结合在一起

如何解决《如何将SpringRoo和GWT结合在一起》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402852387

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章