我正在寻找一种学习如何适应大型数据集的方法.我是一名大学生,所以我所做的一切都是"漂亮"的大小和复杂性.本学期与教授一起研究项目,我不得不想象一个有点大(根据我的经验)数据集之间的关系.这是一个15 MB的CSV文件.
我在Python中编写了大部分数据争论,使用GNUPlot可视化.
那里有关于这个主题的可访问的书籍或网站吗?使用Python的奖励积分,更多"基本"可视化系统的奖励积分,而不是依赖于gnuplot.我想是开罗什么的.
寻找能够从数据挖掘,处理到可视化的东西.
编辑:我更需要一些可以教我"重要思想"的东西.我可以自己编写代码,但是寻找人们用来处理大型数据集的技术.我的意思是,我的15 MB足够小,我可以将我需要的所有内容放入内存中,然后开始运算.人们如何看待5 GB数据集?
我会说最基本的技能是数学和统计学的良好基础.这可以帮助您评估和选择各种过滤数据的技术,并在保持其完整性的同时减少其数量和维度.你要做的最后一件事就是制作漂亮的东西,这些东西显示的模式或关系并不存在.
要解决某些类型的问题,您需要学习一些数学知识,以了解特定算法的工作原理以及它们对数据的影响.有各种算法可用于聚类数据,降维,自然语言处理等.根据您希望分析的数据类型,您可能永远不会使用其中的许多算法,但Internet上有丰富的资源(和Stack Exchange站点)如果你需要帮助
有关数据挖掘技术的介绍性概述,Witten的数据挖掘很好.我有第一版,它用简单的语言解释概念,并加入了一些数学.我推荐它,因为它提供了一个很好的概述并且它不是太昂贵 - 当你在字段中阅读更多时,你会注意到很多书很贵.唯一的缺点是许多专门使用WEKA的页面,这是一个Java数据挖掘包,当你使用Python时它可能不太有用(但它是开源的,所以你可以从源代码中收集一些想法)我还发现了机器学习简介,提供了一个很好的概述,价格合理,还有更多的数学.
为了在一台机器上创建您自己的发明的可视化,我认为基础知识应该让您入门:Python,Numpy,Scipy,Matplotlib,以及您经验丰富的图形库,如PIL或 Pycairo.有了这些,您可以通过自定义绘图程序来处理数字,在图表上绘制图表以及完成任务.
当您想要创建移动的交互式可视化时,像基于Java的Processing库这样的工具可以轻松实现.如果您不想编写Java,甚至可以通过Jython 在Python中编写Processing草图.
如果你需要它们,还有更多的工具,比如OpenCV(计算机视觉,机器学习),Orange(数据挖掘,分析,viz)和NLTK(自然语言,文本分析).
像Edward Tufte这样的领域的人们以及信息图形等参考 书籍 可以帮助您更好地概述创建可视化的方法并有效地展示它们.
像Flowing Data,Infosthetics,Visual Complexity和Information is Beautiful这样的网站展示了来自网络的最新,有趣的可视化.您还可以通过许多编纂名录中的可视化网站在那里在互联网上.从这些作为种子开始并开始导航,我相信你会找到很多有用的网站和鼓舞人心的例子.
(这最初是一个评论,但增长太长)