10赞

【数据挖掘导论】绪论

作者：oDavid_仔o_880 | 2021-09-09 16:51

数据挖掘导论读书笔记之绪论数据挖掘的前提：数据收集和数据存储技术的快速进步。数据挖掘是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。数据挖掘是在

数据挖掘导论读书笔记之绪论
数据挖掘的前提：数据收集和数据存储技术的快速进步。数据挖掘是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。
数据挖掘是在大型数据存储库中，自动的发现有用信息的过程。
数据挖掘与知识发现 数据挖掘是数据库中知识发现不可缺少的一部分（knowledge deiscovery in database）KDD,KDD是将未加工的数据转换为有用信息的整个过程。

输入数据：输入各种形式存储，并且可以驻留在几种的数据存储库中，活分布在多个站点上。
数据预处理：将未加工的输入数据转换成适合分析的形式。包括：融合来自多个数据源的数据，清洗数据，以及消除噪声和重复的观测值，选择与当前数据挖掘任务相关的记录和特征。是整个知识发现过程中最费力，耗时的步骤。
后处理：将数据挖掘的结果所揭示的规律结合商业活动管理工具，从而开展或者测试有效的商业活动。使那些有效，有用的结果集成到决策支持系统中。
数据挖掘需要解决的问题 可伸缩 由于数据产生和收集技术的进步，大数据越来越普遍。如果数据挖掘算法要处理这些海量数据集，算法必须是可伸缩的（scalabe）。使用抽样技术或者开发并行和分布算法来提高可伸缩性。
高维性 现在数据通常是具有成千上百属性的数据集。具有时间或者空间分量的数据集也经常具有很高的维度。为底维数据开发的传统的数据分析技术通常不能很好处理高维度数据，此外，对于某些数据分析算法，随着维度（特征数）的增加，计算复杂性迅速增加
异种数据和复杂数据 传统的数据分析方法只处理包含相同类型属性的数据集，或者是连续的，或者是分类的。随着数据挖掘在商务，科学以及其他领域的作用越来越大，越来越需要处理异种属性的技术。如：具有序列和三维结构的DNA数据等。为了挖掘这种复杂对象而开发的技术应当考虑数据间的联系。如：时间和空间的自相关性，图的连通性等
数据的所有权与分布 有时，需要分析的数据并非存放在一个站点或者归属一个机构，二十地理上分布属于多个机构。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括：如何降低执行分布式计算所需要的通信量，如何有效的统一从多个资源得到的数据挖掘结果，如何处理数据安全性等
非传统的分析<喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vc3Ryb25nPgq0q82ztcTNs7zGt723qLv509rSu9bWvNnJ6KGqvOzR6bXExKPKvaOsvLTM4bP20rvW1rzZyeijrMi7uvPJ6LzGyrXR6cC0ytW8r8r9vt2jrMi7uvPV67bUvNnJ6LfWzvbK/b7doaO1q9Xi0ru3vbeo0KfCyrK7uN+ho9LytMvQ6NKq19S2r7XEsvrJ+rrNxsC5wLzZyeiho7TLzeLK/b7dzdq+8sv5t9bO9rXEyv2+3c2os6Oyu8rHvqvQxMnmvLC1xMq10em94bn7o6y2+MrHyv2+3bXEyrG7+tDQ0fmxvqOob3Bwb3J0dW5pc3RpYyBzYW1wbGWjqaOssrvKx8vmu/rR+bG+KHJhbmRvbSBzYW1wbGUpoaMKPGJyPgoKPGJyPgoKPHN0cm9uZz7K/b7dzdq+8rXExvDUtDwvc3Ryb25nPgrOqsHL063VvcnPyva1xMz01b2jrMr9vt3N2r7ywPvTw8HLyOfPwsHs0/K1xMu8z+ujugoKPHVsPgo8bGk+zbO8xtGntcSz6dH5o6y5wLzGo6y82cnovOzR6TxsaT7Iy7mk1sfE3KOsxKPKvcq2sfCjrLv6xvfRp8+wtcTL0cv3y+O3qKOsvajEo7y8yvW6zdGnz7DA7cLbPGxpPtfu08W7rzxsaT69+LuvvMbL4zxsaT7Qxc+iwts8bGk+0MW6xbSmwO08bGk+v8nK07uvPGxpPtDFz6K87Mv3PGxpPsr9vt2/4s+1zbM8bGk+uN/Q1MTcsqLQ0LzGy+O8vMr1PGxpPrfWsrzKvby8yvUKCjxpbWcgc3JjPQ=="file:///C:/Users/Administrator/AppData/Local/YNote/data/zbm1109004380@163.com/051ecd2cc8c344c8beec2debf77cf266/qq%E6%88%AA%E5%9B%BE20140719151635.png?90" alt="\">

数据挖掘任务 通常分为两大类： 预测任务：根据其他属性的值，预测特定属性的值。被预测的属性称目标变量（target variable）活因变量（dependent variable）。用来做预测的属性称为说明变量（explanatory variable）或者自变量（independent variable）
描述任务：导出概括数据中潜在联系的模式（相关，趋势，聚类，轨迹和异常），本质上，描述性数据挖掘任务通常是探查性的。需要做后处理技术验证和解释结果
预测建模（predictive modeling）涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类（classification）用于预测离散的目标变量；回归（regression）用于预测连续的目标变量。如：预测web用户是否网购是分类，因为该目标变量是二值的。预测某股票的未来价格是回归的，因为价格具有连续值属性。两项任务都是训练一个模型，是目标变量预测值与实际值之间的误差达到最小。

关联分析（association analysis）用来发现描述数据中强关联特征的模型。所发现的模式通常用蕴含跪着或者特征子集的形式表示。由于搜索通奸是指数规模，关联分析的目标是以有效的方式提取最有趣的模式。
聚类分析（cluster analysis）旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组，找出显著影响地球气候的海洋区域等。

异常检测（anomaly detection）的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点（anomaly）或离群点（outlier）异常检测算法的目标是发现真正的异常点。而避免错误地将正常的对象标注为异常点。换言之，好的异常检测器必须具有高的检测率和底的误报率。应用包括：检测网络攻击，欺诈等

推荐阅读

程序员
在ubuntu上安装php70-gd

如何解决《在ubuntu上安装php70-gd》经验，为你挑选了4个好方法。 ... [详细]

程序员
在JAVA的列表中追加最后一个值的字符

如何解决《在JAVA的列表中追加最后一个值的字符》经验，为你挑选了0个好方法。 ... [详细]

程序员
协议缓冲区,在哪里使用它们？

如何解决《协议缓冲区,在哪里使用它们？》经验，为你挑选了0个好方法。 ... [详细]

程序员
如何在标题视图iOS中创建故事板布局多个视图？

如何解决《如何在标题视图iOS中创建故事板布局多个视图？》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何使用WebServiceTemplate发送SOAP请求？

如何解决《如何使用WebServiceTemplate发送SOAP请求？》经验，为你挑选了2个好方法。 ... [详细]

程序员
即使在设置launchMode ="singleTop"后仍在重新创建活动

如何解决《即使在设置launchMode="singleTop"后仍在重新创建活动》经验，为你挑选了1个好方法。 ... [详细]

程序员
Python cron作业：/ usr / local / bin：错误的解释器：权限被拒绝

如何解决《Pythoncron作业：/usr/local/bin：错误的解释器：权限被拒绝》经验，为你挑选了1个好方法。 ... [详细]

程序员
在elixir sigil中逃脱闭括号

如何解决《在elixirsigil中逃脱闭括号》经验，为你挑选了1个好方法。 ... [详细]

程序员
Laravel - 使用@section动态设置元标记

如何解决《Laravel-使用@section动态设置元标记》经验，为你挑选了1个好方法。 ... [详细]

程序员
有人可以解释Pebble C Watchface教程中的部分代码吗？

如何解决《有人可以解释PebbleCWatchface教程中的部分代码吗？》经验，为你挑选了1个好方法。 ... [详细]

程序员
使用Espresso进行测试时,<package>中未找到任何测试

如何解决《使用Espresso进行测试时,<package>中未找到任何测试》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何在Swift中对两种类型进行协议扩展约束

如何解决《如何在Swift中对两种类型进行协议扩展约束》经验，为你挑选了0个好方法。 ... [详细]

程序员
是否可以在Firebird数据库中将varchar(32)的字段转换为BLOB

如何解决《是否可以在Firebird数据库中将varchar(32)的字段转换为BLOB》经验，为你挑选了1个好方法。 ... [详细]

程序员
执行pandas.DataFrame.groupby（）。sum（）时保留非数字列

如何解决《执行pandas.DataFrame.groupby（）。sum（）时保留非数字列》经验，为你挑选了0个好方法。 ... [详细]

程序员
尝试使用其他命令管道时,为什么cd命令不起作用？

如何解决《尝试使用其他命令管道时,为什么cd命令不起作用？》经验，为你挑选了1个好方法。 ... [详细]

程序员
数据绑定Android - 类型参数T具有不兼容的上限:ViewDataBinding和MainActivity

如何解决《数据绑定Android-类型参数T具有不兼容的上限:ViewDataBinding和MainActivity》经验，为你挑选了3个好方法。 ... [详细]

程序员
如何为具有泛型方法的功能接口创建lambda表达式

如何解决《如何为具有泛型方法的功能接口创建lambda表达式》经验，为你挑选了0个好方法。 ... [详细]

程序员
RealmObject的Kotlin数据类

如何解决《RealmObject的Kotlin数据类》经验，为你挑选了1个好方法。 ... [详细]

程序员
数组对象是否显式包含索引？

如何解决《数组对象是否显式包含索引？》经验，为你挑选了7个好方法。 ... [详细]

程序员
如何获得完全黑暗的kibana？

如何解决《如何获得完全黑暗的kibana？》经验，为你挑选了1个好方法。 ... [详细]

吐了个 "CAO" !

吐个槽吧,看都看了

会员登录 | 用户注册

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

pytorch

tensorflow

人工智能

人脸识别

图像识别

数据挖掘

机器人

机器学习

深度学习

神经网络

算法

自动驾驶

自然语言处理

RankList | 热门文章

1Android OkHttp库:GET请求 - 异常EOFException:\n未找到:size = 0 content =

2为什么"错误:使用unique_ptr将'sizeof'无效应用于不完整类型"通过添加空析构函数来修复？

3Java HashMap没有从key获得价值

4什么时候我们应该使用RTLD_DEEPBIND？

5以编程方式向Python函数添加“装饰器”

6Google搜索API.过滤许可证

7.NET HttpClient - 取消了CancellationToken而不取消请求

8拉出具有依赖关系的无形多态函数

9排除控制器中的实体结果

10在*提交之前更改一个特定提交的名称,电子邮件和/或日期

11C#语言规范是否明确声明比较必须是相同的类型？

12Embeddable Common-Lisp asdf:defsystem返回无效的相对路径名

13不允许使用依赖于Julia中类型定义中的整数类型参数的表达式

14在共享索引上加入Pandas Dataframes

15我的代码输出异常

16在AOSP上设置默认应用程序

17从python生成器接收'return'值的最佳方法

18使用.NET的ANSI着色控制台输出

19有人可以帮我在java中翻译这行代码吗？

20迭代器begin()应该包含3,输出说2？