我发现学习新主题是最好的,通过简单的代码实现来获得想法.这就是我学习遗传算法和遗传编程的方法.什么是一些很好的入门程序来开始机器学习?
优选地,允许任何引用的资源在线访问,以便社区可以受益
你会用什么语言开发?如果你很灵活,我推荐Matlab,python和R作为好人选.这些是用于开发和评估算法的一些常用语言.它们有助于快速算法开发和评估,数据处理和可视化.大多数流行的ML算法也可用作库(带源).
我首先关注R2中的基本分类和/或聚类练习.它更容易可视化,通常足以探索ML中的问题,如风险,类不平衡,嘈杂标签,在线与离线培训等.从日常生活中创建数据集,或者您感兴趣的问题.或者使用像Iris数据集一样经典,因此您可以将您的进度与已发表的文献进行比较.您可以在以下位置找到Iris数据集:
http://en.wikipedia.org/wiki/Iris_flower_data_set,或
http://archive.ics.uci.edu/ml/datasets/Iris
它的一个很好的特点是它有一个类'setosa',可以很容易地与其他类线性分离.
一旦选择了几个有趣的数据集,首先要实现一些标准分类器并检查它们的性能.这是一个很好的学习分类器的简短列表:
k-最近邻居
线性判别分析
决策树(例如,C4.5)
支持向量机(例如,通过LibSVM)
提升(带树桩)
朴素的贝叶斯分类器
使用Iris数据集和我提到的其中一种语言,您可以使用任何分类器轻松地进行小型研究(几分钟到几小时,具体取决于您的速度).
编辑:你可以谷歌"虹膜数据分类"找到很多例子.以下是Mathworks使用Iris数据集的分类演示文档:
http://www.mathworks.com/products/statistics/demos.html?file=/products/demos/shipping/stats/classdemo.html