我想教自己足够的机器学习,这样我就可以开始理解足够使用可用的开源ML框架,这将允许我做以下事情:
浏览某个网站的HTML源代码,并"理解"哪些部分形成内容,广告和形成元数据(无论是内容还是广告),例如.-TOC,author bio等)
浏览来自不同站点的HTML源页面,并"分类"该站点是否属于预定义类别(将提供类别列表)1.
...在文本和页面上的类似分类任务.
如您所见,我的直接要求是对不同数据源和大量数据进行分类.
就我的有限理解而言,采用神经网络方法需要进行大量的训练和维护,而不是使用SVM?
据我所知,SVM非常适合像我这样的(二进制)分类任务,而像libSVM这样的开源framworks相当成熟?
在这种情况下,计算机科学毕业生现在需要学习哪些科目和主题,以便能够解决上述要求,并使用这些框架?
我想远离Java,是可能的,否则我没有语言偏好.我愿意学习并尽可能多地投入精力.
我的目的不是从头开始编写代码,而是开始使用各种框架(我不知道哪个可以决定哪个),而且我应该能够解决它们出错的问题.
关于学习统计学和概率论的特定部分的建议对我来说并不意外,所以说如果需要的话!
如果需要,我会根据您的所有建议和反馈修改此问题.