我正在尝试构建一个应用程序来检测来自网页的广告图像.一旦我发现了那些,我就不会允许那些在客户端显示.
基本上我使用反向传播算法来训练神经网络使用这里给出的数据集:http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements.
但是在那个数据集中没有.属性非常高.事实上,该项目的一位导师告诉我,如果你训练具有许多属性的神经网络,那么需要花费大量的时间来接受训练.那么有没有办法优化输入数据集?或者我只需要使用那么多属性?
1558实际上是一些适当的特征/属性.实例数(3279)也很小.问题不在于数据集方面,而在于训练算法方面.
ANN的训练很慢,我建议你使用逻辑回归或svm.他们俩都很快训练.特别是,svm有很多快速的算法.
在此数据集中,您实际上是在分析文本,而不是图像.我认为线性家庭分类器,即逻辑回归或svm,对你的工作更好.
如果您正在使用生产,则无法使用开源代码.与良好的ANN和SVM相比,Logistic回归非常容易实现.
如果您决定使用逻辑回归或SVM,我将来可以推荐一些文章或源代码供您参考.