当前位置:  开发笔记 > 编程语言 > 正文

一种很好的机器学习技术,可以清除坏的好URL

如何解决《一种很好的机器学习技术,可以清除坏的好URL》经验,为你挑选了1个好方法。

我有一个应用程序需要区分良好的HTTP GET请求和坏.

For example:

http://somesite.com?passes=dodgy+parameter                # BAD
http://anothersite.com?passes=a+good+parameter            # GOOD

My system can make a binary decision about whether or not a URL is good or bad - but ideally I would like it to predict whether or not a previously unseen URL is good or bad.

http://some-new-site.com?passes=a+really+dodgy+parameter # BAD

I feel the need for a support vector machine (SVM) ... but I need to learn machine learning. Some questions:

1)SVM是否适合此任务?2)我可以使用原始URL进行训练吗? - 没有明确指定'功能'3)我需要多少个网址来擅长预测?4)我应该使用什么样的SVM内核?5)训练完毕后,如何保持最新状态?6)如何再次测试看不见的URL以确定它是好还是坏?一世



1> Nate Kohl..:

我认为史蒂夫和StompChicken都提出了很好的观点:

即使对于机器学习专家来说,选择最佳算法也很棘手.使用像Weka这样的通用软件包可以让您轻松地比较一系列不同的方法,以确定哪种方法最适合您的数据.

选择好的功能通常是学习算法运行良好程度的最重要因素之一.

检查其他人如何处理类似问题也很有用:

Qi,X.和Davison,BD 2009. 网页分类:特征和算法.ACM计算调查41,2(2009年2月),1-31.

Kan,MY和HON Thi(2005).使用URL功能进行快速网页分类.在第14届ACM国际信息与知识管理会议论文集(CIKM '05),纽约,纽约,第325-326页.

Devi,MI,Rajaram,R.和Selvakuberan,K.2007. 使用URL功能进行自动网页分类的机器学习技术.在计算机智能和多媒体应用国际会议论文集(ICCIMA 2007) - 第02卷(2007年12月13日至15日).华盛顿特区,第116-120页.

推荐阅读
夏晶阳--艺术
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有