20赞

使用Python进行异常检测

作者：虎仔球妈_459 | 2023-06-21 19:02

如何解决《使用Python进行异常检测》经验，为你挑选了1个好方法。

我为一个虚拟主机工作,我的工作是找到并清理被黑客入侵的帐户.我找到90%的shell/malware\injections的方法是寻找"不合适"的文件.例如,eval(base64_decode(.......))其中" ....."是一大堆base64'ed文本,通常永远不会好.当我查看关键字符串的文件时,奇怪的文件会跳出来.

如果这些文件作为人类向我跳出来,我确信我可以在python中构建某种类型的分析器,以便在统计上查找"不合适"的内容并标记它们以供人工审核.要开始我想我可以比较线的长度在含有键字符串(PHP文件eval,base64_decode,exec,gunzip,gzinflate,fwrite,preg_replace,等等)并查找由2个标准偏差从平均偏离线.

线路长度变化很大,我不确定这是否是一个很好的统计使用.另一种方法是将加权规则分配给cretin事物(线长超过或低于阈值= X点,包含单词upload = Y points)但我不确定我可以对分数实际做什么或如何对每个分数进行评分属性.我的统计数据有点生疏.

有人能指出我正确的方向(指南,教程,图书馆)进行统计分析吗？

1> Mike..：

这是一个简单的机器学习方法来解决这个问题,这是我开始研究这个问题并开发基线分类器的方法:

建立一个脚本语料库并附加一个标签'good'(label = 0)或'bad'(label = 1)越多越好.尽量确保'坏'脚本是总语料库的合理分数,50-50好/坏是理想的.

开发指示可疑或错误脚本的二进制功能.例如,'eval'的存在,'base64_decode'的存在.尽可能全面,并且不要害怕包括可能捕获一些'好'脚本的特征.帮助这样做的一种方法可能是计算两类脚本中单词的频率计数,并选择在"坏"中突出显示但在"良好"中不显着的单词.

在语料库上运行要素生成器,并使用标签构建二进制矩阵.

将语料库分成火车(80%的例子)和测试集(20%).使用scikit学习库,使用训练集训练一些不同的分类算法(随机森林,支持向量机,朴素贝叶斯等),并在看不见的测试集上测试它们的性能.

希望我有一个合理的分类准确性来进行基准测试.然后我会考虑改进功能,一些无监督的方法(没有标签)和更专业的算法来获得更好的性能.

对于资源,Andrew Ng的Coursera课程机器学习(包括示例垃圾邮件分类,我相信)是一个良好的开端.

推荐阅读

程序员
Swift为默认返回值生成错误

如何解决《Swift为默认返回值生成错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Babel和解构进行ng-annotate错误

如何解决《使用Babel和解构进行ng-annotate错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
将节点标志/ args传递给子进程

如何解决《将节点标志/args传递给子进程》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C++ Actors Framework中在类型化actor之间转发消息的最佳实践？

如何解决《在C++ActorsFramework中在类型化actor之间转发消息的最佳实践？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有一种简单的方法来自定义Acumatica内置下拉列表？

如何解决《有没有一种简单的方法来自定义Acumatica内置下拉列表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular2有没有办法从路由器中获取路由列表？

如何解决《Angular2有没有办法从路由器中获取路由列表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
整理声明的SQL变量

如何解决《整理声明的SQL变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果我使用基于令牌的身份验证,我应该如何加载图像

如何解决《如果我使用基于令牌的身份验证,我应该如何加载图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将字符串传递给git log -S而不是单词？

如何解决《如何将字符串传递给gitlog-S而不是单词？》经验，为你挑选了1个好方法。 ... [详细]
程序员
只选择字符串C++中的前几个字符

如何解决《只选择字符串C++中的前几个字符》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用私钥连接到服务器时，pysftp AuthenticationException

如何解决《使用私钥连接到服务器时，pysftpAuthenticationException》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在RxJS中完成Observable

如何解决《如何在RxJS中完成Observable》经验，为你挑选了1个好方法。 ... [详细]
程序员
模拟自动执行的ExecutorService

如何解决《模拟自动执行的ExecutorService》经验，为你挑选了1个好方法。 ... [详细]
程序员
家庭作业:使用指针制作数组

如何解决《家庭作业:使用指针制作数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
在URL中使用HTML中的.svg文件？

如何解决《在URL中使用HTML中的.svg文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
标识符规范化:为什么微标志转换为希腊字母mu？

如何解决《标识符规范化:为什么微标志转换为希腊字母mu？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在值上膨胀对RDD？

如何解决《如何在值上膨胀对RDD？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使np.loadtxt与多个可能的分隔符一起使用

如何解决《使np.loadtxt与多个可能的分隔符一起使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular显示url编码错误,如何获取解码版本？

如何解决《Angular显示url编码错误,如何获取解码版本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
元组没有属性“ isdigit”

如何解决《元组没有属性“isdigit”》经验，为你挑选了1个好方法。 ... [详细]

虎仔球妈_459

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章