Web攻击检测机器学习深度实践(4)

发布时间：2019-06-25 12:28 所属栏目：19 来源：月亮与六便士

导读：缺点：资源开销大，预测效率低; 模型需要相同尺寸的输入;上文对大于128字节的url请求进行切割，对小于128字节的进行补0，这种死板的切割方式有可能破坏url原始信息。优点：不需要复杂的特征工程; 具备对未知攻击

缺点：

资源开销大，预测效率低;
模型需要相同尺寸的输入;上文对大于128字节的url请求进行切割，对小于128字节的进行补0，这种死板的切割方式有可能破坏url原始信息。

优点：

不需要复杂的特征工程;
具备对未知攻击的识别能力;
泛化能力强。

五、一点思考

笔者因为工作的需要，尝试了很多种检测Web攻击的方向及特征的提取方式，但是都没有取得能令我非常满意的效果，甚至有时候也会对某个方向它本身存在的缺陷无法忍受。传统机器学习手段去做Web攻击识别，非常依赖特征工程，这消耗了我大多数时间而且还在持续着。

目前除了LSTM模型以外，苏宁的生产环境中表现最好的是MLP模型，但它本身也存在着严重的缺陷：因为这个模型的特征提取是基于Web攻击关键词的，在做特征提取的时候，为了保证识别的准确度不得不使用大量正则来进行分词、进行url泛化清洗，但是这种手段本质上跟基于规则的WAF没有太大区别。唯一的好处是多提供了一种不完全相同的检验手段从而识别出来一些WAF规则漏拦或者误拦的类型，从而对规则库进行升级维护。

长远来看我认为上文的LSTM检测方向是最有前途的;这里把每个字符当作一个特征向量，理论上只要给它喂养的样本足够充分，它会自己学习到一个字符集组合，出现在url的什么位置处所代表的含义，想真正的安全专家一样做到一眼就能识别出攻击，无论是什么变种的攻击。

（编辑：ASP站长网）