Webshell检测方法(三)

一叶飘零技术 2020-02-19 09:15:00

1335137

导语：最近在学习webshell检测技术，看了一些科研性的文章，所以有了这个系列的文章。

0x01 前言

本篇paper来自ICCAI 2018，采用了fastText和随机森林算法相结合的FRF-WD模型，使用一些静态features和PHP opcode，对Webshell进行检测。但与之前的文章不同，本篇文章不再是基于HTTP流量检测，而是针对文件进行检测。

0x02 Background

Opcode是一种PHP脚本编译后的中间语言，对于PHP的语言引擎Zend执行代码，会经过如下4个步骤：

1.Scanning(Lexing) ,将PHP代码转换为语言片段(Tokens)；

2.Parsing, 将Tokens转换成简单而有意义的表达式；

3.Compilation, 将表达式编译成Opocdes；

4.Execution, 顺次执行Opcodes，每次一条，从而实现PHP脚本的功能。

而现有的一些工作已经表明，通过opcodes的频率可以区分恶意软件和可信软件。虽然PHP Opcode不同于恶意软件识别中使用的Opcode，但是他们在本质上是一致的，故此本篇文章想要借助PHP Opcode来对恶意php webshell文件进行检测。

PHP拥有拓展Vulcan Logic Disassembler (VLD)，其可以hook Zend引擎，方便我们dump出所有的opcodes，例如如下一句话木马：

< ?php eval($_POST['a']); ? >

如果我们运行该webshell，通过VLD，我们可以得到：

而我们正可以利用fastText和VLD得到的Opcode，训练文本分类器模型。

0x03 实现方法

FRF-WD模型对于文件的特征提取，可以分为两大步：

1. 分析提取文件的静态特征

2. 利用PHP-VLD获取文件的Opcode，利用fastText训练文本分类器模型。

然后再利用上述获取的特征作为随机森林的输入，训练一个webshell检测模型。

1、静态特征

对于文件的静态特征，选取如下5种：

1.长字符串

为了bypass现有的webshell检测，大多数的webshell会进行混淆，其惯用技术是利用编码，如base64，但其缺点就是对于一个较短的webshell，会经过编码，拼接变成一个很长的字符串。并且只检测php tag中的长字符串，可以有效避免富文本，js，图片，video或是css文件的干扰。

2.信息熵（Information Entropy）

由于内容加密会增加信息熵，所以计算信息熵是检测加密webshell的一个非常好的手段。

3.IC（Index of Coincidence）

IC在分析自然语言明文和密文中非常有用，如果IC值较低，那么表明文件中可能存在混淆或加密。

4.关键词搜索

如果文本文件中存在敏感词，诸如：eval(), assert(), exec(), shell_exec(), passthru(), system(), show_source(), proc_open() and pcntl_exec(),则会被认为是一个可疑文件。

5.黑名单

如果文件中检测到诸如：

webshell by 、

hack by、

bypass AV、

password is *、