优秀的模糊测试代码是如何炼成的?
mhr18 2024-10-17 10:33 18 浏览 0 评论
所谓模糊测试,是指一种通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法,它经过了近 20 年的发展,早已在程序员圈中成为一种主流漏洞挖掘技术。基于此,开发者们该如何编写良好的模糊测试代码?
作者 | John Regehr
译者 | 弯月,责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
以下为译文:
模糊测试(Fuzzing)是发掘漏洞和其他软件缺陷的强力手段,但通常开发者都是利用这种方式来深入发掘已部署代码中的问题。实际上,我们应该尽早完成模糊测试,而且开发人员应该花点时间来编写更易于开展模糊测试的代码。
在这篇文章中,我想介绍一些方法,告诉你如何编写更方便模糊测试的代码。但这些方法并不全面,而且各个方法之间也可能有重叠。纵观本文,我会使用“模糊器”来指代所有类型的随机测试用例生成器,无论是基于突变的(afl、libFuzzer等)还是生成的(jsfunfuzz、Csmith等)生成器。注意,本文提出的建议并非适用所有情况,但其中很多都是合理的软件工程建议。我会用粗体标明一些我认为特别重要的观点。
在测试预言上下功夫
测试预言(test oracle)决定了测试用例是否会触发bug。在默认情况下,afl等模糊器唯一可以使用的预言就是操作系统的页面保护机制。换句话说,它只能检测系统的崩溃。但是我们能做到远不止于此。
断言和由编译器插入的sanitizer检查是另一种类型的预言。在模糊测试中,你应该尽可能多地使用这种类型的检查。除了这些简单的预言之外,还有很多其他的预言,例如:
函数与反函数:解析与输出的闭环、压缩与解压缩的闭环、加密与解密的闭环及其他类似的代码是否会按预期正常工作?
差异:两个不同的实现或同一个实现的两种不同的模式是否表现出相同的行为?
变形:如果在保证语义的情况下修改测试用例,系统是否会表现出的行为,例如在表达式中再添加一层括号?
资源:处理输入时,系统消耗的时间、内存等是否合理?
特定领域:例如,一个因压缩而导致画质受损的图像在视觉上是否与未压缩的图像一致?
我们值得花时间和精力建立强大的预言,因为它们往往能够发现应用程序级的逻辑错误,而通常我们通过查找数组越界等方式只能捕获低级的错误。
几年前,我撰写过一篇有关于该话题的文章(https://blog.regehr.org/archives/856)。有一个Twitter用户建议:“在测试解析器的时候,你必须检查它返回的对象,而不仅仅是检查解析这个动作的执行。”这是一个很好的建议。
干预I/O与状态
无状态代码更方便展开模糊测试。但除此之外,你还需要API来控制状态和干预I/O。例如,如果程序需要从操作系统中获取核心数、当前日期或剩余磁盘空间量等信息,那么你应该提供一种设置这些值的方法并写在文档中。我并不是说,我们需要随时改变核心数量,而是我们可能在单核模式下针对代码展开模糊测试,然后还需要在128核模式下再进行一次模糊测试。有些控制状态和I/O的方法非常重要,比如简化重置状态(为了支持持久模式的模糊测试),并避免会导致非确定性执行的隐藏输入等。在针对代码进行模糊测试时,我们希望拥有尽可能多的确定性。
避免或控制模糊测试的阻碍
模糊测试的阻碍就是那些无法模糊化的东西。典型的模糊测试阻碍是包含在输入中某处的校验和:基于突变的模糊器随机修改输入会导致校验和不合法,从而降低代码覆盖率。这个问题基本上有两种解决方案。第一种,在模糊测试构建中关闭校验和验证;第二种,确保模糊器能够生成带有合法校验和的输出。基于生成的模糊器自带这种功能;如果使用基于突变的模糊器,那么我们需要编写一个小工具,在生成测试用例后,我们需要赶在测试用例传递给模糊测试程序前,给测试用例加上有效的校验和。alf支持这种方法。
除了校验和之外,难以满足的输入验证属性也是一个严重的问题。例如,如果你要针对强类型编程语言的编译器进行模糊测试,那么盲目地修改编译器的输入很难获得有效的编译器输入。我喜欢将有效性的约束分为软约束(无效输入除了浪费时间外,并没有其他害处)和硬约束(系统在处理无效输入时可能会暴走,因此必须避免无效输入,否则完全无法进行模糊测试)。如果我们通过针对C++编译器开展模糊测试来寻找错误代码中的bug,就会面临硬有效性约束,因为会导致未定义行为的编译器输入看上去很像是代码中有bug。对于这类问题,我们没有简单的通用解决方案,只能通过一系列技巧来考虑有效性属性。有一个最简单的解决方案(但往往不是正确的解决方案),那就是自己编写一个模糊器。但问题在于,如果自己编写模糊器,就无法再利用现代覆盖驱动的模糊测试技术——这种技术非常了不起的。为了匹配覆盖率驱动的模糊测试框架,你有以下几种选择:首先,编写一个能够满足有效性约束的自定义变异器;其次,采用了解结构的模糊,意思是说从模糊器中获取修改后的数据,并将其转换为模糊测试程序所需要的内容。关于如何让覆盖驱动的模糊器在有效性约束下依然良好地运行,且不需要大量的手动工作,我们还有大量的研究工作需要展开。这其中涉及很多细节,改日再深入介绍。一般来说,在模糊器中加入类似SAT的求解器并不能解决这个问题,其原因首先是,有的有效性约束(比如校验和)对于求解器来说难度特别大;其次是因为有些有效性约束(如C++程序中的未定义行为)是隐含的,我们无法从系统中推断,甚至从原理上也不可能。
一般来说,你无法通过为公共API提供输入的方式,来针对系统的大部分代码进行模糊测试,因为这些访问会被系统中的其他代码阻止。例如,如果你使用自定义的内存分配器实现或自定义的哈希表实现,那么应用程序级别的模糊测试可能无法针对分配器或哈希表进行有效的模糊测试。这些API应该直接暴露给模糊测试。单元测试和模糊测试有强烈的联系:如果其中一个可行且可取,那么另一个也应该差不多。通常你应该同时兼顾两者。
通常,Sanitizer和模糊器需要对构建过程进行调整,甚至是重大的改动。为了简化这一过程,请尽可能简化构建过程。确保可以轻松切换编译器以及修改编译器选项。尽量减少对特定工具(以及工具版本)的依赖。定期利用多个编译器构建和测试代码。构建系统的特殊依赖都需要记录下来。
最后,有些模糊测试的阻碍有点傻而且很容易避免。如果你的代码存在泄漏内存的问题,或者过深的调用栈会导致进程终止,那么使用持久模式的模糊测试是一件痛苦的事情,所以请尽量避免这些问题。尽量不要处理SIGSEGV信号,如果无法避免的话,那么应当有办法在模糊器构建中禁用相应的信号处理程序。如果你的代码无法与ASan或UBSan兼容,那么这些非常有用的预言就很难善加利用了。特别是,如果你的代码使用自定义的内存分配器,那么你应该考虑在模糊测试构建中将其关闭,或者经过调整后与ASan一起使用,否则就有可能漏掉重大bug。
为覆盖驱动的模糊器排除障碍
由于覆盖驱动的模糊器的主要精力放在了测试未覆盖的分支上,因此可能会被特殊的方式阻碍。例如,如果覆盖驱动的模糊器遇到了太多未覆盖的分支,它就会在这些分支上花费大量时间,导致覆盖程序其他分支的可能性降低。例如,有一次我比较了一个程序在使用和不使用UBSan两种情况下的afl覆盖率,结果发现(在我设定的时间限制下)sanitized程序的覆盖率要比没有sanitized的程序低得多。但另一方面,我们也希望模糊器能找到sanitizer的错误。我的建议是有sanitized和没有sanitized的程序都进行模糊测试。我不知道应该如何为这些模糊测试活动分配资源,也不知道是否有人在研究这个问题。也许这个问题并不重要,因为模糊测试本来就是过度测试。
有时候,你的程序在执行前期调用的代码会包含大量分支且会被过度模糊的代码。例如,可能你需要在处理输入之前对输入进行解压缩或解密。这很可能会影响基于覆盖的模糊器,导致模糊器花费大量时间去模糊测试加密库或压缩库。如果你不是希望这样,那么就应该提供一种方法,在模糊测试过程中禁用加密或压缩。
程序中的解释器都可能会给基于覆盖的模糊器造成困难,因为相关的程序执行路径是在解释器数据中编码的,而对于模糊器而言,一般情况下数据是不透明的。如果你想让基于覆盖的模糊器发挥最大作用,那么就应该考虑避免编写解释器,或者至少大力简化解释器。解决嵌入式解释器有一个很明好的方法(我相信肯定有人尝试过,不过我不知道)就是提供一个API,告诉模糊器该如何观察被解释语言的覆盖率。
支持高吞吐量的模糊测试
模糊测试对于高吞吐量的系统最有效,特别是对于基于反馈的模糊器而言,这种模糊器需要一定时间来学习怎样才能测试难以覆盖的目标。有关吞吐量的一个简单技巧是:提供禁用慢速代码(例如详细日志)的方法。类似地,干预I/O可以让我们不需要借助运行速度技巧,比如在内存盘上运行模糊器等方法。
“但我希望模糊我的代码变得更难,而不是更容易”
我不太赞同这个观点。我们不应该期待模糊代码来保证安全,而应该采用以下方法:
尽早、尽可能彻底地实施模糊测试,在将代码发布到外部之前消除模糊测试能够发现的缺陷。
通过人见人爱的强类型系统的编程语言编写代码——这可以静态地消除由于错误的编程习惯造成的问题,例如可以防止我们将错误的东西放入哈希映射。
积极地使用断言和sanitizer来动态检查类型系统无法静态强制执行的属性。
反模糊技术的确存在,但我不认为它代表软件朝着更好的方向发展。
总结
随机测试非常强大,我们理应善加利用:如果你不针对你的代码展开模糊测试,那么别人也会。本文向软件开发人员介绍了一些实施模糊测试的好方法。当然还有很多其他方面本文未能提及,比如选择一个优秀的语料库以及编写一个良好的模糊驱动程序。
原文:https://blog.regehr.org/archives/1687
本文为 CSDN 翻译,转载请注明来源出处。
【END】
相关推荐
- 【预警通报】关于WebLogic存在远程代码执行高危漏洞的预警通报
-
近日,Oracle官方发布了2021年1月关键补丁更新公告CPU(CriticalPatchUpdate),共修复了包括CVE-2021-2109(WeblogicServer远程代码执行漏洞)...
- 医院信息系统突发应急演练记录(医院信息化应急演练)
-
信息系统突发事件应急预案演练记录演练内容信息系统突发事件应急预案演练参与人员信息科参与科室:全院各部门日期xxxx-xx-xx时间20:00至24:00地点信息科记录:xxx1、...
- 一文掌握怎么利用Shell+Python实现完美版的多数据源备份程序
-
简介:在当今数字化时代,无论是企业还是个人,数据的安全性和业务的连续性都是至关重要的。数据一旦丢失,可能会造成无法估量的损失。因此,如何有效地对分布在不同位置的数据进行备份,尤其是异地备份,成为了一个...
- docker搭建系统环境(docker搭建centos)
-
Docker安装(CentOS7)1.卸载旧版Docker#检查已安装版本yumlistinstalled|grepdocker#卸载旧版本yumremove-ydocker.x...
- 基础篇:数据库 SQL 入门教程(sql数据库入门书籍推荐)
-
SQL介绍什么是SQLSQL指结构化查询语言,是用于访问和处理数据库的标准的计算机语言。它使我们有能力访问数据库,可与多种数据库程序协同工作,如MSAccess、DB2、Informix、M...
- Java21杀手级新特性!3行代码性能翻倍
-
导语某券商系统用这招,交易延迟从12ms降到0.8ms!本文揭秘Oracle官方未公开的Record模式匹配+虚拟线程深度优化+向量API神操作,代码量直降70%!一、Record模式匹配(代码量↓8...
- 一文读懂JDK21的虚拟线程(java虚拟线程)
-
概述JDK21已于2023年9月19日发布,作为Oracle标准Java实现的一个LTS版本发布,发布了15想新特性,其中虚拟线程呼声较高。虚拟线程是JDK21中引入的一项重要特性,它是一种轻量级的...
- 效率!MacOS下超级好用的Linux虚拟工具:Lima
-
对于MacOS用户来说,搭建Linux虚拟环境一直是件让人头疼的事。无论是VirtualBox还是商业的VMware,都显得过于笨重且配置复杂。今天,我们要介绍一个轻巧方便的纯命令行Linux虚拟工具...
- 所谓SaaS(所谓三维目标一般都应包括)
-
2010年前后,一个科技媒体的主编写一些关于云计算的概念性问题,就可以作为头版头条了。那时候的云计算,更多的还停留在一些概念性的问题上。而基于云计算而生的SaaS更是“养在深闺人未识”,一度成为被IT...
- ORA-00600 「25027」 「x」报错(报错0xc0000001)
-
问题现象:在用到LOB大对象的业务中,进行数据的插入,失败了,在报警文件中报错:ORA-00600:内部错误代码,参数:[25027],[10],[0],[],[],[],[],[...
- 安卓7源码编译(安卓源码编译环境lunch失败,uname命令找不到)
-
前面已经下载好源码了,接下来是下载手机对应的二进制驱动执行编译源码命令下载厂商驱动https://developers.google.com/android/drivers?hl=zh-cn搜索NGI...
- 编译安卓源码(编译安卓源码 电脑配置)
-
前面已经下载好源码了,接下来是下载手机对应的二进制驱动执行编译源码命令下载厂商驱动https://developers.google.com/android/drivers?hl=zh-cn搜索NGI...
- 360 Vulcan Team首战告捷 以17.5万美金强势领跑2019“天府杯“
-
2019年11月16日,由360集团、百度、腾讯、阿里巴巴、清华大学与中科院等多家企业和研究机构在成都联合主办了2019“天府杯”国际网络安全大赛暨2019天府国际网络安全高峰论坛。而开幕当日最激荡人...
- Syslog 日志分析与异常检测技巧(syslog发送日志配置)
-
系统日志包含有助于分析网络设备整体运行状况的重要信息。然而,理解并从中提取有效数据往往颇具挑战。本文将详解从基础命令行工具到专业日志管理软件的全流程分析技巧,助你高效挖掘Syslog日志价值。Gr...
- 从Oracle演进看数据库技术的发展(从oracle演进看数据库技术的发展的过程)
-
数据库技术发展本质上是应用需求驱动与基础架构演进的双向奔赴,如何分析其技术发展的脉络和方向?考虑到oracle数据库仍然是这个领域的王者,以其为例,管中窥豹,对其从Oracle8i到23ai版本的核...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (74)
- oracle基目录 (50)
- oracle批量插入数据 (65)
- oracle事务隔离级别 (53)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)