0x1 基础概念:
PE文件总体框架.
PE文件执行顺序.
1.执行一个PE文件时, PE装载器首先会找DOS头签名(MZ),检查是否有效, 然后是DOS头里的找 e_lfanew(最后一个成员, 指示PE头的), 如果找到, 则直接跳转. |
---|
2.找到PE头, 开始检查PE头信息属性是否有效, 如果有效, 就跳转到PE头尾部. |
3.紧跟PE头尾部的是节表, PE装载器开始读取节表中记录了每个属性的信息. 平且采用文件映射将这些节映射到内存. 文件映射: 在执行一个PE文件的时候,Windows并不在一开始就将整个文件读入内存,而是采用与内存映射的机制,也就是说,Windows装载器在装载的时候仅仅建立好虚拟地址和PE文件之间的映射关系,只有真正执行到某个内存页中的指令或者访问某一页中的数据时,这个页面才会被从磁盘提交到物理内存,这种机制使文件装入的速度和文件大小没有太大的关系 |
4.PE文件映射入内存后, PE装载器继续处理一些逻辑结构, 如输入表的修正. |
0x2 MS-DOS头部及DOS存根
DOS头的作用是兼容MS-DOS操作系统中的可执行文件, 该结构体大小为64字节(0x40) |
---|
2个重要成员 e_magic(DOS头第一个成员): DOS签名(4D5A -> ASCII值 MZ) e_lfanew(DOS头最后一个成员): 指示NT头的偏移, 从这里找到PE头(取决于DOS存根大小) |
DOS存根是DOS头与PE文件头中间部分的内容, 为16位的汇编指令组成, 既有代码也有数据, 大小不固定 |
我们知道DOS存根的内容是当我们的程序在DOS环境中运行时执行的代码, 也就是给一个提示信息:This is program cannot be run in DOS mode , 那我们是可以随便将其内容修改为自己想填充的东西, 反正不会影响在window os中的运行, 但记住这个大小是不能修改的, 会影响后面指令索引地址跟着出错, 最后程序崩溃(刚开始学习时在一道逆向题中, 就犯了这个错) 如下图所示OD程序, 重要字段已标出(DOS存根从0x40 - 0x1FF) |
0x3 NT头
分别介绍3个结构体
1 | typedef struct _IMAGE_NT_HEADERS |
1 | typedef struct _IMAGE_FILE_HEADER |
1 | typedef struct _DATA_DIRECTORY////定义了DataDirectory的结构体 |
1 |
|
PE文件中的code(代码), data(数据), resource(资源)等按照属性分类储存在不同的节区, (1)这样分类便于统一和查看 (2)这样可以在一定程度上保护程序的安全性, 因为如果把所有的代码数据放在一起的话, 当我们向数据区写数据时, 若输入超过缓冲区的大小, 那么就有可能会将其下的code(指令)覆盖掉, 造成应用程序崩溃. PE文件就可以把相似属性的的数据保存在一个被称为”节区”的地方, 然后为每个节区设置不同的特性,访问权限等.
0x4 节区头
节区头是由IMAGE_SECTION_HEADER结构体组成的数组, 每个结构体对应一个节区
1 |
|
下图展示OD程序的各个节, 并将(.txt)节中的各成员值在上面依次标出
由于每个节区都有内存地址到文件偏移间的映射(RAW-RVA). 我们可以通过节区的VirtualAddress与PointerToRawData来从RVA->RAW.
注: 由于VirtualSize是未对齐的大小,而SizeofRawData是对齐后的大小, 那么 VirtualAddress一般比SizeofRawData小. 但是也有例外, 就是当含有未初始化数据的节(如.bss), 在磁盘中未初始化数据是不占空间的, 但是到了内存, 未初始化的数据是要赋值占空间.
0x5 IMAGE_EXPORT_DIRECTORY 输出表
一般dll文件才有,DataDirectory[0]记录了RVA及Size.
用来描述模块(dll)中的导出函数的结构,如果一个模块导出了函数,那么这个函数会被记录在导出表中,从 库向其他PE文件提供服务
1 | typedef struct _IMAGE_EXPORT_DIRECTORY { |
从导出表中获得函数地址的API为: GetProcAddress()函数. 该API用来引用EAT来获取指定的API的地址.
注: (1) 导出函数也可能没有名称的, 这时只能通过序数导出 (2) 序数是指定某个输出函数的独一无二的16位数字(2个字节)
两种导出函数的方法:
一:按函数名字
(1)通过AddressOfNames找到函数名称数组. 使用strcmp()函数, 在(RVA)指针数组从索引值0开始依次与我们要找的函数名称对比,从而找到索引值 index_name
(2)通过AddressOfNameOrdinals找到存放函数序号的数组, 使用步骤(1)获得的index_name为索引值找到函数地址的序号(index_address)
(3)通过AddressOfFunctions找到函数地址数组(EAT), 在EAT中使用步骤(2)获得的index_address为索引值找到指定函数的RVA
二:按函数序号
(1)使用我们函数的序号减去 _IMAGE_EXPORT_DIRECTORY.Base 的值得到函数地址索引值index_address
(2)通过AddressOfFunctions找到函数地址数组(EAT), 在EAT中使用步骤(1)获得的index_address为索引值找到指定函数的RVA
下面依旧用OD程序来看导出表, 并将每个值标在上面每个成员下面, 通过上面IMAGE_DATA_DIRECTORY DataDirectory[IMAGE_NUMBEROF_DIRECTORY_ENTRIES]介绍, 已经标出导出表的RVA: 0010F000 Size: 000012FA. 再通过CFF Explorer 工具查看每个节的地址可以计算出输出表的 RAW : 00CE200
1.查看输出表名称(RVA : 0010F780 -> RAW: 000CE980)
2.查找函数名称.
(1)AddressOfNames. (RVA: 0010F318 -> RAW: 000CE518)
由(RVA:0010F78C -> RAW: 000CE98C):
现在已经找到了函数的名称, 下面模拟查看一个指定名称函数的RVA. 假设我们找的是Addsorteddata.(即第一个函数), (1)通过strcmp(). 得到它的索引值是0, 记为 index_name. (2)通过AddressOfNameOrdinals使用index_name找到函数的序数, 通过下图得到序数0, 记为index_address.
AddressOfNameOrdinals. (RVA: 0010F608 -> RAW: 000CE808):
(3)通过AddressOfFunctions函数地址数组(EAT), 使用index_address为索引值得到我们指定函数的RVA.
AddressOfFunctions(RVA: 0010F028 -> RAW: 000CE228):
到此, 得到我们指定输出函数Addsorteddata.的RVA: 00054EFC. 最后通过 OD载入OD看一下.
从这里也说明了, .exe文件也是可能有输出表的
0x6 IMAGE_IMPORT_DESCRIPTOP 输入表
记录PE文件要导入那些库文件 DataDirectory[1]记录了RVA及Size.
首先, 执行一个程序会有很多的函数是公用的,在动态链接库里(动态链接库, .dll文件总是附加在一个要执行的程序中, .dll文件中有说明库EAT的输出表), 如下图, 一个程序加载的部分 .dll文件.
我们的输入表记录了需要用到的函数名称, 通过在加载的动态链接库中搜索该函数得到实际的RVA, 再记录到输入表中, 供程序使用. 另外执行一个普通的程序一般需要多个库, 那导入多少库, 就会有多少个输入表结构体. 这就构成了结构体数组且结构体数组最后以 NULL 结束 (即每个导入的 DLL 都会成为数组中的一项).
1 | typedef struct _IMAGE_IMPORT_DESCRIPTOR { |
注: 上面所讲的 OriginalFirstThunk 成员(指针数组)的值是不能改写的, 通过它寻找函数的名称. 而 FirstThunk 成员(指针数组)的值在PE文件在被PE装载器时, PE装载器会通过 OriginalFirstThunk 得到函数的名称或者序数, 然后通过函数名称在加载的.dll文件的输出表中找到函数的实际地址, 然后替换到FirstThunk的一个值. 装载完成后, FirstThunk 数组就指向向了函数实际的地址. 另外上面的 TimeDateStamp 成员可以用来确定输入表是否绑定从而是否需要重定位, 如果它的值是0, 那么输入列表没有被绑定, 加载器总是要修复输入表. 否则输入被绑定, 但该时间戳的值必须和.dll文件头中 TimeDateStamp 的一样, 如果不一样, 仍会修正输入表, 就会进行下面的步骤.
导入函数输入到 IAT 的顺序
1.读取 _IMAGE_IMPORT_DESCRIPTOR中的name成员, 获取库名称字符串. 如(user32.dll)
2.装载相应的库. LoadLibrary(“user32.dll”)
3.读取_IMAGE_IMPORT_DESCRIPTOR中的 OriginalFirstThunk 成员, 得到 INT地址.
4.逐一读取 INT中数组的值, 获取相应的 IMAGE_IMPORT_BY_NAME地址(RVA)
5.使用 IMAGE_IMPORT_BY_NAME的Hint (ordinak/序数)或name项, 获取相应函数的起始地址.
GetProcAddress(“函数名称”)
6.读取 IAT 成员, 获得IAT地址.
7.将上面获得的函数地址输入相应的IAT数组值.
8.重复 步骤 4 -7, 直到INT结束.
图示一下, INT 与 IAT 关系 (技术太差了.png).
下面实例查看OD程序的输入表.
1.首先从PE文件可选头的 DataDirectory[1].VirtualAdress 得到输入表的RVA: 10D000h 及size: 1c87h
2.RVA: 10D000h -> RAW: (10D000-10D000+CC400) = CC400h
3.找到输入表. 记录下对应成员的RVA.
4.查看该输入表名称: ADVAPI32,DLL, RVA: 10D9C8 -> RAW: (10D9C8-10D000+CC400) = CCDC8
5.查看 OriginalFirstThunk( INT ) RVA:10D0C8 -> RAW: (10D0C8-10D000+CC400) = CC4C8
6.可以看到第一成员的最高位是 0, 则该值是IMAGE_IMPORT_BY_NAME的RVA.(RVA: 10DA33 -> RAW: CCE33)
7.查看 FirstThunk( IAT ) RVA: 10D0E4 -> RAW: (10D0E4-10D000+CC400) = CC4E4
8.从步骤7可以看到, PE装载器装载PE文件之前, INT与IAT各元素同时指向相同的地址.
9.再看 TimeDateStamp 成员的值为 0, 那就是输入表被绑定, 如果与该对应 .dll PE文件的文件头的 TimeDateStamp的值相同, 那这个输入表是不需要修正的.
10.从上面知道 IAT 的RVA: 10D0E4. 库名称: ADVAPI32,DLL另外使用一个OD载入这个OD程序看看. 可以看到加载该.dll文件文件的RVA是从 FC0000开始的, 而查看未被PE装载器装载前的状态, IAT的RVA是 10D0E4,所以显然这是需要PE装载器装载时对输入表修正的, 那也可推出他们的 TimeDateStamp 的值是不同的
输入表与输出表联系还是比较大, 结合起来看看清楚很多.