+----------------------+----> 高地址
| EIP (上级函数返回地址) |
+----------------------+
+--> | EBP (上级函数的EBP) | --+ <------ 当前函数A的EBP (即STP框架指针)
| +----------------------+ +-->偏移量A
| | Local Variables | |
| | .......... | --+ <------ ESP指向函数A新分配的局部变量,局部变量可以通过A的ebp-偏移量A访问
| f +----------------------+
| r | Arg n(函数B的第n个参数) |
| a +----------------------+
| m | Arg .(函数B的第.个参数) |
| e +----------------------+
| | Arg 1(函数B的第1个参数) |
| o +----------------------+
| f | Arg 0(函数B的第0个参数) | --+ <------ B函数的参数可以由B的ebp+偏移量B访问
| +----------------------+ +--> 偏移量B
| A | EIP (A函数的返回地址) | |
| +----------------------+ --+
+--- | EBP (A函数的EBP) |<--+ <------ 当前函数B的EBP (即STP框架指针)
+----------------------+ |
| Local Variables | |
| .......... | | <------ ESP指向函数B新分配的局部变量
+----------------------+ |
| Arg n(函数C的第n个参数) | |
+----------------------+ |
| Arg .(函数C的第.个参数) | |
+----------------------+ +--> frame of B
| Arg 1(函数C的第1个参数) | |
+----------------------+ |
| Arg 0(函数C的第0个参数) | |
+----------------------+ |
| EIP (B函数的返回地址) | |
+----------------------+ |
+--> | EBP (B函数的EBP) |---+ <------ 当前函数C的EBP (即STP框架指针)
| +----------------------+
| | Local Variables |
| | .......... | <------ ESP指向函数C新分配的局部变量
| +----------------------+----> 低地址
frame of C
再分析test1反汇编结果中剩余部分语句的含义:
# mdb test1 Loading modules: [ libc.so.1 ] > main::dis ---> 反汇编main函数 main: pushl %ebp
main+1: movl %esp,%ebp ---> 创建Stack Frame(栈框架) main+3: subl $8,%esp ---> 通过ESP-8来分配8字节堆栈空间 main+6: andl $0xf0,%esp ---> 使栈地址16字节对齐 main+9: movl $0,%eax ---> 无意义 main+0xe: subl %eax,%esp ---> 无意义
main+0x10: movl $0,%eax ---> 设置main函数返回值 main+0x15: leave ---> 撤销Stack Frame(栈框架)
main+0x16: ret ---> main函数返回 >
以下两句似乎是没有意义的,果真是这样吗?
movl $0,%eax subl %eax,%esp
用gcc的O2级优化来重新编译test1.c:
# gcc -O2 test1.c -o test1
# mdb test1 > main::dis main: pushl %ebp main+1: movl %esp,%ebp main+3: subl $8,%esp main+6: andl $0xf0,%esp main+9: xorl %eax,%eax ---> 设置main返回值,使用xorl异或指令来使eax为0 main+0xb: leave main+0xc: ret
>
新的反汇编结果比最初的结果要简洁一些,果然之前被认为无用的语句被优化掉了,进一步验证了之前的猜测。
提示:编译器产生的某些语句可能在程序实际语义上没有用处,可以用优化选项去掉这些语句。
问题:为什么用xorl来设置eax的值?
注意到优化后的代码中,eax返回值的设置由 movl $0,%eax 变为xorl %eax,%eax ,这是因为IA32指令中,xorl比movl有更高的运行速度。
概念:Stack aligned 栈对齐
那么,以下语句到底是和作用呢?
subl $8,%esp andl $0xf0,%esp --->通过andl使低4位为0,保证栈地址16字节对齐
表面来看,这条语句最直接的后果是使ESP的地址后4位为0,即16字节对齐,那么为什么这么做呢?
原来,IA32 系列CPU的一些指令分别在4、8、16字节对齐时会有更加的运行速度,因此gcc编译器为提高生成代码在IA32上的运行 速度,默认对产生的代码进行16字节对齐
andl $0xf0,%esp 的意义很明显,那么 subl $8,%esp 呢,是必须的吗?
这里架设在进入main函数之前,栈是16字节对齐的话,那么,进入main函数后,EIP被压入堆栈后,栈地址最末4位必定是0100,esp-8则
恰好使后4位地址为0。看来,这也是为保证栈16字节对齐的。
如果查一下gcc的手册,就会发现关于栈对齐的参数设置:
-mpreferred-stack-boundary=n ---> 希望栈按照2的n次的字节边界对齐, n的取值范围是2-12
默认情况下,n是等于4的,也就是说,默认情况下,gcc是16字节对齐,以适应IA32大多数指令的要求。
让我们利用-mpreferred-stack-boundary=2来去除栈对齐指令:
# gcc -mpreferred-stack-boundary=2 test1.c -o test1
> main::dis
main: pushl %ebp
main+1: movl %esp,%ebp
main+3: movl $0,%eax
main+8: leave
main+9: ret
>
可以看到,栈对齐指令没有了,因为,IA32的栈本身就是4字节对齐的,不需要用额外指令进行对齐。
那么,栈框架指针STP是不是必须的呢?
# gcc -mpreferred-stack-boundary=2 -fomit-frame-pointer test1.c -o test
> main::dis
main: movl $0,%eax
main+5: ret
>
由此可知,-fomit-frame-pointer 可以去除STP。
问题:去除STP后有什么缺点呢?
1)增加调式难度
由于STP在调试器backtrace的指令中被使用到,因此没有STP该调试指令就无法使用。
2)降低汇编代码可读性
函数参数和局部变量的访问,在没有ebp的情况下,都只能通过+xx(esp)的方式访问,而很难区分两种方式,降低了程序的可读性。
问题:去除STP有什么优点呢?
1)节省栈空间 2)减少建立和撤销栈框架的指令后,简化了代码 3)使ebp空闲出来,使之作为通用寄存器使用,增加通用寄存器的数量 4)以上3点使得程序运行速度更快
概念:Calling Convention 调用约定和 ABI (Application Binary Interface) 应用程序二进制接口
函数如何找到它的参数?
函数如何返回结果?
函数在哪里存放局部变量?
那一个硬件寄存器是起始空间?
那一个硬件寄存器必须预先保留?
Calling Convention 调用约定对以上问题作出了规定。Calling Convention也是ABI的一部分。
因此,遵守相同ABI规范的操作系统,使其相互间实现二进制代码的互操作成为了可能。
例如:由于Solaris、Linux都遵守System V的ABI,Solaris 10就提供了直接运行Linux二进制程序的功能。详见:关注: Solaris 10的10大新变化
3. 小结
本文通过最简的C程序,引出以下概念:
STP 栈框架指针
Stack aligned 栈对齐
Calling Convention 调用约定 和 ABI (Application Binary Interface) 应用程序二进制接口
今后,将通过进一步的实验,来深入了解这些概念。通过掌握这些概念,使在汇编级调试程序产生的core dump、掌握C语言高级调试技巧成为了可能。
相关文档:
Solaris上的开发环境安装及设置
ELF动态解析符号过程(修订版)
本文地址:http://com.8s8s.com/it/it25722.htm