简单测试GCC编译器的优化情况

key · 发表于 16-5-2009 01:07:40

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？FreeOZ用户注册

x

写了一个链接数据结构，程序及相关文件如附件。附件中包括：

1. oneway_link.h 头文件
2. oneway_link.cpp 实现部分
3. oneway_link_test.cpp 一个简单的测试程序
4. Makefile 简单的Makefile
5. oneway_test_link.s 没有优化时的编译结果（汇编代码）
6. oneway_test_link_opt.s 采用-O2优化后的编译结果

我重要分析的代码是这一段：
oneway_link.h

16 template<class T>
17 class MyLinkNode
18 {
21 public:
35 MyLinkNode * removeNext();
36 };
38 template <class T> class MyLink
39 {
40 MyLinkNode<T> * m_pHead;
41 MyLinkNode<T> * m_pTail; //for appending method
46 public:
48 ~MyLink();
64 };

复制代码

oneway_link.cpp

58 template<class T> inline MyLinkNode<T> * MyLinkNode<T>::removeNext()
59 {
60 if(m_pNext==NULL)
61 return NULL;
62
63 MyLinkNode * pNextNext = m_pNext->m_pNext;
64 m_pNext->m_pNext = NULL;
65
66 MyLinkNode * pRetNext = m_pNext;
67 m_pNext = pNextNext;
68
69 return pRetNext;
70 }
75 template<class T> MyLink<T>::~MyLink()
76 {
77 if(m_pHead == NULL)
78 return;
79
80 MyLinkNode<T> * pNext;
81
82 while((pNext = m_pHead->removeNext())!=NULL)
83 {
84 delete pNext;
85 }
86
87 delete m_pHead;
88 }

复制代码

很显然，我用了比较“累赘”的方法来实现链接的删除。原因是我没有让MyLink成为MyLinkNode的友元，
所以MyLink不能直接操作MyLinkNode，这种情况下，他只能通过MyLinkNode::removeNext()这个接口
来实现逐个元素的删除。

如果我采用了friend的方式来写代码，一个比较“优化”的实现可能是：

pNext = m_pHead->m_pNext;
while(pNext!=NULL;)
{
pNext2 = pNext->pNext;
delete pNext;
pNext = pNext2;
}

复制代码

上面的这段代码与原来的代码最大的不同包括两点：
1. 没有采用函数调用的方式来获取下一个元素
2. 没有设置获取的元素的next指针值为NULL
3. 没有把原有的链表重构起来

由于我采用了inline的方式来实现代码，第1点自然可以被优化掉，关键是看第2/3两点。
不过，老实说，2和3两点都是很小的代码，是否有需要优化掉也是一个问题。姑且看看吧。

如果我没有搞错，下面这段汇编应该就是MyLink::~MyLink()的析构代码的优化结果（从*_opt.s从取出）

350 .weak _ZN6MyLinkISsED1Ev
351 .type _ZN6MyLinkISsED1Ev, @function
352 _ZN6MyLinkISsED1Ev:
353 .LFB1458:
354 pushl %ebp
355 .LCFI30:
356 movl %esp, %ebp
357 .LCFI31:
358 pushl %esi
359 .LCFI32:
360 pushl %ebx
361 .LCFI33:
362 subl $16, %esp
363 .LCFI34:
364 movl 8(%ebp), %esi
365 movl (%esi), %ecx 这个地方备份%ecx的值，这个是m_pHead的值
366 testl %ecx, %ecx
367 jne .L57 #跳到While循环判断处
368 jmp .L53 #函数返回
369 .p2align 4,,7
370 .L56: #While循环体
371 movl 4(%edx), %eax %eax = %edx指向的对象的->m_pNext
372 movl $0, 4(%edx) %edx指向的对象->m_pNext设置为NULL，$0是不是0我不是太有把握
373 movl 4(%ecx), %ebx %ebx=%ecx指向的对象->m_pNext
374 movl %eax, 4(%ecx) %ecx指向的对象->m_pNext改为%eax
375 testl %ebx, %ebx 测试%ebx是否0值
376 je .L53 While循环break出来，似乎对pNext!=NULL做了两个判断
377 movl %ebx, (%esp)
378 call _ZN10MyLinkNodeISsED1Ev 调用MyLinkNode的析构函数
379 movl %ebx, (%esp)
380 call _ZdlPv 调用free()之类的函数
381 movl (%esi), %ecx [从%esi备份中取出m_pHead放回%ecx中]
382 .L57: #.L57 while循环判断
383 movl 4(%ecx), %edx [%ecx指向m_pHead，所以这里是m_pHead->next放到%edx中去]
384 testl %edx, %edx 384/385两行用来测试%edx是不是0值，对应while循环中的pNext!=NULL语句
385 jne .L56
386 .L53: #.L53 函数出口
387 addl $16, %esp
388 popl %ebx
389 popl %esi
390 popl %ebp
391 ret

复制代码

这里重点是while循环的优化。这个While循环对应的是370至385这段汇编。
通过汇编代码的分析，这个优化后的while循否可以写成：

do {
pNextNext = m_pNext->m_pNext; //oneway_link.cpp: 63
m_pNext->m_pNext = NULL; //oneway_link.cpp: 64
pRetNext = m_pHead->m_pNext; //相当于oneway_link.cpp: 66, pRetNext = m_pNext;
m_pHead->next = pNextNext; //相当于oneway_link.cpp: 67, m_pNext = pNextNext;
if(py == NULL) //这个操作应该是来自MyLinkNode::removeNext():60行if(m_pNext==NULL)的代码的优化结果
break;
delete py;
}while((pNode = m_pHead->next)!=NULL)

复制代码

从分析的结果看，我想看到的第2、3点优化并没有做。编译结果除了跟据inline去掉了相应的函数调用。
我试着把优化级别由-O2一直升至-O5，那5行while循环代码学是没有改变。

结论：
编译器并没有象我想象那样“智能”地优化代码，基本上还是忠实于原来的实现。
所以，如果很需要注重性能的话，还是有必要用友元的方式重写相应的程序

[ 本帖最后由 key 于 16-5-2009 01:11 编辑 ]

ubuntuhk · 发表于 16-5-2009 01:29:05

厉害，这年头已经很少有人通过分析汇编代码来进行代码优化了，这个例子非常清晰

coredump · 发表于 16-5-2009 09:47:37

编译器不是不可能帮你自动"优化"第2，3点的，做不做第2，3点很可能对应着程序逻辑的变化，编译器再优化也不会去改变程序逻辑。况且编译器都是采用窥孔优化，所谓管中窥豹，所看到的汇编代码的context都是很小的。

klux · 发表于 16-5-2009 11:12:33

这个不是编译器应该干的事情吧。。。

key · 发表于 16-5-2009 15:56:22

原帖由 coredump 于 16-5-2009 09:47 发表

 登录/注册后可看大图

编译器不是不可能帮你自动"优化"第2，3点的，做不做第2，3点很可能对应着程序逻辑的变化，编译器再优化也不会去改变程序逻辑。况且编译器都是采用窥孔优化，所谓管中窥豹，所看到的汇编代码的context都是很小的。

谢谢core同学的指点。

但我对于你关于“编译器都是采用“窥孔优化”这样的说法有所保留。通过查看gcc/g++的man，
我可以看到有大量的优化选项：

Optimization Options
-falign-functions=n -falign-jumps=n -falign-labels=n -falign-loops=n -fbounds-check -fmudflap -fmudflapth
-fmudflapir -fbranch-probabilities -fprofile-values -fvpt -fbranch-target-load-optimize -fbranch-tar-
get-load-optimize2 -fbtr-bb-exclusive -fcaller-saves -fcprop-registers -fcse-follow-jumps
-fcse-skip-blocks -fcx-limited-range -fdata-sections -fdelayed-branch -fdelete-null-pointer-checks
-fearly-inlining -fexpensive-optimizations -ffast-math -ffloat-store -fforce-addr -ffunction-sections
-fgcse -fgcse-lm -fgcse-sm -fgcse-las -fgcse-after-reload -floop-optimize -fcrossjumping -fif-conver-
sion -fif-conversion2 -finline-functions -finline-functions-called-once -finline-limit=n
-fkeep-inline-functions -fkeep-static-consts -fmerge-constants -fmerge-all-constants -fmodulo-sched
-fno-branch-count-reg -fno-default-inline -fno-defer-pop -floop-optimize2 -fmove-loop-invariants
-fno-function-cse -fno-guess-branch-probability -fno-inline -fno-math-errno -fno-peephole -fno-peep-
hole2 -funsafe-math-optimizations -funsafe-loop-optimizations -ffinite-math-only -fno-trapping-math
-fno-zero-initialized-in-bss -fomit-frame-pointer -foptimize-register-move -foptimize-sibling-calls
-fprefetch-loop-arrays -fprofile-generate -fprofile-use -fregmove -frename-registers -freorder-blocks
-freorder-blocks-and-partition -freorder-functions -frerun-cse-after-loop -frerun-loop-opt -frounding-math
-fschedule-insns -fschedule-insns2 -fno-sched-interblock -fno-sched-spec -fsched-spec-load
-fsched-spec-load-dangerous -fsched-stalled-insns=n -fsched-stalled-insns-dep=n -fsched2-use-superblocks
-fsched2-use-traces -freschedule-modulo-scheduled-loops -fsignaling-nans -fsingle-precision-constant
-fstack-protector -fstack-protector-all -fstrength-reduce -fstrict-aliasing -ftracer -fthread-jumps
-funroll-all-loops -funroll-loops -fpeel-loops -fsplit-ivs-in-unroller -funswitch-loops -fvariable-expan-
sion-in-unroller -ftree-pre -ftree-ccp -ftree-dce -ftree-loop-optimize -ftree-loop-linear -ftree-loop-im
-ftree-loop-ivcanon -fivopts -ftree-dominator-opts -ftree-dse -ftree-copyrename -ftree-sink -ftree-ch
-ftree-sra -ftree-ter -ftree-lrs -ftree-fre -ftree-vectorize -ftree-vect-loop-version -ftree-salias -fweb
-ftree-copy-prop -ftree-store-ccp -ftree-store-copy-prop -fwhole-program --param name=value -O -O0 -O1
-O2 -O3 -Os

复制代码

其中之二是-fpeephole，-fpeephole2，前者被缺省enabled，后者则在-O2/-O3/-Os被enabled，可以通过-fno-peephole/-fno-peephole2来disable

至于你说，程序逻辑不能被改变，这个是当然了；但我觉得我期望的改变并不是程序逻辑。而我觉得阻止的编译器进行进一步优化的原因可能有两点：
1. 编译器不知道free()之后那个pNode->next指针是没有用的，也就是说汇编的372行可以删掉。
2. 编译器不知道Head->next->next与pNode->next的关系，在编译器手上有pNode的值的情况下，它还是坚持从备份堆栈读入Head指针值（汇编371，381，383行）
3. 编译器因为坚持要从Head->next读入数据进行下一步的循环（汇编381，383），所以就得坚持把链表补全（汇编374）
4. 编译器不知道Head->next与pNode的关系，所以动用了两个寄存器来处理同一个指针（汇编373）

其中第1点涉及到函数调用以及很多实际情况，基本上什么编译器都不可能做了。但第2-4点应该是可以做的，因为汇编368行用了绝对跳转，
所以.L56开始的基本块的数据定义是清晰和一致的。我只是不知道怎样引导编译器去“知道”上面说到的事实。

四香油饼 · 发表于 18-5-2009 12:23:19

原帖由 ubuntuhk 于 16-5-2009 01:29 发表

 登录/注册后可看大图

厉害，这年头已经很少有人通过分析汇编代码来进行代码优化了，这个例子非常清晰

我们搞单片机的天天都得这么干啊

key · 发表于 18-5-2009 14:31:21

原帖由 四香油饼 于 18-5-2009 12:23 发表

 登录/注册后可看大图

我们搞单片机的天天都得这么干啊

formatc · 发表于 18-5-2009 23:41:48

原帖由 四香油饼 于 18-5-2009 12:23 发表

 登录/注册后可看大图

我们搞单片机的天天都得这么干啊

牛～～～～～～～～～～～～～～～～～～～～～～～～～～

ubuntuhk · 发表于 19-5-2009 11:33:36

我一朋友搞单片机，从来都是直接写汇编，搞ARM7、ARM9之类的，好多偷懒的就直接用C了

dack · 发表于 19-5-2009 15:58:56

我也是搞单片机的，个人感觉，如果有支持的较好的c编译器，还是用c写大部分程序，关键部分嵌入汇编或者汇编模块比较好。因为现在ram，rom的价钱已经不太昂贵，稍大一点对成本影响不大，而目前开发周期要求越来越重要了，而且好一点的c编译器出来的代码质量与一般普通的汇编程序员的代码质量相比，相差不多，甚至可能更好。但c语言的可读性，可维护性，模块化等等要好很多。
对于arm这样的，我想没人会用汇编完成整个系统的。近乎不可能完成的任务。呵呵

四香油饼 · 发表于 19-5-2009 16:09:08

老兄在哪里？在墨尔本不？交流交流

dack · 发表于 19-5-2009 17:49:05

在墨尔本，chadstone。

coredump · 发表于 19-5-2009 19:10:21

现在很多的所谓嵌入式环境的计算能力都早就大大超过UNIX诞生时的PDP-11了，只是还用在嵌入式的环境中罢了，的确绝大部分已经不再需要从汇编中榨取那点性能了。

ubuntuhk · 发表于 19-5-2009 19:19:06

原帖由 dack 于 19-5-2009 15:58 发表

 登录/注册后可看大图

我也是搞单片机的，个人感觉，如果有支持的较好的c编译器，还是用c写大部分程序，关键部分嵌入汇编或者汇编模块比较好。因为现在ram，rom的价钱已经不太昂贵，稍大一点对成本影响不大，而目前开发周期要求越来越重要 ...

您有所不知啊，我那位朋友偏爱AVR，大部分AVR MCU的RAM也就128/256/512 Byte，一个C的数组变量申明就都吃光了

dack · 发表于 19-5-2009 19:35:03

原帖由 ubuntuhk 于 19-5-2009 19:19 发表

 登录/注册后可看大图

您有所不知啊，我那位朋友偏爱AVR，大部分AVR MCU的RAM也就128/256/512 Byte，一个C的数组变量申明就都吃光了

巧啊，我对avr也有点了解，怎么说呢，avr的c编译器还是比较好的，用c写ram，rom占用并不会大很多，而且avr并不便宜，通常不会用在很低成本的低档机器里。我用atmega32写了一个充电器做练习，其中的所有模块都有用到，还用了avrx做操作系统管理任务。大概有十几个任务。

ubuntuhk · 发表于 20-5-2009 00:57:15

佩服一下，还上了一个OS来管理AVR上运行的十几个任务

AVR这种C编译器编译出来的ASM代码再进行优化还是可行的，不过ARM7或ARM9（特别是ARM9），我也赞同应该主力用C，只对局部的算法、函数进行优化就足够了。

四香油饼 · 发表于 20-5-2009 09:28:04

原帖由 dack 于 19-5-2009 17:49 发表

 登录/注册后可看大图

在墨尔本，chadstone。

怎么搞单片机的都住chadstone阿？俺原来也住那

四香油饼 · 发表于 20-5-2009 09:29:56

avr 不错了。俺一般都是逢年过节才用用的。

ubuntuhk · 发表于 21-5-2009 13:13:54

这么惨啊，安慰一下

用户名		自动登录	找回密码
密码			FreeOZ用户注册

FreeOZ

[论坛技术] 简单测试GCC编译器的优化情况

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

评分

回复 #1 key 的帖子

评分

回复 #6 四香油饼的帖子

评分

回复 #10 dack 的帖子

回复 #10 dack 的帖子

回复 #15 dack 的帖子

回复 #18 四香油饼的帖子

浏览过的版块

FreeOZ

[论坛技术] 简单测试GCC编译器的优化情况

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

评分

回复 #1 key 的帖子

评分

回复 #6 四香油饼 的帖子

评分

回复 #10 dack 的帖子

回复 #10 dack 的帖子

回复 #15 dack 的帖子

回复 #18 四香油饼 的帖子

浏览过的版块

回复 #6 四香油饼的帖子

回复 #18 四香油饼的帖子