嵌入式计算中循环的优化

类别:编程语言 点击:0 评论:0 推荐:

最近在做一个很简单的STEREO->MONO的变换函数的时候遇到了循环效率的问题。想了一下怎么优化之后,觉得有点意思,就写下来纪录一下吧。
算法的公式非常简单,MONO = (Lch + Rch) / 2
STEREO数据流中的数据是以[Lch Rch Lch Rch Lch Rch.....]这种格式存放的,一般来说,首先想到的变换方式是这样的

[code]
for (i = 0; i < MONO_BUFFSIZE; i++){
 MonoBuffer[i] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
}
[/code]

可是,我的STEREO缓冲区有5000个bytes,当然MONO_BUFFSIZE的大小就是它的一般,2500个bytes。那么上面这段代码就需要循环运算2500次。而众所周知,循环是系统资源的最大杀手。我的程序也毫不客气的占用了将近20%的CPU资源。不得不进行优化。稍微想了一下,我把上面那段代码修改成下面的样子。

[code]
i = 0;
while (i < MONO_BUFFSIZE){
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
 MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
}
[/code]

也就是说,一次循环我要做10次的运算,那么本来2500次的循环就被我缩减到250次了。看了一下CPU资源,占用率缩小到了16%,还不是非常满意。然后又看了一下代码,发现了另外一个问题。因为MonoBuffer这个缓冲区中的数据要作为输入参数参与滤波函数的运算,而那个滤波函数要求输入参数必须是float类型的。所以我在运算的过程中加入了进行强制类型转换的符号:(float)。可是这个符号加入的意义在于,对STEREO参数的除法结果要同时保存商和余数两个部分。而我又想了一下,似乎余数部分作为滤波器输入函数,对结果的影响不是很大,可以不要。所以,我就把(float)给去掉了。果然,最后运行的时候CPU占用率下降到了12%左右。运算结果也和修改前没有很大出入。

需要提醒注意的是,因为我的缓冲区大小分别是5000和2500,都是10的倍数,所以我每次循环运算10次,没有问题。如果缓冲区的大小和每次循环运算次数不成倍数关系,那么可能会造成程序调用了非法内存地址,导致内存区域被破坏。实际应用中,每次循环的运算次数也不一定是越多越好,这个可以根据具体情况自己反复试验,以求达到最大效率。而且最好是按照程序运行的CPU的数据总线宽度并且预测CPU内部CACHE在一次运算中可能被占用的大小,来调节每个循环执行数字运算的个数。
另外,在采用类似上述代码的时候,一定要先了解清楚,当时使用的C语言解释器对类似MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;这种语句是不是只有在全部运算完毕之后再进行i++自增运算的,否则就需要把i++单独列出来,作为一句独立的指令来运行。
其实,这种方法在某些意义上来说,优化前后运算速度应该是差不多的,但是优化的目的是为了降低同一时刻当前任务占用CPU时间的长度。也就是说,能够空出更多的CPU时间,为嵌入式软件的多任务系统的别的任务服务。

以上为本人经验,若各位有何看法,欢迎一起探讨。

本文地址:http://com.8s8s.com/it/it25913.htm