编程语言：嵌入式计算中循环的优化

热点排行

嵌入式计算中循环的优化

类别：编程语言点击：0 评论：0 推荐：

最近在做一个很简单的STEREO->MONO的变换函数的时候遇到了循环效率的问题。想了一下怎么优化之后，觉得有点意思，就写下来纪录一下吧。
算法的公式非常简单，MONO = (Lch + Rch) / 2
STEREO数据流中的数据是以[Lch Rch Lch Rch Lch Rch.....]这种格式存放的，一般来说，首先想到的变换方式是这样的

[code]
for (i = 0; i < MONO_BUFFSIZE; i++){
MonoBuffer[i] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
}
[/code]

可是，我的STEREO缓冲区有5000个bytes，当然MONO_BUFFSIZE的大小就是它的一般，2500个bytes。那么上面这段代码就需要循环运算2500次。而众所周知，循环是系统资源的最大杀手。我的程序也毫不客气的占用了将近20%的CPU资源。不得不进行优化。稍微想了一下，我把上面那段代码修改成下面的样子。

[code]
i = 0;
while (i < MONO_BUFFSIZE){
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;
}
[/code]

也就是说，一次循环我要做10次的运算，那么本来2500次的循环就被我缩减到250次了。看了一下CPU资源，占用率缩小到了16%，还不是非常满意。然后又看了一下代码，发现了另外一个问题。因为MonoBuffer这个缓冲区中的数据要作为输入参数参与滤波函数的运算，而那个滤波函数要求输入参数必须是float类型的。所以我在运算的过程中加入了进行强制类型转换的符号：(float)。可是这个符号加入的意义在于，对STEREO参数的除法结果要同时保存商和余数两个部分。而我又想了一下，似乎余数部分作为滤波器输入函数，对结果的影响不是很大，可以不要。所以，我就把(float)给去掉了。果然，最后运行的时候CPU占用率下降到了12%左右。运算结果也和修改前没有很大出入。

需要提醒注意的是，因为我的缓冲区大小分别是5000和2500，都是10的倍数，所以我每次循环运算10次，没有问题。如果缓冲区的大小和每次循环运算次数不成倍数关系，那么可能会造成程序调用了非法内存地址，导致内存区域被破坏。实际应用中，每次循环的运算次数也不一定是越多越好，这个可以根据具体情况自己反复试验，以求达到最大效率。而且最好是按照程序运行的CPU的数据总线宽度并且预测CPU内部CACHE在一次运算中可能被占用的大小，来调节每个循环执行数字运算的个数。
另外，在采用类似上述代码的时候，一定要先了解清楚，当时使用的C语言解释器对类似MonoBuffer[i++] = (float)(StereoBuf[i * 2] + StereoBuf[i * 2 + 1]) / 2;这种语句是不是只有在全部运算完毕之后再进行i++自增运算的，否则就需要把i++单独列出来，作为一句独立的指令来运行。
其实，这种方法在某些意义上来说，优化前后运算速度应该是差不多的，但是优化的目的是为了降低同一时刻当前任务占用CPU时间的长度。也就是说，能够空出更多的CPU时间，为嵌入式软件的多任务系统的别的任务服务。

以上为本人经验，若各位有何看法，欢迎一起探讨。

本文地址：http://com.8s8s.com/it/it25913.htm