深入研究 C++中的 STL Deque 容器

类别:编程语言 点击:0 评论:0 推荐:
本文档深入分析了std::deque,并提供了一个指导思想:当考虑到内存分配和执行性能的时候,使用std::deque要比std::vector好。

  介绍

  本文深入地研究了std::deque 容器。本文将讨论在一些情况下使用deque> 比vector更好。读完这篇文章后读者应该能够理解在容量增长的过程中deque 与vector在内存分配和性能的不同表现。由于deque> 和vector的用法很相似,读者可以参考vector 文档中介绍如何使用STL容器。

  Deque总览

  deque和vector一样都是标准模板库中的内容,deque是双端队列,在接口上和vector非常相似,在许多操作的地方可以直接替换。假如读者已经能够有效地使用vector容器,下面提供deque的成员函数和操作,进行对比参考。

  Deque成员函数

函数
描述 c.assign(beg,end)
c.assign(n,elem)
将[beg; end)区间中的数据赋值给c。
将n个elem的拷贝赋值给c。 c.at(idx)
传回索引idx所指的数据,如果idx越界,抛出out_of_range。 c.back()
传回最后一个数据,不检查这个数据是否存在。 c.begin()
传回迭代器重的可一个数据。 c.clear()
移除容器中所有数据。 deque<Elem> c
deque<Elem> c1(c2)
Deque<Elem> c(n)
Deque<Elem> c(n, elem)
Deque<Elem> c(beg,end)
c.~deque<Elem>()
创建一个空的deque。
复制一个deque。
创建一个deque,含有n个数据,数据均已缺省构造产生。
创建一个含有n个elem拷贝的deque。
创建一个以[beg;end)区间的deque。
销毁所有数据,释放内存。 c.empty()
判断容器是否为空。 c.end()
指向迭代器中的最后一个数据地址。 c.erase(pos)
c.erase(beg,end)
删除pos位置的数据,传回下一个数据的位置。
删除[beg,end)区间的数据,传回下一个数据的位置。 c.front()
传回地一个数据。 get_allocator
使用构造函数返回一个拷贝。 c.insert(pos,elem)
c.insert(pos,n,elem)
c.insert(pos,beg,end)
在pos位置插入一个elem拷贝,传回新数据位置。
在pos位置插入>n个elem数据。无返回值。
在pos位置插入在[beg,end)区间的数据。无返回值。 c.max_size()
返回容器中最大数据的数量。 c.pop_back()
删除最后一个数据。 c.pop_front()
删除头部数据。 c.push_back(elem)
在尾部加入一个数据。 c.push_front(elem)
在头部插入一个数据。 c.rbegin()
传回一个逆向队列的第一个数据。 c.rend()
传回一个逆向队列的最后一个数据的下一个位置。 c.resize(num)
重新指定队列的长度。 c.size()
返回容器中实际数据的个数。 C1.swap(c2)
Swap(c1,c2)
将c1和c2元素互换。
同上操作。
  Deque操作

函数
描述 operator[]
返回容器中指定位置的一个引用。
  上面这些特征和vector明显相似,所以我们会提出下面的疑问。

  问题:如果deque和vector可以提供相同功能的时候,我们使用哪一个更好呢?

  回答:如果你要问的话,就使用vector吧。

  或者你给个解释?

  非常高兴你这样问,的确,这并不是无中生有的,事实上,在C++标准里解释了这个问题,下面有一个片断:

  vector在默认情况下是典型的使用序列的方法,对于deque,当使用插入删除操作的时候是一个更好的选择。

  有趣的是,本文就是要非常彻底地理解这句话。

  什么是新的?

  细读上面两张表格,你会发现和vector比较这里增加了两个函数。

  1、c.push_front(elem) —— 在头部插入一个数据。

  2、c.pop_front() —— 删除头部数据。

  调用方法和c.push_back(elem)和c.pop_back()相同,这些将来会告诉我们对于deque> 会非常有用,deque可以在前后加入数据。>

  缺少了什么?

  同时你也会发现相对于vector> 缺少了两个函数,你将了解到deque> 不需要它们。

  1、capacity()—— 返回vector当前的容量。

  2、reserve() —— 给指定大小的vector> 分配空间。

  这里是我们真正研究的开始,这里说明deque> 和vector它们在管理内部存储的时候是完全不同的。deque是大块大块地分配内存,每次插入固定数量的数据。vector是就近分配内存(这可能不是一个坏的事情)。但我们应该关注是,vector每次增加的内存足够大的时候,在当前的内存不够的情况。下面的实验来验证deque不需要capacity()和reserve()> 是非常有道理的。

  实验一 —— 增长的容器

  目的

  目的是通过实验来观察deque和vector在容量增长的时候有什么不同。用图形来说明它们在分配内存和执行效率上的不同。

  描述

  这个实验的测试程序是从一个文件中读取文本内容,每行作为一个数据使用push_back插入到deque> 和vector中,通过多次读取文件来实现插入大量的数据,下面这个类就是为了测试这个内容:

#include <deque>
#include <fstream>
#include <string>
#include <vector>

static enum modes
{
 FM_INVALID = 0,
 FM_VECTOR,
 FM_DEQUE
};

class CVectorDequeTest
{
 public:
  CVectorDequeTest();
  void ReadTestFile(const char* szFile, int iMode)
  {
   char buff[0xFFFF] = {0};
   std::ifstream inFile;
   inFile.open(szFile);
   while(!inFile.eof())
   {
    inFile.getline(buff, sizeof(buff));
    if(iMode == FM_VECTOR)
     m_vData.push_back(buff);
    else if(iMode == FM_DEQUE)
     m_dData.push_back(buff);
   }
   inFile.close();
  }
  virtual ~CVectorDequeTest();
 protected:
  std::vector<std::string> m_vData;
  std::deque<std::string> m_dData;
};

  结果

  测试程序运行的平台和一些条件:

CPU 1.8 GHz Pentium 4 内存 1.50 GB 操作系统 W2K-SP4 文件中的行数 9874 平均每行字母个数
1755.85 读文件的次数
45 总共插入的数据个数 444330

  使用Windows任务管理器来记录执行效率,本程序中使用了Laurent Guinnard 的CDuration类。消耗系统资源如下图:


  注意在vector分配内存的最高峰,vector在分配内存的时候是怎样达到最高值,deque就是这样的,它在插入数据的同时,内存直线增长,首先deque的这种内存分配单元进行回收的话,存在意想不到的后果,我们希望它的分配内存看上去和vector一样,通过上面的测试我们需要进一步的测试,现提出一个假设:假设deque分配的内存不是连续的,一定需要释放和收回内存,我们将这些假设加入后面的测试中,但是首先让我们从执行的性能外表分析一下这个实验。

  究竟分配内存需要消耗多久?

  注意看下面这张图片,vector在不插入数据的时候在进行寻求分配更多内存。


  同时我们也注意到使用push_back插入一组数据消耗的时间,注意,在这里每插入一组数据代表着9874个串,平均每个串的长度是1755.85。


实验二—— vector::reserve()的资源

  目的

  这个实验的目的是vector在加入大量数据之前调用reserve(),和deque进行比较,看它们的内存分配和执行效率怎么样?

  描述

  本实验中的测试基本上和实验一相同,除了在测试类的构造函数中加入下面这行代码:

m_vData.reserve(1000000);
  结果

  测试程序运行的平台和一些条件:

CPU
1.8 GHz Pentium 4 内存
1.50 GB 操作系统
W2K-SP4 文件中的行数
9874 平均每行字母个数
1755.85 读文件的次数
70 总共插入的数据个数
691180
  使用Windows任务管理器来记录执行效率,本程序中使用了>Laurent Guinnard 的CDuration类。消耗系统资源如下图:


  我们注意到vector不在需要分配花费多余的时间分配内存了,这是由于我们使用了reserve()对于所测试的>691180个数据为我们每一次插入大量数据的时候保留了足够的内存空间,对于deque存储分配的假设,观察这个测试中的内存分配图形和上一个图形,我们需要进一步量化这个测试。

  怎样改良内存分配的性能呢?

  下面这个图例说明随着数据的增加,容量在增加:


  当增加数据的时候对容量的增加在vector和deque执行效率基本一样,然而,vector在插入数据的时候有一些零星的时间消耗,看下面的图例:


  通过统计分析vector和deque在插入平均为>1755.85长度的>9874个数据所花费的时间,下面是总结的表格:


Vector

Deque

Mean

0.603724814 sec

Maximum

0.738313000 sec

Minimum

0.559959000 sec


Std. Dev

0.037795736 sec

6-Sigma

0.226774416 sec

Mean

0.588021114 sec

Maximum

0.615617000 sec

Minimum

0.567503000 sec

Std. Dev

0.009907800 sec

6-Sigma

0.059446800 sec


  实验三——内存回收

  目的

  本实验是对假设deque分配的内存不是临近的,而且很难回收进行量化测试分析。

  描述

  在本实验中再次用到了实验一中的代码,在调用函数中加入记录增加数据执行的效率具体入下面操作:

for(xRun=0; xRun<NUMBER_OF_XRUNS; xRun++)
{
 df = new CVectorDequeTest;
 elapsed_time = 0;

 for(i=0; i<NUMBER_OF_RUNS*xRun; i++)
 {
  cout << "Deque - Run " << i << " of " <<
  NUMBER_OF_RUNS*xRun << "... ";
  df->ReadTestFile("F:\\huge.csv",DF_DEQUE);
  deque_data.push_back(datapoint());
  deque_data.back().time_to_read = df->GetProcessTime();
  elapsed_time += deque_data.back().time_to_read;
  deque_data.back().elapsed_time = elapsed_time;
  cout << deque_data.back().time_to_read << " seconds\n";
 }
 vnElements.push_back(df->GetDequeSize());
 cout << "\n\nDeleting... ";
 del_deque.Start();
 delete df;
 del_deque.Stop();
 cout << del_deque.GetDuration()/1000000.0 << " seconds.\n\n";
 vTimeToDelete.push_back(del_deque.GetDuration()/1000000.0);
}

  结果

  本测试和上面两个实验在相同的平台上运行,除了插入的数据由>9874到>691180,需要插入>70次,下面图例显示了>deque在插入数据的时候分配内存的情况,在deque里插入了平均每个长度为>1755.85的字符串。>


  尽管从几个曲线图中看到的实际消耗时间不同,但些曲线图都精确到了>R2=95.15%。所给的数据点都实际背离了下表中统计的曲线图数据:

deque Results

Mean

0.007089269 sec

Maximum

11.02838496 sec

Minimum

-15.25901667 sec

Std. Dev

3.3803636 sec

6-Sigma

20.2821816 sec

  在相同的情况下比较vector的结果是非常有意义的。下面图就是将vector和deque在相同的情况下分配内存消耗的时间比较图:


  这些数据在这个测试中是>R2=82.12%。这或许可以经过每个点反复运行得到更加优化,在这个问题中这些数据适当地标注了这些点,所给的数据点都实际背离了下表中统计的曲线图数据:


vector Results

Mean

-0.007122715sec

Maximum

0.283452127 sec

Minimum

-0.26724459sec

Std. Dev

0.144572356sec

6-Sigma

0.867434136sec


实验二—— vector::reserve()的资源

  目的

  这个实验的目的是vector在加入大量数据之前调用reserve(),和deque进行比较,看它们的内存分配和执行效率怎么样?

  描述

  本实验中的测试基本上和实验一相同,除了在测试类的构造函数中加入下面这行代码:

m_vData.reserve(1000000);
  结果

  测试程序运行的平台和一些条件:

CPU
1.8 GHz Pentium 4 内存
1.50 GB 操作系统
W2K-SP4 文件中的行数
9874 平均每行字母个数
1755.85 读文件的次数
70 总共插入的数据个数
691180
  使用Windows任务管理器来记录执行效率,本程序中使用了>Laurent Guinnard 的CDuration类。消耗系统资源如下图:


  我们注意到vector不在需要分配花费多余的时间分配内存了,这是由于我们使用了reserve()对于所测试的>691180个数据为我们每一次插入大量数据的时候保留了足够的内存空间,对于deque存储分配的假设,观察这个测试中的内存分配图形和上一个图形,我们需要进一步量化这个测试。

  怎样改良内存分配的性能呢?

  下面这个图例说明随着数据的增加,容量在增加:


  当增加数据的时候对容量的增加在vector和deque执行效率基本一样,然而,vector在插入数据的时候有一些零星的时间消耗,看下面的图例:


  通过统计分析vector和deque在插入平均为>1755.85长度的>9874个数据所花费的时间,下面是总结的表格:


Vector

Deque

Mean

0.603724814 sec

Maximum

0.738313000 sec

Minimum

0.559959000 sec


Std. Dev

0.037795736 sec

6-Sigma

0.226774416 sec

Mean

0.588021114 sec

Maximum

0.615617000 sec

Minimum

0.567503000 sec

Std. Dev

0.009907800 sec

6-Sigma

0.059446800 sec


  实验三——内存回收

  目的

  本实验是对假设deque分配的内存不是临近的,而且很难回收进行量化测试分析。

  描述

  在本实验中再次用到了实验一中的代码,在调用函数中加入记录增加数据执行的效率具体入下面操作:

for(xRun=0; xRun<NUMBER_OF_XRUNS; xRun++)
{
 df = new CVectorDequeTest;
 elapsed_time = 0;

 for(i=0; i<NUMBER_OF_RUNS*xRun; i++)
 {
  cout << "Deque - Run " << i << " of " <<
  NUMBER_OF_RUNS*xRun << "... ";
  df->ReadTestFile("F:\\huge.csv",DF_DEQUE);
  deque_data.push_back(datapoint());
  deque_data.back().time_to_read = df->GetProcessTime();
  elapsed_time += deque_data.back().time_to_read;
  deque_data.back().elapsed_time = elapsed_time;
  cout << deque_data.back().time_to_read << " seconds\n";
 }
 vnElements.push_back(df->GetDequeSize());
 cout << "\n\nDeleting... ";
 del_deque.Start();
 delete df;
 del_deque.Stop();
 cout << del_deque.GetDuration()/1000000.0 << " seconds.\n\n";
 vTimeToDelete.push_back(del_deque.GetDuration()/1000000.0);
}

  结果

  本测试和上面两个实验在相同的平台上运行,除了插入的数据由>9874到>691180,需要插入>70次,下面图例显示了>deque在插入数据的时候分配内存的情况,在deque里插入了平均每个长度为>1755.85的字符串。>


  尽管从几个曲线图中看到的实际消耗时间不同,但些曲线图都精确到了>R2=95.15%。所给的数据点都实际背离了下表中统计的曲线图数据:

deque Results

Mean

0.007089269 sec

Maximum

11.02838496 sec

Minimum

-15.25901667 sec

Std. Dev

3.3803636 sec

6-Sigma

20.2821816 sec

  在相同的情况下比较vector的结果是非常有意义的。下面图就是将vector和deque在相同的情况下分配内存消耗的时间比较图:


  这些数据在这个测试中是>R2=82.12%。这或许可以经过每个点反复运行得到更加优化,在这个问题中这些数据适当地标注了这些点,所给的数据点都实际背离了下表中统计的曲线图数据:


vector Results

Mean

-0.007122715sec

Maximum

0.283452127 sec

Minimum

-0.26724459sec

Std. Dev

0.144572356sec

6-Sigma

0.867434136sec


本文地址:http://com.8s8s.com/it/it24329.htm