C++引用計數的智能指針有效回收方法

  引用計數指針是否能有效地回收,對系統意外關機之後數據的恢複來說至關重要,要害是要避免對象複制。
  怎樣從災難性故障中,恢複一個長期運行、系統級的後台守護進程或者服務,在如今的軟件設計過程中,已成爲了一個重要的考慮因素。當這些軟件是由C++語言編成,並使用了引用計數的智能指針時,那麽,智能指針的有效回收,對系統是否具有可伸縮級的恢複能力、甚至正確地繼續未完成的操作來說,都顯得至關重要。
  在本文中,描述了一種方法,可從關機之後的軟件恢複中,有效地回收引用計數指針,而且此方法在內存占用方面也非常高效,這種方法的要害在于避免對象複制,而對象複制通常是由C++中指針引用的串行化與反串行化這種傳統技術産生的。當從存檔文件中反串行化時,本方法使用了標記(tag)來唯一地識別指針對象,且在系統恢複時由一個對象緩存來保存指針引用。
  本文以一個基于事件的商業實時作業調度系統來進行演示,其通常由大型市場咨詢公司使用,天天都會在集群工作站上處理數不勝數的計算任務。
  爲什麽許多C++軟件項目會使用自動內存治理技術呢,因爲它有以下好處:
  ² 代碼安全性。避免了太早釋放一個對象所帶來的風險。
  ² 代碼正確性。避免了忘記釋放未使用內存所帶來的風險。
  ² 代碼模塊性。代碼中不再需要點綴著與程序無關的簿記代碼。
  ² 編程簡單性。現在可假定一種無限內存的計算模式。
  ² 編程高效性。程序員不再擔心內存治理問題。
  引用計數智能指針,有時也稱爲「計數體術語」,是一種生命期受管的對象,其對引用它的數量,有一個內部的計數器。當內部引用計數爲零時,這些對象會自動銷毀自身,這是一種非常有用的技術,已運用在許多C++軟件産品項目中,因爲簡單易行,且無需對語言或編譯器進行任何擴展。
  引用計數智能指針能進一步定義爲一體式或分離式,一體式智能指針把引用計數放在自身內,而分離式智能指針則把引用計數放在對象之外。在本文中,使用的是分離式智能指針方案,這需要在訪問實際對象指針之前,在智能指針模板對象中重載 -> 或 * 操作符,從本質上來說,這也是代理(PRoxy)設計模式的一個特例。
  就目前來說,還沒有一種方案以高效利用內存的方式描述了怎樣恢複智能指針,而傳統的C++對象串行與反串行化方法,會導致內存低效,因爲當一個反串行化的對象碰到一個對它的引用時,總是會創建一個新對象,在最壞的情況下,這會把一個恢複後的守護進程的內存消耗量,推到一個無法接受的高度,致使它無法繼續運行下去。
  問題的引出
  傳統對象的串行與反串行化方案,也能實現智能指針,只不過在內存上比較低效而已。在這些傳統方案中,當一個對象串行化時,對象內的成員指針被解引用,它的內容與對象一起「串行」進存檔文件中。這種方法的問題在于,當反串行化時,成員指針會再次構造,且是每個恢複的對象都會這樣。
  下面以基于事件的作業調度系統來進行講解,作業定義在CJobDef對象中,其包含了作業的靜態屬性,如它執行的命令、工作目錄、及作業執行時的用戶ID。而作業定義的運行實例則包裝在CJobInst對象中,其包含了一些與實例有關的屬性,如它的進程ID、執行參數、及運行曆史記錄。在類層次上,每個CJobInst對象都包含了一個成員,其引用到觸發這次作業實例的原始CJobDef對象。
  圖1是軟件停止運行之前的系統,運行時CJobInst對象的多個實例可能會引用至同一個CJobDef對象。在軟件停止及恢複後,傳統串行化對象恢複方法,會導致爲每個運行的CJobInst對象,都創建一個CJobDef對象,如圖2中所示。
  
C++引用計數的智能指針有效回收方法

  圖1:恢複之前的對象圖
  
C++引用計數的智能指針有效回收方法

  圖2:內存低效恢複之後的對象圖
  這種情況發生在傳統的C++類對象中指針成員串行化與反串行化時,例1,是一段帶有重載>>與<<操作符,串行及反串行化CJobInst與CJobDef類指針的CArchive類代碼,也證實了這點。
  例1:
  
  以下是引用片段:
  class CJobDef
  {
  friend CArchive & Operator >> (CArchive &ar, CJobDef *def)
  {
  ar >> def->command;
  }
  friend CArchive & operator << (CArchive &ar, CjobDef *def)
  {
  ar << def->command;
  }
  private:
  std::string command;
  };
  class CJobInst
  {
  friend CArchive & operator >> (CArchive &ar, CJobInst *inst)
  {
  inst->m_def = new CJobDef;
  ar >> inst->m_def;
  }
  friend CArchive & operator << (CArchive &ar, const CJobInst *inst)
  {
  ar << inst->m_def;
  }
  private:
  CJobDef *m_def;
  };
  在CJobInst中串行化CJobDef的私有成員m_def涉及到調用CArchive類中適當的<<操作符,重載的<<操作符通過把對象屬性串行化進一個永久的存檔文件,來實現對CJobDef指針的串行化;反串行化CJobDef指針涉及到構造一個新的對象,並調用>>操作符從存檔文件中更新屬性。
  解決方案
  引用計數智能指針是由繼續自CReferable類一個對象實現的,其包含了一個私有引用計數器及用于修改其值的increaseReferenceCount()與decreaseReferenceCount()方法,而相應的Ref模板類,通過->、*、= 操作符重載,也實現了訪問此對象及對生命期的治理。Ref模板對智能指針的賦值操作,會遞增對象的引用計數,而它的析構函數會遞減計數。智能指針中的對象只當它的引用計數爲零時被銷毀。在上面的作業調度系統中,CJobDef對象被包裝在一個CJobDefPtr類型中,其由以下語句定義:
  
  以下是引用片段:
  typedef Ref<CJobDef> CJobDefPtr;
  這個CJobDefPtr類型,正是類CScheduler所用到的類型。當用戶提交一個作業到事件作業調度器時,會産生一個CJobDefPtr類型新的對象,且會賦予它CJobDef對象;此後,當作業實例創建時,也正是這個CJobDefPtr類型賦予給了實例。圖3演示了類CScheduler使用的CJobDefPtr類型。
  
C++引用計數的智能指針有效回收方法

  圖3:作業定義類關系圖
  在CJobDefPtr類中,賦值=操作符遞增了CJobDef對象CReferable基類中的引用計數,而delete操作符遞減了這個引用計數。包裝在CJobDefPtr對象中的CJobDef對象不會被銷毀,直到它的引用計數爲零,這也說明了在系統中,沒有其他任何對象引用CJobDef對象,它可以安全地被銷毀了。
  再次提醒,從作業中創建的作業實例,被包裝在一個CJobInst類中。與CJobDef一樣,類CScheduler只知道它對應版本的智能指針CJobInstPtr,而此對象的實例也會一直保持到沒有對它的引用爲止。
  另外,在系統中,還包括了另外三個特性,以便使調度系統可高效地恢複:
  ² 類CReferable增加了一個tag屬性,以唯一地識別每個創建的指針實例,同時有一個getTag()方法可用于訪問此屬性。
  ² Ref模板類在稱爲CReferableCache的全局對象緩存中治理它的對象,此全局對象緩存可由其他智能指針對象訪問。
  ² Ref模板類添加了一個impersonate()方法,其答應一個智能指針以給定的tag轉換爲另一個智能指針。
  當一個新的CJobDefPtr或CJobInstPtr被創建時,在CReferable基類構造函數中,會分配給對象唯一的一個tag。這個tag可由幾種方式産生,但任一種方式都必須保證在每次軟件運行時,都會有一個唯一的ID。一個簡單的方案是使用一個靜態、全局的計數器對象,其在存檔文件中存儲了上一次産生的ID,由此可保證甚至在有多個軟件實例運行的條件下,都能單調不重複地遞增此ID。
  分配給智能指針的tag,唯一地標識出一個指針,而把此tag存入一個存檔文件就是對象串行化過程的責任了。對象的串行化過程,可通過CReferable基類的getTag()方法,來訪問此tag,接下來,對象的反串行化過程使用此tag,在軟件恢複時,來重建正確的對象指針實例引用。下面是反串行化過程必須執行的步驟:
  ² 從存檔文件中恢複tag。
  ² 從tag標識的存檔文件中,恢複對象屬性。
  ² 以此tag爲界調用impersonate()方法,恢複正確的指針對象的引用。
  Impersonate()會對是否一個tag索引了在全局CReferableCache對象集中的一個對象進行檢查,假如未找到此tag相應的對象,那麽此對象會添加到CReferableCache中,並用此tag作爲它的索引值。然而,假如一個對象已經存在于全局CReferableCache對象集中,通過以新引用來調用set()方法,你可以舍棄老引用,且無關的對象複制操作也會自動被刪除。例2使用了這種技術來實現智能指針。
  例2:
  
  以下是引用片段:
  class CJobDef : public CReferable
  {
  friend CArchive &operator << (CArchive &ar, const CJobDefPtr &cand)
  {
  ar << cand->getTag();
  CArchive ar_def(cand->getTag(), CArchive::WRITE);
  // write object attributes to ar_def
  return ar;
  }
  friend CArchive &operator >> (CArchive &ar, CJobDefPtr &cand)
  {
  int tag;
  ar >> tag;
  CArchive ar_def(tag, CArchive::READ);
  // read object attributes from ar_def
  cand.impersonate(tag);
  return ar;
  }
  };
  class CJobInst : public CReferable
  {
  friend CArchive & operator << ( CArchive &ar, const CJobInstPtr &cand)
  {
  ar << cand->m_defPtr;
  return ar;
  }
  friend CArchive & operator >> (CArchive &ar, CJobInstPtr &cand)
  {
  CJobDefPtr defPtr = new CJobDef;
  ar >> defPtr;
  cand->m_defPtr = defPtr;
  return ar;
  }
  };
  
C++引用計數的智能指針有效回收方法

  圖4:作業對象與CReferableCache全局對象的交互
  圖4描述了系統中類CScheduler、CJobDefPtr、CJobDef、CReferableCache之間的交互,類CReferableCache具有靜態成員方法getUniqueTag()、addObject()、deleteObject()。當一個對CJobDef的智能指針創建時,如下:
  
  以下是引用片段:
  CJobDefPtr jobDefPtr = new CJobDef
  CScheduler會構造CJobDefPtr和一個CJobDef對象,當對象構造時,會通過CJobDef基類的CReferable構造函數調用getUniqueTag()方法,這就爲每個CJobDef對象創建了一個唯一的識別標記(tag)。接下來,CJobDef對象被賦給CJobDefPtr對象,後者會調用它自己的set()方法把CJobDef對象添加進來。
  當調用CJobDefPtr賦值操作符函數時,也會調用addObject()方法,假如是第一次賦值的話,它會把CJobDef對象添加進全局CReferableCache;當智能指針被請求替換由tag識別的它內部的對象引用時,impersonate()方法會調用getObject()方法,假如impersonate()方法未找到CReferableCache中標記的對象,那麽,CJobDefPtr對象會替換它的內部對象標記,並把它自身添加到CReferableCache緩存集中;最後,當CJobDefPtr被刪除及對象的引用計數爲零時,deleteObject()方法此時會被調用。
  在此所描述的事件調度系統,一般使用在市場咨詢數據公司中,其會在網絡集群工作站上觸發計算任務,當從世界各處的零售商彙集所需信息之後,在每周的三天之中,都會觸發計算任務,而這三天中的任意時刻,系統可能也要在集群工作站上運行超過20萬個任務。因此,軟件在合理內存及CPU消耗的前提下,支持重新啓動,就顯得非常重要了。表1顯示了在系統中運行著多個計算任務時,事件調度守護進程在每次重啓後的內存消耗,在系統重啓後,較小的內存消耗要歸功于軟件中使用了上文方法來串行及反串行化不常用的類對象的那些模塊。當任務完成時,內存最終將被回收。
  表1:在軟件每次重啓後的調度系統所用內存大小
  運行任務數
  軟件重啓前的內存占用大小
  軟件重啓後的內存占用大小
  5000
  25M
  32M
  100000
  370M
  413M
  200000
  730M
  795M