前編、中編、後編と3編の書評をかたむき通信にものした Googleクラウドの核心 (以下、本書)ですが、その巻末には付録論文 DRAMエラーは珍しくない/グーグル社が大規模調査 (以下、本論文)が掲載されており価値の高い言及と思えば此処に書評付編の形態を取って ブログ記事にして紹介したく思うものです。
本論文は初出は日経エレクトロニクス誌の2010年1月11号に 木村雅秀 氏の抄訳を以て掲載されたもので原題は DRAM Errors in the Wild:A Large-Scale Field Study であり、執筆したのは以下の3名と挙げられています。
従来のこの系統の調査報告では研究室内の人工的なデータに留まるものであったり、 実際のシステムであっても300台のサーバーを3ヶ月から7ヶ月ほどフォローする、 と言う比較的小規模なものでしたが、 本論文に於いて扱われるのはGoogle社の生データであり正しく情報化社会の最前線で運用されるものであり、 サーバー台数はGoogle社が保有する殆どをカバーする数万台規模、 期間は2006年1月より2008年6月の2年半と長期に渡る調査のデータとなっています。
本論文に調査対象とされたのはサーバーのメインボードとメモリの世代に由って 6つのプラットフォームに分類され使用されるDRAMは一般の市販品と変わらないもので、 様々なメーカー製、モデルからデータが取られています。 データ収集システムに於いてはエラーが発生する毎にローカルに 訂正可能なエラー、訂正不可能なエラー、温度、マイクロプロセッサの使用率、 メモリの割当量など数百に及ぶパラメータを保存するため、 この尋常ではない処理量を熟すよう数百ノードを利用して並列に処理する 並列前処理ステップ を用意するなどして対応したことも記載されます。
これ等調査環境に於いて採取されたデータから浮き上がってきた事実は実に興味深いものでした。 本論文では下に列挙する如く4つに纏められており、 以降にその詳細が述べられる形態を取っています。
1番目のDRAMエラーの発生率の従来と異なる結果については 1Mbit当り10億時間の間に何回のエラーが発生するかについて 具体的データを提出した上で言及されるものです。 併せてエラー間の相関関係にも考察がなされ 訂正可能なエラー同士にも、訂正可能なエラーと訂正不可能なエラーとの間にも 強い相関性がある旨述べられます。 訂正不可能なエラーの発生はDIMM交換を促す筈ですが、 訂正可能なエラー観測後に交換がなされるべきかと問われれば、 依然としてエラーの発生率の絶対値が低いために交換の必然性は認められないとされ、 データセンター運営施策に根拠を与えるものとなっています。
2番目の新世代DIMMが何故悪影響を齎すと考えられていたと言えば、 一般に新世代のそれは容量が絶対的に向上するため エラー発生率の高まる可能性を考慮せられていたのですが、 今回のデータからはその傾向は見られず、 従って技術の向上が以て容量増加に因るエラー発生率の上昇を抑制せしめているものと結論付けます。
3番目の温度はDRAMエラーに影響を与えるものとは見られない、と言う分析結果は 従来DRAMエラーの要因として温度が強い影響を与えるとされた 定説を引っ繰り返すインパクトのあるものです。 本論文では温度の上昇に於いてはメモリの使用率も高まる相関関係があり、 これを鑑み温度の影響と使用率の影響を分離する試みをしたのでした。 その結果得られたデータより3番目の結果が得られたのですが、 この際使用率を測るにあたってマイクロプロセッサの使用率とメモリの割当量と言う メモリの動作状態を間接的に表すデータを用いている旨、記載されます。 このパラメータ2つの上昇がDRAMエラーの発生率と強い相関関係を持つのも 従来経験的に得られていた知見に後ろ盾を与えるものとなる筈です。
この3番目の分析結果はこの論文の発表されて以来、 IT系の雑誌等に迄広く引用される処となっているように思いますので、 何某かで目にして意外な思いを致した向きも多いのではないでしょうか。
最後、4番目のDRAMエラーの種類についてはソフトエラーとハードエラーの比較結果に言及されます。 ソフトエラーはランダムにビットエラーを生じさせるものの物理的な損傷は残さず 宇宙船に因る電磁的な干渉などがこの例に挙げられ、 ハードエラーはビットの物理的な欠陥に因りエラーを繰り返し発生させるもので ビットの物理的故障が此方の範疇になるものです。 この種類に於いて従来はソフトエラーが多いとされていたのですが、 今回の調査では其れに反してハードエラーの方が割合が高いと報告されるものです。
これが読者に訴求するために意識的になされたものかは分かりませんが、 この抄訳に採られた4つの研究成果は孰れも従来の定説を覆すもので、 孰れも実に興味深いものであると共に 常識を鵜呑みにするのが如何に剣呑な行為であるのかを思い知らされます。 本論文は余所では入手困難な実証データを以て其れを知らしめました。
WSCを考えるに当たってメモリのエラー発生とその要因の相関関係の研究は欠かせないものです。 研究成果の公表は類似のデータセンターに於ける運営にも影響を与え、 運営効率は向上し運営費用は低減されればそれは利用者にも以て有益であるのは間違い無い処です。 この如き緩やかな連携を以て当該分野の発展が為されるのが期待されるものですし、 最先端を走るGoogle社の本論文の公開は従って評価されるべきものと考えます。
使用写真- Google First Production Server( photo credit: Takuya Oikawa via Flickr cc)
- 前編~クラウドとWSC(2013年1月4日)
- 中編~エネルギー効率化と比例性(2013年1月17日)
- 後編~WSCの課題(2013年2月14日)
- 付編~DRAMエラーは珍しくない(2013年3月1日)