ニュース
「Quad-Core Opteron」の概要から来たるべき「Phenom」を推測する
AMDにとって2007年最大のトピックとなるBarcelona
真のクアッドコアCPUがついに市場へ
氏の説明は,電力効率とパフォーマンス,仮想化技術のサポートが中心で,ゲームにおけるパフォーマンスという観点では興味の対象外になる部分も少なくないため,本稿では,4Gamer的に重要と思われる部分をピックアップして説明していきたいと思う。
2007年9月時点で入手可能なIntelのクアッドコアCPUは,デュアルコアのCPUダイを一つのチップに載せた“デュアルダイ”構成になっている。4個のCPUコアが一つのCPUパッケージに封入されてはいるものの,実際には,二つのデュアルコアCPUダイがFSB(Front Side Bus,フロントサイドバス)を介してつながっているわけだ。
デュアルダイ仕様のクアッドコアCPUで大きなボトルネックとなり得るのがキャッシュ周りである。ご存じの読者も多いだろうが,キャッシュはメインメモリとCPUの速度差を埋めるために用意されている高速な一時記憶メモリだ。メインメモリの内容を4個のCPUコアが共有する以上,その一部をコピーして置いておくキャッシュの内容は,4個のCPUコアから共有できるよう,同一になっていなければならない。同一でないと処理が破綻してしまうからだ。
このとき,デュアルダイ仕様では,二つのダイそれぞれにキャッシュが用意されるため,両キャッシュの内容を同一にすべく,両ダイ間でデータをやり取りする必要がある。そのとき使われるのが,CPUコアから見ると低速なFSBなので,そこが大きなオーバーヘッドを生じさせてしまう。
その点,Barcelona世代のCPUでは,一つのダイに4個のCPUコアが集積される。L1およびL2キャッシュはCPUコアごとに用意されているが,L3キャッシュは4個のコアから共有されるのが特徴だ。キャッシュの構成は以下のとおりである。
- L1:CPUコアごとに64KB(データと命令が分離するハーバードアーキテクチャ型で,データ32KB,命令32KB)
- L2:CPUコアごとに512KB
- L3:共有2MB
L1とL2が共有されないのは,これらが命令やデータに頻繁かつ高速にアクセスする狭い領域に対応し,L3が広い範囲を受け持つというように,役割が異なるためだ。
キャッシュの制御には,L1/L2/L3それぞれでデータが重複しない「Victim Cache」手法が採用されている。各CPUコアはL1,L2,L3に並列アクセスが可能で,例えばL1にデータがなければL2から,L2にもなければL3から高速に取り込めるよう制御されている。このキャッシュ制御法はAthlon XP時代から採用され続けているもので,AMDはこれが最良と考えているようだ。
いずれにせよ,4コアで共有するL3キャッシュを持つQuad-Core Opteronでは,原理的にデュアルダイ仕様で生じるボトルネックが発生し得ない。これがAMDのいう「真のクアッドコア」のポイントである。
だがそんなAMDも,ロードマップを見てみれば,2008年に予定されている45nmプロセスの次世代クアッドコアCPU「Shanghai」世代でL3キャッシュを6MBに拡大する予定になっている。本当に2MBで十分なら拡大する必要はないわけで,Quad-Core OpteronでL3キャッシュが2MBになっているのは,効率の問題というよりむしろ,「65nmプロセスではダイサイズ的に2MB以上のL3キャッシュを載せるのが難しい」というのが本当のところだろう。もっとも,氏の発言に根拠がないわけではなく,メモリコントローラに大きな改良が加えられ,実質的なメモリ帯域幅は拡大しているのだが。
SSE命令は128bit単位で演算できるが,従来のOpteronやAthlon 64 X2では,内部で128bitのデータを“二つ折り”にして,64bit単位で演算を行っていた。これに対してBarcelonaでは128bitの演算器が内蔵されるので,128bit単位の命令を一度に処理可能だ。これにより,大きくパフォーマンスが向上するという。
処理単位の変更に合わせて命令やデータのスループットを向上させるため命令の取り込み(命令フェッチ)も改良され,データキャッシュの帯域幅拡大が図られているとのことである。
SSE命令というと,動画などのエンコード/デコード専用というイメージがあるかもしれないが,最近は従来の浮動小数点演算命令に変わってSSE命令を中心に利用するソフトウェアが多くなってきている。SSE命令のパフォーマンスアップはゲームなど,さまざまなアプリケーションの性能向上につながるだろう。
またFruehe氏は触れていないが,AMDはQuad-Core Opteronで整数演算に関しても高速化を図ったとしている。詳細は不明だが,1クロックで実行できる命令数が従来のOpteronよりも増えているようだ。
Barcelonaの高い電力効率をアピールするAMD
新たな指標「ACP」とは?
以上がパフォーマンスに関する概要だが,実のところ,Fruehe氏が最も時間を使って説明したのは,電力効率に関する部分だった。現在サーバー分野では,データセンターの膨大な電力消費が大きな問題になっており,Quad-Core Opteronの高い電力効率こそ,最もアピールしておきたいところなのだろう。
Quad-Core Opteronでは新たな消費電力の制御が採用されている。ポイントは「Independent Dynamic Core Technology」(以下IDCT)と「CoolCore Technology」(以下CoolCore),「Dual Dynamic Power Management」(以下DDPM)の三つだ。
例えば,あるコアでFPU(Floating-point number Processing Unit,浮動小数点演算装置)とL2キャッシュが使われていなければ,その二つに対する電源供給を止めてしまうといった具合。CoolCoreはCPUに内蔵されるメモリコントローラにも組み込まれており,メモリモジュールから読み出すときには書き込む側の回路を電源オフに,逆に書き込むときには読み出し側の回路の電源をオフにすることで,全体の消費電力を抑えているという。
また,オン/オフの制御はFPUやキャッシュ,メモリコントローラといった大きなブロック単位だけではなく,AMDが「Hot Spot」(ホットスポット)と呼ぶ,高温になりがちな,面積的には狭い単位でも制御されるとのこと。
スライドで,黒い点をいくつか確認できると思うが,これがHot Spotのイメージで,この規模での制御が可能になっているのだそうだ。
もう一つのDDPMだが,これはCPUコアとメモリコントローラのそれぞれに独立した電源の供給回路を設けて,負荷に応じて別々の電圧を供給できる仕組みのこと。メモリコントローラも利用状況に応じて電圧が抑えられ,トータルとして省電力に寄与するという。なおDDPMは,一部のモデルには組み込まれないとされている。
CPUの消費電力指標としては,長らくTDP(Thermal Design Power,熱設計消費電力)が利用されてきた。しかし,TDPはそもそもPCメーカーに向けた熱設計のための指標であり,「実際にエンドユーザーがPCを使っている最中のCPU消費電力」とはやや異なる。
ACPは,この「実際にエンドユーザーがPCを使っている最中のCPU消費電力」を数値として示すものだ。CPUをマザーボードに取り付けて標準的なベンチマークソフトを実行し,CPU使用率が100%になった状態で計測した値を,当該CPUのACPとして公開するという。
ACPはTDPに代わるものではないが,実使用時の計測値ゆえに「ユーザーがCPUを選ぶときにはTDPよりも役に立つ指標になる」とFruehe氏。ACPという指標はQuad-Core Opteronだけでなく,今後登場するAMD製CPUのすべてで公開されるそうなので,4Gamer読者もこのACPという単語は憶えておいたほうがいいかもしれない。
なお,ACPを計測する詳細なレギュレーションは,追ってAMDのWebサイトに掲載されるホワイトペーパーで明らかにされる予定になっている。
「供給体制は万全」とAMD
Phenomの一刻も早い登場にも期待したい
LinuxやWindows 2003 Server上で何かアプリケーションを実行したわけではなく,少々拍子抜けするものではあったのだが,昨今のサーバー向けCPUではアピールしたいポイントだろう。まあ,このあたりはさすがにゲーマーと直接関係するところではないが。
9月10日の記事でお伝えしたように,Quad-Core Opteronは65nm SOIプロセスで製造され,トランジスタ数は4億6300万。従来のOpteronと同じく,Socket Fに対応する。Quad-Core Opteronの立ち上げ後,独ドレスデンにあるFab 36は全面的に65nmプロセスに切り替えられるとのことで,「供給体制は万全」とFruehe氏は胸を張る。
Quad-Core Opteronでクロック当たりのパフォーマンスが高くなる以上,Phenomに関しても期待できそうだが,懸念材料としては,動作クロックが指摘できよう。
下に示したのはAMDによる現時点での製品ラインナップで,立ち上げ時には標準的なモデル「Standard Performance」と高電力効率に特化した「HE Energy Efficient」の2ラインが用意され,動作クロック2.3GHz以上の「SE High Performance」ラインは2007年第4四半期の立ち上げとなっている。
Barcelona,ひいてはPhenomが動作クロックを思うように上げられなければ,せっかく真のクアッドコアCPUで,クロック当たりの性能が高くても,絶対的な動作クロックの違いで優位性を覆されるのではという懸念が拭いきれないのだ。
- 関連タイトル:
Phenom
- この記事のURL:
(C)2007 Advanced Micro Devices, Inc.