イベント
[CEDEC 2017]基礎からすっかり分かる「これで解決! ゲームに必要な3Dオーディオの全て」の聴講レポート
講演はまず,3Dオーディオの定義から始まった。岸氏によれば,3Dオーディオとは「下から上を含めた,高さ方向のあるサラウンド」のことだという。3Dオーディオのレンダリング方法はいくつもあるが,ゲームでは現在のところ「VBAP」「Ambisonics」,そして「Binaural」の3つを押さえておけばいいという。続いて,それらについての解説が行われた。
VBAP
まずは,VBAPについて。聞く人に対してスライドのようにステレオスピーカー(Channel 1とChannel 2)を置いたとき,通常,定位変更は左右のスピーカーの音量を変えて行われる。VBAPではそこに高さの異なるスピーカー(Channel 3)を置き,Channel1と2と合わせて音量を変化させることでベクトルを変換し,高さを含めた定位を実現している。
Ambisonics
Ambisonicsは非常に奥が深いが,「現時点では,4つだけ覚えておけばよい」と岸氏はいう。
「周囲,ほぼ360度で鳴っている音を集めて再生すると考えたとき,Ambisonicsでは周りの音を『球』で捉える」と岸氏は述べた。左,右,上,下,前,後の音を録音することで最低限の種類が集めれるが,これがFOA(First Order Ambisonics),あるいは第一次Ambisonicsとなる。
B-Formatという言葉もよく出てくるが,FOAがすなわちB-Formatという理解でよく,これが最小単位だ。
上下,左右,前後の間の音も集められるので,新しい球面が配置でき,それらの球面同士の間の音もまた録音できるので,数学的な詳細は割愛するが,球面がどんどん配置されるというイメージになる。これがHOA(High Order Ambisonics),または高次Ambisonicsと呼ばれる。
スライドの図より,もっと下までHOAは続いていくのだが,「映像でいうと,解像度が変わっていく感じ」(岸氏)だそうで,HOAにより,自然な3Dオーディオが実現する。ゲームでは,とりあえずFOAの仕組みが理解できていれば問題ないとのことだった。
実際に音を収録するときには,まず全指向性のマイクを立て,さらに双指向性のマイクを左右用,上下用,前後用に用意して収録する。4本マイクを用意するのが難しければ,ゼンハイザーなどから発売されているアンビエントマイクを使用することも可能だ。
アンビエントマイクは最小四面体,または正四面体状に周囲の音を収録するマイクで,ここで得られた4方向の音(A-format)をスライドの「A-Format to B-Format」の式を使って計算し,B-Formatを得る。こうすることで,Ambisonicsを使った3Dオーディオが可能になるという。また,このB-Formatでは指向性が制御できるため,ヘッドトラッキングに使うこともできる。
マイクで4ch録音をしてAmbisonicsに利用できるのだが,任意のchの音を用意して,自分でB-Formatに変換してもいい。最近はプラグインも出ているので,ProtoolsなどでPANを書き,B-Formatで出力してアップロードすれば,360度映像に適した音が表現できる。
「そこが最近Ambisonicsが再評価されている一番の理由だと思われる」と岸氏は述べるが,要するに,新たに録音することもできれば,過去の資産を再利用することもできるのがAmbisonicsの柔軟な部分になる。そのため最近,Ambisonicsが支持されているということらしい。
バイノーラル
バイノーラルは,4Gamerのヘッドセットレビューでもよく出てくるステレオ録音方法の1つだ。人間は,周囲360度の音を2つの耳で聴いているわけだが,耳の位置にマイクを置いてそれを再生すれば音場再現が可能ではないかという考えに基づいている。
スライド左下にあるダミーヘッドを用いて録音するわけだが,例えば,人の右前で鳴った音は,まず右耳に入り,左耳に遅れて入ってくる。こうした音の道筋は,肩から下や耳の形,顔の形状などによって変化するが,こうした経路はHRTF(頭部伝達関数)と呼ばれる関数で表される。特定の位置からの音が耳に達するまでの関数を,きわめて短いIR(Impulse Response)と考えると,HRTFはIRの集合体として捉えることができ,バイノーラルは一点で鳴った音が耳に入るまでのIRを「かけ録り」しているようなイメージになるという。
なお,ダミーヘッドや3Dオーディオ用のマイクに加えて,最近では,自分の耳に入れて使うマイクも登場しているとのこと。
ベースオーディオ
次に再生方式として,「ベースオーディオ」の解説が行われた。
ベースオーディオとしては,「チャンネルベース」「オブジェクトベース」「シーンベース」があるが,最初に説明されたチャンネルベースは,音の出口(たいていはスピーカー)を前提にした手法なので,従来のミックスやパンニングとほぼ同じものだ。ProToolsでパンニングを書くイメージで音の出口を意識して作り込んでいけば,意図したものを意図したとおりに再現できるという。
オブジェクトベースは,音源であるヘリコプターが発する音(主にプロペラの回転音)に音源の移動情報を含むメタデータを持たせ,再生機側で処理する流れになる。
シーンベースは,ある一点で録音した場面を再現するもので,絶対位置を維持したまま指向性を制御できる。シーンベースはほぼAmbisonicsと同じ,という理解でかまわない。
ではゲームオーディオは何ベースか? ということになるが,ゲームはもともと内部的にはオブジェクトベースで,位置情報が含まれていた。しかし,それをうまく出力する手段がなかったので,出力の段階でチャンネルベースにしていたという。しかし,最近はDolby Atmosのようなオブジェクトベースで出力できる環境が整ってきており,オブジェクトベースではないときはVBAPが用いられるという。
3Dオーディオをスピーカーで聞く
岸氏はここで,「気になったことがあった」と述べた。それは,チャンネルベースで,出力が7.1.4chであることを前提にProToolsでヘリコプターの軌道を書き,7.1.4chの出力環境で再生する場合と,まったく同じ動きをオブジェクトベースで書いて,同じく7.1.4ch環境で聞いたときで,まったく同じになるのかどうかということだ。
そこで,Dolbyに問い合わせたところ,「ビット単位で同じかと言われると,違うかもしれないが,体験としては一緒になるのではないか。そのように最適化している」という回答を得たという。岸氏は,「体験が同じ」なのが重要だと得心したそうだ。
3Dオーディオをヘッドフォンで聞く
7.1chや9.1.4chのコンテンツをヘッドフォンでそのまま再現できるというのがバーチャルサラウンドで,自分の前に見えないスピーカーがあり,そこから音が鳴っているようなイメージだ。
オブジェクトベースについては,スパーシャル・レンダリングが使用されるが,空間定位はHRTFを用いて行う。
耳元を蚊が飛ぶような音を再現したいとき,バーチャルサラウンドで仮想的に1m先に設置したスピーカーで蚊の音を鳴らしても,当然ながら耳元で飛んでいるようには聞こえない。一方,オブジェクトベースでスパーシャル・レンダリングを用いた場合,本当に耳元に蚊がいるように聞こえるという。
「ゲームの世界で起きている音が,その世界にいるように聞こえる」というイメージで捉えてもらえたいと岸氏は述べた。
このスパーシャルレンダリングは最近のVRタイトルによく用いられており,さまざまなゲームが作られている。
バーチャルサラウンドについて
バーチャルサラウンドとは,HRTFによりソフト的に,またはハード的に音響処理を施し,スピーカーから出る音をシミュレートした状態でヘッドフォンで聞くというもの。バーチャルサラウンドを理解することで,ゲームにおける3Dオーディオ開発がやりやすくなると岸氏は話す。
まず,バーチャルサラウンドで一番理にかなっているという「SMYTH RESEARCH SVS - Realizer A8」(以下,A8)がとりあげられた。
人それぞれに頭や耳の形が違うため,音の聞こえ方も異なる。100人全員が同じように聞こえるHRTFを作るのは基本的に不可能なので,利用者個人のHRTFを作成するのがA8になる。
個人に特化したHRTFを作るため,A8では3つの計測を行う。
最初は,5.1chのスピーカーシステムが組んであるスタジオで,「スイートスポット」と呼ばれる場所に座り,自分の耳に小型マイクを入れて,正面を向いた状態でスピーカーから鳴る測定音を聞く。これにより,スタジオの反響や,スピーカーの性能などを反映した状態で,個人に特化したHRTFが計測される。
続いてはヘッドトラッキングで,これは,頭の位置を変えると,それにつれて変化するスピーカーの相対位置を測るものとなる。上の状態から右や左を向き,同じような測定を行い,測定時の左右方向を限界として,スピーカーから耳に音が届くHRTFを作成する。
最後は,音響機器の特性計測となる。これは,ヘッドフォンを装着した状態でHRTFを計測することで,耳から数mm,数cmといった短距離でHRTFを計測することになる。この短い距離でも,個人によってヘッドフォンで鳴った音が耳に伝わるまでの状態は異なるわけだ。
ヘッドフォンは機種によっても特性がまちまちなので,使用するヘッドフォンをA8に接続して測ることになる。
「これら3つの計測を行うことにより,個人に特化したHRTFができる。これを適用した状態で音を流したとき,ヘッドフォンではなく,まるでスピーカーから音が鳴っているような,驚くほどの再現が可能になる。個人に特化したHRTFは,そこまでの表現力を持っているということが分かった」(岸氏)。
とはいえ,20万円近いA8をゲームで使ってもらうのは,現実的ではないだろう。スライドの利便性は△となっているが,実質×に近い。「20万円追加して,いい音で聞いてください」とは言えないと岸氏は述べた。
このように,HRTFとヘッドフォン補正の両方をパーソナライズするのは困難だが,若干再現度は落ちるものの,聞いたときにだいたい音が定位するような汎用HRTFをDTSが開発している。ヘッドフォン補正については,プリセットが多数あり,例えば自分がCD-900STを使っていればそのプリセットを選ぶだけでヘッドフォンの音響特性が補正されるとのことだった。
汎用のHRTFを使っていても,ヘッドフォン補正なしでは,ほかの技術と比較して再現性は△になる。とはいえ,自分の持っているヘッドフォンを使えるので利便性は高く,ユーザーが自分で設定を変更する必要もない。「ゲームへの導入に関しては,この利便性も大事だ」(岸氏)。
スピーカーで聞くことと
ヘッドフォンで聞くことの違い
通常,人の右側にあるスピーカーで鳴った音はまず右耳に達するが,左耳でも聞こえる。しかし,ヘッドフォンの場合,右の音は右耳だけ,左の音は左耳だけに届く。岸氏は「これは,体験としては全然異なる。たぶん,ヘッドフォンで音を聞くことに慣れている人はそこまで意識していないと思うが,しかし,根本的に違う体験」だと述べる。
それに対してHRTFを用いたバーチャルサラウンドでは,スピーカーの音をヘッドフォンで聞いている状態になる。
というわけで,スピーカー,ヘッドフォン,HRTFを用いたヘッドフォンという3つの聞き方が存在することになる。音がどう出力されるかは3Dオーディオにおいて非常に重要で,これを理解しておくことで,「なにか聞こえ方がおかしい」というときに,「そういうことか」と理解できるという。
VRコンテンツの音響制作
以上を踏まえて,講演はVRコンテンツの音響制作の話に進んだ。3Dオーディオを使ってVRコンテンツの音を作っていくあたって岸氏は,「VRに限らず,ゲームの音響制作の基本は『演出』と『再現』だと考えている」と話した。
ゲームとしての演出と音場再現のバランスを取って,ユーザーが気持ちよくプレイできる環境を作り出すことが大事であり,これが,VRコンテンツを含めたゲーム音響制作の基本になるという。
さて,VRコンテンツのフォーマットは,ざっと4つに分けられる。それが,「オブジェクトベース」「チャンネルベース」「バーチャルサラウンド」,そして「シーンベース」だ。それぞれ,簡単に説明していこう。
・オブジェクトベース
位置情報を持つことで,あたかもゲーム世界の音を自分の耳で聞いたような感じになる。
このオブジェクトベースですべての音を表現できればいいのだが,処理負荷などの関係で,すべての音には適用できないこともある。その位置で鳴っている音も,現実では1点だけでなく,反響によって複数の点から聞こえてくる。この反響する点を個別に設定すれば,現実と同じ音になるが,実現は厳しい。したがって,オブジェクトベースの適用は限られているのが現状だそうだ。
・チャンネルベース
シンプルな「モノ」や「ステレオ」の音響をヘッドフォンで聞くだけでなく,例えば事前にバイノーラルで収録し,それをステレオ素材としたり,普通にQuadやSurroundの音源をダウンミックスするなどが考えられる。
バーチャルサラウンド
ダウンミックスせず,バーチャル空間に配置したスピーカーからQuad音源を聞いたりするもので,「チャンネル・ベッド」とも呼ばれる。チャンネルベースの音源を仮想空間に配置するのは,通常の5.1ch対応ゲームをヘッドフォンで聞くということと同じだ。
・シーンベース
Ambisonicsで収録した音か,B Formatの形でエキスポートした波形を利用する。
こうしたフォーマットを組み合わて作るのが,現状のVRコンテンツ向けの音響制作になる。基本的に,ここでいうVRはヘッドフォンの使用を想定しており,HMDを装着して音はスピーカーを使う場合も考えられるが,それについて今回は触れない。
重要性や距離などにより,コンテンツ内で上記の4つを使い分ける例が挙げられた。森で鳴く鳥の声はバーチャルサラウンドで4つの仮想スピーカーを使用し,遠くで飛んでいるヘリコプターの音は移動している感じを出すためにVBAPで分配してバーチャルサラウンドで鳴らす。
耳元で飛ぶ蚊は,もしそれがコンテンツで重要であるなら,オブジェクトベースできちんと耳元を飛んでいるようにする。
背景に曲が流れているなら,これは普通にチャンネルベースを使う。耳元の会話はバイノーラルで事前に収録しておく。遠くで流れる川の音は,なんとなく方向が分かるようにしたいのであれば,シーンベースを使用する。
以上のように,作るコンテンツに合わせた演出を考えて再現していくのがいいと岸氏は考えているそうだ。
補足として
例えば,弦楽3重奏をどう音場再現するかと考えたとき,ステレオが発明される前のモノラル時代には1点で収録して音響処理を施し,チャネライズするということを行っていた。
やがて,ステレオで録音したり,各楽器の前にマイクを立て,それを2chに割り振ったりする時代に進んでいく。5.1chの時代になると,マイクアレイを利用するようになり,現在,その最も進んだ形として,NHKの22.2chが挙げられる。
また,演奏をダミーヘッドで収録して処理を行い,収録した場所で聞いているように音場を再現するトランスオーラルは,ヘッドフォンを使うバイノーラルをスピーカーで行うようなイメージだ。あたかも2つのヘッドフォンで聞いているような状態をスピーカーで作り出す。
チャンネルベースは心理音響モデルで,アーティスティックなセンスでチャンネル配置を行っていくため「芸術的」だと岸氏は言う。それに対してオブジェクトベースは物理音響モデルで,計算で導き出されるため,「学術的」だ。
Dolby Atmosは基本的にチャンネルベースだが,スピーカーの数が変わっても対応できるため,オブジェクトベースでもある。
たびたび出てくる蚊の例をひくと,蚊が耳元にいるという状態をうまく体験させるのが芸術的表現。それに対して,蚊が耳元にいるならどのくらいの音で,どのくらい減衰して……といった点を追求していくのが学術的表現になる。
以上は,どちらが正しくてどちらが間違っているという話ではない。「大切なのは,どちらのアプローチを選ぶかということで,それがゲームサウンドクリエーターの仕事」だと岸氏は話す。
ゲームのサウンドクリエイターの多くはチャンネルベースを学んできたと思われるが,最近,オブジェクトベースもゲームに取り入れられるようになってきた。ゲームの歴史において,芸術的から学術的への転換点ではないのかというのが,岸氏の見解だ。
まとめ
最後に,今回の講演についてまとめが行われた。
3Dオーディオはスピーカーで聞く場合と,ヘッドフォンで聞く場合がある。ゲームのサウンドは昔か位置情報を持っており,これをVMAPによって各chに割り振って定位させ,スピーカーで鳴らしていた。これがチャンネルベースの考え方になる。
それに対してオブジェクトレンダリングは,スピーカーアレイなどで位置情報を与えることで,スピーカーの数が変化しても変更なく再生できる。
ヘッドフォンで聞く場合,普通にステレオで聞いたり,ダウンミックスで整音して聞くという方法があるが,HRTFを用いて,チャンネルベースの環境をバーチャルサラウンドで再現して聞くという手法もあり,これはスピーカーの体験をヘッドフォンを使ってすることに等しい。
また,スパーシャル・レンダリングを行って,オブジェクトベースで鳴らすという方法もあり,オブジェクトベースで考えたとき,スピーカーとヘッドフォンでは,最終的に出てくるものが異なる。
バイノーラルは,どちらかといえばヘッドフォン向け技術になる。
「ゲームサウンドクリエイターは,どちらかというと芸術的な方面に進化してきたが,学術的な側面からのアプローチもできるようになってきた」と岸氏は述べる。そして「芸術と学術,両方を身につけることで,さらに高い表現ができるのではないか。引き出しをたくさん持つことにより,ある部分はチャンネルベースで,ここは全部センスで,ここは少しアカデミックに計算したほうが効率的にもなるという取捨選択できる。それはゲームサウンドクリエイターの特色になるし,それがこの仕事の最大の魅力ではないかと思う」とした。
3Dオーディオに関する情報に接し「これなんだっけ」と思ったときに見返すと必要な情報が得られる,大変価値のある講演だった。筆者はコテコテの「芸術的表現」畑の人なので,学術的表現の情報は個人的に大変参考になり,「両方を使い分けられるのはゲームサウンドクリエイターだけ」というコメントも印象的だった。
カプコン サウンドチーム公式Webページ
4GamerのCEDEC 2017記事一覧
CEDEC 2017公式サイト
- この記事のURL: