イベント
[GDC 2024]フィクションの世界の言語を“らしく”音声化するためのアイデアとは。スクウェア・エニックスの音声合成技術セッションをレポート
ゲームのようにインタラクティブな体験が重要なデジタルコンテンツの制作において,ユーザー入力に柔軟に対応できる音声合成技術(text-to-speech technology)は有効な選択肢の一つである。
この音声合成技術を応用し,架空の世界の言語発音を生成できれば,作品へのより深い没入感を生むことができるのではないか。「Fictional Speech Synthesis」とはその名のとおり,フィクションの世界の言葉を音声にするというシステムで,同システムのゲームへの応用可能性を説明するというのが本講演のテーマだ。
スピーカーはスクウェア・エニックスのAI部 AIリサーチャーの森 友亮氏。これまでもGDCやCEDECなどで数々のセッションに登壇している研究者で,自然言語処理(NLP)技術のゲームAIへの応用の取り組みなどでも知られている人物だ(関連記事1 / 2)。
セッションでは,まず例としてハーマン・メルビルによる小説「白鯨」を読み上げる音声と,ゲーム空間でのキャラクターたちの会話が流された。それらには英語のテキスト(字幕)はあるが,読み上げられた白鯨の一節やキャラクターのボイスは,どの国のものとも異なる不思議な言語だ。
「白鯨」は「小説がもしファンタジー世界に伝わり,それを“現地”の言葉で読み上げられたら」という応用イメージ。ゲームキャラクターの会話は,「用意されたシナリオに従うこともできるし,無限に生成される音声や会話も楽しめる」「この不思議な言葉を耳で読み解く」「正しい意味が表示されない場合は自分の解釈で正解を決められる」といった新たなゲーム体験のイメージとして提示されたもの。このように,架空の言語の音声化はゲーム開発に新たな刺激や可能性を与えるものとなりうるわけだ。
では,どのように“FICTIONAL LANGUAGE”の音声を生成すればいいのか。
自然言語でさえTTS(Text-To-Speech)で音声化するのにも機械学習のための膨大なデータが必要なのに,架空の言語のデータを集めるとなると,それは難しい。そもそも新たに作り上げるゲームの世界の言語データなんて,地球上に存在しない(はず)。そうしてたどり着いたのが,「架空の言語のデータを収集することなく,架空の言語のように聞こえるものを作ってみよう」と言う考えだった。
これを進めるうえで, 氏はインプットされたテキストをテキスト特徴に変換し,それを音響特徴に変換して音声に変換するというTTSをそのまま使うのでは,エンターテインメントとしての品質向上の実現は難しいと感じたという。聞き慣れた言語をベースに合成音声を作ると,どうしても違和感が生まれるからだ。日本語の場合だと漢字,ひらがな,カタカナと異なる特徴を持つテキストがあるため比較的簡単だったが,アルファベットではそうはいかない。
では,“聞き慣れた言葉”を使わなければ,違和感は軽減されるのではないか。こうしてボコーダーに入れる前の音響特徴に架空の要素を入れ,発音はそのままにそれを特徴とした音響特徴から音を生成するという架空の言語プロセスを考えた。
その一つが,異なる言語の特徴を抽出し,さらに文字をバラバラに並び替えてからトークナイズするというもの。TTSで特徴抽出を行うときには,単語の発音辞書など,言語それぞれに依存する部分がある。これを,例えば日本語のテキストを入力しそれを英語のTTSで処理するといった異なる言語の特徴抽出を行うことで,(両方が噛み合えば)奇妙な音響特徴が得られるわけである。アイデア自体はとてもシンプルだ。
注目すべきは,それらがランダムアウトプットではなく,システム化されたものであることだ。
入力されて生成された言語や文の構造などが今後の出力に影響するため,パターンが生成されれば,その変換ルールを再び使用して架空の言語を生成できるのである。これにボイストリックを加えれば,人間の声に限らないさまざまなキャラクターの声への変換も可能となる。
セッションの結びには,まとめとしてFictional Speech Synthesisの効用と課題,そして可能性が語られた。
通常のAI生成によるテキストと音声には,非倫理的な内容や有害なものが含まれるリスクがあるが,人間が入力しそれを変換するFictional Speech Synthesisではそのリスクは少ない。またプレイヤーキャラクターのモノローグは人間のライティングと声優による自然言語を使用し,NPC同士の会話は自動生成された架空の言語,プレイヤーとNPCの会話はそれらのミックスにするといったように,静的/動的に作られた双方のテキストを自然に使い分けられるのも利点といえる。
ほかにも,入力文字列の長さに対応した音声を作成できること。字幕やリップシンクとの組み合わせに使いやすいこと。プレイヤーの再生言語に合わせた変更が容易であること。ゲーム世界のさまざまなエリア,文化的背景などに対応しやすいといったメリットが挙げられた。
一方,改善の余地はまだまだあり,たとえば現在のアプローチ方法だと,その言語の歴史や文法体系はサポートされない。それらが作品に不可欠となるのであれば,制作された音声を分析する必要がある。
またリスクが少ないとはいえ「注意しないくていい」わけではなく,たとえば暴力的なシーンや攻撃的な場面で決まった音声が多用されれば,その世界において“そういう意味を持つ言葉”と解釈される可能性はある。とはいえ,音声を生成するためのテキストに“正しい意味”を提示してしまうと,理解できないという特性や想像する楽しさが弱くなってしまい,本末転倒におちいってしまう。
未知なる言語をゼロからデザインするには,その言語に対する深い洞察が必要だ。Fictional Speech Synthesisは,その“誰にとっても「未知」であること”を有効活用し,誰でも簡単に架空言語の音声を制作できることを念頭に制作されたシステムであると語られ,セッションは締めくくられた。
4Gamer「GDC 2024」掲載記事一覧
- この記事のURL:
キーワード