RN 010817

人間の声を作り出す「音声合成技術」ビジネスや冠婚葬祭など活用に期待

2020.09.11  | 
WRITER:
haruka
 

「音声情報処理」分野のひとつである音声合成技術は人間の声を人工的に作ることができ、出来上がった″声″を合成音声と呼びます。合成音声は「Alexa」や「Googleアシスタント」などの音声アシスタント、電話の自動応答、電車やバスなどの音声案内、ペッパーのようなロボットの″声″にも使われています。

そんな音声合成技術を用いて個人の声を保存できるサービスが先日発表されました。

人間らしい自然な声を作成・保存

エイベックス子会社のコエステ株式会社は2020年9月8日、個人の声の特徴を学習して作成した合成音声を保存できる個人向けサービス『デジタルボイス・プレミアムの提供を開始しました。「自分の声をさまざまな分野で広く活用したい」「病気などの事由で今の声を残しておきたい」と考える個人向けで、その利用シーンは多岐にわたります。

 

コエステは、エイベックス株式会社と東芝デジタルソリューションズ株式会社が2020年2月5日に設立した企業です。一般人から有名人まで多種多様な合成音声を生成し、さまざまなデバイスと繋げられるプラットフォーム『コエステーション』を提供しています。

同プラットフォームはもともと東芝デジタルソリューションズが保有していましたが、新会社設立時にコエステへ譲渡し展開していくこととなりました。

※2018年4月のプロモーション動画です(出典:TOSHIBA Digital Solutions YouTube公式チャンネル

この動画のナレーションも合成音声によるものです。全く違和感がないですね!

 

『コエステーション』は収録音声の音色や抑揚、リズムなどの特徴を合成音声に最適に反映する技術や、 統計的な学習に基づく滑らかなパラメーターを生成するコア技術により、人間に近い自然な発話が可能で、その再現性の高さが特徴です。

 

『コエステーション』に登録されている有名人など公式の「コエ」は30以上(2020年3月現在)、一般ユーザーの「コエ」は7万以上(2020年8月現在)あるといいます。有名人の「コエ」には、安田大サーカスのクロちゃんや女優の川島海荷さんなどが登録されています!

 

(出典:個人の声を先進の音声合成技術で再現しそのまま保存できる、コエステーション「デジタルボイス・プレミアム」 提供開始コエステーション子会社設立及び東芝デジタルソリューションズ株式会社との株主間契約締結に関するお知らせ

大切な「声」を未来に残す

この度発表した『デジタルボイス・プレミアム』は、個人の声の特徴を学習し抽出した声の分身=″コエ″を作成しておくことで、テキストを入力するだけでいつでもその人の声色や喋り方を再現した合成音声を生成できます。

30年「音」を追究してきたエイベックスと、40年「音声合成」を研究してきた東芝の技術からできたサービスです。声の収録はエイベックス所属アーティストが使っているスタジオで行われます。

 

コエステによると、聴覚は脳の深い感情をつかさどる部分に結びついているのですが、人の記憶はまずそこから失われていくことが分かっているのだとか。『デジタルボイス・プレミアム』を利用すれば、記憶から失われやすい音声を残すことができますね。

40年以上にわたる研究開発により培われた、収録音声の音色や抑揚、リズムなどの特徴を合成音声に最適に反映する技術や、 統計的な学習に基づく滑らかなパラメーターを生成するコア技術を使って、あなたの声の特徴を自動学習。 任意のテキストから自然な音質の合成音声をつくりだすことができます。
※喜び・怒り・悲しみなどの感情や、抑揚、速度などを1文字単位で調整可能です。

 

(出典:デジタルボイス・プレミアム

例えば、忙しい経営者に代わって本人不在の場でも広く講演やプレゼンテーションを行う、創業者の「コエ」で何代にもわたって従業員に新しいメッセージを届けるといったビジネス向けの活用もできます。

万が一を考えた活用もでき、自分の葬儀や大切な人の冠婚葬祭などで生前の「コエ」でメッセージを送る、病気や怪我などで声を失っても自身の「コエ」でリアルタイムにコミュニケーションを取り続けることも可能です。

さらに、小さな子供がいる家庭では読み聞かせや寝かしつけに親の「コエ」を使ったり、成長とともに変化する子供の「コエ」を残すこともでき、子育てや家族の思い出作りへの活用も期待できます。

 

今後はSNSメッセージを送信者本人の「コエ」で送ったり、スマートスピーカーの音声を身近な人の「コエ」で出すなど、各種サービス企業との連携の実現を目指しているそうです。

まるで本人が話しているかのような自然な音声を生成できるって良いですよね。人それぞれ話し方に特徴があり、訛りや方言のある人もいますが、これを細かく再現できたらその人をより身近に感じられそうです。

 

(出典:個人の声を先進の音声合成技術で再現しそのまま保存できる、コエステーション「デジタルボイス・プレミアム」 提供開始デジタルボイス・プレミアム

 

コエステのように合成音声で「発話」に取り組む企業がある一方で、「歌」に挑戦した企業もあります。2019年末の紅白歌合戦で、美空ひばりさんの歌声をAIで再現してできた新曲が披露され大きな話題を呼びました。

AI×美空ひばり

″没後30年を迎えた美空ひばりさんの新曲ライブを実現する″というNHK主導のプロジェクトにて、ヤマハ株式会社はディープラーニングを使用した歌声合成技術『VOCALOID:AI』を用いて歌声を再現した新曲作成を支援しました。

 

同プロジェクトは、美空ひばりさんの4K・3Dの等身大ホログラム映像でステージ上に本人を出現させ、秋元康さんプロデュースの新曲「あれから」を美空ひばりさんの歌声で再現するという取り組みで、多くの協力者を得て実施されました。

(出典:ColumbiaMusicJp YouTube公式チャンネル

ヤマハが独自開発した『VOCALOID:AI』は、あらかじめ目標となる歌手の歌声を収集し、そこに含まれる音色や歌いまわしなどの特徴をディープラーニングで学習することで、その歌手独特の癖やニュアンスを含んだ歌声を任意のメロディーと歌詞で作り出すことができます。

 

″ボーカロイド″といえば初音ミクが有名ですが、これはヤマハが2003年に発表した独自の音声合成技術『VOCALOID』を用いて声を作っています。その『VOCALOID』の中でも『VOCALOID:AI』は人工知能技術を使用したものとして位置づけられ、とくに音色変化の表現が格段に向上したといいます。

 

先に述べたプロジェクトで、ヤマハは新曲のボーカルパートと曲中のセリフパートの作成を担当しました。学習データには生前の歌や話し声を収録した音源を使用し、美空ひばりさん本人の歌声や歌い方、話し声の特徴を忠実に反映したボーカルパートとセリフパートの双方の作成を実現できました。

また、歌声音源の背景には伴奏音が含まれていたのですが、ヤマハの「伴奏音除去技術」を用いて歌声部分のみを抽出し、質の高い学習データを生成して高品質な合成を実現したといいます。

以前、森美術館で開催していた『未来と芸術展』の特別企画として″AI美空ひばり″が上映され、私もそれを間近で見ることができました。合成音声とは思えないなめらかな歌声でびっくりしたのを覚えています。

 

(出典:美空ひばりの新曲ライブの実現を支援 あの歌声を当社最新の歌声合成技術『VOCALOID:AI™』で再現美空ひばり VOCALOID:AI

 

昔は機械的でイントネーションや言葉の繋がりに違和感があった合成音声も、近年の技術発達により聞き取りやすくスムーズな人間らしい話し方になりました。テキストを読むことはもちろん歌をうたうこともできるなど、活用の場がどんどん拡大しています。もしかすると将来、人間の言葉を理解するロボットと何気ない普通の会話をスラスラとできるようになるかもしれません。音声合成技術の更なる発展が楽しみです!

thank you

この記事に関連するタグ

広告主募集
TARA
上に戻る