人の歌声をボカロが真似る「ぼかりす」開発の道のり

スポンサーリンク

VOCALOID3 スターターパック IA- ARIA ON THE PLANETES
VOCALOIDの世界では、だいぶ以前から話題になっていた衝撃的なVOCALOID調教ツール「ぼかりす」なるものが、いよいよ10月19日にヤマハから19,800円で発売されることが決まった。「ぼかりす」は、どうしても機械っぽいニュアンスになりがちなVOCALOIDの歌声を、滑らかな人間っぽいものに仕上げることができるというユニークなソフトウェア。「VocaListener(ボーカリスナー)」というのが正式名称だが、これを開発したのは産業技術総合研究所(以下、産総研)、という日本国内最大級の公的研究機関。
 その「ぼかりす」発売に先駆けて、「ぼかりす」を研究開発した産総研の情報技術研究部門 上席研究員の後藤真孝氏と同部門 研究員の中野倫靖氏、そして「ぼかりす」の製品化を行なったヤマハのyamaha+推進室 Y2プロジェクト 技師の大島治氏の3人にいろいろと話を伺ってみた(以下、敬称略)。
http://av.watch.impress.co.jp/docs/series/dal/20120924_561914.html
08.jpg
後藤:2007年9月から12月にかけてVOCALOIDを用いたいろいろな作品を中野君と日々追いかける中で、より人間らしく自然に歌声を合成しようとしてパラメータを調整している人たちの努力がよくわかりました。「それだったら人間の歌唱を自動的に真似て歌声合成すればもっと自然になる!」と、12月には中野君と一気に「ぼかりす」の研究構想を生み出していました。まだ「ぼかりす」という名前は付けていませんでしたが、何度も反復してパラメータを調整するアイディアも同時に生まれていました。
五年前からスタートしてたんですね。思ったよりも長期間の研究ということで、精度が楽しみです。
VOCALOID2 キャラクターボーカルシリーズ01 初音ミク HATSUNE MIKU
中野:筑波大学の図書館情報メディア研究科の学生だったのですが、指導教官の専門が音楽情報処理であったため、歌声の分析について研究していました。例えば、「ドン・タン・ド・ド・タン」と口で歌うと、それを認識して楽譜にしてくれる口ドラム認識システムを作りました。そのころから後藤さんとずっと一緒に研究をしていて、ここで培った技術の一部も「ぼかりす」実現に役立っています。また歌唱力評価に関する研究も行ないました。カラオケマシンには、楽譜に忠実に歌っているかを元にして採点をする機能がありますが、採点結果は必ずしも人間の感じる上手さとは一致しません。人間は、ほかの評価軸でも見ているんですね。
 そこで楽譜なしで判断できるように、声の高さの相対変化やビブラートに着目して、歌唱力を評価するシステムを実現しました。さらに博士後期課程の最後では、「ブレス検出」という研究もしていました。人は歌っているときに息継ぎをしますが、それを自動的に検出するとともに、ブレスにどんな特徴があるのかなどを判断するものです。こうした歌声に関する研究成果の蓄積が「ぼかりす」研究のベースとなっていて、「ぼかりす」自体の実装は短期間で一気にできました。
ブレスの処理がどうなるのか気になっていたのですが、検出すると言うことは、歌声とは別個のものと扱ってくれそうですね。
VIP - Vocaloid Important Producer- ボーカロイド楽曲制作テクニック
後藤:ただ、それ以上に興味深かったのは、ネット上での「ぼかりす」に関する賛否両論の議論です。我々もまったく予想していなかった論点がいろいろと出ました。一番予想外だったのが、「ミクっぽくない」という反応が多かったことです。自分にはミクの声にしか聞こえていなかったので。Genderパラメータを90にして、やや大人っぽい声だったのも影響していましたが「VOCALOIDらしさとは何か」という議論が深まりました。一方、誰も知らなかった潜在能力を引き出した、と高く評価する反応もあり、嬉しかったです。
17.jpg
中野:「ぼかりす」は、人が歌った歌声を分析し、それとほぼ同じ歌い方をするVOCALOID用のデータを作り出すシステムです。人の歌声をお手本として、その声の高さと大きさを真似るように合成します。初音ミクだけでなく、MegpoidでもVY1でも、どんなシンガーであってもそれに合わせて動作するようになっているのも大きな特徴です。
 システムの流れとしては、まず、歌声を分析して、歌詞の文字がどの時刻に対応するのかを特定します。次に人間の声から声の高さと大きさを分析し、VOCALOIDのパラメータに置き換えて合成します。ただ、ここで「ぼかりす」の大きなポイントとなっているのは、VOCALOIDで合成した歌声を再度分析するということ。うまく真似できるようになるまで、何度もパラメータを修正していく、という反復的な処理をしているのです。
 従来の歌声合成は合成したら、しっぱなし。一方「ぼかりす」では、システム自身がどう歌っているかを自覚しながら、合成していく。どんなふうに音が出ているかをちゃんと聴いて確認するシステムになっています。だから、VocaListenerと名付けました。
【初音ミク】 PROLOGUE 【ぼかりす】

まず歌う人の歌唱力に大きく左右されそうな。。それに歌がうまいからと言って、ボカロに置き換えても感動を与える歌声になるかどうかは未知数だと言うこと。調教もおそらく必要になりそう(しかも結構大変そう)
万能のツールにはならないと思う。ボーカロイドらしくない声になった、とのコメントも多数あったし。
また改めて「ボーカロイドらしさ」とはなんぞや?と問いかけられそうな気もして来たし。
でも可能性は大きく広がりますよね。楽譜が読めなくても曲が作れてしまうわけで。(ただボカロの本体よりも高い価格設定はどうかと思うけど)
あと意外に優れているのが、喋らせることでしょうかね。簡易ナレーション程度には使えてしまいそうです。

スポンサーリンク
  • このエントリーをはてなブックマークに追加