株式会社テクノスピーチ

「ICASSP 2023」にてテクノスピーチの論文が採択

～韻律のコントローラビリティを維持した高品質な音声合成の実現～

企業動向

2023年6月1日 12:00

株式会社テクノスピーチ(所在地：名古屋市東区、代表取締役：大浦圭一郎、以下テクノスピーチ)は、当社の研究チームが手掛けた音声合成に関する論文が、音声・音響処理分野で世界最大の国際学会であるICASSP(International Conference on Acoustics, Speech, and Signal Processing)に採択されましたことをお知らせいたします。なお、本研究成果は国立大学法人名古屋工業大学国際音声言語生成技術研究所(所在地：名古屋市昭和区、代表：徳田恵一)との共同研究によるものです。

イメージ

テクノスピーチでは、テクノロジーの進化により日々変化する音声関連技術のニーズに応えるべく、継続的に研究および開発に取り組んでおります。そしてこのたび、その成果がICASSPにおいて高く評価され、論文の採択を受けました。論文の概要については、以下よりご参照いただけます。

● タイトル

EMBEDDING A DIFFERENTIABLE MEL-CEPSTRAL SYNTHESIS FILTER TO A NEURAL SPEECH SYNTHESIS SYSTEM

● 論文PDF(プレプリント)

https://arxiv.org/pdf/2211.11222

● 試聴用URL

https://techno-speech.com/news-20230601a

論文の内容は、最新の深層学習技術と音声信号処理の統合により、音声合成タスクにおいてトレードオフの関係になりがちな「高い自然性」と「韻律のコントローラビリティ」を両立させる手法に関するものです。論文内で、深層学習技術による合成音声の品質向上とともに、韻律制御に対する高い頑健性が示されています。また、論文内では強調していませんが、GPU駆動ではなくCPU駆動でのリアルタイム性を意識した設計になっています。本研究成果は2023年6月6日にICASSPの開催地であるギリシャのロードス島にて発表いたします。また、実験に使用したコアモジュールはGitHub上 https://github.com/sp-nitech/diffsptk で公開しており、関連研究の一助となることを願っております。

【会社概要】

テクノスピーチは、下記のようなエンタメ・教育・医療等の様々な分野において音声関連の研究開発の成果を投入することにより、総じて人々の暮らしをより豊かにする一助となることを目指しております。

● 業務用の音声合成・歌声合成プラットフォームの展開

● オンライン授業・オンデマンド授業の電子教材の作成補助

● アーティスト(故人を含む)の歌声の再現

● ゲーム・アプリ・ウェブサービスへの応用

● バーチャルユーチューバーによるオンラインコンサート

● バーチャルアクターによるアフレコシステム

● 人工知能や音声対話システムの発声モジュールへの導入

● 外国語教育・歌唱教育における柔軟な参照音声の生成

● ALS・喉頭がん等の患者様が用いる発声デバイス

● 介護施設用デジタルサイネージ