テキストを音に変換！アプリ開発に便利な音声合成APIを5つ紹介

Nguyen Duong 13/12/2019 AITalk, Deep Learning, Language API, Voice API, Voice detect

テキストを音に変換！アプリ開発に便利な音声合成APIを5つ紹介

「APIでテキストを音声に変換したい」
「アプリ開発に便利な音声合成APIを探している」

ユーザーが入力・選択したテキストを音声に変換するのが音声合成APIです。最近ではAIを活用した音声変換が発達していて、従来よりも素早く音声に変換できるのがポイント。

この記事ではアプリを開発したい人に向けて、オススメの音声合成APIを5つ紹介します。

目次 hide

1 音声合成APIとは

1.1 Text-to-Speech API

1.2 AVSpeechSynthesizer

音声合成APIとは

テキストを自然な音声に変換するサービスとして音声合成APIがあります。現在では多数のIT企業が音声合成APIを提供していて、より低いコストで音声変換を活用できます。

音声合成APIとは

一部の企業ではAIに音声データを学習させて、より人間の声に近い発音を音声合成で実現。肉声に近づけることで聞く側の違和感を減らすことができ、ユーザー体験を向上できます。

これからアプリを開発するために音声合成APIを活用する場合、次のようなAPIを導入することがオススメです。

Text-to-Speech API
AVSpeechSynthesizer
Amazon Polly
AITalk
VoiceText

それぞれのAPIについて特徴を紹介します。

Text-to-Speech API

Googleが提供している音声合成APIがText-to-Speech APIです。ニューラルネットワークにより肉声に極めて近い音声を実現していて、180種類以上ある音声でテキストを読み上げてくれます。

30種類以上の言語と方言に対応していて、既存のアプリやデバイスと簡単に連携できるのがメリット。テキストの音声変換だけでなく、コールセンターの自動化やIoTの応答にも対応しています。

Googleが提供している音声合成APIがText-to-Speech APIです

Cloud Text-to-Speechページでは任意のテキストを入力して、音声変換を試してみることが可能。適切な音声が再生されているのか確認してから、APIの導入を検討してみることがオススメです。

AVSpeechSynthesizer

Appleが提供している音声合成APIがAVSpeechSynthesizerです。iOSやiPadOSを搭載したデバイスで使えるAPIであり、ユーザーが入力したテキストを読み上げてくれます。

AVSpeechSynthesizer

Amazon Polly

Amazonでは深層学習を活用した音声変換サービスとしてAmazon Pollyを提供しています。文章を会話スタイルや読み上げスタイルなどに変換でき、よりよい音声対応アプリを構築できるのがメリット。

Amazonでは深層学習を活用した音声変換サービスとしてAmazon Pollyを提供しています。

日本国内ではFM和歌山がAmazon Pollyを導入して、ラジオ放送で災害情報を流すために活用。発生するコストは年間400円から800円程度であり、他社に比べてかなり安いです。

AITalk

AITalkはテキストを人間らしい音声に変換することを目的とした音声合成エンジンです。男女17種類の音声に変換することができ、状況にあわせて感情を表現できるのが特徴。

AITalkはテキストを人間らしい音声に変換することを目的とした音声合成エンジンです bnr aicocono

実際に株式会社カプコンがAITalkを活用して、ゲームのナレーションを制作。開発者は少ない予算でも問題なくナレーションを制作でき、セリフの追加や変更にも難なく対応できました。

VoiceText

圧倒的な肉声感、明瞭感を実現した音声合成サービスがVOICETEXTです。マルチスレッドに対応しているからレスポンスが早く、感情表現に対応しているメリットがあります。

最近では音声合成APIによりユーザーが入力したテキストを自然な音声に変換できます

国内では阪神電車や東京モノレールの旅客案内にVoiceTextが採用されています。専用エディタにテキストを入力することで、APIを使わずに音声合成することが可能です。

まとめ

最近では音声合成APIによりユーザーが入力したテキストを自然な音声に変換できます。「音声対応アプリを開発したい」と思ったときは、音声合成APIの導入を検討しましょう。

ONETECHでは、音声合成APIを利用した開発依頼のお問い合わせが増えております。今回ご紹介したすべての音声合成APIを使ったことはないですが、弊社のベトナム人エンジニアは文献をよめばどのように利用するか応用するかのご提案は十分に可能です。

また画像認識についてブログがありますので参考にしてください。

先端テクノロジー開発

Nguyen Duong | 28/09/2020

シンギュラリティの理解がAI活用において重要な理由

AIの利活用に注目が集まる中、一方でAIに対して不信感を抱く声も少なくありません。人工知能は確かに優秀なプログラムですが、いつか人間のそれを超えてしまうとも危惧されています。いわゆるシンギュラリティという現象ですが、果たしてこれはどのような結果をもたらすのでしょうか。

詳細を見る

ソフトウェア開発

Nguyen Duong | 21/11/2019

Face APIとは何か？サービスの特徴や価格、活用事例

「人物の顔から年齢や感情、姿勢などの情報を分析したい」「Face APIによってどんなことを実現できるのか気になる」画像から人物を分析して情報を読み取るためのシステムとしてFace APIがあります。システムやアプリにFace APIを組み込むことで、人物を検索したりグループ化したりできるのが特徴。

詳細を見る

ソフトウェア開発