PAGE TOP

 OpenRTC-aist »

   
コミュニケーション知能モジュールパッケージ OpenHRI >> OpenJTalkRTC (音声合成RTC)

OpenJTalkRTC (音声合成RTC)

概要

Open JTalkは、オープンソースライセンスで開発されている日本語音声合成エンジンです。修正BSDライセンスで利用可能です。 本コンポーネントは、受け取ったテキストデータをOpen JTalkを使用して音声データに変換して出力します。
本コンポーネントは、OpenHRIVoiceパッケージに含まれます。
ここで利用しているOpenJtalkは、UTF-8のテキストを入力を行うために、公開版のソースコードをビルド時に修正を加えています。

OpenJtalkRTC text (TimedString) result (TimedOctetSeq) status (TimedString) duration (TimedString)
OpenJTalkの音声合成には、様々なパラメータで音声を出力できます。今回の改修では、音声合成時に指定できるパラメータをコンフィグレーションとしています。

動作確認OS

  • Ubuntu Linux 14.04以上を推奨
  • Windows 7以上 (Windows10 を推奨)

依存ライブラリ

  • OpenRTM-aist : OpenRTM-aist-1.1.2-RELEASE(Python)
  • OpenJTalk : バージョン1.10以上
  • sox : sox-14.4.2

データポート

名前フローポートデータ型説明
text InPortTimedString
音声合成するテキストデータを入力|t
result OutPortTimedOctetSeq
Open JTalkによって変換された音声データを出力
status OutPortTimedString
音声合成エンジンの状態 (‘started’か’finished’)
duration OutPortTimedString
変換された音声データの各音韻の時間情報(リップシンクに使用)

コンフィグレーション

名前データ型デフォルト値設定範囲説明
rate int16000 16000
出力される音声の周波数(16kHzに固定)
character stringmale male, female
音声のキャラクタ
format stringint16 int16
出力される音声のフォーマット(16bitに固定)
cachesize int1
sampling_rate int0 1以上
  -s i (sampling frequency)
all_pass float-1.0 0.0 -- 1.0
 -a f (all-pass constant)
postfiltering_coefficent float0.0 0.0 -- 1.0
 -b f (postfiltering coefficient)
speed_rate float1.0 0.0 --
 -r f (speech speed rate)
half_tone float0.0
 -fm f (additional half-tone )
voice_unvoice_threshold float0.5 0.0 -- 1.0
  -u f ( voiced/unvoiced threshold )
gv_spectrum float1.0 0.0 --
 -jm f (weight of GV for spectrum)
gv_log_f0 float0.0 0.0 --
 -jf f (weight of GV for log F0)
volume float0.0
 -g f (volume (dB) )

設定ファイル

openjtalk.top_dir
 OpenJTalkのインストールディレクトリ
openjtalk.sox_dir
 SOXのインストールディレクトリ
openjtalk.bin
 OpenJTalkの実行ファイル
openjtalk.phonemodel_male_ja
 男性用音響モデル
openjtalk.phonemodel_female_ja
 女性用音響モデル

使用例


資料