PAGE TOP

 OpenRTC-aist »

   
Home Task Navi HRI REST_API
コミュニケーション知能モジュールパッケージ OpenHRI >> JulusCliRTC(音声認識)

JulusCliRTC(音声認識)

概要

本コンポーネントは、受け取った音声データをJuliusを用いたクラウド音声認識サービスに送信し、音声データをテキストに変換します。
Juliusを用いたクラウド音声認識サービスは、オープンソース大語彙日本語連続音声認識プログラムJuliusをクラウドサービス化したサーバです。
まだ、開発中ですがdictation-kit-v4.4のDNN版Juliusをクラウドサービス化することができます。
なお、このコンポーネントの出力は、JSON形式としています。
本コンポーネントは、OpenHRIVoiceパッケージに含まれます。

JuliusCliRtc data (TimeOctetSeq) result (TimeString)

動作確認OS

  • Ubuntu Linux 14.04以上を推奨
  • Windows 7以上(Windows10を推奨)

依存ライブラリ

  • OpenRTM-aist : OpenRTM-aist-1.1.2-RELEASE(Python)
  • pydub : 音声部分の切り出し(詳細は下記を参照)

JuliusCliRTCの準備

JuliusCliRTCは、OpenHRIVoiceの中に含まれています。しかし、現在は、開発途中であるためバイナリでの配布はしておりません。したがって、OpenRTM-aistのPython版が必須になっています。
また、このRTCでは、内部で音声部分の切り出し処理を行っていますので、pydubというパッケージが必須になっていますので、pipコマンドでインストールしてください。
 # pip install pydub
pydubパッケージのフル機能を利用するには、ffmpegをインストールする必要があります。ffmpegは、音声ファイルのフォーマット変換に利用されていますので、mp3やflac形式を利用したい場合には、ダインロード&インストールをお願いします。

データポート

名前フローポートデータ型説明
data InPortTimeOctetSeq
認識する音声データ(パケット形式)
result OutPortTimeString
音声認識結果(JSON形式)

コンフィグレーション

名前データ型デフォルト値設定範囲説明
lang stringjp jp
音声認識する言語を設定
julius_host stringlocalhost
Juliusクラウドサーバーのホスト名
julius_port int10000
Juliusクラウドサーバーのポート番号
min_buflen int8000
音声データ切り出しのためのバッファサイズ
min_silence int200
無音区間の最小時間(ms)
silence_thr int-20
音声データ切り出しのための閾値(db)