PAGE TOP

 OpenRTC-aist »

   
Home Task Navi HRI REST_API
コミュニケーション知能モジュールパッケージ OpenHRI >> GoogleSpeechRecogRTC(音声認識RTC)

GoogleSpeechRecogRTC(音声認識RTC)

概要

本コンポーネントは、受け取った音声データをGoogle SpeechAPIを用いて音声認識し、音声データをテキストに変換します。GoogleSpeechAPIは、Googleが公開しているクラウドサービスです。ユーザ登録後、API Keyを取得する必要があります。また、このコンポーネントは、プライベートモードのみに対応のため1日に50回しか音声認識することができません。
なお、このコンポーネントの出力は、JuliusRTCと同じ形式です。
本コンポーネントは、OpenHRIVoiceパッケージに含まれます。

GoogleSpeechRecogRtc data (TimeOctetSeq) result (TimeString)
クラウドの音声認識サービスは、ここに記載されているように、ある程度無償のものがありますが、簡単に使えるという意味では、Google Speech Private APIが良いかと思います。
ただし、このGoogle Speech Private APIは、一日に50リクエストしか使えません(それ以上だとエラーが返ってきます)ので注意してください。
Googleの音声認識API(Google Speech API)は、月間で60分は無償(ただし、1リクエストにつき15秒で切り上げ)になっています。すなわち、240リクエストが1月で無料で使える上限になっています。それ以上では、15秒ごと(1リクエストごとに)0.006USDになっているようです。
Google SpeechAPIは、Pythonのライブラリがあったと思いますので、作成することは簡単だと思います。

動作確認OS

  • Ubuntu Linux 14.04以上を推奨
  • Windows 7以上(Windows10を推奨)

依存ライブラリ

  • OpenRTM-aist : OpenRTM-aist-1.1.2-RELEASE(Python)
  • pydub : 音声部分の切り出し(詳細は下記を参照)
  • Google Speech API : プライベートモードのみ対応。 API Keyを別途取得する必要がある。

GoogleSpeechRecogRTCの準備

GoogleSpeechRecogRTCは、OpenHRIVoiceの中に含まれています。しかし、現在は、開発途中であるためバイナリでの配布はしておりません。したがって、OpenRTM-aistのPython版が必須になっています。
また、このRTCでは、内部で音声部分の切り出し処理を行っていますので、pydubというパッケージが必須になっていますので、pipコマンドでインストールしてください。
 # pip install pydub
pydubパッケージのフル機能を利用するには、ffmpegをインストールする必要があります。ffmpegは、音声ファイルのフォーマット変換に利用されていますので、mp3やflac形式を利用したい場合には、ダインロード&インストールをお願いします。
wavファイルのみであれば、pythonのデフォルトライブラリが利用できますので、Google Speech Private APIを使う場合には、必要ありません。
また、このRTCではGoogle Speech Private APIを利用していますので、APIKEYが必要になります。
APIKEYの取得には、Google Developer Consoleでの登録が必要になります。APIKEYの取得に関する詳細は、こちらの記事を参考にしてください。

データポート

No Data Ports.

コンフィグレーション

名前データ型デフォルト値設定範囲説明
lang stringja-JP GoogleSpeechAPIの仕様に依存
音声認識する言語を設定
min_buflen int8000
音声データ切り出しのためのバッファサイズ
min_silence int200
無音区間の最小時間(ms)
silence_thr int-20
音声データ切り出しのための閾値(db)

使用方法

GoogleSpeechRecogRTCは、Google Speech Private APIを利用しますので、API_KEYが必要になります。API_KEYは、 google_speech.confファイルのgoogle.speech.apikey:に記入してください。
google.speech.apikey: <Your SpeechAPI Key>

設定ファイル

その他 google_speech.confで設定できる項目は下記の通りです。
google.speech.apikey
Google Speech APIのAPI Key (必須項目)
google.speech.logdir
音声認識したデータの保存ディレクトリ(デフォルト: .\log)
google.speech.save_wav
音声認識したデータを保存するかどうかを設定(デフォルト: NO)