IBM・Via Voice

 

IBMVia Voiceミレニアム」日本語版が到着、早速テストを。

IBMVia Voiceミレニアム」日本語版。LAOXにて8,980円。

まずはここのところ営業資料の制作にiMacを利用している営業課長井氏が挑戦。

これまでWindows・日本語版、Mac・英語版を試してみましたが、その入力精度は大変良好。最近でこそようやくキーボード入力もどうにか困らないようになりましたが、精度の良い音声入力は大変魅力的。

営業課の長井氏はiMacやアプリケーション操作はかなり拾得していますが、やはり難関はキーボード。早速実験材料に抜擢しました(笑、エンロールが面倒なもので・・・)。

入力精度に加え、注目は動作スピード。Via Voice最小システム要件のCPU要求はG3/266以上ですが、あえてまずiMac Rev.A/233MHzにて試用してみました。

エンロール風景。しゃべることは当たり前でも、読むことはなかなか慣れないようで、「普段話しているように」と言われてもどうも変なイントネーションに・・・。

現在音声モデルの解析中ですが、その前にエンロール無しで入力した際の状況を。スピークパッドでカタログの記載内容を読んでみたところ、認識精度はともかくスピードはわりと好調(Pen2/300位?)。233MHzのiMacでも十分に利用可能なのではとの印象でした(しかし音声モデルの解析に結構時間がかかっている模様・・・。この辺がシステム要件に関わってくるのかも)。

何度かiMac/Rev.Aでエンロールのテストをしてみたのですが、音声録音後、言語モデル解析がスタートしないという現象がありました。

ViaVoiceでは言語モデル作成用の文章を読み上げその音声をハードディスクに1度保存し、録音後これを個人の音声データとして解析しますが、読み込み作業自体は非常に反応が良いものの、解析にかなり負担がかかるようです。

処理速度によるものかと思い、NewerのiMAXpowrに差し替え、同様にテストを行いましたが、同じタイミングでストップ。また機体を変え、233/466それぞれのプロセッサモジュールに交換しテストしてみましたが、やはり解析がスタートしませんでした。

音声録音が完了すると、ボイスモデル作成のため解析が開始されますが、iMac Rev.Aではタスクバーが動かず、解析がスタートしませんでした。

一方iMac/350では仮想メモリ設定を忘れてエラーを出したものの、その後は問題なくエンロールが完了。システムはすべてOS9.0.4。メモリはiMac Rev.Aが160MB+32MBVMと96MB+32MBVM、iMac/350MHzは64MB+32MBVMという構成です。また機能拡張に関しては、システム純正、Via Voice以外のものは含まれていません。

これらの結果から少なくともiMac Rev.Aについては互換性になんらかの問題がありそうです(もともと対象外機種ですが・・・)。音声認識作業自体は問題なく動作するのですが、やはりエンロール無しだと精度に不満が。もう少し試してみたいと思いますが、購入を検討されている方はネット他情報をチェックされてみることをお薦めします。

 

IBMVia Voiceミレニアム」日本語版のiMac Rev.Aでの音声モデル作成動作ですが、やはり進行せず。Via Voiceではtemp内ユーザーフォルダに各文章の音声データを音節(?、というか発声した一区切りごとに)をcepフォルダに、対応する語とタイミングをtagフォルダに保存し、これらを録音後対比させ音声モデルを製作するようですが、このプロセスにおいてパスを見失っているような・・・(とはいえiMac 350では問題が無いため、アプリケーション上のエラーとは思えないのですが・・・)。文章を変えてみましたが、やはり処理がスタートしませんでした。

1:
spell = <silence>
vocab = SELECTV
times = [0 86] [80 80 80] [0 86 0] [83 86 94]
arc_info = 0 3

2:
spell = 真綿
vocab = SELECTV
times = [86 122] [83 86 94] [0 122 0] [120 122 128]
soundslike = まわた
arc_info = 4 18

3:
spell = の
vocab = SELECTV
times = [122 132] [120 122 128] [0 132 0] [130 132 138]
arc_info = 23 6

4:
spell = よう
vocab = SELECTV
times = [132 147] [130 132 138] [0 147 0] [143 147 153]
arc_info = 30 9

5:
spell = に
vocab = SELECTV
times = [147 158] [143 147 153] [0 158 0] [154 158 165]
arc_info = 40 6

6:
spell = 柔かい
vocab = SELECTV
times = [158 211] [154 158 165] [0 211 0] [205 211 220]
soundslike = やわらかい
arc_info = 47 27

tagフォルダ内ファイルの一部。なるほどこんな感じで音声データと比較しているようんです。

セットアップアシスタントのメモリ割当も変更してみましたが効果なし(ボキャブラリエクスパンダ使用時にはメモリ割当を増やす旨のアラートがでることがあり、こちらは解決)。

Rev.Aであることによる動作不良なのかの断定にいたらず申し訳ありませんが、今後iForceなど旧機種向けG3カードを搭載してVia Voiceをとお考えのRev.Aユーザーの方(かなりコアな条件ですが・・・)は、IBM他ネットでの情報をチェックされてみることをお薦めします。(Jeffさん、ご無沙汰しております!)

  

しかしVia Voiceを始めとする音声認識ソフトウェア、補聴器などの聴力補助にも応用が効くのでは?難聴が高度以上となる場合、家族と話をするにも筆談を用いるケースも多く、補聴器とあわせ液晶パネルに文字表示が可能なんていう機種が出てくると、かなりコミュニケーションの一助となるように思われるのですが・・・。環境音対策が必要ですが、いっそVia Voice自体をこうした用途に使ってみるのもアリかもしれません(スピークパッドの文字サイズ設定を72にして試してみたら、結構使えそうでした)。

72ポイントで表示しながら音声入力をしてみましたが、一人が話しかけるといった使用なら結構使えるかもしれません。

「書いた方が早い」と思われるかもしれませんが、筆談は毎日のことですので、かなりの労力になったり、また「まあいいや」と伝えずに終わってしまうといったことも。何かこうした良い方法があると、家族の方に喜ばれそうですが・・・。(価格と操作方法、設置スペースなどが検討対象か?)

 

先日IBMVia Voiceミレニアム」日本語版、iMac Rev.Aでの動作についてお知らせいたしましたが、吉川様より問題なく動作したとのご連絡をいただきました(吉川様、ありがとうございます)。吉川様のマシン環境はシステムがMac OS JI-9.0.4、内蔵メモリ192MBに仮想メモリを30MB(Via Voiceは30MB以上の仮想メモリ空間を要求します)、計222MBで使用されています。

ハードディスクについてはIBM「DJNA-352030」に換装(5パーティション/HFS+)。システムプロフィールではドライバは3.2.5となっています。

これまでiMac Rev.A(233/466)において、エンロール時に音声を録音し、解析に入るところで処理がストップしてしまうという現象が出ておりました。

吉川様のiMac Rev.A(233)において4つの文章いずれも問題なく解析が完了し、解析時間は15〜20分程とのこと。

お送りいただいたセットアップアシスタントのスクリーンショット。準備された4つの文章いずれも処理が完了しています。「認証精度は、まだまだ」とは吉川様の弁。

 

メニューへ