日本Androidの会:知恵を持った音声認識ソフトは、利用者の“アバター”になれるのか?

2010年03月16日 14:23 by 福田智之
3月の定例会は「音声認識」がテーマ。古くからある技術だけど、Androidにはどのくらい関係があるの?

3月の定例会は「音声認識」がテーマ。古くからある技術だけど、Androidにはどのくらい関係があるの?

「日本Androidの会」の定例イベントが、2010年3月8日(月)に池袋で開催されました。前回までの秋葉原会場では満員のため入場できないこともありましたが、今回の会場には最大300名を収容できる立教大学の大教室が用意され、多くの参加者が詰めかけて盛況でした。


本日の登壇者は共に、NTTの研究所で「音声認識」の研究をされています。音声認識研究の歴史は古く、コンピュータの発達や大型化とともに進化し続けてきました。日本最大級のネットワークを持つ会社の「音声認識」研究者は、Androidなどオープン環境の端末の普及という新たな局面を、どのように捉えているでしょうか。


音声認識技術の最前線にある“問題”とは


Androidは、音声の取り扱いについて手厚く設計されていると思うので、その点に期待しているという中村氏

Androidは、音声の取り扱いについて手厚く設計されていると思うので、その点に期待しているという中村氏

音声認識技術は、静かな場所で、アナウンサーのような口調で読み上げられた文章であれば、ほぼ間違いなく認識が出来るまでに進化しています。現在では、講演などで、より自然に話した言葉も認識の対象にできるようです。しかし、扱う話題の範囲や、周囲の騒音などの条件によっては精度に大きく差が出てしまいます。


NTTコミュニケーション科学基礎研究所 主幹研究員の中村篤氏は、音声認識の未熟な部分を克服するための技術として「超高速音声認識エンジン」、「音声区間検出」、「雑音抑圧」の三つを取り上げ、「NTT音声認識技術の最前線」というタイトルで講演を行いました。


音声認識を行う際には、事前に認識辞書に単語の発音を登録する必要があります。辞書が貧弱な場合、未登録の単語がしばしば登場し、その部分は別の単語として誤認識されてしまいます。そのためより多くの話題について正確に文を認識可能とするには、膨大な単語を登録する必要があります。ちなみに広辞苑には二十数万語収容されているそうですが、固有名詞や「東京」+「タワー」=「東京タワー」のような複合語などを際限なく考えていくと、認識辞書に必要な単語はその何十倍、何百倍にも膨れ上がります。


しかし、単語を集めまくり辞書を厚くすればよい…というわけでは決してありません。単語数を増やすと探索に費やす計算量は著しく増加するため、通常の音声認識エンジンでは速度、精度共に著しく低下してしまいます。NTTの研究所では、現在なんと1000万語を扱える超高速認識エンジンが稼動中ですが、この超高速認識エンジンは、単語数以外の要因による計算量の増加にも対応できます。Androidを搭載した端末でこのエンジンを動かすのはさすがにまだ無理ですが、将来への期待は高まります。


音声区間だけを検出する技術は、データファイルサイズ小型化の切り札でもある

音声区間だけを検出する技術は、データファイルサイズ小型化の切り札でもある


中村氏が続いて発表した「音声区間検出」とは、音信号全体から音声部分だけを正確に抽出する技術です。もう一つの「雑音抑圧」とは、拾うべき人の声と同時に鳴っている無関係な音を取り除くための技術で、どちらも騒音下での音声認識には欠かせません。これらはきっと将来、Androidなどをプラットフォームとする機器に、音声入力フロントエンドとして導入されるはずの技術です。


「オカンの小言をキャンセルするノイズサプレッサを研究中」というところで、会場から爆笑が…

「オカンの小言をキャンセルするノイズサプレッサを研究中」というところで、会場から爆笑が…


終盤に中村氏は、こんな“お願い”とも思える話で登壇を締めくくりました。

「音声認識は完成された技術ではありません。まだ研究は続いていますし、発展途上です。ですから世間で提供されている“音声認識サービス”システムで、すぐに一喜一憂しないでください。仮に出来が悪くても“使わない”というのではなく、温かい目で見ていただきたいのです」


音声認識が“使えない”という風潮にいると私は感じませんが、音声認識の「やればできる子」状態を知る中村氏にとって、一般ユーザの音声認識への低い評価は、ちょっと歯がゆいのでしょう。


「きっと近い将来、ごく自然に皆様の手元で音声認識が動いている、そんな世の中がやってくると私は思っていますので、ぜひ応援をお願いします」

と、中村氏は最後に述べ、温かく大きな拍手を受けていました。



ちょっとクセのある音声認識技術を何に利用しますか?


「Android端末は個人使用が多いので、音声認識アプリをカスタマイズして使えば最強のスマートフォンになります」と語る高橋氏

「Android端末は個人使用が多いので、音声認識アプリをカスタマイズして使えば最強のスマートフォンになります」と語る高橋氏

続いて「音声認識応用アプリの現状と未来」と題し、NTTサイバースペース研究所 高橋敏氏の講演がありました。NTTの研究所には「NTT音声認識エンジン『VoiceRex』」というシステムが稼働しています。このマシンが想定する音声認識アプリの利用方法は、大きく分けて以下の3つです。


  1. 音声コマンド(人間の代わりにコンピュータが応対するときのシステムとして)
    例:電話自動音声応答装置、音声対話エージェントシステム、音声カーナビ、腕時計型PHS
  2. 口述筆記(キーボード入力による文書作成の代替として)
    例:テレビ字幕作成支援システム、議会録作成、音声ワープロ
  3. 音声マイニング(大量の音声コンテンツから情報抽出する機能として)
    例:コールセンタ向け音声マイニングシステム


これらをもう少し詳しく見てゆくと

  • 音声自動応答装置 ―低コストで24時間対応のサービスが提供できる
  • 音声による端末入力 ―文字入力の煩わしさを軽減
  • 音声カーナビ ―ハンズフリー、アイズフリーにより、安全な運転が実現
  • マルチモーダル音声対話エージェント
    (Webサイトと連動した音声対話店舗検索システムなど) ―対話型サービスで操作リテラシーの低い人にも対応
  • テレビ字幕作成支援システム ―テレビ番組の字幕付義務化への準備
  • 音声議会録作成支援システム ―速記などを必要とせずに効率的な議会録作成が可能
  • コンタクトセンタの多機能化 ―コールセンタに集まるマーケティング情報の抽出


と、実にさまざまな使われ方をしています。


音声認識は、人とPCのコミュニケーションや、アーカイブの検索などを実現するための基本技術に過ぎませんが、上のリストを見ると「ビジネスの宝の山」をザックザクと掘っている感じがします。これは従来人間が対応していた価値の高い情報を、アプリが成りかわって提供しているからです。このアプリは音声認識ではありませんが、NTTドコモの「iコンシェル」のように、Web上のテキスト画面の情報を、「執事が教えてくれた」ように知らせるサービスなど、アバター(分身)的アプリケーションが働く機会は今後も増えそうです。


架空ニュース番組による実験では、音声認識からテキスト変換まで、ほぼ正確な処理結果がでる

架空ニュース番組による実験では、音声認識からテキスト変換まで、ほぼ正確な処理結果がでる


一方で高橋氏は、「話し言葉の認識力が万全と言えないところが、音声認識技術の普及の歩みを弱めている」とも語ります。前半の中村氏の講演内容にもありましたが、良環境ならほぼ100点が望める現システムでも、劣悪な環境になると調子が鈍ります。雑踏や複数の人が話す場所などの難しい状況下で、どこまで正解率が上げられるかがカギとなりそうです。


改善点は、解決に難しいものが多く悩ましい。ここの問題を抜けた新たな音声認識アプリの登場が待ち望まれる。

改善点は、解決に難しいものが多く悩ましい。ここの問題を抜けた新たな音声認識アプリの登場が待ち望まれる。


“音声認識”とはハードウェア的な読み取り技術のように思われがちですが、ソフトウェアと連携させて使います。上記でピックアップした各種サービスをはじめ、アイデア次第でユニークなアプリケーションを作成できるのです。例えば音声認識を利用する地図ソフトや、家計簿ソフト、テキスト書き起こしソフトなど、身近に活躍できる場所は多岐に渡ります。


さらには、1000万語を扱う音声認識をベースに、個人端末において「この人はこの辺りの数万語をよく使う」というような、固有名詞やしゃべり方のクセをチューニングしてゆく機能への可能性も期待されます。音声では「伊東さん」「伊藤さん」「居藤さん」「井東さん」の区別はつきません。しかしユーザの声で「近くのイトウさんの電話番号」と言われた時、ご近所の伊東電気店のことを指しているとアプリは認識し、返答すればいいのです。この“家族の会話のような感覚”=自分の分身(アバター)的感覚が、今後の音声認識アプリのヒントになるような気がします。


「どうしたら音声認識アプリの利点を使って真価を発揮し、新しいサービスの役に立てるか考えていただきたい」と、高橋氏は強調。音声認識技術を利用するアプリケーションがどんどん生まれ、それを技術開発にフィードバックし、また新たな音声認識アプリの種にするという、成長の流れを循環させて大きなプラスのサイクルにしたいと語っていました。


最後に高橋氏は「実は大事な問題がひとつ残っていまして…」と前置きし、通話中の耳に当てるポジションではなく、手のひらに持った電話に語りかけるポジションが、日本人にはいまいち馴染まないことを話しました。町中でふと立ち止まって、手に持ったケータイらしきものにぶつぶつ呟く人の姿を見かけたとしたら、確かに少し薄気味悪い感じはします。「『端末に向かってしゃべる文化』をいかに醸成するか、音声認識アプリを搭載したAndroid端末やスマートフォンの次の課題は、実はそこかもしれません」と高橋氏は述べ、会場から大きな拍手を受けていました。


以上2件の講演のほかに1件報告があり、合計3つの登壇で3月度の「日本Androidの会」の定例イベントはお開きです。立教大学のキャンパス内はライトアップもされていて、環境もよく、夜景がとても美しい会場でした。教室も大きくて話も聞き取りやすかったです。実行委員より「この会場を次回使用するのは5月」とアナウンスがありましたが、それを聞いて5月に再訪するのが待ち遠しくなりました。