大川賞受賞記念インタビュー(古井貞熙先生2)|安全安心な科学技術の振興:セコム科学技術振興財団

古井貞熙名誉教授(東京工業大学グローバルリーダー教育院・特任教授、豊田工業大学シカゴ校・学長)大川賞受賞記念インタビュー「コンピュータによる音声認識・理解手法の先駆的研究」


少しお話を戻します。さきほど音を逆回しにすると、元の音とまったく違った音に変化するというお話がありましたが、それはなぜなのでしょうか。

  説明するには少々遠回りとなりますが、お許しください。違う分野を例にだして説明しましょう。光はプリズムを通すと、虹のような光の帯になりますね。音声はそのままでは目で見ることができませんが、発声される音素の種類や、アクセント、イントネーション、個人差などによって、異なるスペクトルをもっているのです。まさに“音色”ですね。光をプリズムに通すのと同じように、音声をスペクトル分解し、その色調によって音声を認識するということです。

光に関しては波長によって分けるという言い方をしますが、音声ではどうなのですか。

  音声では通常、周波数によって分けるという言い方をします。周波数は音速を波長で割った値です。小学校の理科で習ったように音速は秒速340mぐらいです。音速が一定なら波長と周波数は反比例します。したがって、波長で分けるといっても、周波数で分けるといっても同じことなのです。
  音が周波数で解析できることがお分かりいただけると、面白いことに気がつきます。たとえば「ちちおや」という単語を、日本語の標準語を話す人、あるいは関東地方に住む人が通常の会話の中で発声した音声を分析すると、最初の「ち」と、2番目の「ち」のスペクトルが違うのです。最初の「ち」には「い」に当たる音がありません。しかし続けて聞くとたしかに「ちちおや」と聞こえます。このように/ch/と/ch/のような無声音にはさまれた/i/や/u/の音が発声されない現象を無声化と呼びます。ちなみに関東方面に住む人は動物の「あしか」という発声をしたとき、「し」のなかに「い」の要素はほとんど入っていないのです。

コンピュータで音声合成を行う際にも、無声化を正確に実現しないときわめて機械的な音に聞こえてしまいます。

  音声の周波数スペクトルが時間的に変化している特徴は音節の知覚、とくに“子音”の知覚において、重要な手がかりになっているのです。
  たとえば「か」の音を後ろから少しずつ切り落としても問題なく「か」に聞こえることは予想がつくと思います。では、反対に先頭から切り落としたらどのように聞こえるか。じつは「あ」ではなく、ちゃんと「か」の音に聞こえるのです。正確にどれぐらいかといいますと、スペクトルの変化が最も大きい10ミリ秒くらいの区間が残っていれば「か」と聞き取れることがわかりました。
  人の聴覚には、スペクトルの動きの情報からその動きの目標値を自動的にとらえる予測能力があり、目標値に実際に到達せず、次の音の目標値に向かって動いても、目標値としての音が聞こえるのです。「ちちおや」の最初の「ち」に、波形としての「い」の音が入っていなくても、実際に聞こえてしまうのは、その理由によるものです。

ところで、15年ほど前にIBMが一般ユーザ向けにPCによる音声認識ソフト『VIA VOICE』を発売しました。サイエンスライターという仕事柄「取材の録音データをテープ起こしできれば、仕事が楽になるかも」と期待して購入したことをよく憶えています。失敗でしたけど。

  そのソフトは、最初に認識させる人の声を1000文字ぐらいの例文で入力させる「エンロールメント」という操作をする必要がありました。使用する本人の声の特性を覚え込ませて、その本人がゆっくり正確に話したものなら精度があがるというわけです。しかしこれでは、会議で複数人が自然に話すような場面では、まったく役に立ちません。
  そこで、私どもは、3000名以上の人が発声した700時間におよぶ大量の話し言葉を録音し、データ化するという計画に着手しました。5年間で10億円をかけた国の科学技術振興調整費のサポートによる「話し言葉工学プロジェクト」です。図のように、人手で綿密な書き起こしがされ、正書法とよばれるカナと漢字による普通の書き方のほかに、実際の発音が手作業で加えられました。このプロジェクトで作成されたコーパスと音声認識技術により精度は大きく向上、講演の音声に対しては、ほぼ80%の音声認識精度が得られるようになりました。その後の音声認識の研究者は、多少の方法論の違いこそあれ、ほとんどの人がこのデータベースを使っています。

そのようなプロジェクトを進める際に心がけておられたことは何でしょうか。

  いろいろな人が知恵を出し合わないとうまくいかない分野の研究でしたから、入り口の波形を使う人、音としての音声を扱う人、文法をコンピュータに教える人、話の流れや内容を考えて判断を加える人、これらを合わせてコンピュータを動かさねばなりません。
  私も自分のチームを率いてきましたが、それぞれの個性、長所を把握してそれを伸ばせるような配置を考えてきました。人間には思わぬ能力があり、うまくはまると予測した以上の成果を出してくれる研究員はたくさんいるのです。

研究者でもマネージャークラスになると管理能力が必要になるのですね。

  最近は自分でプログラムを書くという作業では、若い人にはかないませんし、そういう部分は思い切って、まかせてしまっています。それよりも、自分はリーダーとして、どういう方向に研究をすすめていくかという舵取りをメインとしています。
  また、外部の優秀な研究者との連携にも気を配っています。国際会議で知り合った研究者とはお互いに訪問したりして、情報交換などをします。すると、それが刺激になって新しいアイデアが生まれてきたりします。研究者というのは、研究だけをしていればいいのはなく、人と人とのコミュニケーションを円滑にすることで無駄な作業を省き、効率をよくすることもできるのです。

これからの研究者に求めることは何ですか。

  東工大で定年を迎えたとき、それまでの研究、教育、組織運営業務などを総括して最終講義しました。そのなかから要点を3つに絞ってご紹介します。
  1番目が「他の人がやっていないことをやる」。口でいうのは簡単ですが「ここだ!」と思える研究分野というのは、多くの場合、先鞭をつけている人が大勢います。それでも、その専門分野で勝負しようとすると、これまでの先行研究をもれなく勉強し、そこからさらに先に進む努力が必要で、さらにその努力を継続していく覚悟があるかが問われます。また、博士論文の内容で一生食べていける研究者はまれです。ですが、そこで一生懸命トライした方法論は自分の財産として残ります。それが身についていると、その後の研究人生の“伸び”が変わってきます。研究の内容よりも、一つの研究を完成させたという経験が役に立つのです。