スマートスピーカーで話題の「音声技術」　専門家が語る課題と“体験”の重要性（後編）

2018年7月30日 19時配信

2018年上半期のトレンドといえば「Amazon Echo」や「Google Home」といった「スマートスピーカー」は欠かせません。人工知能（ＡＩ）が内蔵されていることから、いよいよ近未来のテクノロジーが本格的に日常に入り込んできたと期待している人も多いでしょう。

私たちの生活を変えるかもしれない「音声インターフェース」。その可能性と課題はどこにあるのか？
ソニー株式会社でユーザーインターフェースやネットワークに関する研究開発に携わり、音声UXデザインチームを作り統括。2014年に独立し、音声UI／UXデザインに関するコンサルティングや研究開発に携わる河野道成さんは、『音声に未来はあるか？』（日経ＢＰ社刊）で丁寧に現状を分析しながら、「課題は山積み」だと指摘します。

河野さんへのインタビュー後編ではＡＩと音声認識技術、そして河野さんが抱く「期待」についてお聞きしました。

（新刊JP編集部）

――インタビュー前編の終わりに「スマートスピーカーに対してがっかりするユーザーもいるかもしれない」と指摘されていました。ユーザー側にはＡＩに対して過剰な期待があるように思えますが、ＡＩと音声技術の関係について現在はどのような状況にあるのでしょうか。

河野：ＡＩは今、第三次ブームと呼ばれています。だいたい2010年頃から始まって、Apple社から「Siri」が登場し、機械学習やディープラーニングという概念が広がってＡＩを積極活用する流れが社会にできています。

音声認識の話でいうと、それまでは認識語彙が非常に少なかったんです。ただ、2010年以降、データベースにＡＩで使われている技術が流用され、大きく改善しました。だから私たちが普段話している会話ならばほとんど認識できるレベルになっています。
実は2000年よりももっと前から認識系のエンジンは研究されていました。ただ、精度が良くなったのは2010年以降ですね。ロボットの顔認識なんかも飛躍的に性能が良くなっています。

また、ＡＩだけでなく、全体的な技術の進歩は欠かせないでしょう。ネットワークのインフラや扱えるデータ容量も格段に進歩しました。音声認識もネットを通して一度クラウドにあげて、そこで計算して私たちにアウトプットされています。ネットワーク、ストレージ、ＣＰＵの処理速度も飛躍的に向上したからこそ、今の状況があると思いますね。

――河野さんが音声技術に初めて携わったのはいつ頃のことでしたか？

河野：音声はまさに2010年頃からですね。認識技術自体はもっと前から携わっています。

ナチュラル・ユーザー・インターフェース（ＮＵＩ）という、タップやスワイプといったタッチ操作のような直感的な操作を可能にするＵＩが2004年頃に成熟してきたのですが、当時タッチの次に来るものは何かというと、ジェスチャー、音声、視線が鉄板だと言われていたんです。あとはハプティク（触覚）というのもありました。

ちょうどその頃家電メーカーのサムソンやLGがテレビにＮＵＩを取り入れて、音声でテレビの電源をつけられるようにするなど、リモコンレスが流行り始めたんです。その時、私はソニーでジェスチャーのＵＩを開発する部署にいました。

――今のところ、音声技術の目指すべき到達点は「コミュニケーション」ができるようになることなんですか？

河野：技術的に一つの到達点ではありますね。
ただ、音声ＵＸとなると、難しいところがあります。というのも、言葉によるコミュニケーションのゴールはあまりにも多様ですし、逆に言葉を使ったコミュニケーションを嫌がる方々もいるわけですよね。LINEのようにスタンプでコミュニケーションを取るのが一番いいという世代も出てきています。だから技術ではそうなのだと思いますが、音声ＵＸだと別の目標があると思います。

――日本語は世界的に見ても特殊な言語と言われています。音声技術において日本語だから世界に遅れを取るということはありえるのですか？

河野：音声認識だけでいえば、日本語も英語も認識精度はほとんど変わりません。
認識精度は非常に高くなっていて、Google社の英語の音声認識のワードエラー率が約５％になったというニュースが流れました。これは人間レベルと同程度です。英語がこのレベルだということは、日本語も同レベルの認識水準であるはずです。

――本書でも紹介されていますが「リアルタイム翻訳」が可能になりつつあります。ただ、翻訳家の方の話を聞いたときに、日本語の微妙なニュアンスを英語にするのは難しいときがあるとお話されていたんですね。話し言葉、敬語…そういうニュアンスを表現するのは難しいのかなと。

河野：それはおっしゃる通りでしょう。認識するところまでは、英語も日本語もイーブンですが「理解する」「訳す」ということについては差があります。
例えば「ねぇ、昨日のワールドカップの試合！」という気持ちが先走った言葉を聞いても、私たちは何を意味しているか想像できますよね。だからすぐに「すごかったよね！」と共感を寄せられます。ただ、音声認識とその言葉の意味だけで理解しようとすると難しく、追いつかない。「試合がどうだったのか」まで言葉で表現されていないわけですから。

本書の中にも書きましたが、「空気を読む」ということをアルゴリズムでどう処理するのかという問題があります。ハイコンテクスト（抽象度の高い文章）は聞き手のスキルに依存するので、システム側の能力で理解できるかどうかが決まります。一方でローコンテクスト（説明をしっかり行う文章）は話し手に依存しますから、それは比較的システムとしては楽になります。

また、例えばタメ口と敬語ですね。英語は良い仕事をしたら目上だろうが部下だろうが「Good job!」ですが、日本語は言葉が変わりますよね。そういう言語文化ですから、音声UXデザインでカバーしていくべきところなのかなと思います。

――今後スマートスピーカーが不自然ではないコミュニケーションを取れるようになるにはどのくらい時間がかかると思いますか？

河野：使い方次第というところもあるので、すでにアシスタントという意味で上手くコミュニケーションを取れている人はいますし、まったく未来の話というわけではありません。使いこなす人のリテラシーも重要です。

また、今後起こり得ることがあるとすれば、「コミュニケーションの谷」みたいなものが登場する可能性がありますね。コミュニケーションは取れているけれど、どこか不気味…というような。

――音声認識技術の実用化が進んでいる分野ですと、何があげられますか？

河野：コールセンターやサポートセンターなどでは聞き取りの分野で導入が進んでいます。ユーザーからの問い合わせを聞き取って、データベースに落としていくというのは効率的ですし、先ほど申し上げたように音声認識の精度の高さが十分に活かせます。

そこからＡＩや機械学習を使ってユーザーが話している内容の傾向と対策をつかんでいくという流れですね。トラブルも分類できるようになれば、オペレーション自体もＡＩができるようになるはずです。

――河野さんは音声インターフェースに対してどんな期待を持たれていますか？

河野：インターフェースって適材適所なんです。音声ＵＩだけ使おうとしてもダメで、それだけでは万能ではありません。別のもので課題を解決できちゃうことも多い。音声ＵＩの使い方を間違えると意味がないし、失敗しちゃう可能性が高いということは懸念しています。今のところは、音声ＵＩが一番活きる場所を自分の中で探っている段階ですね。

――その手がかりは見えていますか？

河野：「ながら作業」にはあっていますよね、たとえばは病院など。私が以前、手術受けて手足が動かせない時間があったんですが、そういうときに声は使えるなと。利用シーン（ユースケース）をしっかり考えれば便利になることは多いです。

「スマートスピーカー」はそれぞれのメーカーがどこで儲けるか、どういうプラットフォームにしたいのか戦略を練って動いているので一言で言えないけど、そこに乗るサービスは少し吟味したほうがいいのかもしれません。最先端の技術を搭載したサービスばかりが話題になると、ユーザーが取り残されてしまいます。とにかくサービス乗せなきゃ、ではなくて「本当にユーザーのためになるの？」ということは常に考えたいですよね。