INTERVIEWインタビュー
2018年上半期のトレンドといえば「Amazon Echo」や「Google Home」といった「スマートスピーカー」は欠かせません。人工知能(AI)が内蔵されていることから、いよいよ近未来のテクノロジーが本格的に日常に入り込んできたと期待している人も多いでしょう。
私たちの生活を変えるかもしれない「音声インターフェース」。その可能性と課題はどこにあるのでしょうか?
ソニー株式会社でユーザーインターフェースやネットワークに関する研究開発に携わり、音声UXデザインチームを作り統括。2014年に独立し、音声UIやUXデザイン(顧客体験設計)に関するコンサルティングや研究開発に携わる河野道成さんは、『音声に未来はあるか?』(日経BP社刊)で丁寧に現状を分析しながら、「課題は山積み」だと指摘します。詳しくお話をうかがってきました。
(新刊JP編集部)
――河野さんが上梓された『音声に未来はあるか?』は、音声インターフェースの現状についてまとめられていますが、その中で課題を指摘する記述も多く見受けられました。
河野:
スマートスピーカーの発売以来、音声インターフェースは注目を集めているのですが、ある意味スマートスピーカーという商品の比較に終始してしまっていて、音声認識の技術まで踏み込んだ話ってあまり出ないんですよね。だから、技術の話とUIやUXデザインの話を絡めた本を書ければと思っていました。
――河野さん自身は以前勤められていたソニーで音声UXデザインチームを率いていたそうですね。
河野:
そうです。ソニーの中には、音声に関する技術を研究するプロフェッショナルたちがいるのですが、技術先行になりがちなところがあって、技術を前提にサービスを作るという流れになりがちでした。
もちろん研究開発は最も大事です。ただ、ユーザーにサービスとして提供する場合、ユーザーが快適に使ってもらうために適した形にしなくてはいけません。要素技術の研究者はそれぞれ専門性が高く独立しているだけに、他の技術との組み合わせ(統合)や体験設計までしっかり考えるのは難しい状況にあります。
だから、体験設計からサービスやプロダクトのプロデュースをする人が必要だということで、音声UI/UXデザインというのを私が受け持っていました。
――当時、河野さんが認識していた音声インターフェースの「課題」とはどのようなものでしたか?
河野:
やはり「音声認識」にフォーカスされがちだったということですね。例えば音声で指示をしてテレビがつけば「すごい!」となる。だけれども、手元のリモコンの電源ボタンを押せばテレビはつくわけですから、結局慣れている方に行きますよね。
UX(ユーザーエクスペリエンス/顧客体験)とはそういうもので、実際に使ってもらうには、体験的なデザインが必要です。音声の場合、体験よりも技術が先行していたこともあり、体験が追いつかずにいくら良い技術もちゃんと活かすことができていなかった。これがブレイクしない原因でもありました。
だから、UXデザインについてしっかり考えないと、また技術先行のサービスやプロダクトができてしまい、同じ轍を繰り返してしまうのではないか…。そういう思いがありましたね。
――サービス側からのアプローチということで、技術開発者と意見がぶつかることも多いのではないですか?
河野:
それはありますね。こういう体験を創り出すことがベストだということを伝えないといけませんから。
例えば、スマートスピーカーやスマホに「アレクサ!」とか「Siri!」と呼びかけるってハードル高くないですか? 恥ずかしいと思う人もいるでしょう。だからそういう呼びかけがなくなるのは私としてはベストだとは思います。
ただ、呼びかけをなくしてしまうと、自分が発した声以外に勝手にシステムが反応して、予期せぬ動作が起こるかもしれない。そういうせめぎ合いもあります。
私はソニー時代、技術者の皆さんに「技術を洗練してください」と伝えていました。一方で、私は「ユーザーにとってこれが良い」という優先度付けをして、もし技術ではなくUXデザインでごまかせるところがあれば、その方法を取ったりもしていました。
――「ごまかす」というのは?
河野:
音声の面白さはやはりコミュニケーションです。だから、エンジニアリングで不足している部分をコミュニケーションで逃げることができるんですね。
例えば、ユーザーの好みの季節を知りたいときに、「好きな季節はなんですか?」と聞くと確実に失敗します。季節って春夏秋冬以外にもたくさんありますよね。「初夏」「秋と冬の間」とか。ほかに「春と夏」と2つ答える人もいます。
――答えは確かに4つではないですね。
河野:
そうです。だからその返答に対する応答のシナリオをたくさん作らないといけません。そうすると、システムがすごく複雑化するんですね。ならば、シンプルに「春夏秋冬どれが一番好きですか?」と聞く。こうすればシナリオは4つの選択肢プラス1つで終わります。「プラス1」というのはたとえば「4つのうちで答えて下さい」という例外処理対応です。
聞き方は変わるけれど、ユーザーは嫌な気持ちにならないでしょう。つまり、システムの都合がいいように答えを誘導することも、UXデザインのキモになのです。
――それらの応答や質問はシナリオライターが書いているわけですか。
河野:
はい、大半はそうです。ただ、やはり(シナリオ作りは)難しいですから、音声UXデザイン特化のシナリオライターが出てくるかもしれませんね。
シナリオ作りに向いている人は声優、役者や脚本家です。彼らは自分の言い方によって反応を変える術を知っています。「こういう言い方をすると突っ込まれやすくなる」というテクニックですね。コミュニケーションを作って見せている人たちはテクニックを持っていますから、それを応用することができます。
やってしまいがちな良くないコミュニケーションの代表例は「オープンクエッション」です。「何でもお申し付けください」って言われても、「何を話せばいいんだろう」「こんなこと言ったら大丈夫かな」と困ってしまう。
――それが山積みとなっている課題の一つですね。他に課題をあげるとすると?
河野:
例えば音声を処理して返答を考えているときの微妙な「間」もユーザーを不安にさせてしまう課題の一つです。こっちから話しかけていいのかなという「間」に、人間は不安を覚えてしまうんです。
――コミュニケーションを前提で考えていると、すぐにレスポンスがないと不安になりますよね。
河野:
そうですよね。電話をしているとき、相手からのレスポンスが5秒でも無音だったら「おーい?」と呼びかけますよね。それと似ている状況です。人間って音声によるコミュニケーションを小さい頃から使い込んでいるので、システムが考えるために間があくという前提になかなか立てないんです。
――ウェブで少しでも表示に時間がかかるとイライラするという人も少なくないですが…。
河野:
まさにそれです。だからスマートスピーカーにこういう言葉が返ってきたらこう返答してくださいとあらかじめ組み込んでおけば、即時のレスポンスはできますが、思い付きのような言葉に対応するのは難しくなるんです。
人間は想像をしながらコミュニケーションをしますが、スマートスピーカーはまだそこまでの領域にいっていません。AIが搭載されていて、できることばかりが喧伝されていますが、「賢いんだ」と思って使うとがっかりするユーザーも多いはずです。
――さきほど「スマートスピーカーに対してがっかりするユーザーもいるかもしれない」と指摘されていました。ユーザー側にはAIに対して過剰な期待があるように思えますが、AIと音声技術の関係について現在はどのような状況にあるのでしょうか。
河野:
AIは今、第三次ブームと呼ばれています。だいたい2010年頃から始まって、Apple社から「Siri」が登場し、機械学習やディープラーニングという概念が広がってAIを積極活用する流れが社会にできています。
音声認識の話でいうと、それまでは認識語彙が非常に少なかったんです。ただ、2010年以降、データベースにAIで使われている技術が流用され、大きく改善しました。だから私たちが普段話している会話ならばほとんど認識できるレベルになっています。
実は2000年よりももっと前から認識系のエンジンは研究されていました。ただ、精度が良くなったのは2010年以降ですね。ロボットの顔認識なんかも飛躍的に性能が良くなっています。
また、AIだけでなく、全体的な技術の進歩は欠かせないでしょう。ネットワークのインフラや扱えるデータ容量も格段に進歩しました。音声認識もネットを通して一度クラウドにあげて、そこで計算して私たちにアウトプットされています。ネットワーク、ストレージ、CPUの処理速度も飛躍的に向上したからこそ、今の状況があると思いますね。
――河野さんが音声技術に初めて携わったのはいつ頃のことでしたか?
河野:
音声はまさに2010年頃からですね。認識技術自体はもっと前から携わっています。
ナチュラル・ユーザー・インターフェース(NUI)という、タップやスワイプといったタッチ操作のような直感的な操作を可能にするUIが2004年頃に成熟してきたのですが、当時タッチの次に来るものは何かというと、ジェスチャー、音声、視線が鉄板だと言われていたんです。あとはハプティク(触覚)というのもありました。
ちょうどその頃家電メーカーのサムスンやLGがテレビにNUIを取り入れて、音声でテレビの電源をつけられるようにするなど、リモコンレスが流行り始めたんです。その時、私はソニーでジェスチャーのUIを開発する部署にいました。
――今のところ、音声技術の目指すべき到達点は「コミュニケーション」ができるようになることなんですか?
河野:
技術的に一つの到達点ではありますね。
ただ、音声UXとなると、難しいところがあります。というのも、言葉によるコミュニケーションのゴールはあまりにも多様ですし、逆に言葉を使ったコミュニケーションを嫌がる方々もいるわけですよね。LINEのようにスタンプでコミュニケーションを取るのが一番いいという世代も出てきています。だから技術ではそうなのだと思いますが、音声UXだと別の目標があると思います。
――日本語は世界的に見ても特殊な言語と言われています。音声技術において日本語だから世界に遅れを取るということはありえるのですか?
河野:
音声認識だけでいえば、日本語も英語も認識精度はほとんど変わりません。
認識精度は非常に高くなっていて、Google社の英語の音声認識のワードエラー率が約5%になったというニュースが流れました。これは人間レベルと同程度です。英語がこのレベルだということは、日本語も同レベルの認識水準であるはずです。
――本書でも紹介されていますが「リアルタイム翻訳」が可能になりつつあります。ただ、翻訳家の方の話を聞いたときに、日本語の微妙なニュアンスを英語にするのは難しいときがあるとお話されていたんですね。話し言葉、敬語…そういうニュアンスを表現するのは難しいのかなと。
河野:
それはおっしゃる通りでしょう。認識するところまでは、英語も日本語もイーブンですが「理解する」「訳す」ということについては差があります。
例えば「ねぇ、昨日のワールドカップの試合!」という気持ちが先走った言葉を聞いても、私たちは何を意味しているか想像できますよね。だからすぐに「すごかったよね!」と共感を寄せられます。ただ、音声認識とその言葉の意味だけで理解しようとすると難しく、追いつかない。「試合がどうだったのか」まで言葉で表現されていないわけですから。
本書の中にも書きましたが、「空気を読む」ということをアルゴリズムでどう処理するのかという問題があります。ハイコンテクスト(抽象度の高い文章)は聞き手のスキルに依存するので、システム側の能力で理解できるかどうかが決まります。一方でローコンテクスト(説明をしっかり行う文章)は話し手に依存しますから、それは比較的システムとしては楽になります。
また、例えばタメ口と敬語ですね。英語は良い仕事をしたら目上だろうが部下だろうが「Good job!」ですが、日本語は言葉が変わりますよね。そういう言語文化ですから、音声UXデザインでカバーしていくべきところなのかなと思います。
――今後スマートスピーカーが不自然ではないコミュニケーションを取れるようになるにはどのくらい時間がかかると思いますか?
河野:
使い方次第というところもあるので、すでにアシスタントという意味で上手くコミュニケーションを取れている人はいますし、まったく未来の話というわけではありません。使いこなす人のリテラシーも重要です。
また、今後起こり得ることがあるとすれば、「コミュニケーションの谷」みたいなものが登場する可能性がありますね。コミュニケーションは取れているけれど、どこか不気味…というような。
――音声認識技術の実用化が進んでいる分野ですと、何があげられますか?
河野:
コールセンターやサポートセンターなどでは聞き取りの分野で導入が進んでいます。ユーザーからの問い合わせを聞き取って、データベースに落としていくというのは効率的ですし、先ほど申し上げたように音声認識の精度の高さが十分に活かせます。
そこからAIや機械学習を使ってユーザーが話している内容の傾向と対策をつかんでいくという流れですね。トラブルも分類できるようになれば、オペレーション自体もAIができるようになるはずです。
――河野さんは音声インターフェースに対してどんな期待を持たれていますか?
河野:
インターフェースって適材適所なんです。音声UIだけ使おうとしてもダメで、それだけでは万能ではありません。別のもので課題を解決できちゃうことも多い。音声UIの使い方を間違えると意味がないし、失敗しちゃう可能性が高いということは懸念しています。今のところは、音声UIが一番活きる場所を自分の中で探っている段階ですね。
――その手がかりは見えていますか?
河野:
「ながら作業」にはあっていますよね、たとえばは病院など。私が以前、手術受けて手足が動かせない時間があったんですが、そういうときに声は使えるなと。利用シーン(ユースケース)をしっかり考えれば便利になることは多いです。
「スマートスピーカー」はそれぞれのメーカーがどこで儲けるか、どういうプラットフォームにしたいのか戦略を練って動いているので一言で言えないけど、そこに乗るサービスは少し吟味したほうがいいのかもしれません。最先端の技術を搭載したサービスばかりが話題になると、ユーザーが取り残されてしまいます。とにかくサービス乗せなきゃ、ではなくて「本当にユーザーのためになるの?」ということは常に考えたいですよね。
――最後に、『音声に未来はあるか?』をどんな人に読んでほしいですか?
河野:
まずは、これから音声UIを使ってビジネスやサービスを展開しようとしている方やアプリディベロッパーの方々に読んでほしいです。私の経験も書いてあるので、よく読んでもらって開発やビジネスに活用してほしいなと。
次に「スマートスピーカー」を買ったけれどいまいち使えていない方ですね。音声認識とAIなんて技術も成熟したなあと思っているかもしれませんが、実際は未熟であり、これからです。使えないというご不満はごもっともですが、その理由も書いているので、ぜひこれを読んで内実を知ってほしいですね。
最後にビジネスマンの皆さんに。こういう内容の記事や書籍は実はあまりないんです。なので、そういった方々にもぜひ読んで頂きたいと思っています。
(了)