音声に未来はあるか?

BOOK REVIEWこの本の書評

ＡＩ技術の発達やスマートスピーカーの登場によって注目を浴びている「音声インターフェース」。
部屋に入って一息ついたあとに、「作業用の音楽をかけてちょうだい」と言うとマシンが声に反応し自動的に音楽が流れ出す。そんな近未来を描く映画に出てきそうなワンシーンは今や現実のものになっています。

ソニー株式会社でユーザーインターフェースなどの研究開発に携わり、PlayStation4の音声UIをプロデュース、音声対話やAIをベースとした次世代家電のプロジェクトを立ち上げた河野道成さんによる『音声に未来はあるか？』（日経BP社刊）は、音声インターフェースの歴史、現状、未来について語った一冊。

専門的な内容を織り交ぜつつ、「シーマン」や「ラブプラス」など懐かしのゲームの事例も引き合いに出しながら音声インターフェースの仕組みを教えてくれます。

めざましい発展をとげている音声インターフェースは、今後さらに私たちの生活の中に入り込んでくることが期待されていますが、そのことでどんな変化が起こるのでしょうか？　ここでは本書から「音声インターフェースの未来」にフォーカスして取り上げましょう。

2020年東京オリンピックでは「音声での翻訳」が活躍？

音声ビジネスにおいて、特に重要になるのがインバウンド市場。2020年に東京オリンピックを控えている日本では、年々訪日外国人数が増加しており、言語環境の整備が急務になっています。
そこで注目されているのが音声のリアルタイム翻訳。タクシーの前の席のシートの裏側にタブレットが設置されており、そのタブレット経由で自動翻訳を行う試験が始まっているといいます。

また、英語に限らず、ホテルや公共施設のコンシェルジュサポートとしてロボットや音声エージェントが期待されています。近い将来、ホテルで何か困ったことがあったらロボットに声をかけてトラブルを解決してくれるのが当たり前になるのかもしれません。

議事録や報告書の生成も音声で

ビジネスにおける作業の効率化においても音声が活用されつつあります。例えば議事録や報告書の生成はキーボードよりも早いということで音声入力が注目を浴びています。

また、コールセンターではお客様の声を音声認識し、人工知能技術を使って学習した結果からオペレーター側に適切な回答候補を提示できるシステムが運用されています。
実際に行われた対話はすべて記録され、文字化してデータベースに登録されます。著者は「ＣＲＭ（顧客関係管理）システムで音声インターフェースは非常に相性の良いソリューションとして急速に利用され始めています」と指摘します。

アメリカで広がる絵本の読み聞かせや音声によるクイズ

スマートスピーカーを通した音声コンテンツによる読み聞かせは、アメリカでも広がっていると著者。Amazonが提供しているAmazon Echo アレクサはKindleで提供されている電子書籍の読み上げ機能が実装されているほか、Google Homeでも読み聞かせが可能です。

他に意外なところでは音声によるクイズも主要コンテンツになっているそう。スマートスピーカーを使って家族や仲間とクイズ大会、というのはなんとも楽しそう。今後、日本でもこのようなコンテンツが広まっていくでしょう。

　◇

他にも音声インターフェースには様々な日常の問題をソリューションする可能性が込められています。生産性や効率化といった時代のキーワードにおいても、音声で解決できることが多く、仕事や生活がグッと楽になるはず。

その一方で、英語にはない日本語の難しさというのが壁になることも。日本は、言語ではなく状況や感情を察して理解する、聞き手側の能力に依存する文化です。今のところ、音声インターフェースの要は言語ですが、それ以外の要素も必要です。
そうした課題を乗り越えるために、著者は非ＩＴ分野のテクニックや経験も活かして開発・設計する必要があると考えていると述べます。

音声によって私たちの未来はどう変わるのでしょうか？　本書からその一端が見えてくるはずです。

（新刊JP編集部）

INTERVIEWインタビュー

2018年上半期のトレンドといえば「Amazon Echo」や「Google Home」といった「スマートスピーカー」は欠かせません。人工知能（ＡＩ）が内蔵されていることから、いよいよ近未来のテクノロジーが本格的に日常に入り込んできたと期待している人も多いでしょう。

私たちの生活を変えるかもしれない「音声インターフェース」。その可能性と課題はどこにあるのでしょうか？
ソニー株式会社でユーザーインターフェースやネットワークに関する研究開発に携わり、音声UXデザインチームを作り統括。2014年に独立し、音声UIやUXデザイン（顧客体験設計）に関するコンサルティングや研究開発に携わる河野道成さんは、『音声に未来はあるか？』（日経ＢＰ社刊）で丁寧に現状を分析しながら、「課題は山積み」だと指摘します。詳しくお話をうかがってきました。

（新刊JP編集部）

――河野さんが上梓された『音声に未来はあるか？』は、音声インターフェースの現状についてまとめられていますが、その中で課題を指摘する記述も多く見受けられました。

河野：
スマートスピーカーの発売以来、音声インターフェースは注目を集めているのですが、ある意味スマートスピーカーという商品の比較に終始してしまっていて、音声認識の技術まで踏み込んだ話ってあまり出ないんですよね。だから、技術の話とＵＩやＵＸデザインの話を絡めた本を書ければと思っていました。

――河野さん自身は以前勤められていたソニーで音声UXデザインチームを率いていたそうですね。

河野：
そうです。ソニーの中には、音声に関する技術を研究するプロフェッショナルたちがいるのですが、技術先行になりがちなところがあって、技術を前提にサービスを作るという流れになりがちでした。

もちろん研究開発は最も大事です。ただ、ユーザーにサービスとして提供する場合、ユーザーが快適に使ってもらうために適した形にしなくてはいけません。要素技術の研究者はそれぞれ専門性が高く独立しているだけに、他の技術との組み合わせ（統合）や体験設計までしっかり考えるのは難しい状況にあります。

だから、体験設計からサービスやプロダクトのプロデュースをする人が必要だということで、音声UI／UXデザインというのを私が受け持っていました。

――当時、河野さんが認識していた音声インターフェースの「課題」とはどのようなものでしたか？

河野：
やはり「音声認識」にフォーカスされがちだったということですね。例えば音声で指示をしてテレビがつけば「すごい！」となる。だけれども、手元のリモコンの電源ボタンを押せばテレビはつくわけですから、結局慣れている方に行きますよね。

ＵＸ（ユーザーエクスペリエンス／顧客体験）とはそういうもので、実際に使ってもらうには、体験的なデザインが必要です。音声の場合、体験よりも技術が先行していたこともあり、体験が追いつかずにいくら良い技術もちゃんと活かすことができていなかった。これがブレイクしない原因でもありました。

だから、ＵＸデザインについてしっかり考えないと、また技術先行のサービスやプロダクトができてしまい、同じ轍を繰り返してしまうのではないか…。そういう思いがありましたね。

――サービス側からのアプローチということで、技術開発者と意見がぶつかることも多いのではないですか？

河野：
それはありますね。こういう体験を創り出すことがベストだということを伝えないといけませんから。

例えば、スマートスピーカーやスマホに「アレクサ！」とか「Siri！」と呼びかけるってハードル高くないですか？　恥ずかしいと思う人もいるでしょう。だからそういう呼びかけがなくなるのは私としてはベストだとは思います。
ただ、呼びかけをなくしてしまうと、自分が発した声以外に勝手にシステムが反応して、予期せぬ動作が起こるかもしれない。そういうせめぎ合いもあります。

私はソニー時代、技術者の皆さんに「技術を洗練してください」と伝えていました。一方で、私は「ユーザーにとってこれが良い」という優先度付けをして、もし技術ではなくＵＸデザインでごまかせるところがあれば、その方法を取ったりもしていました。

――「ごまかす」というのは？

河野：
音声の面白さはやはりコミュニケーションです。だから、エンジニアリングで不足している部分をコミュニケーションで逃げることができるんですね。

例えば、ユーザーの好みの季節を知りたいときに、「好きな季節はなんですか？」と聞くと確実に失敗します。季節って春夏秋冬以外にもたくさんありますよね。「初夏」「秋と冬の間」とか。ほかに「春と夏」と２つ答える人もいます。

――答えは確かに４つではないですね。

河野：
そうです。だからその返答に対する応答のシナリオをたくさん作らないといけません。そうすると、システムがすごく複雑化するんですね。ならば、シンプルに「春夏秋冬どれが一番好きですか？」と聞く。こうすればシナリオは４つの選択肢プラス１つで終わります。「プラス１」というのはたとえば「４つのうちで答えて下さい」という例外処理対応です。

聞き方は変わるけれど、ユーザーは嫌な気持ちにならないでしょう。つまり、システムの都合がいいように答えを誘導することも、UXデザインのキモになのです。

――それらの応答や質問はシナリオライターが書いているわけですか。

河野：
はい、大半はそうです。ただ、やはり（シナリオ作りは）難しいですから、音声UXデザイン特化のシナリオライターが出てくるかもしれませんね。

シナリオ作りに向いている人は声優、役者や脚本家です。彼らは自分の言い方によって反応を変える術を知っています。「こういう言い方をすると突っ込まれやすくなる」というテクニックですね。コミュニケーションを作って見せている人たちはテクニックを持っていますから、それを応用することができます。

やってしまいがちな良くないコミュニケーションの代表例は「オープンクエッション」です。「何でもお申し付けください」って言われても、「何を話せばいいんだろう」「こんなこと言ったら大丈夫かな」と困ってしまう。

――それが山積みとなっている課題の一つですね。他に課題をあげるとすると？

河野：
例えば音声を処理して返答を考えているときの微妙な「間」もユーザーを不安にさせてしまう課題の一つです。こっちから話しかけていいのかなという「間」に、人間は不安を覚えてしまうんです。

――コミュニケーションを前提で考えていると、すぐにレスポンスがないと不安になりますよね。

河野：
そうですよね。電話をしているとき、相手からのレスポンスが５秒でも無音だったら「おーい？」と呼びかけますよね。それと似ている状況です。人間って音声によるコミュニケーションを小さい頃から使い込んでいるので、システムが考えるために間があくという前提になかなか立てないんです。

――ウェブで少しでも表示に時間がかかるとイライラするという人も少なくないですが…。

河野：
まさにそれです。だからスマートスピーカーにこういう言葉が返ってきたらこう返答してくださいとあらかじめ組み込んでおけば、即時のレスポンスはできますが、思い付きのような言葉に対応するのは難しくなるんです。

人間は想像をしながらコミュニケーションをしますが、スマートスピーカーはまだそこまでの領域にいっていません。ＡＩが搭載されていて、できることばかりが喧伝されていますが、「賢いんだ」と思って使うとがっかりするユーザーも多いはずです。

――さきほど「スマートスピーカーに対してがっかりするユーザーもいるかもしれない」と指摘されていました。ユーザー側にはＡＩに対して過剰な期待があるように思えますが、ＡＩと音声技術の関係について現在はどのような状況にあるのでしょうか。

河野：
ＡＩは今、第三次ブームと呼ばれています。だいたい2010年頃から始まって、Apple社から「Siri」が登場し、機械学習やディープラーニングという概念が広がってＡＩを積極活用する流れが社会にできています。

音声認識の話でいうと、それまでは認識語彙が非常に少なかったんです。ただ、2010年以降、データベースにＡＩで使われている技術が流用され、大きく改善しました。だから私たちが普段話している会話ならばほとんど認識できるレベルになっています。
実は2000年よりももっと前から認識系のエンジンは研究されていました。ただ、精度が良くなったのは2010年以降ですね。ロボットの顔認識なんかも飛躍的に性能が良くなっています。

また、ＡＩだけでなく、全体的な技術の進歩は欠かせないでしょう。ネットワークのインフラや扱えるデータ容量も格段に進歩しました。音声認識もネットを通して一度クラウドにあげて、そこで計算して私たちにアウトプットされています。ネットワーク、ストレージ、ＣＰＵの処理速度も飛躍的に向上したからこそ、今の状況があると思いますね。

――河野さんが音声技術に初めて携わったのはいつ頃のことでしたか？

河野：
音声はまさに2010年頃からですね。認識技術自体はもっと前から携わっています。

ナチュラル・ユーザー・インターフェース（ＮＵＩ）という、タップやスワイプといったタッチ操作のような直感的な操作を可能にするＵＩが2004年頃に成熟してきたのですが、当時タッチの次に来るものは何かというと、ジェスチャー、音声、視線が鉄板だと言われていたんです。あとはハプティク（触覚）というのもありました。

ちょうどその頃家電メーカーのサムスンやLGがテレビにＮＵＩを取り入れて、音声でテレビの電源をつけられるようにするなど、リモコンレスが流行り始めたんです。その時、私はソニーでジェスチャーのＵＩを開発する部署にいました。

――今のところ、音声技術の目指すべき到達点は「コミュニケーション」ができるようになることなんですか？

河野：
技術的に一つの到達点ではありますね。
ただ、音声ＵＸとなると、難しいところがあります。というのも、言葉によるコミュニケーションのゴールはあまりにも多様ですし、逆に言葉を使ったコミュニケーションを嫌がる方々もいるわけですよね。LINEのようにスタンプでコミュニケーションを取るのが一番いいという世代も出てきています。だから技術ではそうなのだと思いますが、音声ＵＸだと別の目標があると思います。

――日本語は世界的に見ても特殊な言語と言われています。音声技術において日本語だから世界に遅れを取るということはありえるのですか？

河野：
音声認識だけでいえば、日本語も英語も認識精度はほとんど変わりません。
認識精度は非常に高くなっていて、Google社の英語の音声認識のワードエラー率が約５％になったというニュースが流れました。これは人間レベルと同程度です。英語がこのレベルだということは、日本語も同レベルの認識水準であるはずです。

――本書でも紹介されていますが「リアルタイム翻訳」が可能になりつつあります。ただ、翻訳家の方の話を聞いたときに、日本語の微妙なニュアンスを英語にするのは難しいときがあるとお話されていたんですね。話し言葉、敬語…そういうニュアンスを表現するのは難しいのかなと。

河野：
それはおっしゃる通りでしょう。認識するところまでは、英語も日本語もイーブンですが「理解する」「訳す」ということについては差があります。
例えば「ねぇ、昨日のワールドカップの試合！」という気持ちが先走った言葉を聞いても、私たちは何を意味しているか想像できますよね。だからすぐに「すごかったよね！」と共感を寄せられます。ただ、音声認識とその言葉の意味だけで理解しようとすると難しく、追いつかない。「試合がどうだったのか」まで言葉で表現されていないわけですから。

本書の中にも書きましたが、「空気を読む」ということをアルゴリズムでどう処理するのかという問題があります。ハイコンテクスト（抽象度の高い文章）は聞き手のスキルに依存するので、システム側の能力で理解できるかどうかが決まります。一方でローコンテクスト（説明をしっかり行う文章）は話し手に依存しますから、それは比較的システムとしては楽になります。

また、例えばタメ口と敬語ですね。英語は良い仕事をしたら目上だろうが部下だろうが「Good job!」ですが、日本語は言葉が変わりますよね。そういう言語文化ですから、音声UXデザインでカバーしていくべきところなのかなと思います。

――今後スマートスピーカーが不自然ではないコミュニケーションを取れるようになるにはどのくらい時間がかかると思いますか？

河野：
使い方次第というところもあるので、すでにアシスタントという意味で上手くコミュニケーションを取れている人はいますし、まったく未来の話というわけではありません。使いこなす人のリテラシーも重要です。

また、今後起こり得ることがあるとすれば、「コミュニケーションの谷」みたいなものが登場する可能性がありますね。コミュニケーションは取れているけれど、どこか不気味…というような。

――音声認識技術の実用化が進んでいる分野ですと、何があげられますか？

河野：
コールセンターやサポートセンターなどでは聞き取りの分野で導入が進んでいます。ユーザーからの問い合わせを聞き取って、データベースに落としていくというのは効率的ですし、先ほど申し上げたように音声認識の精度の高さが十分に活かせます。

そこからＡＩや機械学習を使ってユーザーが話している内容の傾向と対策をつかんでいくという流れですね。トラブルも分類できるようになれば、オペレーション自体もＡＩができるようになるはずです。

――河野さんは音声インターフェースに対してどんな期待を持たれていますか？

河野：
インターフェースって適材適所なんです。音声ＵＩだけ使おうとしてもダメで、それだけでは万能ではありません。別のもので課題を解決できちゃうことも多い。音声ＵＩの使い方を間違えると意味がないし、失敗しちゃう可能性が高いということは懸念しています。今のところは、音声ＵＩが一番活きる場所を自分の中で探っている段階ですね。

――その手がかりは見えていますか？

河野：
「ながら作業」にはあっていますよね、たとえばは病院など。私が以前、手術受けて手足が動かせない時間があったんですが、そういうときに声は使えるなと。利用シーン（ユースケース）をしっかり考えれば便利になることは多いです。

「スマートスピーカー」はそれぞれのメーカーがどこで儲けるか、どういうプラットフォームにしたいのか戦略を練って動いているので一言で言えないけど、そこに乗るサービスは少し吟味したほうがいいのかもしれません。最先端の技術を搭載したサービスばかりが話題になると、ユーザーが取り残されてしまいます。とにかくサービス乗せなきゃ、ではなくて「本当にユーザーのためになるの？」ということは常に考えたいですよね。

――最後に、『音声に未来はあるか？』をどんな人に読んでほしいですか？

河野：
まずは、これから音声ＵＩを使ってビジネスやサービスを展開しようとしている方やアプリディベロッパーの方々に読んでほしいです。私の経験も書いてあるので、よく読んでもらって開発やビジネスに活用してほしいなと。

次に「スマートスピーカー」を買ったけれどいまいち使えていない方ですね。音声認識とＡＩなんて技術も成熟したなあと思っているかもしれませんが、実際は未熟であり、これからです。使えないというご不満はごもっともですが、その理由も書いているので、ぜひこれを読んで内実を知ってほしいですね。

最後にビジネスマンの皆さんに。こういう内容の記事や書籍は実はあまりないんです。なので、そういった方々にもぜひ読んで頂きたいと思っています。

（了）

BOOK DATA 書籍情報

プロフィール

河野道成　Michinari Kohno

ビヨンドUXクリエイター、クリエイティブディレクター、UIUXプロデューサー、ITコンサルタント。

1992年ソニー入社。ユーザーインターフェース・ネットワーク・空間や人の感情に関わる研究開発に携わる。
画像認識や音声認識を使ったインタラクションデザイン開発チームリーダーを務める。
その後、ソニーで初の音声UXデザインチームを作り統括、PlayStation4の音声UIやXperia向け音声UIアプリのプロデュースする。

2014年にソニーを退職しネオマデザイン株式会社を設立。
慶応義塾大学大学院メディアデザイン研究科付属メディアデザイン研究所(KMD)のリサーチャーにも任命される。
音声UI/UXデザインに関するコンサルティングや研究開発に携わる一方で、フィットネスクラブの空間プロデュース、テーマパークのインタラクション、インタラクティブデジタルサイネージ等も手がける。

アナログとデジタル、リアルとバーチャル、生物と人工物、それぞれの良さを生かした体験価値最大化をモットーに活動中。

ネオマデザインHP: https://www.neomadesign.jp/
個人ポートフォリオ: https://www.neomadesign.jp/michi/

第1章音声インターフェースの現状と未来
第2章音声インターフェースの歴史
第3章音声インターフェースの特徴とメリット
第4章音声インターフェースを使った商品
第5章音声インターフェースの技術
第6章音声インターフェースの問題
第7章エージェント/ロボットの音声インターフェース「対話」
第8章音声インターフェースビジネスの勢力図
第9章音声インターフェースの未来

BOOK REVIEWこの本の書評

2020年東京オリンピックでは「音声での翻訳」が活躍？

議事録や報告書の生成も音声で

アメリカで広がる絵本の読み聞かせや音声によるクイズ

INTERVIEWインタビュー

BOOK DATA 書籍情報

プロフィール

河野道成　Michinari Kohno

目次

第1章音声インターフェースの現状と未来

第2章音声インターフェースの歴史

第3章音声インターフェースの特徴とメリット

第4章音声インターフェースを使った商品

第5章音声インターフェースの技術

第6章音声インターフェースの問題

第7章エージェント/ロボットの音声インターフェース「対話」

第8章音声インターフェースビジネスの勢力図

第9章音声インターフェースの未来

定価：

著者：

出版社：

ISBN ：

ISBN-13 ：

BOOK REVIEWこの本の書評

2020年東京オリンピックでは「音声での翻訳」が活躍？

議事録や報告書の生成も音声で

アメリカで広がる絵本の読み聞かせや音声によるクイズ

INTERVIEWインタビュー

BOOK DATA 書籍情報

プロフィール

河野 道成 Michinari Kohno

目次

第1章 音声インターフェースの現状と未来

第2章 音声インターフェースの歴史

第3章 音声インターフェースの特徴とメリット

第4章 音声インターフェースを使った商品

第5章 音声インターフェースの技術

第6章 音声インターフェースの問題

第7章 エージェント/ロボットの音声インターフェース「対話」

第8章 音声インターフェースビジネスの勢力図

第9章 音声インターフェースの未来

河野道成　Michinari Kohno

第1章音声インターフェースの現状と未来

第2章音声インターフェースの歴史

第3章音声インターフェースの特徴とメリット

第4章音声インターフェースを使った商品

第5章音声インターフェースの技術

第6章音声インターフェースの問題

第7章エージェント/ロボットの音声インターフェース「対話」

第8章音声インターフェースビジネスの勢力図

第9章音声インターフェースの未来