次のトレンドは音声アシスタント、その頂点に立つのはGoogle。

次のトレンドは音声アシスタント。そしてその頂点に立つのはGoogle

”OK, Google。明日の天気を教えて”

話しかけると答えてくれる音声アシスタントは、すでによく使っているよという人も多いと思います。

今日のテーマは、この音声アシスタントについてです。

ITはその時代ごとにホットになるトピックがあり、そのトレンドを上手く捉えた1社（もしくは2社) が市場を独占して、業界のトップに踊りでる形が続いてきました。PCはマイクロソフト、検索エンジンはGoogle、スマホはアップル、ソーシャル(SNS)はFacebook、そして現在のトレンドのクラウドはアマゾンとマイクロソフトというように、トレンドによってその次代のトップが入れ替わっています。

現在のITトレンドはクラウドであり、アマゾンとマイクロソフトのトップ２が市場を支配する構造は数年変わらないと思います。では、クラウドの次にITの勢力図を変えるトレンドは何でしょうか。私は、それがこの音声アシスタントだと思っています。

さらに言うならば、その音声アシスタントが全盛期を迎えるときに、トップに君臨するのは現時点でスマートスピーカー売上台数トップのアマゾンではなく、Googleだと思っています。

この記事では「なぜ、次のITトレンドが音声アシスタントなのか。」「なぜ、今市場No1のアマゾンではなく、googleが有利だと考えているか」をお話します。

なぜ次のトレンドが音声アシスタントなのか

なぜ音声アシスタントが流行るようになるかといえば、１つの目の理由はとってもシンプルで、音声でコンピュータに指示できたら、とても楽だからです。２つ目は音声アシスタントが今のEchoやSiriの「わかりません」連発の状態から進化を遂げつつあるからです。

まもなく完成をむかえる音声アシスタントの技術

人間に話しかけるように、コンピュータに指示を出す音声入力は1971年のアメリカの軍関係の技術開発・研究所DARPAで既に開発が進められていましたが、当時は技術的に非常に困難でした。

その音声入力の実現に必要な技術が、もうあと2-5年以内に完成しようとしています。

音声アシスタントは「人の声を聞きとる」「返答文を作る」「音声を発する」の3段階があります。このうち、「返答文を作る」と「音声を発する」はそれほど難しいことではありませんでした。製品の使い方を限定すれば、型を用意してあげれば「返答文を作る」ことは比較的容易にできますし、多少ぎこちなくても人間が頑張って聞き取ればいいので「音声を発する」ことは比較的昔から実現できていました。

問題は「人の声を聞き取る」ことでした。この4-5年で流行った人工知能（ディープラーニング）を用いることによって、2017年にGoogleがディクテーション正解率95%を達成を発表し、ついに音声アシスタントの発展の扉が開かれました。

AI研究で著名なもGoogle、バイドゥでAIを牽引したアンドリュー・ウー氏によると認識精度95%から99%に上がったときに、人々はフリックやタイピングから音声入力に一気にシフトチェンジするようになるゲーム・チェンジが起こるとしています。また、2018年8月の時点で調査会社のガートナーは音声アシスタントが主流の技術になるまで、あと2-5年だとしています。

コンピュータが人の声を認識できる精度が95%から99%に上がった時、全ての人が音声入力を常に使うようになるだろう。(中略) 精度99％という数字は「ゲームチェンジャー」だ。
(バイドゥ、チーフサイエンティストのアンドリュー氏)

音声アシスタントはより人間らしく

とはいえ、実際Amazon EchoやSiriなどの音声アシスタントを使ってみると「お役に立てそうにありません」「すみません、よくわかりません」などの冷めた返事がすぐに帰ってきて、なんだか思ったより使えないなと期待はずれな印象を持っている人も多いと思います。

ところが、この１年でだいぶ様子が変わってきました。まずは英語の言語だけではあるものの、数ある企業の中でGoogleだけが「使えないなぁ」という閉塞感を打ち破りはじめたのです。

アマゾンのアレクサや、IBMのwatsonの使われ方は、基本的に人間がPCやスマホに文字入力していたことを、音声入力できるようにしてくれる使い方が主流でした。例えば、「天気」とwebで検索する代わりに「天気を教えて」と話しかけるなどがありますが、別にそんなに使わないなと思う機能がほとんどだと思います。

ところが、最近のGoogleが発表した人工知能は、他社とアシスタントの使い方が違います。

ユーザの代わりに電話をかけるGoogle Duplex

2018年5月8日にGoogleが発表したGoogle Duplexと呼ばれる機能は、瞬く間に世界で注目を集めました。

ユーザがGoogleアシスタントに向かって、「レストランの予約をしたい」と声で伝えると、Googleアシスタントがユーザの代わりに予約してくれるのです。

私もこのニュース記事を読んだ時に「一体何がすごいのか」とピンと来きませんでしたが、丁寧に説明すると、”web予約ではなく電話予約しかできないような店に対しても、ユーザーに代わって人工知能が自動でレストランに電話をかけ店員と会話をし、ユーザの希望時間を伝えて、予約結果をユーザのスマホにお知らせ”する機能です。

英語しか紹介動画がないのですが、ユーザの女性が火曜日の夜に２名の予約をGoogle アシスタントに依頼する様子をご覧ください。動画開始30秒で、その依頼を受けてたGoogleアシスタントの人工知能が、男性店員と会話する様子が見れます。

https://youtu.be/-qCanuYrR0g

あまりにも自然で流暢な英語で、電話の冒頭でGoogleアシスタントだと名乗らなければ、人間と勘違いするほどのクオリティです。

コールスクリーン

次は、 Google コール・スクリーンと呼ばれる機能です。コール・スクリーンでは、ユーザが会議中などで出れないときに、かかって来た電話を人工知能が代わりに受け取り会話をし、誰からどのような用件なのかを聞き取って、文字で表示する機能です。

これ機能があれば、すぐにかけ直す大事な電話なのか、それともその必要もないセールスの電話なのか、知ることができるのです。

次のコントのようなデモ動画では、男性が電話を取る前に画面のメッセージを確認して、用件を確認しているのがわかります。（「王子みたいな男から電話がきた。僕をお金持ちにしてれるって」と言っています。明らかに怪しい電話なのに男性は引っかかって電話に出るのですが、女性は「それはスパムよ」とツッコんでいますね）

リアルタイム通訳

最後に2019年のCESで発表された通訳の例を見てみましょう。
Google アシスタントに内蔵されたこの新しい機能が人間と人間の間に入り、リアルタイムに言語を翻訳することができます。次の動画では、「OK, Google. German Interpreter（ドイツ語翻訳）」ということで、英語とドイツ語の即時翻訳を可能にしています。

Googleの人工知能が何が他社に比べて進んでいるか

Googleの音声アシスタントは他社の音声アシスタントに比べて、何か質が異なる印象をうけます。Googleの3つの例を見てきましたが、これらは今までの音声アシスタントと何が違ったでしょうか。明確に違うのは、3つとも人と人の会話の間にあるコミュニケーションで発生する困ったことを、音声アシスタントが入り込んで解決する形になっています。

ここでのコミュニケーション上の困った事とは、レストラン予約では「ユーザが自分のレストランの電話を調べてわざわざ電話する手間」、コール・スクリーンでは「出たくない電話に出てしまう手間（もしくは、大事な電話なのに、用件を伝えられないこと聞けない事）」、そして、リアルタイム翻訳は「言語の壁」です。これらの解決してくれるから、こそGoogle Assistantはかゆいところに手が届くな！と感じるのです。これは、需要もない面白くもない「天気を教えて」の機能とは訳が違います。今まで、人との会話で感じていたモヤモヤをきれいに晴らしてくれる新しいユーザ体験（UX）を提供することになります。

最近の企業がなぜUXを大事にしているかは、こちらの記事で説明していますので、合わせてご覧ください。

新しいユーザ体験UXとは何か。企業と株主がUXを追求すべき理由。

ここまでの例で、イマイチ使えなかった音声アシスタントが変わりつつあるのがわかったと思います。

なぜ Google が有利なのか

さて、現在は音声アシスタントはアマゾンのechoが市場シェアトップを走っていますが、私はそれでもGoogleの音声アシスタントが、この分野でトップに躍り出ると考えています。

音声アシスタント技術を飛躍的に向上させるために、人工知能（ディープラーニング）が大きな力になっていることは先程お話しました。この人工知能を作るのに「AI専門家（ヒト）」「人工知能の学習に必要な大量の文章データと音声データ（モノ）」「多額の投資資金（カネ）」がGoogleにはすべて揃っているからです。

GoogleはAI関連論文の引用数5,000回以上を誇る著名AI研究者数83名で世界第一位。
人工知能を学習させるための文章データは、世界第一位の検索事業で大量保有。
Googleの2017年の研究開発費は約1.5兆円は世界第二位。

アマゾンがGoogleに勝っているのは、研究費開発費（約1.7兆円で世界第一位）ですが、研究開発費に大きな違いがない点と、重要な要素であるAI技術者とデータを持っている面を考慮すると、Googleが有利です。

なお、アマゾンも手をこまねいているわけではありません。打ち手として自社だけでなく他社が自由にアレクサを使ったサービスを開発できるように機能を開放しつつ、次々に提携も勧めてアレクサ陣営を広げています。

先にアレクサを投入して市場を開拓したアマゾンが、クラウド同様に先行逃げ切りできるのか、それともGoogleが巻き返すか。白熱した戦いが繰り広げられそうです。

本ブログからのお願い

この記事は、読者が自由に記事の金額が決められるPay What You Want方式をとっています。

「役にたった」「面白かった」など、何かしら価値を感じた場合は、YUTA'S INVESTMENT TICKETをクリックして、価値に見合った金額をお支払い下さい。

価値がないと思った場合には、お支払いは不要です。同じ記事を読み返して、新しい気づきがあった場合には、１人で何回クリックしても問題ありません。

[更新版]次のトレンドは音声アシスタント、その頂点に立つのはGoogle。