今年後半、必ず注目される製品群なのが「スマートスピーカー」だ。Googleが年内に、LINEが秋に発売を予定しており、他にも大手が国内に製品を出すのでは……と言われている。
こうした製品の中核となっているのが「音声認識技術」。スマートフォンでも使われ、いまや当たり前のものになったが、その進化と価値の変化が様々な機器やサービスに影響し、ここから大きな変化の元になろうとしている。
今の音声認識がどこまで可能になっていて、これからなにが起きるのか。そして、どこに限界があるのかを解説しておきたい。
「音楽」こそスマートスピーカーの軸
LINE「WAVE」 筆者の手元に、秋にLINEが一般発売するスマートスピーカー「WAVE」の「先行版」がある。WAVEのようなスマートスピーカーでは、音声を使って命令し、操作ができる。
例えば、「今日の天気は」と聞けば天気を教えてくれるし、「音楽をかけて」といえば音楽を再生してくれる。
ワイヤレスのスピーカーはもはや珍しくないが、それらは結局、スマホかPCの画面を見ながら操作しなくてはならない。たいした手間ではない、日常的なことではあるのだが、冷静に考えると奇妙なことでもある。リラックスしている時などに、画面を見ずに音楽を選べたら便利なはず。BGMのようにかける音楽を、もっと気軽に選ぶ方法はあっていいはずだ。
そこで出てくるのが「音声」である。声で音楽を聴く、というと、「誰々というアーティストの何々という曲をかけて」と命令することを思い出しがちだ。実際、WAVEではそういうこともできる。だが、そういう使い方はそんなに現実的ではないし、便利でもない。
「さっきの続きをかけて」
「今週のヒットチャートは」
「リフレッシュできる曲を」
「○○というドラマの主題歌をかけて」
こんな風に質問できるとしたらどうだろう?
現状のWAVEは、これらの命令をすべて判断できるわけではない。だが、スマホで同じLINEアカウントを使っており、同じ音楽サービスである「LINE MUSIC」を使っていると、スマホで聞いた曲を呼び出したり、曲の嗜好を理解した上で提案したりする。
逆に、今流れている曲のタイトルを訊ねることもできる。いかに音声を解釈し、「スマホやPCをつかっていない時でも快適に音楽が聴けるか」が、スマートスピーカーの価値のひとつである。
音楽の選択を「ネットワークサービス側に任せる」形にした上で、どんどん音楽が流れてくるような使い方をすることが、スマートスピーカーには向いている。それはすなわち、「自分が持っている曲を選んで聴く」スタイルには向かない、ということでもある。
そのため、セットになるのは聴き放題の音楽サービスである「ストリーミング・ミュージック」の活用が必須になる。
WAVEの場合には、LINEが運営する「LINE MUSIC」を使っており、「先行版」にも、6ヶ月分の無料クーポンがついてきた。LINEとしても、WAVEでAI・音声認識の可能性を拡大すると同時に、LINE MUSICの利用を広げる起爆剤と考えている。
音楽サービスによって使えるスピーカーは決まる
Google「Google Home」 実際問題、アメリカでのスマートスピーカーの使い方を見ても、「自宅でBGMを聴く」ために使う……という例が非常に多い。
スマートスピーカーを選ぶ上でも、音楽サービスとの関係が非常に重要である。なぜなら現状、スマートスピーカーの上では、特定の音楽サービスしか使えないからだ。
Googleの場合には「Google Play Music」が中心だし、Amazonなら「Amazon Prime Music」を前提にしている。LINEも「後日、他社サービスに門戸を開く可能性は高い」(LINE 取締役 CSMOの舛田淳氏)としつつも、LINE MUSICだけを当面対象とする。アップルも、Apple Musicが対象だ。
すなわち、使う音楽サービスでスピーカーがある程度決まってしまうのである。
Amazon「Amazon Tap」 ただし、もちろん例外もある。それがSpotifyだ。海外では圧倒的なシェアを誇るがゆえに、Amazon、GoogleともにSpotifyには対応している。おそらく、日本でも対応するだろう。現状、日本で使えるサービスの中では、Spotifyだけが複数のスマートスピーカーに対応している……と考えていい。
サービスを自由に選べないのは、音声応答と連携させるための技術的な要件に加え、自社サービスに顧客を誘導したい……という企業側の戦略もある。特に、スマートスピーカーを低価格に販売するAmazon、ハードと自社サービスの連携を強く指向するアップルは、そうした傾向が強い。
これから各社の製品が日本でも出てくることになるだろうが、この点は意識しておく必要がある。
「認識率」「コマンドの量」よりも「あやふやさの許容」が重要
WAVEの「先行版」に話を戻す。
使って見ると現状、海外のライバルに比べ、反応する言葉の量が少なかったり、音楽が鳴っている中では大きめに話しかけないと聞き取ってくれない印象はある。だが、それも「開発初期のこと」と前向きに考えたい。
先行版は、機能を音楽再生などごく一部に限定した上で販売するモデルで、言葉を選ばずに言えば「購入者をテスターとして開発を行う」バージョンである。WAVEは音楽のためだけのデバイスではなく、正式版ではもっと広いことができるようになる予定だ。
製品版では、先行版で集められたデータを元に改善がなされ、より多くの機能が搭載される。なので、この段階での機能を云々しても、あまり意味はなく、重要なのはこの「先」にあるものだ。
実際問題、スマートスピーカーは「将来の可能性」で評価されている部分が多分にある。
WAVEにしろ海外のスマートスピーカーにしろ、できることはいわば「声で使うリモコン」のようなものだ。音楽を聞いたり、ニュースや天気予報、予定などを確認するくらいなら、スマホの画面をタッチすればできることばかりで、そこにはさほど驚きはない。
スマートスピーカーに求められるのは、「音声でいかにきちんと自然に反応してくれるのか」ということだ。そうなるとおそらく、「どんなコマンドに反応するのか」というリストが欲しくなってくるし、「対応しているコマンドの数」で比較したくなってくるのだが、重要なのはそこではない。
音声認識というと、「いかに機械が音声を認識してくれるかが重要」と思いがちだ。確かに、機械が音声を認識する精度は100%ではない。だが、「音から言葉を知る」ことは、もはや技術的に大きなハードルではなくなっている。
8月24日、マイクロソフトは自社の音声認識技術が「人間と同等の正確性を達成した」と発表した。研究に広く使われている、業界では標準的な「音声の聴き取り誤認識率」を測るテストにおいて、マイクロソフトの音声認識技術が達成した値は「5.1%」。
これは、人間が「聞き間違いがないように努力しながら聞き取った」場合の誤認識率とまったく同じ値だ。すなわち、機械に音声を聞かせて文字に変換させた場合、すでに人間と機械の能力はほとんど変わらないのである。
この発表は英語によるもので、日本語の認識率はそこまでの精度を達成していない。だが、言語の違いによる認識率の差は、技術的にはそこまで大きくない、と複数の開発者が証言している。
WAVEについても、現状ですら、こちらが言ったことを誤認識することは少ない。英語では、この1、2年で認識率が劇的に向上した。同じように、日本語も短期間で認識率は上がるだろう。
ただし、「言葉を正しい文字に変換できるようになった」ことと、「それを認識して違和感のない対応ができる」ということは、また別の問題だ。
各社はそのための開発をしている最中で、短期的には、どのメーカーのスマートスピーカーも「人がいっしょにいるような満足感」を与えてはくれない。どこが最初に「あやふやな指示でも正しく動くスマートスピーカーを作るか」が評価のポイントになる。
毎回まったく同じ命令を発しなくても、なんとなく同じ内容であれば理解してくれるようになってようやく、スマートスピーカーは便利なものになる。そしてその次に、「会話して面白いスマートスピーカー」という要素がやってくるだろう。
U-NOTEをフォローしておすすめ記事を購読しよう