あてもなく

誰かへの手紙

LINE Clova Friendsの音声認識についての考察

f:id:atemonaku:20180527144345j:plain

スマートスピーカー「Clova Friends」を使い始めて3日目です。

使ってみてわかったことや感想を書いてみます。

声を聞き取るセンサーと誤作動について

Clovaは、「クローバ」と声をかけることで命令を聞くモードになります。

「クローバ」

 ーーポン♪(ランプが緑色に光る)

 

その状態で、約7秒以内に

「LINE送って」「LINE読んで」「今日の天気は?」などと話しかけると、命令内容に応じて話して答えを返してくれます。

また、「ただいま」と言えば「おかえりなさい」「疲れた」といえば「お疲れ様でした」など、まあ簡単な返答を返してくれます。

よく聞き取れなかったときには、きちんと「わかりません」などと聞き返します。しかし、たまに「そうなんですね」などと明らかにテキトーな生返事を返したりすることもあり、賢いんだか何だかって思うこともあります。

 

Clovaをキッチンに置いて、部屋続きのリビングでテレビを見ていると、時々Clovaは誤反応をしてしまいます。キッチンの方からポン♪と音が聞こえてきて、目をやると緑色に光っているのがわかります。

そのまま命令を聞くモードが時間切れになってしまうこともあれば、さらにテレビの声を拾って生真面目に「聞き取れませんでした」などと対応していることもあるし、何か勝手に解釈して「そうなんですか」とテキトーに相づちを打ってみせたりすることも。ちょっと気になってうっとうしいです。

一応「クローバ」と言われた時しか反応しないはずなのですが、テレビから聞こえる声の中に「クローバ」という言葉そのものが入っていなくても、ちょっと近い発音を拾って反応してしまうことがあるみたいです。

おなじく、電話などの話し声も拾って反応してしまうこともあります。

意外に、家族同士の会話は拾いません。

面と向かって会話するときには、人はあまり明瞭な発音でしゃべっていないのかもしれませんね。言葉以外にもたくさんの情報伝達手段があるので、無意識に音声の発音をサボっているのではないかと思いました。

その点、テレビから流れるアナウンスやナレーションはプロですから声だけで伝えようという意思が明確ですし、電話の時は素人でも普段よりは伝わりやすい発音を心がけて話します。

Clovaのセンサーは「声のみで相手に伝えよう」という意思が乗った声とそうでない声を聞き分けることができるのかもしれません。

「声に乗った意思の重さ」みたいなものは、数値で測れるものなんでしょうか。なかなか興味深いです。

 

さて、誤作動対策にとしては、やはり一旦Clovaをスリープにするというのが一番確実です。

我が家では、Clovaは外出中の家族とわたしが連絡を取るための道具という位置づけなので、家族が全員帰宅してしまえばもう用はありません。テレビを見るのは大抵家族が全員そろっている時なので、Clovaはスリープ状態にしておけばいいのです。

電話の時も、その間だけスリープにしてしまうか、Clovaがない部屋に移動して電話するか。

ちなみに、マイクだけオフにすることもできます。しかし、マイクだけオフにした時にはお知らせランプが常時真っ赤に光るので視覚的にうるさい感じがします。

状況に応じて使い分ける必要がありそうです。

LINE送信の音声入力と変換の精度について

なかなか上手に言葉を聞き取って文字に起こしてくれるのですごいなと思います。漢字変換もかなり上手で思ったよりミスも少ないです。

ただ、自分の音声を聞き取って起こされた文章は、Clovaが復唱してくれる音声でしか確認することができません。文章を目で見て確認することはできないので、思ってもみない文章が相手に届いてしまう可能性は常に覚悟しておかなければなりません。

また、やりとりする相手の人にも、Clovaから送られたLINEの文章の表現についてはあまり多くを期待しないようあらかじめ理解してもらう必要があります。

 

普段お互いスマホの画面を通じてLINEのやりとりをする時には、ちょっとおどけた表記をしたり、適切な絵文字・スタンプを入れたりして文字に暖かみをもたせるように工夫していたりします。

「文字だけのやりとりは、電話や直接の会話よりも情報量が少なくて誤解を生みやすいものだから、言葉遣いや表現には気を遣わなければならない」というのは最近は学校でも習うぐらいにデジタル時代のマナーだったりします。

ところが、Clovaでは音声から書き起こす際に、実際のニュアンスよりかなり表現を端折ってしまうので、普段見かけないぐらいずいぶんな「塩対応」の文章に仕上げられてしまうのです。

どういうことかというと、

「りょーかいでーす」と返事をしたつもりでも、Clovaの手にかかると「了解です」と送信されてしまうのです。

普段わたしがLINEで使っている言葉遣いからするとちょっと冷たい印象になります。まあ、些細なことなんですが。

だから、Clovaでやりとりするのは家族などClovaの特性を説明して理解を得られる気の置けない相手に限定したほうが無難かなという気がしました。

 

ちなみに、文末に「w」と草を生やすことはできます。

「ダブリュー」と発音すれば良いのです。

「しらなかっただぶりゅー」と発音すれば、「知らなかったw」と相手に送られます。

でも、それを目で見て確認することはできませんので、ちょっぴり不安。

意図した通りに送られるかどうかは、出たとこ勝負なのです。

LINEの読み上げの精度について

今度は受信したLINEの読み上げの話です。読み上げもかなり上手だと思います。

何言ってるかわからん!ってことはほとんどありません。漢字も一般的な熟語ならほぼ問題ないです。

 

地味にすごいなと思うのは、普段のLINEのやりとりのように見た目に柔らかい「りょーかいでーす」みたいな書き方の文が届いても、Clovaは文字をそのまま忠実に発音しないで「了解です」と簡潔にわかりやすいフレーズに読み替えてしまうことです。

聞き取り→書き起こしの時と逆パターンなのですが、これは、耳で聞く側にとってはとてもわかりやすくてありがたい変換です。もちろん、辞書で判断できる限界というのはあるんでしょうけど。

Clovaにおどけた調子で読んでもらおうとして「りょおかいでえす」と送っても、Clovaは「いで」とおかしな発音をしてしまって意味が伝わらなくなるのでやめた方が良いです。

あと、人名や駅名などのマイナーな固有名詞でClovaの辞書に入っていないものはかなり勝手な読み方をするので想像力が必要です。

相手が文末に「w」と草を生やしてきた場合は生真面目に「ダブリュー」と発音してくれます。あんまり盛大に「wwwww」などと草を生やされてしまうと「ダブリューダブリューダブリューダブリューダブリュー」と変な抑揚をつけて全文字きっちり読み上げられるので、大変うるさいですw

ついでに、英単語についても軽く試してみました。

Englishとかhomeなんかはカタカナ英語の発音で読み上げてくれました。カタカナ英語として一般的に使われていない英単語になるとローマ字読みします。

という意味で、Clovaはかなり…親しみやすいレベルの語学力だと言えそうです。

Siriさんに頼むと、英文はネイティブ風の人が出てきてペラペラと読んでくれますが、Clovaの中には英語担当はいないようです。

 

そんな具合ですので、Clovaを使っている相手にLINEを送信する場合には、できるだけあっさりした平易な日本語を使って送るのが良いと思います。

固有名詞はひらがなで表記するなどした方がいいかも。ただ、辞書にない単語を発音するときのイントネーションがデタラメすぎるので、耳で聞いて伝わるかどうかは出たとこ勝負です。

一応、スマホに入っているClovaアプリに会話の履歴が残っているので、後からアプリを開いて本当はどんな文が届いていたのか文字で確認することはできます。

でも、いちいち履歴を見なきゃいけないようではハンズフリーの意味がありませんから、やはりここは声だけで簡潔に伝わる文章で送ってもらいたいところです。

まとめ 

受信側・送信側双方で独特の動きをするので、これまでの文字でのLINEのやりとりとは全く違う考え方で臨む必要があると感じました。

生身の人間同士のやりとりであっても、機械を介することで文字通りそこまで機械的なやりとりになってしまうというのは大変興味深いです。あくまで、「相手は機械だ」ということを忘れないで多くを求めないのが良いと思いました。

 

Clovaではあまり込み入った会話をするのには向きません。怒っているのかからかっているのか。心配しているのかスネているのか。Clovaを介するとすべてが同じ色になってしまいます。

まあ、通常の文字のやりとりでもこの辺は難しいですけどねえ。

 

せっかく手に入れた文明の利器なので、円満なコミュニケーションの架け橋として、上手に使っていきたいと思います。